Loading... 点击这里开始考试:<button class=" btn m-b-xs btn-info " onclick="window.open('http://172.16.54.123:10001','_blank')">点击开始</button> # 第一章 信息资源概述 知识点1:信息素质 信息素质(Information Literacy)也称信息素养, 是人们知道什么时候需要信息并找到、评价及有效地 利用所需信息的能力。 信息素质的培养包括信息意识、信息能力、信息道德 三个方面。 信息意识:人脑对信息在社会发展中的性质、地位、 价值和功能的认识和反应,它决定人捕捉、判断和利 用信息的自觉程度。 信息能力:人们对信息获取、筛选、分析、加工、利 用、创造及传递的能力。 信息道德:对待信息的态度、信念、行为义务、纪律 和良心等。 知识点2:信息的属性和类型 信息的属性:①客观性和普遍性;②多样性和综合性; ③流动性和传递性; ④相对性与有效性; ⑤积累性 与价值型;⑥中介性与共享性。 信息的类型划分: ![image.png](https://www.iminbk.com/usr/uploads/2023/06/2714595817.png) 知识点3:知识的属性 ①意识性;②信息性; ③实践性; ④规律性; ⑤继 承性;⑥渗透性。 知识点4:文献 文献构成四要素:①文献信息;②文献载体; ③符 号系统; ④记录方式; 文献的属性:①知识信息性;②客观物质性; ③人 工记录性; ④动态发展性; 知识点5:信息资源 数字信息资源:一切以数字形式生产和发行的信息资 源,是数字化了的信息资源。 知识点6:信息资源的构成 按照信息的出版形式换分为十种类型: ![image.png](https://www.iminbk.com/usr/uploads/2023/06/798627547.png) 理解:ISBN ISSN概念。 按照信息加工程度划分: ①一次文献;②二次文献; ③三次文献 一次文献:以作者本人的生产与科研工作成果为依据 而撰写的、并已公开发行进入社会流通使用的原始文 献。图书、期刊论文、科技报告、会议论文、专利说 明书、技术标准及学位论文等。 特点:具有学术上的新观点、新发明、新技术、新成 果,是创造性劳动的结晶,有直接参考、借鉴和使用 价值,是人们检索和利用的主要目标。 二次文献:将大量的、分散的、无序的一次文献收集 起来,按照一定的方法进行整理、浓缩和加工,使之 系统化形成的检索工具。目 录、 题 录、 文 摘、 索 引等。 特点:仅对一次文献进行系统化的压缩,无新的知识 产生,具有汇集性、检索性。二次文献的重要性在于 它提供了检索一次文献的线索。 三次文献:在大量利用一、二次文献的基础上,对有 关知识进行综合、分析、提炼、重组而再生的信息资 源。如词典、手册、百科全书、年鉴、各种教科书以 及综述等。 特点:综合性高、针对性强、系统性好、知识信息面 广的特点。又称为参考性文献,有较高的使用价值, 可直接参考、借鉴和利用。 按信息保密程度: ①公开信息;②半公开信息; ③ 非公开信息; 按信息应用范围: ①科技信息;②经济信息; ③管 理信息;④生活信息。 按信息传输形式: ①网络信息;②非网络信息; 按信息表现形式: ①文献信息;②非文献信息; 第二章 信息检索概 知识点1:文献的内、外部特征 文献外部特征有:题名(包括篇名、书名、 刊号、 文件名等);责任者(包括著者、 编者、 译者、 校注者等);责任者所属机构;出版情况(出版者、 出版时间、 版次、 载体类型等);文献的编号(包 括专利号、 标准号、 档案号、 政府文件的文号、 书号、 刊号等) 文献的内容特征有:文献所属的学科范畴(也就是分 类号);文献的主题;专有名词;文献内容(字词句、 分子式、 公式) 检索系统中检索字段划分: 外部特征:作者、机构、篇名等。 内容特征:摘要、分类号、关键词、全文。 知识点2:信息检索系统及构成 按检索的工具和方式划分: ![image.png](https://www.iminbk.com/usr/uploads/2023/06/3303042459.png) 按解析信息的内容程度划分: ![image.png](https://www.iminbk.com/usr/uploads/2023/06/1027281733.png) 知识点3:检索系统的作用 基本职能:存储和检索。 标识:指表征文献外表或内容特征的词语或符号。 ![image.png](https://www.iminbk.com/usr/uploads/2023/06/642698398.png) 知识点4:数据库 数据库(Database)是至少由一种文档组成的,能够 满足某种特定目的或特定数据处理系统需要的数据集 合。 ![image.png](https://www.iminbk.com/usr/uploads/2023/06/2932002649.png) ![image.png](https://www.iminbk.com/usr/uploads/2023/06/1004953644.png) 知识点5:检索语言 检索语言是一门人工语言。 检索语言由词汇和语法组成。 ![image.png](https://www.iminbk.com/usr/uploads/2023/06/3121088082.png) 其中 标题词语言、单元词语言、叙词语言是规范化 的语言,关键词语言是非规范化的语言。叙词语言是 后组式语言,标题词语言是先组式。 # 第三章 信息检索技术与 知识点1:布尔逻辑检索 布尔逻辑算符有:与(and/\*)、或(or/+)、非 (not/-) ![image.png](https://www.iminbk.com/usr/uploads/2023/06/3777672134.png) 其中:与和非 可以缩小检索范围,提高查准率。 或 扩大检索范围,提高查全率。 知识点2:截词检索 主要是利用检索词的词干或不完整的词型进行检索,其方法 是在词干中可能变化的字符位处加上“?” 、 “\*”或“$” 截词符号。 作用:减少检索词的输入量,简化检索步骤,扩大检索范围 ,提高查全率。 ![image.png](https://www.iminbk.com/usr/uploads/2023/06/399608226.png) 知识点3:位置检索 当需要确定检索词在同句、同段或者间隔多少字符条件时候 使用位置检索。 知识点4:检索效果评价 评价指标:①查全率②查准率③检索时间④检索成本 查全率:对所需信息被检出程度的量度。 查准率:衡量检索系统拒绝非相关信息的能力。 理解提高查全率和查准率的方法。教材29页。 # 第四章 常用中文数据资源 本章需要掌握四个常用数据资源平台的特点和使用方 法,分别为:知网CNKI、维普期刊网、万方、读秀学 术搜索系统。 检索模式: 知网:初级检索、高级检索、专业检索 万方:初级检索、高级检索、专业检索 维普:初级检索、高级检索、专业检索 读秀:初级检索、高级检索、专业检索 数据库类型: 知网:期刊论文、学位论文、会议论文、专利等等。 万方:期刊论文、学位论文、会议论文、专利等等。 维普: 读秀:期刊论文、学位论文、会议论文、专利等等。 注意:维普的特殊性。 文献下载方式: 知网:全文下载 万方:全文下载 维普: 全文下载 读秀:全文下载与文献传递。 注意:知网和万方各方面都很类似;维普长处在于期刊;读 秀长处在于中文图书搜索及全文传递(实时传递)。 知识点:检索表达式构建 例:作者=张三 和 主题=李四 和 年=2018 # 第六章 特种文献检 知识点1:专利 分类:①发明专利②实用新型专利③外观设计专利。 一项发明创造要想获得专利权,必须具备:①新颖性 ②创造性③实用性。 特点: ①独占性②区域性③时间性④实施性。 知道IPC(International Patent Classification) 代表国际专利分类表。 知识点2:标准文献 知道CCS代表中国标准文献分类法( Chinese Classification for Standards )。 强制性中国国家标准的代号是“GB” 推荐性中国国家标准的代号是“GB/T” 特点: ①标准文献描述详尽、可靠,具有法律效力。 ②标准文献单独出版,自成体系。 ③标准文献时效性强。 ④标准文献交叉重复,相互引用。 ⑤更新迅速,修订频繁。 ⑥制定、审批有一定程序。 注意:万方、知网、读秀都可以检索标准文献,但维 普没有。 知识点3:科技报告 美国政府四大报告:PB报告、AD报告、NASA报告、 DOE报告。 知识点4:会议文献的主要特点 学位论文的主要特点 # 第七章 信息资源的利用 知识点1:科技查新 科技查新有几种类型?分别是什么?科技查新是否需 要资质?查新委托人有哪些? 有三种类型,分别为科研立项查新、科技成果查新、 专利申报查新;需要资质;查新委托人包括自然人、 法人和其他组织。 知识点2:科技综述和科技述评区别 区别前者只是客观总结描述,没有评论;后者在描述 总结的基础上,还加上作者的评论观点。 # 教材原文第一章 第一章 信息资源概述 第一节 信息素质教育 现代信息技术迅猛发展,信息已成为人类社会发展的一种驱动力,人们越来 越重视对信息资源的有效开发与利用。信息是一种极其重要的社会财富,它同物 质、能量构成人类社会的三大重要战略资源。物质提供材料,能量提供动力,信 息提供知识与智慧。因此,信息已成为促进科技、社会、经济发展的新型资源, 它不仅有助于人们不断地揭示客观世界,深化人们对客观世界的科学认识,消除 人们在认识上的某种不定性,而且还源源不断地向人类提供生产知识的原料。 信息素质是信息化社会对人们提出的一种高要求。随着社会信息化进程的加 快,各种形式的信息接踵而至。因此,掌握究竟什么样的信息是我们需要的、什 么时候需要、如何高效地获取以及如何鉴别信息价值等基本技能和方法,成为继 “科学素质”、“人文素质”之后大学生基本素质的又一重要组成部分,即“信 息素质”。 一、信息素质及其内涵 信息素质(Information Literacy,也称信息素养)是人们知道什么时候需 要信息并找到、评价及有效地利用所需信息的能力。信息素质能力较强的人知道 如何学习,因为他们了解知识是怎样组织的,知道如何找到信息。他们能够终生 学习,因为他们能够发现所有与自己职责相关的决策所需要的信息。 信息素质的内涵具体包括能意识到准确和完整的信息,这是决策的基础;了 解信息需求及问题所在;制定信息检索策略;掌握信息检索技术;评价信息;根 据实际用途组织信息;将新信息融会到现有知识结构中。 21 世纪是网络信息和知识大发展的世纪。在信息化社会中,无论是个人还 是企业,信息素质是谋生存、求发展的重要因素。对于现代研究人才来讲,只有 具备信息素质,才能懂得如何在信息化社会中去获取、加工、存储、检索和利用 信息,使其拥有不断学习和持续发展的能力。 二、信息素质培养 信息素质培养包括信息意识、信息能力和信息道德三方面内容。 (1)信息意识是指人脑对信息在社会发展中的性质、地位、价值和功能的 认识和反应。它决定人捕捉、判断和利用信息的自觉程度。信息意识培养是一个 潜移默化的过程,营造良好的信息环境非常重要,同时,个人的知识结构、观察 和分析事物的能力及事业心等都是影响信息意识的重要因素。面对信息时代的技 术进步和知识更新的加速,要有再学习和终身学习的意识;面对科技、经济的快 速发展和激烈竞争,要有信息第一和信息抢先意识;面对世界信息化进程的加速, 要有信息忧患意识。 (2)信息能力是指人们对信息获取、筛选、分析、加工、利用、创造及传 递的能力。获取信息的能力,实际上是指主体根据自己特定的目的和需求,从外 界信息载体中提取自己所需要的有用信息的能力,是基于现代信息技术环境的学 习和工作能力。加工处理信息的能力是指主体将获得的信息,按照特定的目的要 求,进行分类排序、查考鉴别、筛选剔除、改编重组等加工处理,使其序化和优 化,提高其使用价值的能力。利用信息的能力,即主体利用已掌握的信息特别是 决策信息解决实际问题的能力。它们具体包括高层次的信息分析能力、信息综合 能力、信息推导能力、信息决策能力、信息施效能力等。创造新信息的能力是指 主体在对掌握的信息作深层次加工处理的基础上,进行信息创新,从而产生新信 息的能力。 (3)信息道德是指对待信息的态度、信念、行为义务、纪律和良心等。以 网络为例,当我们赞美和享用互联网的同时,也在受到许多来自网络的不道德行 为的威胁,如电脑病毒、垃圾邮件、黑客入侵、网络色情、版权问题等。它需要 人们通过学习信息社会的法律、法规,自觉尊重他人的知识产权,合理使用信息, 避免信息活动中不利于社会的犯罪行为的产生。目前,世界各国已经制定或正在 制定法律来管理网络,只有通过法律规范的有力保障,才能保证信息资源的有效 建设。 本书旨在针对上述需求,主要通过对学术资源的内容和使用的介绍,提高用 户在实际应用中掌握信息、熟悉信息、运用信息的信息素质,解决用户在网络环 境下查找学术科研信息所面临的一系列问题,培养用户对信息资源的选择、检索、 组织、利用和保存的能力,重点在信息意识、信息知识、信息能力、信息道德等 方面取得突破,包括: (1)阐述信息资源的结构与体系; (2)介绍各类学术资源的定义、特点及其应用; (3)介绍主要数字学术资源——数据库、电子期刊、电子图书、多媒体资 源等的学科范围、发展概况、特点及其具体检索方法; (4)通过各类实例,说明网络学术信息资源的综合应用与组织管理。 第二节 信息资源的概念 一、信息 1.信息的概念 信息作为一个科学术语最早出现于通信领域,20 世纪中叶后被引入哲学、 信息论、系统论、控制论、情报学、经济学、管理学、计算机等领域。不同的学 科的学者、专家及有关领域对信息的定义都是从信息的受体、内涵和控制论等角 度对信息的属性所做的描述。因此,信息是事物属性的再现。信息不是事物本身, 而是由事物发出的、体现它存在和运动状态的信号、消息、指令和数据等所包含 的内容。广义的信息可定义为“信息是事物属性的表征”;而狭义的信息则可定 义为“信息是指系统传输和处理的对象”。 2.信息的属性 1)客观性与普遍性 世界上一切事物都是在运动中,都有一定的运动状态和状态方式的改变,因 而一切事物随时都在产生信息,既信息的产生源于事物,是客观事物普遍性的表 征,它可以被感知和共享、被处理和存储、被传递和利用。 2)多样性与综合性 信息在不同的领域具有多种不同的特性或表现形式,如客观事物中的各种自 然属性;人工设备的技术特征;人类社会的各种社会特征;人脑中反映客观事物 认识的思想、知识;人类交流信息过程中的声音、文字、图像及用各种编码形式 记录下来的数据、新闻、情报和消息等。各种形式的信息又常常以综合的方式表 现事物的特征。所谓“多媒体”,正是信息多样性和综合性的集中表现。 3)流动性与传递性 信息在事物之间的相互联系必定在信息的流动中发生。信息的传递性表现在 人与人之间的消息交换,人与自动机、自动机与自动机之间的信息交换,动物界 和植物界的信号交换,同时,人类进化过程中的细胞、遗传也被看做是信息的传 递与交换。 4)相对性与有效性 从信息作为事物相互联系的反映角度看,信息源不确定的程度或者信息源接 受信息量的多少,均与信宿的状态有关。这一特征在人作为信宿接受信息的过程 中表现得尤为明显。同一信息对具有不同认知水平的人所产生的作用和有效性也 不同。 5)积累性与价值性 信息通过人脑思维或人工技术设备的综合、加工和处理,不断积累丰富,提 高其质量和利用价值。信息的质量和价值,实际上是对客观事物属性反映的深度 和真实程度的认识。虽然信息是人类的一种重要资源,但信息只有被利用才会产 生价值,否则,其价值或随时间的流逝而减少,或成为“信息垃圾”。 6)中介性与共享性 信息源于事物,但不是事物本身,是人们用来认识事物的媒介。信息能够共 享是区别信息不同于物质和能量的最主要特征,即同一内容的信息在同一时间、 同一地域可以被两个以上的用户分享,其分享的信息量不会因分享用户的多少而 受影响,原有的信息量也不会因之而损失或减少。 3.信息的类型 在人类社会和自然界里,不同领域对信息有不同的定义范围。根据不同的定 义范围,从不同的角度来划分信息的种类。 (1)按信息产生的客体性质来划分,可分为自然信息与社会信息。 (2)按信息的社会属性划分,可分为政治信息、军事信息、经济信息、科 技信息、管理信息和生活信息等。 (3)按信息的保密程度划分,可分为公开信息、半公开信息和非公开信息。 (4)按信息的加工程度划分,可分为一次信息、二次信息、三次信息。 (5)按价值观念划分,可分为有价值信息和无价值信息。 (6)按运动状态划分,可分为动态信息和静态信息。 (7)按信息所依附的载体形式划分,可分为文献信息、口头信息、电子信 息等。 二、知识 1.知识的概念 在《信息与文献术语》(GB/T 4894-2009)中定义知识(Knowledge) 为:基于推理并经过证实的认识。知识是人们在改造世界的实践中所获得的认识 和经验的总和。知识的本质则是认知活动中的主体与客体的动态关系。知识是人 类在认识和改造世界的社会实践中获得的对事物本质认识的成果和结晶,是人的 主观世界对于客观世界的概况和如实反映,是人类通过信息对自然界、人类社会 以及思维方式与运动规律的认识,并通过人的大脑进行思维重新整合使信息系统 化而构成的。因此,人类不仅要通过信息感知世界、认识世界和改造世界,而且 还要根据所获得的信息组成知识。由此可见,知识是信息的一部分。 2.知识的属性 1)意识性 知识是一种观念形态的东西,只有人的大脑才能产生它、认识它、利用它, 知识通常以概念、判断、推理、假说和预见等思维方式和范畴体系表现自身的存 在。2)信息性 信息是产生知识的原料。知识是经人类认识、理解并经思维重新整合后的系 统化信息,是信息中的一部分。 3)实践性 社会实践是一切知识产生的基础,也是检验知识的标准,科学知识对实践有 重大的指导作用。 4)规律性 人们对实践的认识,是一个无限的过程,人们在这种无限的过程中所获得的 知识从一定的层面上揭示了事物及其运动过程的规律性。 5)继承性 每一次新知识的产生,既是原有知识的继承利用、深化与发展,又是更新的 知识产生的基础与前提。并且知识被记录或物化为劳动产品后,可以世代相传利 用。6)渗透性 随着人类认识世界的不断深化,各种门类的知识可以互相渗透,形成了许多 新的知识门类,构成了科学知识的网状结构体系。 国际经济合作与发展组织(OCED)出版的《以知识为基础的经济》报告中 系统地提出人类现有的知识可分为四大类,即: (1)知道是什么的知识(Know-what),是指关于事实方面的知识,这类 知识通常被近似地称为信息。 (2)知道为什么的知识(Know-why),是指自然原理和规律方面的科学 理论,这类知识的生产往往是由专门的研究机构形成的。 (3)知道怎么做的知识(Know-how),是指技艺或能力方面的知识,被 称为技术诀窍或专有技术。许多企业的技术情报和商业秘密被归入这一类信息。 (4)知道是谁的知识(Know-who),是指谁知道和谁知道如何做某些事 的信息,这在社会高度分工的经济时代中显得尤为重要,这类知识比任何其他种 类的知识都更隐藏于企业内部。 三、文献 在国际标准《文献情报术语》(ISO 5127-2001)中对文献是这样定义的, 即“为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视 频等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录 到唱片上,或存储在磁盘上。这种附着在各种载体上的记录统称为文献”。 在《信息与文献术语》(GB/T 4894-2009)中对文献是这样定义的,即“文 献(Document),在文献工作过程中作为一个单位的记录信息或实物对象”。 这里文献工作指的是为了存储、分类检索、利用或传递而对记录信息所进行的连 续和系统的汇编和处理。 权威部门对文献颁布的这两种定义揭示了文献的特征。由此可知,文献由文 献信息、文献载体、符号系统和记录方式四要素构成。四位一体不可分割,缺少 任何一个都不能构成文献。 文献的属性主要有: 1)知识信息性 这是文献的本质属性。任何文献都记录或传递一定的信息知识,离开知识信 息,文献便不存在。传递信息、记录知识是文献的基本功能。人类的知识财富正 是依靠文献得以保存、继承和传播的。 2)客观物质性 文献所表达的知识信息内容必须借助一定的信息符号、依附一定的物质载 体,才能长时期保存和传递。 3)人工记录性 文献所蕴涵的知识信息是通过人们用各种方式将其记录在载体上的,而不是 天然加载于物质实体上的。 4)动态发展性 文献并非处于静止状态,而是按新陈代谢规律运动着。随着人类记录水平的 不断提高,信息交流频繁,文献的数量日趋庞大,形式日益多样。与此同时,文 献的老化速度也在加快,生命周期日益缩短,形成了有规律的运动。 由信息、知识和文献三者的概念可知,三者之间的关系是密切相关的。信息 是物质存在的方式、形式和运动规律的表征。人脑对事物属性的感知形成信息, 人们对信息集合加工、整理形成系统化表现形成人类社会实践的知识,知识被记 录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中又产生新的信 息、知识和文献。如此循环不断创新形成各种各样的新知识,从而推动人类社会 前进。由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。 四、信息资源 在《信息与文献术语》(GB/T 4894-2009)中对信息资源是这样定义的, 即“信息资源(Information resourcs),任何可标识的对象,包括媒介和记录 信息的组合、以物质或数字形态表达的知识成果等”。在人类社会和自然界的运 动发展过程中,每天都会有各种形式的信息不断地产生。大量的客观存在的人们 直接或间接开发利用的信息集合总称为信息资源。 数字信息资源是信息资源的一种。数字信息资源(Digital information resourcs),狭义讲,亦可称为电子资源(Electronic resourcs),是指一切以 数字形式生产和发行的信息资源,是数字化了的信息资源,即以数字的形式,把 文字、图形、图像、声音等多种形式的信息存放在光盘、磁带等非印刷型介质上, 以数字信号的形式传输,并通过相应的计算机和其他外部设备再现出来的一种信 息资源。 数字信息资源与传统信息资源相比,其特点主要有: (1)存储介质和传播形式发生变化,因而成为海量存储、传递快捷的资源。 数字资源可以将传统的图书、期刊中的文字、图片以及各类音像资料中的声音、 动态图像融合在一起,利用数字技术进行制作,存储在光盘、磁带或硬盘等载体 上。同时以网络作为主要的传播媒介,即转变为光信号,利用网络实现同步传输。 不仅传播的速度大大提高,传递的信息量也超过了传统的出版物。 (2)数量巨大,来源广泛。信息资源内容丰富,类型多种多样,既包括数 据库、电子期刊、电子图书、电子报纸、专利等正式出版物,以及学位论文、教 学课件等灰色文献,也涵盖了新闻、论坛(BBS)、博客、股票行情乃至商品广 告等非正式出版的数字信息。信息交流的途径因此不再是单一化的,而是多层次 的、立体的。 (3)类型齐全,形式多样。网络信息资源包括各种不同层次的信息,既有 原始论文、电子报刊等一次文献,又有文摘、题录、索引、综述、评论等二、三 次文献,还有网上会议、聊天等零次文献。此外,网络信息资源的传播引入了多 媒体形式,可以以文本、图像、音频、视频、软件、数据库等多种形式存在,涉 及领域从经济、科研、教育、艺术,到具体的行业和个体,包含的文献类型从电 子报刊、电子工具书、商业信息、新闻报道、书目数据库、文献信息索引到统计 数据、图表、电子地图等。网络信息资源以多媒体作为内容特征,集文本、图片、 动态图像、声音、超链接等多种形式为一体,具体、生动、全方位地向用户展示 主题,用户可以更加深入细致地了解所需信息的内容及其特征。 (4)多层次的信息服务功能。数字信息资源最初产生时,主要的服务功能 是信息检索,发展到今天,已经产生了一系列的新功能,例如:主动报道,如期 刊目次报道服务(E-mail alert);信息订阅服务,如内容聚合(Really Simple Syndication, RSS);信息发布,如博客(Blog)、开放获取平台(Open access) 等;文件传递,如 FTP 服务;信息发现(Discovery),如搜索引擎、网络资源 学科导航、分类主题指南、统一检索等;网上论坛,如 BBS、社交网络服务(SNS) 等。这些服务功能扩展了传统出版物的职能,使数字信息资源得到更大程度、更 深入的利用。 (5)不受时间、地域限制,即没有收藏地点(如图书馆)、收藏时间(开 放时间)的局限,可以随时随地存取。 网络信息资源同样存在着一系列的问题,主要有: (1)内容丰富,信息质量参差不齐。由于任何人、任何组织都可以在网上 发布信息,内容十分丰富,但是信息质量缺少控制,也掺杂了一些犯罪信息,鱼 龙混杂,给用户造成了很大的困惑,由于信息的质量没有保障,因此权威性、学 术性、可靠性差。 (2)分散无序,缺乏组织。网络信息资源在不同的学科专业领域、不同行 业、不同地理位置上的分布差异很大,数量和质量的差别也很大,大量的信息分 散、无序、缺乏知识组织,没有经过标引和加工,因此查找和使用颇为困难,很 难快速、准确地找到自己所需的信息。 (3)信息不稳定,资源经常发生丢失,没有长期保存的机构和机制。受信 息的时效性以及各种不定型因子的干扰和影响,网络信息资源往往表现出波动性 和无规律性,其内容、所在地址、链接关系处于动态变化之中,网络上的信息资 源每天都在更新,今天看到的 Web 页,也许第二天就已消失了,甚至几个小时 后就已更迭了。生产、更迭和消亡情况一般难以预料。 正是由于这一系列问题的存在,才产生了商业化的、高质量的、有序的网络 学术资源,即本书后面主要介绍的内容。 第三节 信息资源的构成 信息资源的构成可从不同的层面和角度来划分。 一、按照信息的出版形式划分 信息出版类型一般是指记录有知识的文献出版类型。一般将出版物文献划分 为图书、报刊、会议文献、专利文献、标准文献、科技报告、学位论文、政府出 版物、技术档案和产品资料。 1.图书 图书大多是对已发表的成果、生产技术和经验或者基本知识领域系统的论述 或概括,它往往以期刊论文、会议论文、研究报告及其他第一手资料为基本素材, 经过作者的分析、归纳、组织编写而成的。不少科技图书的内容还包含一些从未 发表过的研究成果或资料。 图书是综合、积累和传递科技知识,教育和培养科技人才的一种重要工具, 它可以帮助人们比较全面系统地了解特定领域的历史和现状,可以将人们正确地 领入自己所不熟悉的领域,还可以作为一种经常性的查考工具。从信息检索角度 来看,图书一般不作为主要检索对象。研究人员利用图书的概率比较小。 图书的特点是:内容比较系统、全面、成熟、可靠,具有一定的新颖性;但 编辑出版时间过长,传递信息的速度太慢,包含的内容一般只是反映 1 年以前的 研究水平。 图书的著录格式如下: 【题名/责任者】非常规油气区带未开发储量评估指南/王永祥,李建忠译 【ISBN 号/定价】978-7-5021-9367-6/80.00 元 【出版项】北京石油工业出版社 2012 【主题词/索书号】油气区-油气储量-资源评估-指南/P618.1/3 【文摘题要】本书围绕资源区带未开发储量评估的各种复杂情况和评估难 题,开展了一系列合理有效地评估实践,由此制定出资源区带未开发储量和油气 藏评价的准则。 2.报刊 报刊是一种以印刷形式或其他形式逐次刊行的,通常有数字或年月日顺序编 号的,并打算无限期地连续出版下去的出版物。 广义的报刊则包括一切定期刊行或不定期刊行的连续性出版物,如杂志、报 纸、年度报告、年鉴、丛书以及学会的会议录、学报和纪要等。 报刊在科学技术活动中一直起着非常重要的作用,是交流的主要工具。 报刊具有以下特点:数量大、品种多、内容丰富多样;出版周期短,报道速 度较快;发行、流通广泛,连续性强,伴随着相应的学科领域发展而发展。 期刊的著录格式如下: 【刊名】东北石油大学学报 【主办】东北石油大学 【周期】双月 【ISSN】2095-4107 【CN】23-1582/TE 【出版地】黑龙江省大庆市 【邮发代号】14-90 3.会议文献 会议文献是指在国内外各种学术会议上交流的论文,以及由此汇编成册内部 交流或公开出版的文献。 会议文献的主要特点是:传递信息比较及时,传递的信息针对性较强,它反 映了某学科、专业的最新成果和发展现状及趋势,是研究工作不可缺少的情报源。 会议论文的著录格式如下: 【篇名】试析美国新能源法案对能源安全的影响 【作者】吕江 【机构】武汉大学国际法研究所 【摘要】美国《2007 年能源独立和安全法》是美国关于能源安全的最新法 案。该法案不仅提高了美国能源安全要求,而且对美国国内乃至国际社会能源安 全领域产生了重大影响。它改变了美国现行能源安全法律政策,同时为美国设定 了未来能源安全走向。因此,对该法案的深入研究,也必将对中国能源安全法律 政策的制定具有启示性意义。 【会议录名称】2008 全国博士生学术论坛(国际法)论文集——国际公法、 国际私法分册 【会议名称】2008 全国博士生学术论坛 【会议时间】2008-10 【会议地点】中国湖北武汉 【分类号】D971.2;DD912.6 【主办单位】国务院学位委员会办公室、教育部学位管理与研究生教育司 4.专利文献 专利是用法律来保护科学技术发明创造的制度。专利文献是专利制度的产 物。一切与专利制度有关的各种专利文件统称为专利文献,包括发明说明书、专 利说明书、专利局公报、专利文摘、专利分类与检索工具书,以及申请专利时提 交的各种文件(如请求书、权利要求书、有关证书等)、与专利有关的法律文件 和诉讼资料等。狭义的专利文献一般指专利局颁布出版的各种发明说明书或专利 说明书及其所派生的各种二次文献。 专利文献的特点是:数量巨大,覆盖面广;格式统一、措词严谨;描述对象 具体、单一;技术内容新颖、可靠;文件类型多,重复量大,是重要的技术经济 信息源。 专利说明书的著录格式如下: 【专利名称】一种高效控压缓水锥水平井完井技术 【申请号】CN200910109251.2 【申请日】2009-07-27 【公开号】CN101655007 【公开日】2010-02-24 【申请人】熊友明;唐海雄;张俊斌;姜柯 【地址】610500 四川省成都市新都区新都大道 8 号西南石油大学 【发明人】熊友明;唐海雄;张俊斌;姜柯;张林 【专利代理机构】深圳市君胜知识产权代理事务所 【代理人】王永文 【主权项】一种高效控压缓水锥水平井完井方法,包括以下步骤:(1)将 具有控压和延缓底水锥进功能的无接箍油管放入水平井道内中间位置;(2)在 水平井内下入封隔器,封隔无接箍油管与裸眼井之间的环形空间或封隔无接箍油 管与筛管之间的环形空间,使原油从地层出来后通过无接箍油管产出。 【页数】10 【主分类号】E21B43/32 【专利分类号】E21B43/32;E21B7/04 5.标准文献 标准文献是以文件形式出现的标准化工作成果。经过公认的权威当局批准的 标准化工作成果,可以采用文件形式或规定基本单位(物理常数)这两种形式固 化下来。标准化是为了有关各方的利益,特别是为了达到最佳的经济效果,并适 当考虑到使用条件和安全要求,在有关各方的协作下,进行有步骤的特定活动所 制订并实施各项规则的过程。 标准文献的特点是:制订、审批有一定的程序;适用范围非常明确专一;编 排格式、叙述方法严谨统一,措词准确;技术上具有较充分的可靠性和现实性; 对有关各方有约束性,在一定条件下具有某种法律效力;有一定的有效时间,需 要随着技术发展而不断修订、补充或废除。 中国国家标准的著录格式如下: 【中文标准名称】石油与石油设施雷电安全规范 【标准号】GB 15599-2009 【标准状态】现行 【国别】中国 【发布日期】2000-12-25 【实施或试行日期】2009-12-01 【发布部门】中华人民共和国国家质量监督检验检疫总局;中国国家标准化 管理委员会 【起草单位】中国石油化工股份有限公司青岛安全工程研究院;化学品安全 控制国家重点实验室 【起草人】刘全桢;刘宝全;孙立富;胡海燕;高鑫;张婷婷;李义鹏;王 婷 【标准技术委员会】全国安全生产标准化技术委员会化学品安全标准化分技 术委员会(TC 288/SC 3) 【中国标准分类号】E09 【总页数】12 6.科技报告 科技报告是研究或设计单位向提供经费的上级部门提供的关于某项研究或 设计任务完成情况及财务消耗情况的总结报告。 科技报告的特点是:从形式上看,科技报告的出版形式比较特殊,每份报告 自成一册,篇幅长短不等,有连续编号,装订简单,出版发行不规则。从内容上 看,科技报告的内容比较新颖、详尽、专深。 7.学位论文 学位论文是高等学校或研究机构培养的学生为获得某种学位而撰写的科技 论文,一般有学士论文、硕士论文和博士论文。学位论文中除了少数可能发表在 期刊或其他出版物上以外,多数是不出版的。每篇学位论文都有一复本收藏在授 予学位的学校的图书馆里,可供查阅。 学位论文的著录格式如下: 【篇名】低维 V2O5材料的制备及其特性研究 【作者】苏庆 【导师】王印月;刘雪芹 【作者基本信息】兰州大学,凝聚态物理,2009,博士 【关键词】磁控反应溅射;β-V2O5薄膜;热蒸发气相化学沉积;V2O5纳米 线;水热法;VO_x 纳米管;循环伏安法 【分类号】TB383.1 8.政府出版物 政府出版物是各国政府部门及其所属机构所发表的文件。它的内容广泛,概 括起来可分为行政性文件和科技文献两大类。行政文件包括国会记录、司法资料、 方针政策、规章制度、决议、指示以及调查统计资料等。科技文献包括各部门的 研究报告、技术政策文件等。 9.技术档案 技术档案是指在生产建设中和科技部门的技术活动中形成的,有一定的工程 对象的技术文件的总称。其内容包括任务书、协议书、技术经济指标和审批文件、 研究计划、方案、大纲和技术措施、有关的技术调查材料(原始记录、分析报告)、 设计计算、试验项目、方案、数据和报告、设计图纸、工艺卡片以及应入档文件。 10.产品资料 产品资料是指国内外各厂商为推销产品而印发的商业宣传品,包括产品样 本、产品目录、产品说明书、厂商介绍、厂刊或外贸刊物、技术座谈资料等。 二、按照信息加工程度划分 人们在利用和传递信息的过程中,为了及时报道和揭示信息,对信息进行了 不同层次的加工。按加工程度可将信息分为一次文献、二次文献和三次文献。 1.一次文献 一次文献即以作者本人的生产与科研工作成果为依据而撰写的,并已公开发 行进入社会流通使用的原始文献。主要包括专著、学术论文、科技报告、会议论 文、专利文献、学位论文等类型文献。 一次文献的特点是:具有学术上的新观点、新发明、新技术、新成果,提供 了新的知识信息,是创造性劳动的结晶,有直接参考、借鉴和使用的价值,是人 们检索和利用的主要目标。 2.二次文献 二次文献是将大量的、分散的、无序的一次文献收集起来,按照一定的方法 进行整理、浓缩和加工,使之系统化而形成的各种目录、索引和文摘。即被编制 成具有多种检索途径的检索工具。 二次文献的特点是:仅是对一次文献进行系统化的压缩,无新的知识产生, 具有汇集性、检索性。二次文献的重要性在于它提供了检索一次文献的线索。因 此,二次文献又称为检索性文献。 3.三次文献 三次文献是根据一定的目的和需求,在大量利用一次文献和二次文献的基础 上,对有关知识进行综合、分析、提炼、重组而再生的信息资源。如词典、手册、 百科全书、年鉴、各种教科书以及综述等。 三次文献的特点是:具有综合性高、针对性强、系统性好、知识信息面广的 特点。三次文献又称为参考性文献,有较高的使用价值,可直接参考、借鉴和利 用。 三次文献源于一次文献,又高于一次文献,是一种再创性文献。 从文献的角度看,一次文献是人们检索与利用的主要对象,二次文献是文献 信息的检索工具,三次文献是人们考查数据、事实信息的主要信息源。 三、按信息的表现形式划分 1.文献型信息源 文献型信息源是存储语言文字形式信息的各种载体的集合,是目前信息内容 最丰富、可靠的信息,是人们使用最多的信息源。 2.非文献型信息源 非文献型信息源包括电子信息源、数值型信息源、声像型信息源、多媒体信 息源、实物及口头信息源。 (1)数值型信息源:是存储数据形式的信息载体的集合。 (2)声像型信息源:是存储声音或图像信息的载体的集合,如磁带、广播、 电视。 (3)多媒体信息源:是一种时代发展的产物,是集文字、声音、图像于一 体,多以光盘或 Internet 网上资源的形式出现,是目前发展最快、数量最多的 一种信息源。 (4)实物及口头信息源:实物信息源是指自然实物和人工实物中所含信息 的集合,口头信息源是指在交流、讨论、报告过程中所含的信息集合。 四、按信息的保密程度划分 按信息内容的保密程度划分为公开信息源、半公开信息源和非公开信息源之 分。五、按信息的应用范围划分 按信息内容的社会属性划分为科技信息源、经济信息源、管理信息源及生活信息源。 六、按信息传输形式划分 (1)网络信息源:各种网络上的信息集合。 (2)非网络信息源:不用通信设施就能获得的信息集合。 复习思考题 1.简述信息、知识、文献的概念及三者之间的相互关系。 2.构成文献的四要素是什么?其中的哪一个要素反映了文献的本质属性? 3.一般将出版物划分为哪几种类型?按照对信息的加工程度可将信息分为 几次文献? 4.图书、报刊、会议文献、专利文献、标准文献、科技报告的特点各是什 么? 5.一次文献、二次文献和三次文献的特点是什么? 6.传统信息资源的特征、数字信息资源的特征分别包括哪些方面? # 教材原文第二章 第二章 信息检索概述 第一节 信息的组织 一、信息的组织及其原理 信息处于自然状态是无序的,人们无法有效利用。为了迅速准确地 获取信息资源,必须对信息进行加工整理。利用一定的科学规律和方法, 通过对信息的外部特征和内容特征的序化与综合,实现无序信息流向有 序信息流的转换,这就是信息的组织。信息组织在社会生活中应用很广 泛,不同类型的信息有不同的特征,文献的各种特征就是对文献组织的 依据。 文献有多种特征,按不同的特征值可以组织成不同的序列,提供不 同的检索途径,适应不同的检索需求,因此,信息的组织原理一般是按 照文献的某种特征进行组织和排序的。 文献的外部特征主要有:文献的题名,包括篇名、书名、刊名、文 件名等;文献的责任者和责任方式,包括著者、编者、译者、校注者等, 还有责任者所属的机构;文献的出版情况,包括出版者、出版时间、版 次、载体类型等;文献的编号,包括专利号、标准号、档案号、政府文 件的文号、书号、刊号等。 文献的内容特征主要有:文献所属的学科范畴,文献所研究的主题, 文献所涉及的专有名词,组成该文献的所有字词句、分子式、公式等。 文献的相关性主要表现在文献之间的相互引用与被引用关系,利用 作者明确给出的被引用文献,反映文献之间内容上的联系。又因其在文 中的特殊位置(页脚或文后),因而反映了一定的外部特征。 二、信息的组织步骤 信息的组织与检索是信息有序传播的两个方面,检索工具的编纂者 对文献信息进行组织排序,按一定的方式有序化存储;使用者按同样的 方式,从检索工具中迅速查得自己所需信息。 信息组织排序的一般步骤:首先分析各种类型的文献信息,按照信 息特征给出它特定的标识符号,经过加工整理成为二次文献,这是文献 由无序到有序化的过程。这一过程主要是描述文献外表和内容特征,给 定标识并进行排序。 信息检索系统存储信息、有序化信息,要使用一定的检索语言,信 息利用者检索信息时也使用相同的检索语言,所以检索语言是沟通存储 和检索双方的桥梁。 第二节 信息检索及其原理 一、信息检索的概念 信息检索是指将信息按一定的方式进行加工、整理、组织并存储起 来,再根据信息用户的需要找出有关信息的过程。它的全过程又称为信 息存储与检索。这是广义的信息检索的含义,主要是对信息工作者而言 的。狭义的信息检索则仅指后半部分,即用户根据需要,借助检索工具, 从信息集合中找出所需要信息的过程。 信息检索是查找信息的方法和手段,它能使人们在浩如烟海的信息 海洋中迅速地、准确地、全面地查找所需的信息。可以说,信息检索对 人们的学习、生活和工作等方面都有非常大的作用。 二、信息检索的原理 人类的信息检索行为总是从特定的信息需求开始,并在特定环境和 信息检索系统中完成,这里所说的环境包括产生需求的环境、信息检索 系统的运行环境和其他制约因素。特定的检索系统包括完成检索过程所 需的一定设施和工具,它可以是图书馆、信息中心或信息经济人,也可 以是某种工具书(如文摘索引、目录、资料集、手册、词典等)或机读 信息源(如各种机读数据库)。 人类的信息需求千差万别,获取信息的方法也各种各样,但信息检 索的基本原理却是相同的,可以把它最本质的部分概括为一句话:对信 息集合与需求集合的匹配与选择。 根据信息检索的基本原理,实现信息检索的基本方式可分为传统信 息检索和现代信息检索。 1.传统信息检索 传统信息检索(简称“手检”)是检索人员利用手工检索工具手翻、 眼看、用大脑思维判别、索取原始文献的一种方式。 其优点是:(1)检索条件简单,成本低;(2)在检索过程中可以 随时获取反馈信息,及时调整检索策略;(3)可对不同的检索工具同 时进行对比,从而提高检索质量;(4)可以参阅检索工具中的附图。 其缺点是:(1)速度慢、效率低,检出的文献款目必须抄录;(2) 手工检索工具提供的检索点有限,很难进行多元检索;(3)对于涉及 几个概念组合的多主题的文献难于找到。 2.现代信息检索 现代信息检索(简称“机检”)是检索人员利用计算机检索系统查 找文献的一种检索方式。计算机检索系统包括数据库技术、计算机技术 和网络通信技术等。机检可以克服手检的缺点,但机检对设备条件的要 求比较高,所需的投资比较大。计算机检索已从单机检索、联机检索发 展到今天的网络检索,并向着智能化的方向发展。 三、信息检索的研究范围与研究对象 信息检索作为一门学科,有它自己的研究范围和对象,也有自己的 理论、方法和技术。从总体上看,信息检索的研究对象是比较明确具体 的,研究范围广泛而边界有些模糊,理论和方法已经逐渐形成体系。 1.信息检索的研究范围 信息检索的研究范围包括一切与信息存储检索有关的系统、过程、 理论和方法。一切可供存储和检索利用的信息类型,如文献、数据、事 实、知识、声音、图形等,各种信息检索系统及其运行过程,如信息采 集、标引、组织、存储、处理、匹配、传送等各种过程中使用的方法, 以及在信息检索实践和研究的基础上形成的各种理论和假设,均包括在 这个范围内。信息类型侧重于文献,其次是数据和事实。 2.信息检索的研究对象 (1)信息检索理论。它主要包括检索语言与标引理论、信息检索 的数学模型、知识表示理论、相关性理论,以及有关的哲学问题。 (2)信息检索系统。它是实现信息检索的物质基础,是现实的研 究对象,主要研究它的结构、功能、演变,它的设计开发技术、管理维 护技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关 系。其中,数据库是信息检索系统的核心部分之一。数据库的建造和维 护是一类非常重要的信息技术。数据库的质量直接影响信息检索系统的 功能和效率。 (3)计算机信息检索。它涉及许多计算机设备、软件技术、存储 技术革新、检索技术、系统管理和经营知识、市场营销技术等,是一门 综合性很强的技术。 (4)检索策略与方法。它是用户从信息检索系统中获取有关信息 所必需的。好的检索策略是检索成功的必要前提,计算机的应用为检索 策略和方法的发展提供了有力的支持。近 30 年来,涌现了许多新颖而 有效的检索技术和方法,如布尔检索、位置检索、截词检索、加权检索、 聚类检索等,人们利用、研究、评价和完善现有的各种检索策略和方法, 研究开发新的更有效的策略和方法。 (5)用户研究与培训。用户是信息检索系统的生命。无论是系统 的研制开发、管理维护、功能和服务的扩展,还是系统评价,都离不开 用户研究工作。用户培训是用户研究的继续,是与用户建立紧密联系和 发展新用户的一种非常有效的措施。 此外,还有自动标引、自动分类和自动摘录,以及相关设备等研究 领域。 第三节 信息检索系统及其构成 一、信息检索系统及其类型 信息检索系统是由一定的设备和信息集合构成,面向一定的用户, 具有信息采集、组织、存储、选择和传播等功能。信息检索系统是图书 情报档案工作者和其他学者按某种方式方法建立起来的供读者查检图 书情报档案资料等信息的某种有层次的体系。信息检索系统是根据对信 息资源中不同对象和层次揭示上的需要,由文献目录、索引、机读数据 库、网络搜索引擎等信息资源检索工具构成的以不同检索需要为目标 的、形式多样的、完备的系统。 1.按照检索的工具和方式划分 按照检索的工具和方式,可分为手工检索系统和计算机检索系统。 1)手工检索系统 手工检索系统是指传统的靠查目录卡片、工具书等来检索的体系, 如书本式检索系统和卡片式检索系统。 (1)书本式检索系统包括一切以书刊形式提供,为人们查找各种 信息或数据的出版物,如文摘杂志、题录或索引刊物、参考工具书等。 书本式检索系统的编制原理是计算机检索系统产生的基础。 (2)卡片式检索系统包括一切以普通卡片存储和查找信息的工具, 如图书馆内部的各种卡片目录,管理部门的各种卡片档案。与书本式检 索系统相比,它较便于信息的累积和更新,更适于单位或个人自建自用, 成本较低,在信息检索和资料管理中曾发挥过重要作用。 2)计算机检索系统 计算机检索系统是指用电子计算机和数据库存储、检索文献信息资 料的系统。其组成包括计算机、数据库、管理软件和通信网络检索终端。 其中,数据库是其核心。而这些所有的用于文献检索的电子计算机可以 连成一个庞大的网络,进行国内外的联机检索,现已发展成网络检索系 统。但仅有计算机和网络还不行,还必须依赖数据库才能检索到文献信 息。计算机检索系统分为联机检索系统、光盘检索系统、网络检索系统。 (1)联机检索系统。国际联机检索就是用户使用终端设备,远距 离地从国际联机检索中心迅速而准确地获取数字文献信息资源,使知识 信息得到广泛而有效传播和利用。其实质是数据库和通信的结合。从 20 世纪六七十年代起,许多国家还先后建立了专门从事计算机检索的 机构,如美国的洛克希德公司和系统发展公司、英国的目录检索服务处 和图书馆自动化情报服务处与 Infoline 公司、欧洲的 ESA-IRS 等,这 些机构都建有大量的数据库联机检索系统,都向全世界联机用户提供电 子信息服务。其中,著名的系统有 Dialog、ORBIT、ESA-IRS、OCLC、 STN 等。 (2)光盘检索系统。由于光盘在存储电子信息资源方面具有记录 密度高、容量大、成本低、体积小、寿命长、可实现随机存取和检索费 用低廉等优点,因此,光盘被广泛用于存储、检索数字信息资源,并产 生了一批生产系列光盘的公司,如美国 UMI 公司和银盘公司等。光盘 记载的数字信息资源并不局限于文献信息,还包括各种软件,但可用于 检索仍以文献信息为主。 (3)网络检索系统。Internet 是网络通过互联而形成的全球网。 它已延伸到地球上几乎每个国家。在 Internet 网上的所有主机都采用 TCP/IP 协议连接和通信,使网上各种计算机都遵循该协议所规定的方 式进行数据交换,其结果是使得 Internet 信息资源主要包括电子报刊、 电子新闻、电子报告、电子论坛、会议资料、各种软件资料、图像文件、 声音文件和电子游戏等。Internet 是目前世界上资料最多、门类最全、 规模最大的信息库,是人们获取信息的重要来源。 2.按照揭示信息的内容程度划分 按照揭示信息的内容程度,可分为目录、题录、文摘和全文型检索 工具。 1)目录型检索工具 目录主要报道实有的文献或收藏文献的情况,以一个完整的出版 (或收藏)单位作为著录的基本单位。此类检索工具对于查找、索取原 始文献具有重要作用。 2)题录型检索工具 题录是用来描述某一文献的外表特征并由一组著录项目构成的一 条文献记录。题录通常以一个内容上独立的文献单元(如一篇文献、图 书中的一部分,但有时也是整体出版物)为基本著录单位,这是它与目 录的主要区别。 3)文摘型检索工具 文摘是指对文献的内容简洁而又正确的摘录,供人们浏览和查用, 使读者能以较少的时间与精力掌握有关文献的基本内容进行系统查找。 文摘型记录主要是由题录部分和文摘等内容共同组成。文摘型检索工具 是系统报道、积累和检索科技文献的主要工具。文摘型检索工具按文献 的压缩程度,可划分为指示性文摘、报道性文摘和评述文摘。 目录型、题录型和文摘型三种检索工具的异同点是:目录型和题录 型检索工具两者的相同点是它们都只限于描述文献的外表特征,而文摘 型检索工具不仅揭示文献的外部特征还揭示文献的内容特征;题录实质 上是一种不含文摘正文的文摘款目,在揭示文献内容的深度方面,题录 比目录做得深入一些,但又比文摘款目浅。 4)全文型检索工具 全文数据库是计算机检索系统普遍应用以后出现的,它是揭示文献 的全貌的检索系统。它能满足人们方便快捷的检索到原始文献信息的需 求。二、检索系统的作用 检索系统的作用是由于它具备的存储与检索两个基本职能,各种类 型的原始文献,经过加工整理成为二次文献。这是文献由无序到有序化 的过程。这一过程主要是描述文献外表和内容特征,给定标识并进行排 序。标识是指表征文献外表或内容特征的词语或符号。词语标识有关键 词、叙词、单元词等;符号标识有分类号、专利号、标准号、化学符号 等。三、检索系统的评价 了解检索系统的评价标准,目的是帮助大家在把握各种数据库特点 的同时,掌握有关数据库质量的评价标准,从而选择优秀的检索系统, 提高检索活动的效果。从使用者的角度来考察,检索系统的评价标准应 该包含以下几个方面的内容: 1.检索系统的收录对象及范围 数据库的收录对象及范围决定了数据库中所提供信息的可靠性、完 整性,是体现检索系统重要性的主要标志。 2.检索系统对其中所包含的各种数据揭 示与反映的质量 作为优秀的检索系统,应该对其中各种信息的揭示与反映做到充分 详尽、准确无误、规范标准,具体表现在其对信息描述的质量及信息标 引的质量等方面。查全率和查准率是考查系统收录质量的两项重要指 标。3.数据库中信息更新的速度 数据库中信息更新的速度反映了数据库能提供最新文献信息的水 平和时差,主要表现在数据库中新增加的信息与该信息原始文献出版、 发表之间的时间跨度。 4.数据库提供的检索途径及检索功能 一般来说,数据库所提供的检索途径越丰富,数据库响应用户需求 的水平越高、数据库能支持的检索技术(如布尔逻辑检索、位置检索、 截词检索、限制检索等)种类越多,检索过程速度就会越快、检索效率 (查全率与查准率)也随之越高。另外,实际操作的方便与否以及对检 索结果的显示、排序、选择、格式转换、打印、保存等的响应情况,也 反映了检索系统的功能。 5.保证数据库正常运行的支持体系 保证数据库正常运行的支持体系主要是指数据库商家所提供的维 护数据库正常运行的数据、技术、维修等保障措施和手段。 第四节 数据库 一、数据库概述 数据库是结构化的数据集合。数据库是依据数据之间的性质联系, 按照对数据实行统一的、集中的、独立的管理要求来设计和组织数据的。 在《文献与信息工作术语》(ISO/DIS5127)中定义:数据库(Database) 是至少由一种文档组成的,能够满足某种特定目的或特定数据处理系统 需要的数据集合。通俗地说,数据库就是在计算机存储设备上按一定方 式存储的相互关联的数据集合,其载体有磁带、磁盘、光盘等。数据库 是计算机检索系统的重要组成部分。假如把硬件比作图书馆的馆舍,把 软件比作图书馆的规章制度和管理人员,那么,数据库就好比是图书馆 里装满图书的一间间书库。没有藏书,不能称其为图书馆,不能供读者 查阅资料;没有数据库,亦无法建立计算机文献检索系统,不能进行机 检。可以说,数据库是机检的生命线。 在计算机检索系统中,多数数据库为关系型数据库。当数据库记录 的对象为文献信息时,则称其为文献数据库。文献数据库只存储有关主 题领域各类文献资料的书目信息,为用户鉴别和获得有关文献提供必要 的文献属性信息和来源指示。所以,人们通常把它归入参考数据库的范 畴。它在内容、结构和使用方面都有别于其他数据库。 文献数据库中的数据来源于期刊论文、会议论文、研究报告、专利 文献、学位论文、图书、政府出版物、报纸等各种不同的文献经过加工、 压缩派生的数据。 文献数据库的数据结构比较简单,记录格式较为固定,生产费用相 对较低。它的使用范围一般是开放性的。除少数涉及高技术情报或敏感 性情报的书目数据库以外,其余绝大多数在使用上都没有任何限制。人 们可以在公开市场上通过购买或租用来获得它,也可以通过某个合适的 情报检索系统去检索它,并支付一定的费用。数据量大、连续性和累积 性强、更新速度快是文献数据库的重要特性。 二、数据库的结构 数据库是以文档的形式组织起来的。文档的基本组成单位是记录。 下面,先从记录的有关内容开始,介绍文献数据库的结构。 1.记录(Record) 记录是作为一个单位来处理的有关数据的集合,是对某一实体的属 性进行描述的结果。在书目数据库中,被描述的实体是某一特定的文献, 实体的属性就是该文献的特征,例如文献的题名、作者、发表时间、语 种、分类号、主题词等。可以看出,文献数据库中的一个记录就相当于 书本式检索刊物中的一个文摘条目或题录,或相当于图书目录中的一个 著录款目。 2.字段(Field) 字段是记录的下级数据单位,用来描述实体的某一属性。在文献数 据库的记录中,字段的划分与文献著录事项的划分相一致,一个字段与 一个著录项目相对应。所以,一个记录中通常含有文献号字段、题名字 段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号 字段等各种必要的字段。每个字段的具体内容称为字段值(Field Value) 或属性值(Attribute Value)。字段的设计决定了检索点的数量。 3.文档(File) 若干个记录构成的信息集合称为文档。文档是数据库和检索系统中 数据组织的基本形式,有各种各样的文档组织方式。从数据库的内部结 构来看,一个数据库包括顺排文档(Sequential File)和倒排文档 (Inverted File)。 顺排文档是将数据库的全部记录按照记录号的大小排列而成的文 献集合,是文档在计算机存储器中的一种存放形式,记录的物理位置通 常由记录的值决定。记录之间的逻辑顺序与物理顺序一致的,称其为主 文档或线性文档。这种存储方式决定了对记录的存取只能顺序进行,它 使记录之间紧密排列在一起。文档的修改和删除操作比较简单,但插入 操作较为麻烦,存取时间与数据的物理位置有关。 倒排文档按照文献的属性列出具有同一属性的所有记录,是把记录 中一切可检字段或属性值(如著者姓名、主题词等)抽出,按某种顺序 重新加以组织后所得到的一种文档,既可以按不同类型的字段组成不同 的倒排档(如著者倒排、主题词倒排档等),也可以把所有不同的字段 组成一个混合倒排档。值得注意的是,倒排档中的“倒排”二字的涵义 是相对于顺序排列的主文档而言的。其实,在计算机存储器中,倒排档 也可以按顺序文档的方式存取。二者的主要区别是:主文档以文献的完 整记录为处理和检索单元,倒排档则以文献的属性(即记录中的字段) 为处理和检索单元。倒排档是从主文档中派生出来的一种文档。 三、数据库的种类 1.按国际上通用的分类方法划分 1)参考数据库(Reference Database) 参考数据库包括书目数据库和指南数据库两类。书目数据库是指存 储二次文献信息的数据库,如题录数据库、文摘数据库、目录数据库等。 指南数据库为事实数据库,是指存储机构、人物、地名、产品、物质和 材料的特性、时间等信息的数据库。 图 书 馆 目 录 数 据 库 通 常 又 称 为 “ 机 读 目 录 ” , 即 MARC (Machine-Readable Catalogue)。机读目录主要报道和存储特定图 书馆实际收藏的各种文献资料的书目信息和存储地址。它既是一般用户 查找图书馆资料的工具,更重要的是作为图书馆业务部门的业务管理工 具。它的数据内容详细,除描述文献本身以外,还有许多附加信息,如 业务加工信息、管理信息、馆藏信息等。 2)源数据库(Source Database) 源数据库是能够为用户提供原始文献或具体数据的数据库,包括全 文数据库(Full-text Database)、数值数据库(Numerical Database)、 术 语 数 据 库 ( Terminological Bank ) 和 图 像 数 据 库 ( Graphic Database)。 全文数据库是一种存储文献全文或其中主要部分的源数据库。全文 数据库可以解决用户获取一次文献所遇到的困难,能向用户提供一步到 位的查找原始文献的信息服务,如法律法规全文库、期刊全文库等。 数值数据库是一种以自然数值形式表示、计算机可读的数据集合, 是专门提供以数据形式表示信息的一种源数据库,又是一种能同时提供 文本信息和数值数据的数据库。这类数据库主要包含数值数据,有的也 包含文字(文字是用来定义数据所需的最小量的),如企业信息数据库、 产品数据库、统计数据库、财务数据库、文本-数值数据库等。 术语数据库是一种计算机化的术语词典或词库,也称为电子辞典或 机读词典。术语数据库是一种专门存储名词术语信息、词语信息以及术 语工作和语言规范工作成果的源数据库,如名词术语信息库、各种电子 化辞书等。 图像数据库是供人们存储和检索图像或图形信息及其文字说明资 料的一种源数据库,主要应用于建筑、设计、广告、产品、图片或照片 等资料类型的计算机的存储与检索。 3)混合数据库(Mixed Database) 混合数据库是同时兼有参考数据库和源数据库特点的一类数据库, 它是存储声音、图像、文字、动画等多媒体信息的数据库。 2.按照信息内容表现形式划分 1)文献数据库 文献数据库包括题录数据库、文摘数据库、全文数据库。 (1)题录、文摘数据库:主要存储相关主题领域的各类文献资料 的书目信息,包括机读版的文摘、题录、目录、索引等,如《中文期刊 数据库(文摘题录版)》。 (2)全文数据库:用户可直接检索出原始文献,也可检索全文中 的段、节、章等内容,如《中国学术期刊数据库》。 2)非文献数据库 非文献数据库包括事实数据库、数值数据库等。 (1)事实数据库:直接向用户提供某一客体的基本事实(包括文 字、图形、图像、声音、计算机程序等),如百科全书、辞典、手册、 指南、地图集、人名录、企事业名录、计算机程序、音乐等。 (2)数值数据库:如中经专网、中国资讯行等。 第五节 检索语言 一、检索语言的概念 检索语言是根据信息存储与检索的需要而创造的一种人工语言。检 索语言是信息检索与信息存储的一种约定语言。 检索语言与检索效果之间有着密切的关系,它在检索过程中起着极 其重要的作用。信息检索的全过程包括信息的存储过程和检索过程。当 存储信息时,文献标引人员首先要对各种文献进行主题分析,通过分析 选出若干个能代表文献主题的概念,并用检索语言把这些概念标引出 来,然后纳入信息检索系统中。当检索信息时,信息检索人员也首先要 对检索课题进行分析,并且通过分析明确其检索范围,选出若干个能代 表信息需要的概念,并把这些概念转换成检索语言,然后从信息检索系 统中查找用该检索语言标引的文献,从而找到用户所需的信息。 由此可见,检索语言是信息检索系统的主要组成部分,是标引人员 与检索人员之间沟通思想,取得一致意见的桥梁。 二、检索语言的功能 检索语言不同于自然语言,它所表述的概念只有一种解释,不允许 一词多义、多词一义,使概念的表述模糊不清。检索语言的这种单一性 保证了表述概念的唯一性,保证了标引与检索的一致性,使信息检索人 员能够又全、又准、又快地检索到含有所需信息的文献。 检索语言的功能是通过检索语言标引文献的主题概念,不仅能简明 地提示文献所包含的信息内容及其外表特征,而且还能将同一主题概念 的文献集中在一起,使文献的存储集中化、系统化、组织化,以便于进 行有规律的检索。 三、检索语言的组成 实质上,信息检索语言是表达、概括文献信息内容的概念及相互关 系的概念标识系统。它可以是从自然语言中精选出来并加以规范化的一 套分类号码,又可以是代表某类事物的某一方面特征的一套代码(如化 合物的各种代码),用以对文献内容和信息需要进行主题标引、逻辑分 类或特征描述。 检索语言是由词汇和语法组成的。在这里词汇指的是登录在分类 表、词表中的全部标识,一个标识(分类号、检索词、代码)就是它的 一个语词,而分类表及词表则是它的词典。语法指的是如何创造和运用 标识(单个标识或几个标识的组合)来正确表达文献内容和信息需要, 以有效地实现信息检索一整套规则。 四、检索语言的种类 检索语言按其反映信息内外部特征的不同可分为分类语言、主题语 言、名称语言和代码语言四大类。 1.分类语言 分类语言是一种直接体现知识分类的等级结构的标识系统。它根据 一定的观点,以科学分类为基础,以文献内容的科学性质为对象,运用 概念划分与概括的方法,按照知识门类的逻辑次序,从一般到具体,从 简单到复杂,进行层层划分,每划分一次,就产生许多类目,逐级划分, 就产生许多不同级别的类目。所有不同级别的类目,层层隶属,形成一 个严格有序直线性的知识门类的等级制体系。每个类目都用分类符号作 为标记,每个分类号都是表达特定知识概念的词汇,这些词汇即是分类 语言。 分类语言是用分类号码来表达各种概念,将各种概念按学科性质进 行分类和系统排列,便于信息存储与信息检索双方进行交流的一种检索 语言。著名的《国际十进分类法》、《美国国会图书馆图书分类法》、 《中国图书馆图书分类法》等,即是以分类语言为依据广泛应用于信息 存储与信息检索的规范,是对信息按学科属性及技术特点进行有序化和 检索利用的重要工具。 分类语言具有按学科或专业集中地、系统地揭示信息内容的功能, 有利于从学科或专业角度进行全面的检索,按照结构逐级划分,具有等 级结构,便于扩大和缩小检索范围。 2.主题语言 主题语言是用语词来表达各种概念,将各种概念按字顺排列。主题 语言包括标题词语言、关键词语言、单元词语言和叙词语言等,它们统 称为主题法系统。 (1)标题词语言是规范化了的自然语言。它以经过标准化处理的 名词术语作为标识,来直接表达文献所论及或涉及的事物——主题之间 的相互关系(这种关系是借助于参照系统来间接显示的)。 (2)关键词语言是为适应主题目录、主题索引编制自动化的需要 而产生的一种主题语言型检索语言。关键词是指在文献的标题、摘要或 正文中出现的、对表达文献内容具有实质意义,能作为检索入口的,起 关键性描述作用的词汇。关键词语言是针对文献中的关键词选定或抽 出,极少用作词汇控制,按字顺排列,从而提供检索途径的一种检索语 言。 (3)单元词语言又称为元词语言,它是从文献中抽取出来并经过 控制处理的,能表达文献主题的最小、最基本的词汇单位。它可以是一 个单纯词,也可以是一个合成词。这些词具有一个共同的特点是:它们 在概念上不能再进一步分解,如再分解,就再也不能表达原来所代表的 特定概念,从而失去检索本意。 (4)叙词语言是经过词汇控制的,在标引中用来显示文献主题, 在检索中用来构成表达式的一种检索语言。叙词语言可谓是博采各种信 息检索语言之长,吸取了多种信息检索语言的原理和方法。叙词语言是 一种采用规范化的单词或词组由标引人员或读者自行组配,来表达文献 (或课题)主题概念的一种后组式索引语言,或称为后组式的检索语言。 3.名称语言 名称语言是以人名、机构名、地名、书名、刊名、篇名等代表信息 特征的名称为检索标识,作为标引文献和检索文献双方共同采用的交流 语言。各种数据库中所设置的作者检索途径、机构检索途径、出版物检 索途径等都是运用名称语言对信息的特征予以描述和展示的结果。 4.代码语言 代码语言一般只就事物的某一方面特征,用某种代码系统来加以标 引和排列,如专利号、标准号、化学物质登记号等。 复习思考题 1.信息的组织原理是什么? 2.信息检索系统的类型有哪些? 3.简述数据库的含义及其种类。 4.简述数据库的记录和字段的含义。 5.检索语言有多少种? 6.分类语言和主题语言的检索特点是什么? 国家能源网 中石油官网 石油工业出版社 石油百科 石油翻译 石油云课堂 版权所有©油搜 Yooso 京 ICP 备 08100343 号-2 # 教材原文第三章 第三章 信息检索技术与程序 本章主要介绍基本的检索技术、检索程序和检索策略。 第一节 计算机检索技术 检索技术是指从结构化信息(数据库)和非结构化信息(文本)中获取满足 检索要求的信息的技术与方法。目前常用的检索技术有布尔逻辑检索、截词检索、 位置检索、字段检索、全文检索、加权检索、超文本检索等。 一、布尔逻辑检索 布尔逻辑检索是采用布尔逻辑表达式来表达用户的检索需求,并通过一定的 算法和实现手段进行检索的过程。布尔逻辑表达式是采用布尔逻辑算符来连接检 索项,以及表示运算优先级的括号组成的一种表达检索要求的算式,即逻辑表达 式。1.布尔逻辑检索的算符 常用的布尔逻辑算符有:逻辑与“and”、逻辑或“or”、逻辑非“not” 三种(图 3-1)。 图 3-1 布尔逻辑算符示意图 (1)逻辑与“and”:检索词 A 和 B 用逻辑与“and”组配,逻辑表达式 为:A and B,表示只有同时含有 A、B 两个检索词的信息才是命中对象。因此, 通过对检索词之间的逻辑与运算,增强了查找的专指性,可提高查准率。 (2)逻辑或“or”:检索词 A 和 B 用逻辑或“or”组配,逻辑表达式为: A or B,表示在查找信息源中凡含有检索词 A 或 B 的所有信息均为命中对象。 因此,使用逻辑或可使检索命中结果的范围扩大,达到了扩检的目的,从而提高 查全率。 (3)逻辑非“not”:检索词 A 和 B 用逻辑非“not”组配,逻辑表达式 为:A not B,表示含有 A,但是排除 B 的所有项。因此,谨慎使用逻辑非运算 符,否则会造成漏检现象。在实际检索中,往往在一个检索结果中使用逻辑非运 算,用来排除指定的某类信息,以达到提高查准率。 布尔逻辑运算次序为:括号内的逻辑运算优先执行,括号有多层时,最内层 括号中的运算最优先执行。但对于运算符 or、and、not,它们的运算优先次序 在不同的系统中有着不同的规定。 一般在中文数据库中,布尔逻辑运算符有时用 and、or、not 下拉菜单形式 来表示,有时用“*、+、-”来表示,有时用“并且、或者、不包含”来表示。 2.编制布尔逻辑表达式时应遵循的原则 由于不同检索系统里逻辑运算的次序是不同的,检索结果也会不同。逻辑表 达式的处理存在优先级别,在构筑检索表达式时,有效的设计将会提高检索效率, 加快检索速度。因此,在编制逻辑表达式时应尽可能遵循以下规则: (1)逻辑与连接检索项时,尽可能把出现频率低的词放在“and”符号之 前,目的是为了使否定的回答尽早出现,从而缩短检索时间。 (2)逻辑或连接检索项时,应将出现频率高的词放在“or”符号之前,确 保命中回答尽早出现。 (3)表达式中同时出现“and”与“or”符号时,需要做到除(1)和(2) 以外,还应遵循: ①把单检索词和“and”关系运算较少的部分放在“or”符号前面; ②尽量把“or”关系较少的检索项放在“and”符号前面。 (4)避免将逻辑非运算和逻辑与运算同时使用。 二、截词检索 截词检索(truncation)主要是利用检索词的词干或不完整的词型进行检索, 其方法是在词干后可能变化的字符位处加上截词符号“?”、“*”或“$”。截 词符号的使用,既可减少检索词的输入量,又可简化检索步骤,扩大检索范围, 提高查全率,节省上机时间,降低检索费用。 截词方式根据截词的位置不同分为有限截词和无限截词两种(表 3-1)。 表 3-1 截词检索法 1.有限截词 有限截词是在检索词的词干后加一个或一个以上的(最多不超过 4 个)“?”, 然后空一格,再加一个“?”。前面的 1~4 个“?”表示限定所截字符的位数, 最后一个“?”表示截词停止的符号。如:alloy????,可检索出含 alloy alloyed alloying 的文献。 2.无限截词 无限截词是在检索词的词干后加一个“?”,表示不限制词尾部可变化的字 符位数。如:Program?,可检索出含 Program、programs、programming 等词的文献。 无限截词也可用于 PY 字段,如:PY=199?可检索出 1990-1999 年出版的 文献。 无限截词形式有前截断(后方一致)、后截断(前方一致)、前后截断(中 间一致)、中间截断检索四种形式。 1)前截断 前截断是指要求检索词与被检索词实现词间的后部相同。如:检索式“? magnetic”可检索出含有“magnetic”以及“paramagnetic”的文献记录。 2)后截断 后截断检索是指检索词与被检索词实现词间的前部相同的检索。如: “computer?”可检索出含有“computer”和“computers”的记录。 3)前后截断 前后截断检索是检索词与被检索词实现词间只需任意部分相一致即可。 4)中间截断 中间截断也称屏蔽检索,是指在一个字符串中插入一个或多个的截词符号 “?”,表示在问号的相应位置上可置换数目相当的字符。采用屏蔽检索可避免 漏检,提高查全率。 不论使用何种截断方式,其机理均是把满足条件的词全部用逻辑组配进行检 索。因此,在使用截词符时,事先要充分估计满足条件的所有词汇,以避免误检 现象。 如:“organi? ation”,可检索出含“organisation 和 organization”的 文献。 还有一种较为通行的说法,即把中间截断和后截断称为通配符(wildcard), 原理和用法大致相同。 三、位置检索 位置检索由位置算符(Position Operators)表达。位置检索是检索词在原 始信息中相对位置的限定性检索。这种检索在全文检索中应用较多,通常出现在 西文数据库中。常用的位置算符见表 3-2。 表 3-2 常用位置算符列表 需要说明的是不同的检索系统使用的位置算符不同,不同的算符在不同的系 统中有时可能含义不同。 四、字段检索 字段检索(Field Searching)是指定检索词出现的字段,检索时系统只对 指定字段进行匹配检索运算,提高了检索效率和查准率。在数据库中字段检索有 时是用代码来表示,常用检索字段见表 3-3。 表 3-3 常用检索字段 续表 五、全文检索 全文检索是指以文本信息作为检索对象建立全文数据库,除了具有布尔逻辑 检索功能外,还具有文本检索功能,并允许用户以自然语言检索而不是外在特征 来实现检索的先进检索技术。 在信息检索领域,全文检索一直是一个比较复杂的问题。与普通数据库检索 所涉及的结构化数据查询不同,全文检索不仅要查询结构化数据,而且还要查询 非结构化数据,这就必然会涉及自然语言的理解、分词、切词技术以及人工智能 技术等。在国外,全文检索系统的开发和应用已经有多年的历史,如美国的 Dialog、Lexis 等大型联机查询系统。近几年,随着 Internet 的飞速发展,全文 检索技术的应用更是日益广泛,Internet 上的一些著名搜索引擎,如 Yahoo、 InfoSeek、Lycos 等都采用了全文检索技术。相对来说,中文全文检索系统的开 发经历了比较曲折的道路。最初的中文全文检索系统是基于关系型数据库,但关 系数据库无法很好地支持非结构化数据检索,中文全文检索又无法在西文产品的 已有结构上实现,这促使中文全文检索技术的开发研究及其应用进入了一个新的 阶段,各种中文全文检索系统相继问世。目前比较著名的有易宝北信的 TRS、北 大方正的 MIRS、中国百科全书数据库、海文 Quick、清华的《中国学术期刊》 等大大小小的中文全文检索软件竞相开拓各自的市场领域。 全文检索技术的出现,导致了信息领域的一场革命。比起标引检索来,全文 检索提供了全新的、强大的检索功能,可以直接根据文献资料的内容进行检索, 支持多角度、多侧面地综合利用信息资源。全文检索技术是发现信息、分析和过 滤信息、信息代理、信息安全控制等领域的主要技术基础。以全文检索为核心技 术的搜索引擎已经成为网络时代的主流技术之一。 六、加权检索 加权检索是指根据用户的检索需求来确定检索词,并且再根据每个检索词在 检索要求中的重要程度不同,分别给予一定的数值(权值)加以区别,同时给出 检索命中界限值(阀值)进行限制。进行加权检索时,利用检索词查找数据库, 每条命中记录将其所包含的检索词根据检索时所限定的权值,分别计算命中记录 的权值之和,当已检出记录的权值之和超过或达到阀值时,为命中信息。目前常 用的加权方法有词加权、词频加权和法定数加权检索等。 七、超文本检索 超文本信息检索技术是以超文本网络为基础的文献检索技术。正文信息是以 节点而不是以字符串作为信息的基本单元,节点间通过链进行连接。在检索文献 时,节点间的多种链接关系可以动态地选择性激发,从而可根据思维联想或新信 息的需要,通过链从一个节点跳到另一个节点,由此形成随着人们思维和需要的 流动而构成的数据链,体现出一种完全不同于过去顺序检索方式的联想式检索。 目前已建立了多个基于超文本的检索系统,如 Yahoo、baidu、sohu 等著 名的网络检索系统。这些系统检索速度快,数据资料新,具备多种查询方式,极 大地方便了用户使用 Internet,提高了全文检索的另一指标——查全率。 根据检索机理不同检索技术又可分为基于内容的检索技术与基于概念的信 息检索技术。 基于内容的检索(Content Based Retrieval,简称 CBR)是随着多媒体技 术的发展而出现的多媒体数据库查询与检索技术。基于内容的检索是指根据媒体 对象的语义、特征进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场 景、镜头的运动,声音中的音调、响度、音色等。基于内容的检索是一项实用性 强的高技术,能广泛应用于遥感图像处理和空间探测、医疗图像、建筑工程图、 天气预报、公安、艺术馆藏资料管理等许多领域。尤其随着 Internet 的发展, 视频、音频用图形、图像将成为网上主要资源,而基于内容检索技术则是不可缺 少的检索手段。 基于概念的信息检索是通过对文献中的原文信息进行语义上的自然语言处 理,吸取各种概念信息,并由此形成一个知识库。然后,根据对用户提问的理解, 检索知识库中相关的信息,以提供直接的回答。 第二节 信息检索程序与策略 信息检索是根据课题的要求,利用各种有关的检索系统,按照一定的检索程 序和方法,采用各种检索策略查找信息的过程。 一、检索程序 查找信息的过程一般有六个步骤。 1.分析课题(需求和概念分析) 信息检索之前,首先要对课题进行充分的了解,掌握课题有关的基本知识, 详细摸清课题所涉及的学科范围及要求,明确课题的主题或主要内容。要形成若 干个既能代表信息需求又具有检索意义的主题概念,包括所需的主题概念有几 个、概念的专指度是否合适,哪些是主要的,哪些是次要的,概念之间的关系如 何;所需信息的数量、语种、年代范围、类型等具体指标。 2.选择检索系统和数据库 根据主题范围、信息类型、时间范围、经费支持等因素选择检索系统和数据 库。主要考虑数据库收录信息内容和设计的学科范围及更新周期,数据库提供的 检索功能和服务方式等因素。 3.确定检索途径和检索词 在检索过程中,根据所掌握的有关课题的资料,确定检索途径。一般情况下, 所研究的课题较专深、单一时,常用主题途径,课题所涉及的内容较复杂时,常 用分类法。常用的检索途径有著者、分类、主题、篇名、代码、出版时间、语种、 文献类型等。 检索词是表达信息需求的基本元素,用户输入的检索词,也是在计算机检索 系统中进行匹配的基本单元。检索时检索词的确定应注意以下问题:优先选用数 据库词表中的主题词检索;选用数据库规定的代码;选用通用的专业术语;注意 选用同义词、相关词、缩写词进行检索,以提高查全率。 4.构建检索表达式 检索表达式是计算机检索中用来表达用户提问的逻辑表达式,由检索词和各 种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成,是 检索策略的具体体现。 5.检索并调整检索策略 通过检索表达式对检出的检索结果进行分析,分析检索结果是否与检索要求 一致,不一致时要通过修改检索词和检索表达式,直到得到满意的结果。 1)扩大检索 对检索数量比较少的结果,可以进行扩检,提高查全率。例如: 增加一些检索词,或查询检索词的上位类词、近义词等作为补充; 调整组配算符,如改“and”为“or”; 使用截词检索,如将“center”改为“cent*”,即可查询包含“center” 和“centre”两种英美拼法,以及“centers”复数拼法的信息; 取消或放宽一些检索限定,例如检索的年限长一些,检索的期刊不只是核心 期刊等; 增加或修改检索入口,例如在已经检索题名人口的基础上,增加文摘、全文 检索等。 2)缩小检索 对检索数量过多的检索结果,考虑进行缩检,提高查准率,具体方法与扩检 相反,例如减少一些相关性不强的检索词,增加“and”组配算符,增加检索限 定,减少检索入口等。 6.输出检索结果 通过检索获得满意的结果后,确认有一定的参考价值,需要信息的全文时, 可根据检索系统提供的检索结果输出方式,通过打印或者存盘等方式得到原始文 献。 二、检索策略 检索策略就是为了实现检索目标而制定的计划和方案,包括选择检索系统和 数据库、检索途径的选择、编制检索表达式等。检索策略是影响检索效果的最重 要的因素。构造检索策略时往往需要各方面的知识和技能,首先要了解检索系统 的特性及功能,了解所检索的数据库,掌握检索方法,还需要了解所检课题方面 的专业知识等。在检索过程中,检索策略须根据检索效果的评价结果来修正和完 善。因此,一个完整的检索策略应是一个动态的执行过程,如图 3-2 所示。 编制检索表达式的过程是计算机检索成败的关键,下面介绍编写检索式的方 法。 检索表达式是由检索项和逻辑算符构成。检索项主要有语词性检索项和非语 词性检索项两种形式,语词性检索项是各种数据库中必不可少的基本检索项,常 用的语词性检索项分为受控词及其受控词与字段符号组合和非受控词及其非受 控词与字段符号组合。语词性检索项主要包括:主题词即单元词、关键词、标题 词、叙词,自由词等。非语词性检索项包括:分类号、专利号、年代号、登记号、 期刊代号、书号、语种代号等等。逻辑算符包括:布尔逻辑算符、截词符、位置 算符等。 制定检索策略时应注意的问题如下: (1)先国内后国外:首先利用国内检索系统或用中文编辑的报道外文的检 索系统入手检索。这样,检索者可以从自己熟悉的文字很容易掌握课题的概况, 并可以从中选择出切题的关键词、主题词,为进一步查找外文检索工具提供方便。 图 3-2 检索策略执行过程示意图 (2)检索时多选几个同义词、近义词:信息语言复杂多变,作者使用的语 词不尽一致,为了避免漏检,检索时尽量多选几个同义词、近义词作为检索词。 (3)巧妙地利用上下位词的关系:检索时要求查全率高而不计查准率时, 可利用上位词进行检索。 (4)尽量避免从字面出发选择检索词:尽量从内容上进行选词,以避免有 关问题因选词不当被漏检。 (5)变换检索词的词序:某些课题,在检索中反复查找而没有结果时,应 考虑倒置词序的可能。检索词序的准确与否是检索成败的关键。 第三节 信息检索效果 利用检索工具或检索系统查找信息时,检索结果并不是在任何情况下都能如 愿以偿。其主要原因是:目前的检索系统看,只能处理信息标识,而信息的标识 只能表示信息的中心主题,即不能表示信息的次要主题。即系统只能回答信息提 问而不一定能满足信息需求。从检索者来看,一般只能大概地表述自己的信息提 问,而不能确切地衡量信息与提问的切题程度。再加上,检索课题性质、范围、 深度不断变化,查找信息的方法尚未形成固定模式,补充词表的出版不及时,人 们不可避免地受到知识面的局限等,致使信息标引与检索失误在所难免。 一、检索效果的分析评价 在目前情况下,对检索结果的分析评价指标主要有以下几种: (1)查全率:查全率是对所需信息被检出程度的量度。 (2)查准率:查准率是衡量检索系统拒绝非相关信息的能力。 查全率和查准率均可以用以下公式来表示: 其中:a 为被检出的相关信息,b 为被检出的非相关信息,c 未检出的相关 信息。 除此之外,c/(a+c)×100%为漏检率,是查全率的补数;b/(a+b)× 100%为误检率,是查准率的补数。 一般来说,查准率与查全率之间存在反变关系。当某一课题的查全率与查准 率处于某一比例关系时,继续提高查全率,查准率会降低;反之,提高查全率, 查准率就会下降。 (3)检索时间。主要是看检索者能否在较短的时间内,尽可能全面准确地 检出相关信息。这方面要求检索者对信息资源、检索技术、自身的检索需求要熟 悉、清楚,此外,要具备一定的上网条件和网络速度。 (4)检索成本。检索成本,通常指每次检索、或者下载每篇文献、或者获 得的每个数据,所需的总费用(随检索完成即由系统自动计算)或平均费用,后 者可以使用购买数据库的总费用除以检索总量、下载总量、获取的数据总量来计 算。 二、检索效果优化 1.影响查全率和查准率的因素与提高方 法 对一次检索来说,查全率、查准率是衡量检索效果的主要技术指标。 (1)从文献存储方面来看影响查全率的因素主要有:文献库收录文献不全; 索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不 详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等。从信息检 索方面来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径 和方法太少;检索人员业务不熟练或缺乏信心;检索系统不具备截词功能和反馈 功能:检索时不能全面地描述检索要求等。 (2)影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求; 组配规则不严密;选词及词间关系不正确;标引过于详尽;组配错误;检索时所 用检索词(或检索式)专指度不够,检索面宽于检索要求;检索系统不具备逻辑 “非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当;检索 式中使用逻辑“或”不当等等。 (3)提高查全率的方法:为了提高查全率,往往提高检索词的泛指度,选 全同义词、近义词,多用截词符;减少使用逻辑“与”、逻辑“非”运算符,增 加使用逻辑“或”运算符;在多字段或全文中检索中取消某些限制符;采用分类 号检索等。 (4)提高查准率的方法。为了提高查准率,往往提高检索词的专指度,增 加或者使用下位词及专指性较强的自由词,少用截词符;增加使用逻辑“与”、 逻辑“非”运算符,减少逻辑“或”运算符;多用限制符或限制字段;用文献的 外部特征限制等。 2.检索效果优化方法 影响检索效果的因素是多方面的,检索效果的优化需要有针对性地从多方面 进行改进。 (1)提高检索系统的质量,检索系统收录信息内容的范围不但要广泛,而 且要切合课题检索的要求;著录的内容详细、精准,辅助索引完备;具有良好的 索引语言的专指性与网罗性及其标引质量等。 (2)提高用户利用检索系统的能力,使之具备一定的检索语言知识,能选 取正确的检索词,并能合理使用逻辑组配符完整地表达信息需求的主题;能灵活 运用各种检索方法和检索途径等使检索工具最大限度地发挥作用。比如,全面准 确地表达检索要求,合理使用信息、检索点。根据不同检索课题的需要,适当调 整对查全率和查准率的要求。 (3)制定优化的检索策略,尽量准确地表达检索要求,合理调整查全率和 查准率。由于查全率和查准率是互逆的,所以需要根据课题的具体要求来合理调 整两者的比例关系。若需了解某项研究的概况,则要求查全率高;若需了解某项 研究的最新进展,则要求有较高的查准率。 复习思考题 1.信息检索的程序一般分为几个步骤? 2.常用的检索途径有哪些? 3.检索时检索词的确定应注意的问题有哪些? 4.制定检索策略时应注意的问题有哪些? 5.目前常用的检索技术有哪几种? 6.什么是布尔逻辑表达式? 7.使用逻辑或、逻辑与、逻辑非运算取得的检索效果是怎样的? 8.截词运算中截词符号的使用目的是什么? 9.位置算符有哪几种?它们的含义是什么? 10.检索结果的主要评价分析指标有哪些? 11.影响查全率和查准率的因素与提高方法有哪些? 12.检索效果的优化需要有针对性地从哪几个方面进行改进? 最后修改:2023 年 06 月 16 日 © 允许规范转载 打赏 赞赏作者 支付宝微信 赞 如果觉得我的文章对你有用,请随意赞赏
此处评论已关闭