【信息技术基础】信息检索
文献检索
读者在检索、利用文献资源时经常遇到:找不到、找不全、不能合理利用的问题
解决方法就是加强信息素养
信息素养
联合国教科文组织(UNESCO) 2005年公布的 《亚历山大宣言》,宣称信息素养和终身学习是信息社会的灯塔,照亮了通向发展、繁荣和自由之路。
什么是信息素养
信息素养(Information Literacy)的本质是全球信息化需要人们具备的一种基本能力。
信息素养包括:
- 信息意识:认识、观念和需求的总和,是形成信息素养的重要动力
- 信息知识:认识和经验的总和,是构成信息素养的基础
- 信息能力:信息创新的能力,是信息素养的核心
- 信息道德:信息活动的行为规范总和
如何判断自己已具备了信息素养呢?
1.独立决定所需要信息的种类和程度
主动学习、自动吸纳知识学习过程。
强烈的意识到:书、刊、学位论文、会议论文、专利、标准等的:
背景信息——概念 事实 数据
摘要信息——题目 标题 文摘 参考文献
全文信息——观点 方法 结论 理论
2.能够高效的获取所需的信息
高效:查找方法+检索系统=检索策略
3.能够以现有的知识背景和评价标准对信息来源进行评价和筛选
提取有意义的核心思想,融合自己掌握的知识提出新发现和新观点,同时滚动补充所需信息,进行整合利用
4.能够有效的利用信息达到某一特定目的
学习融合他人文献观点、思想、数据,应用于自己的论文、著述
5.能够在利用过程中遵守相关的法律法规
高校学生应该具备信息素养的六个指标
(布鲁斯理论——知识结构)
鉴别信息及其来源
→ 有效地获取所需信息
→ 确定所需信息范围
→ 将检出的信息融入自己的知识基础
→ 有效地利用信息去完成一个具体任务
→ 合理、合法地获取和利用信息
信息基础知识

信息是自然界和人类社会中一切事物自身的运动状态与方式,是事物的内在联系和含义的表征,信息通过一定的载体形式反映事物的本质特征及其运动变化。
知识是人类积累的关于自然和社会的认识和经验的总结,是人类通过收集和 利用信息对自然界、人 类社会及思维规律的认识与掌握,是人的大脑通过思维重新组合的系统化信息的集合。
情报一般是指在特定的时间、特定的状态下,为特定的人提供的有用知识。
文献是记录有知识的一切载体
信息、知识、情报、文献之间的关系

以苹果为例
信息:苹果
知识:每天一个苹果有利于健康
情报:苹果的种植、销售、费用等
注:对信息整理加工和分析产生知识,而信息必须经过分析并且落实到行动、建议才称得上是情报
文献信息源
文献是记录有知识的一切载体(供记录信息符号的物质材料,称之为载体材料)。
具体的说用文字、图形、符号、声频、视频等技术手段记录人类知识的一切物质载体。
三要素:知识、记录方式、载体
文献信息类型

载体形式
印刷型:主要指以纸张为载体,通过印刷手段把负载知识的文字固化在纸
缩微型:以感光材料为载体,以光学缩微技术为记录手段
声像型:以磁性、感光材料为 载体,直接记录声音、图像的一种文献
手写型:古代各种非印刷型文献如甲骨、简策、帛书等以及还没有正式付印的手稿
电子数字型:利用计算机进行存储和阅读的一种文献形式
加工程度
零次文献:是形成一次文献之前的信息、知识、情报,即未公开的最原始的文献。通常为书信、论文手稿、笔记、实验记录、会议记录等
一次文献:即原始文献,通常指作者的原始创作。这类文献记录的内容具体、系统、详尽,有新意,有创造性,是文献检索的主要对象。专著、期刊论文、学位论文、研究报告、会议论文、专利说明书等都属于一次文献。
二次文献:通称检索工具。是对一次文献进行压缩,将分散无序的一次文献收集整理、加工编制而成的。由于为查找利用一次文献提供线索与方便,故被视为文献检索的主要工具与手段。题录、目录、索引、文摘等属于二次文献。
三次文献:一般是在广泛利用二次文献的基础上,选用大量的一次文献,经过阅读研究、并浓缩提炼而成。三次文献对已取得的成果、进展或加评论,或预测发展趋势,读者借此可以了解当前的研究水平和动态。因此,被认为是一种高级情报。年鉴、进展、述评、综述等都属于三次文献。
图书
凡由出版社(商)出版的不 包括封面和封底在内49页以上的印刷品,具有特定的书名和著者名, 编有国际标准书号,有定价并取得版权保护的出版物称为图书。
特点:
- 内容比较系统,全面,成熟,可靠;
- 出版周期较长,信息新颖性不够。
国际标准书号 ISBN
2007年1月1日起,每个国际标准书号由10位增至13位数字 。
原有的10位书号须在前面加上978或979并重新计算校验码,以转换为新的13位格式 。
由13位数字组成,分成五段,用 - 隔开
图书前缀号-国家代码-出版社代码-书序码-校验码

图书标引的格式
参考文献书籍引用格式为:
作者.书籍名称[M].出版社所在城市:出版社名称,出版年份:页码.
[1]刘国钧 ,陈绍业 .图书馆目录 [M].北京 :高 等 教 育 出 版 社,1957:15-18.
[2]多米尼克·萨尔瓦多,德里克·瑞杰.统计学与计量经济学[M]. 杜艺中译. 第二版. 上海:复旦大学出版社,2008: 8
期刊
期刊也称杂志,是一种采用固定刊名,定期或不定期出版的连续出版物。有统一的版式和外观,使用年、卷、期连续编号,每期可刊载多个著者的多篇文章
特点:出版周期较短, 内容新颖,学术性强,信息量大,能及时反映世界科技发展水平,被称为“整个科学史上最成功的无处不在的科学信息载体” 。
我国正式期刊的刊号是:
国际标准刊号(ISSN)
国内统一刊号(CN)
期刊的分类
学术性期刊
快报性期刊
检索性期刊
期刊的标引格式
[1] 李炳穆. 理想的图书馆员和信息专家的素质与形象[J]. 图书情报工 作,2000(2): 5-8.
[2] 谷树忠. 西藏食物保障度分析及对策[J]. 自然资源学报, 2000, 15(4): 25-31.
专利
专利是国家按专利法授予申请人在一定时间内对 其发明创造成果所享有的独占、使用和处分的权利
如:专利申请文件、专利说明书、专利公报、专利证书、专利文摘等。
专利有三种含义
- 专利权-法律
- 发明创造-专利技术
- 专利文献-文献
特点:独占性、排他性、地域性、时间性
号:
申请号—专利申请号(200480008555.5)
公开号—专利公布编号 (CN1768290A)
公告号—专利授权公告号(CN1768290B)
专利号—专利原申请号(ZL 200480008555.5)
国际专利分类号(IPC)——如:G02B13/18
日:
申请日——专利机关受到申请说明书之日。
公开日——专利申请公开之日。 公告日——专利授权公告之日。
优先权日——是指专利申请人就同一项发明在一个缔约国提出申请之后,在规定的期限内又向其他缔约国提出申请,申请人有权要求以第一次申请日期作为后来提出申请的日期,这一申请日就是优先权日
专利的类型及保护期限
名称 | 要求 |
---|---|
发明专利 (20年) | 对产品、方法及其改进提出新的技术方案 |
实用新型专利 (10年) | 对产品形状、构造及其结合提出的实用方案 |
对产品形状、构 造及其结合提出 的实用方案 | 对产品形状、图案色彩等所作出的富有美感并适合于工业上应用的新设计 |
获得专利权的条件
- 新颖性
- 创造性
- 实用性
专利的标引格式
专利申请者(或所有者).专利名[P].专利国名:专利号,发布日期.
[1]刘加林. 多功能一次性压舌板[P]. 中国: 922114985.2, 1993-04-14.
标准
标准文献属于特种文献 ,既具有一般科技文献的作用 ,又具有法律效力
如:标准目录、标准汇编、 标准年鉴、标准的分类法、标准单行本等
特点:
- 发表的方式不同
- 分类体系不同
- 性质不同:具有法律性质或约束力的文献
国内标准的编号
国家标准–GB GB/T GB/Z
行业标准–YY WS 如:YY0598- 2015 HG QB等
企业标准–京Q/JB1- 8
标准的类型
适用范围划分:
- 国际标准
- 区域标准
- 国家标准
- 行业标准
- 企业标准
标准化对象划分:
- 技术标准
- 管理标准
- 工作标准
成熟度划分:
- 强制标准
- 推荐标准
标准的标引格式
技术标准代号,技术标准名称[S].
[1] GB/T 7714-2005, 文后参考文献著录标准[S].
搜索引擎
搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术
搜索引擎诞生的背景和发展历程
互联网的普及是搜索引擎诞生必然因素
- 1994.4 杨致远等创办Yahoo
- 1998.9 Google创立
- 2000.1 李彦宏、徐勇两人创立百度
- 2009年 bing 推出
- 2012年8月,360搜索推出
常用搜索引擎
搜索引擎的分类
搜集内容分类
主要有综合性搜索引擎、专题搜索引擎和特殊搜索引擎。
综合性搜索引擎是以搜集所有类别Web页面为目标的搜索引擎,又称为通用型搜索引擎,如Google
、Baidu
等;
专题搜索引擎是以搜集面向某一主题或领域的Web页面为目标的搜索引擎,如Medical Matrix
、PharmWeb
等;
特殊型搜索引擎是专门用来检索某一类型信息或数据的搜索引擎,如查询人物的Ucloo
、查询图像的WebSEEK
。
搜索功能分类
主要有全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(MetaSearch Engine)。
全文搜索引擎即通常所称的搜索引擎,是利用搜索器自动实现对网页的搜集,并自动生成索引库,根据相关算法实现用户检索词与索引库的相关度计算,把结果按照相关度排序返回给用户,如百度
、Google
等。
目录索引类搜索引擎不同于通常所称的搜索引擎,它不使用蜘蛛、机器人等程序搜索网页信息,而是通过其他网站的自动提交或是人工的形式对网页进行评分、分类和整理,将相应的网页归入对应的类,供用户浏览使用。虽然可以提高用户的查准率,但同时也降低了查全率,如Yahoo
、DMOZ
等
元搜索引擎是将检索词提交到不同的搜索引擎,并将结果分别以不同的形式提交给用户,实现多个搜索引擎的同步检索,如InfoSpace
、Vivisimo
等。
搜索指令
site
,用来搜索某个域名在搜索引擎收录的所有文件。百度、Google、雅虎等各大搜索引擎都支持该指令。
link
,用于查询url
的反向链接,只有google支持该指令,但查询结果不准确。
linkdomain
,该指令也是用于查询域名的反向链接,但只有雅虎支持,用雅虎来查网站的反向链接数据比较准确,所以都会用雅虎的linkdomain
:命令查询一个网站的反向链接。
inurl
,用于搜索查询呈现在url
中的页面,baidu
和google
均支持该指令。
intitle
,该指令返回的结果是页面title包含关键词,baidu
和google
均支持该指令。
allintitle
,该指令和intitle
意思差不多,也是查询页面title
包含关键词,唯一的却别在于allintitle
指令可以同时查询多个关键词。
filetype
用于搜索特定文件格式,baidu
和google
均支持该指令
(-)减号
,减号代表搜索不包含减号后面的词的页面。使用这个指令时减号前面必需是空格,减号后面没有空格,紧跟着需求排除的词,baidu
和Google
均支持该指令。如:111-222,返回的结果则是包含“111”这个词,却不包含“222”这个词的结果。
(+)加号
,使用加减号可以限定查找范围,加号表示限定搜索结果中必须包含的内容如搜索111+222就表示在搜索结果中包含“111”,同时必须也包含有“222”这一内容(可以用空格表示)
(“”)双引号
,把搜索词放在双引号中,代表完整匹配搜索,也就是说搜索结果返回的页面包含双引号中出现的所有词,必需完整匹配,baidu
和Google
都支持这个指令。
(《》)书名号
,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。
( )空格
,空格表示有多个关键字
信息检索分类

信息检索流程

基本检索技术
布尔逻辑检索
是指利用布尔逻辑运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。
AND,也可以用*
表示。可用来表示其所连接的两个检索项的交叉部分,也即交集部分。
如果用AND连接检索词A和检索词B,则检索式为:A AND B(或A*B),表示让系统检索同时包含检索词A和检索词B的信息集合C。
OR,也可以用+
表示。用于连接并列关系的检索词。
用OR连接检索词A和检索词B,则检索式为:A OR B(或A+B),表示让系统查找含有检索词A、B之一,或同时包括检索词A和检索词B的信息。
NOT,也可以用-
号表示。用于连接排除关系的检索词。
即排除不需要的和影响检索结果的概念。用NOT连接检索词A和检索词B,检索式为:**A NOT B(或A-B)**。表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。
注:运算优先级别为 NOT>AND>OR
位置检索
位置检索也叫邻近检索,是用一些特定的算符(位置算符)来表达检索词与检索词之间的临近关系
“(W)”算符
“W”含义为“with”。这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒。“(W)”算符还可以使用其简略形式“()”。例如,检索式为“communication (W) satellite”时,系统只检索含有“communication satellite”词组的记录。
“(nW)”算符
“(nW)”中的“w”的含义为“word”,表示此算符两侧的检索词必须按此前后邻接的顺序排列,顺序不可颠倒,而且检索词之间最多有n个其他词。例如:laser (1W) printer课检索出包含 “laser printer”、“ laser color printer”和“ laser and printer”的记录。
“(N)”算符
“(N)”中的“N”的含义为“near”.这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。
“(nN)”算符
“(nN)”表示允许两词间插入最多为n个其他词,包括实词和系统禁用词。
“(F)”算符
“(F)”中的“F”的含义为“field”。这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,词序不限,中间可插任意检索词项。
“(S)”算符
“(S)”中的“S”算符是“Sub-field/sentence”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如“high (W) strength (S) steel”表示只要在同一句子中检索出含有“high strength 和 steel”形式的均为命中记录。
截词检索
截词检索是预防漏检提高查全率的一种常用检索技术,大多数系统都提供截词检索的功能。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。
截词检索一般是指右截词,部分支持中间截词。截词检索能够帮助提高检索的查全率。
不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。
- 后截断,前方一致。如:
comput?
表示computer,computers,computing等。 - 前截断,后方一致。如:
?computer
表示minicomputer,microcomputer等。 - 中截断,中间一致。如
?comput?
表示minicomputer,microcomputers等。
(1)前截词:如以*ology作为检索提问,可以检索出含有physiology、pathology、biology等的文献。
(2)后截词:如以child*作为检索提问,可以检索出含有child、children、childhood等词的文献
(3)中间截词:主要用于英式英语和美式英语的拼写差异,如用colo*r
作为检索提问,可以将含有color或colour的文献全部检出
字段限制检索
字段限制检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。
常用检索字段有:标题、摘要、关键词、作者、作者单位、参考文献等
常用的中文数据库
- 中国知网
- 万方
- 维普
常用外文数据库
英文学术性数据库按类型可分为文献型、数值型、 事实型、图像型和多媒体型几种
文献型数据库又分为全文数据库和索引数据库
目前常用的综合性英文全文数据库有EBSCOhost、 ProQuest系统全文数据库、AST、Elsevier、ARL、 ASP、BSP、KLUWER、IEL、JSTOR、World Scientific等,
索引数据库主要有CSA、INSPEC、 EI Village、Web of Science、ISTP、CC等