扫描仪图文处理 A. 概述 问:请问用扫描仪处理图片和文字,都有哪些方法和用处? 答:用扫描仪处理图片,根据目的不同有几种处理方法和用处。一是把照片或 画片通过扫描仪变成电脑能够识别、显示的图像文件,按原样供打印机打印或印刷 机印刷。二是把几张照片或图片经扫描仪扫描变成图像文件后,进行剪辑、拼合、 放大、缩小、旋转、剪裁甚至换一个脑袋等等屏幕编辑手段处理,然后提供印刷或 打印。三是把已经破损或发黄陈旧的老照片经过扫描输入电脑,进行色彩调整、修 补破损处,使其恢复原状。 处理文字,最主要的用处是能够把书报期刊上的文章经过扫描储存起来,随时 调用。 问:这样说,用扫描仪处理文字,不是跟复印机的作用差不多么? 答:不一样。复印机复印下来的是“纸张文件”,只能阅读参考,需要利用的 时候,必须经过抄写或在电脑中重新录入;而由扫描仪扫描再经过OCR 识别软件识 别的文件,是“电脑文件”,可以在电脑中调进调出。因为经过OCR 识别以后,所 有的文字都是“活动”的,可以在屏幕上进行增删编辑修改。经过扫描仪扫描、识 别处理以后的文字,不但可以用来作为资料储存,需要再利用的时候,随时可以调 出来组进文章中去。编辑或翻印一部书,也不用再次排字了。 问:您刚才说的OCR , 请问是什么意思? 答:印刷品中的文字,经过扫描仪先以“图像文件”的形式输入电脑,所有文 字都是以“页”为单位连成整体的,不是一个一个的,无法增删编辑;这种图像文 件再经过文字识别软件识别转换成TXT 文件,变成了一个一个“活”的文字,就可 以增删修改了。这个过程,就叫做OCR ,是英文Optical Character Recognition 的首母缩写。 问:什么叫做TXT 文件? 答:电脑中储存的文件,有许多格式。例如图像文件,就有TIF 文件、BMP 文 件、PCX 文件、JPG 文件等等;文字文件,因为所产生的系统不同,也有许多种。 例如由WPS 文字处理系统产生的文件,叫做WPS 文件,由Word文字处理系统产生的 文件,叫做Word文件,因为它是用DOC 作为文件名后缀的,所以也叫DOC 文件。由 文字处理系统产生的文件,一般都含有字体、字号、行距、字距、版面大小等等规 格。由不同文字处理系统形成的文件,在不同的文字处理系统中并不兼容,甚至同 是一种类型的文件,由于处理系统的版本不同,互相之间也不兼容。只有TXT 文件, 它除了以“段”为单位之外,没有任何其他规格,因此在任何一台电脑上,都能够 调出来;如果是汉字文件,则在任何一种汉字处理系统中都能够调出来。 问:中文OCR 技术是从什么时候开始研究的?现在的成果如何? 答:在国外,拼音文字国家的OCR 技术早在20多年前就已经比较成熟了。因为 拼音文字字母数有限,而每一条词语都有固定的词形,有字典和“正字法”在管着, 因此识别转换并不太困难。汉字总数有好几万,常用的也有好几千,加上许多词形 并不固定,“介绍”可以写作“绍介”,“糊涂”也可以写作“胡涂”,因此识别 转换极为困难。1986年3 月,国家“863 计划”信息领域课题组正式成立了OCR 研 究项目,由清华大学、北京信息工程学院和沈阳自动化研究所在协作的前提下分头 进行攻关。1989年,清华大学首先开发成功国内第一套汉字OCR 软件:TH-OCR 1.0 版(TH是“清华”的英文拼音Tsing Hua 的缩写)。 B.关于图文处理软件的选择 问:请问用于图文处理的软件都有哪些? 答:有了扫描仪以后,还必须有与之相匹配的软件,才能工作。 用扫描仪处理图片和文字,是两个不同的系统,所用软件,也各不相同。 下面先说图像处理。 把图片经过扫描仪扫描,变成了图形文件,根据不同的要求,可以放在不同档 次的图像处理软件中进行编辑。 购买扫描仪,一般都附带几个图像处理软件。例如iPlus 、朱庇特、扫描大师、 我行我速等等。这四个常用软件,前两个是英文版的,后两个是中文版的,都属于 业余档次。比较专业的软件,有中文版的Photoshop 5.0~5.5 版等。 最简单而方便的图像编辑软件,是紫光扫描仪的随机软件“扫描大师”。 文字识别软件,目前比较好的是TH-OCR.TH-OCR 早先的版本只能识别简化汉字, 识别率也不是很理想。现在发布的7.5 版,不但可以识别繁简两体的许多字型,而 且还能够识别表格和工整的手写体。纸张洁白、印刷清晰的常用字印刷品,识别率 达到了98%~99% 的水平。目前比较欠缺的,是手写体的识别率不是太高,识别的字 也仅限于“国标码”第一表中的三千多字,第二表中的三千多字要经过“自学习” 才能识别,而“国标扩充码”20902 个通用汉字中,则大多数还不能识别。因此, OCR 目前只适用识别于现当代出版物,不适用于古籍。 根据以上所说,一般用户,扫描图像,应该使用“扫描大师”,而处理汉字, 则应该使用TH-OCR 7.50 版。 C.应用 问:请问“扫描大师”软件怎样安装? 答:“扫描大师”软件有磁盘版和光盘版两种。磁盘版单独装在一张1.44M 的 高密软盘中,光盘版与其他图文处理软件合装在一张光盘中。不论磁盘版还是光盘 版,安装方法基本上是一样的:把软盘或光盘放进驱动器,在“桌面”上双击“我 的电脑”图标,再选择软驱或光驱的图标,双击,显示软件目录以后,点击Install 图标,所有提示都是汉字的,只要按提示操作就可以。软件安装完毕,应该在“桌 面”上建立一个快捷式图标,便于以后操作。 问:请问怎样用“扫描大师”来扫描一张照片? 答:要使用“扫描大师”,首先得熟悉“扫描大师”软件的界面和操作方法。 双击“扫描大师”的快捷式图标,屏幕显示如图-1所示。
问:怎样用扫描仪扫描并识别汉字书刊? 答:开开扫描仪,在“桌面”上双击TH-OCR图标,屏幕上首先显示软件封面, 片刻之后,显示TH-OCR的主界面,如图-1所示。
点击第三行的“扫描仪”图标,屏幕上弹出扫描设置和预选窗口如图-2所示。
左半是“扫描对象”设置,可根据所要扫描的对象分别设定。例如在OCR 环境 下,不能扫描彩色图片,“影像类型”一项,必须设置成“黑白线”。“图片来源” 一项是固定不变的,不用管它。“扫描模式”,可在“高速”与“高质”中选择 (处理文字,要求的是识别率,因此应该选“高质”)。下面的“解析度”,指的 是分辩率,可根据所扫描的对象分别确定。例如识别文字,最佳分辩率为300dpi, 高了速度太慢,低了识别率不高。其余选项,可以不管。 右半是“图形预选”设置,每次开机,选择框内显示的,必然是上次扫描的图 像。 先决定所要扫描的对象怎样放置。例如所扫描的是16开的书或杂志,应该把书 刊翻过来让文字面朝下,把左上角(注意:是正面文字的左上角)对准“扫描原点” (4 -系列在扫描仪玻璃板的右上角,6 -系列在左下角)。如果是32开的书刊, 可以有两种放法:一种是一页一页扫描,放法同16开书刊,一种是每次扫描两页 (指书本打开后的左右两面,印刷行话叫“蝴蝶页”),则要把书刊的右上角对准 扫描原点(注意:是右上角)。 进行正式扫描操作之前,先要做一次“预览”,目的是决定扫描区域的大小, 把虚线框拉到与扫描对象一般大小(设大了影响速度,设小了图像或文字不全,无 法使用), 盖上扫描仪上盖(如果扫描对象太厚,盖子盖不上,可以不盖,但必 须用手摁住不许再动)。这时候点击“预览”按钮,扫描仪即开始扫描。例如扫描 32开的书刊,扫描结束,退出扫描后的结果如图-3所示。
下一步,要让扫描对象转正。点击第三行的“旋转90度”图标,屏幕显示如图 -4所示。
下面一步,是划定识别范围。如果是书本,每页上排的都是文字,处理起来很 简单,只要每页划一个识别框就可以了。杂志的排版,一般分为两栏或三栏,还有 插图之类,文字并不都是方方正正的“豆腐干儿”,因此必须一块块划定,还要把 不需要的部分“舍弃”掉。例如上图的划法,如图-5所示。
上例中,根据大小不同和先后次序,一共要划11个小框。划框的方法:把鼠标 光标对准要划部位的左上角(其实任何一角都可以),按住鼠标左键,往“对角” 即右下角拉。拉到适当地位,放开左键,一个框就划好了。如果划得不准,可以修 改。注意:屏幕上左右两半,内容是一样的,不过左面看到的是“全图”,右面看 到的是“局部”。一般的操作,划框在左半进行,修改在右半进行。用鼠标光标在 左半的任意部位一点,右半显示的就是鼠标所点的部位。每一个文字选择框,绝不 能压住文字或把文字甩到了框外。如果压住了,用鼠标光标的尖尖儿对准线条,鼠 标光标会变成一个双向箭头,这时候按下左键移动鼠标,框线就会跟着移动。移到 适当地方,放开左键,框线就固定下来了。 一般说来,文字的上下和右面多空一些没关系,左面不能空,不然识别以后前 面会多一个空格。 全部识别框都检查过以后,点击文字识别图标,系统就会把图像文件识别出来, 如图-6所示。
识别以后的文字,是按原来的版面规格排列的,实际使用,需要重新编排。系 统认为可能是错字的字,以蓝色显示。从上例中可以看出,国标码一表中的3000常 用字,识别率是很高的,但是国标码二表中的通用字,就不一定认识。例如“铎” 字,就全部错成“择”字了。 错字的修改,可以在这时候进行。用鼠标或光标移动键,可以把黄色的“原文 提示行”移到识别后的字行上面,同时屏幕下方也显示原文,以便于对照修改。当 然,也可以存盘后调进别的文字处理系统中连编排带修改一次进行。 一篇文章扫描结束,点击“文件”菜单,屏幕显示如图-7所示。
这时候点击“关闭所有文件”或“退出”,效果是一样的,屏幕显示都如图-8 所示。
如果识别的文件只有一页(识别一次算一页,双面识别也算一页),系统会默 认以“暂时文件”存盘退出(上栏“合并文件”字迹虚化),要求用户在“使用” 后面的空框输入一个文件名,并删除“跟踪文件”;如果识别的文字在二页以上, 系统会默认以“合并文件”存盘退出(下栏“暂时文件的字迹虚化”),这时候要 在“合并后”输入一个文件名,最后点击“确认”按钮存盘退出。 问:怎样用扫描仪扫描图像? 答:用扫描仪扫描图像,必须使用图像扫描软件,例如紫光扫描仪随机赠送的 “扫描大师”或“我行我速”。用扫描仪处理图像,其实只是做了把图像输送到电 脑中去这样一件很简单的事情,会用OCR 的用户,不用学就会使用,倒是图片的其 他处理变化更其复杂。下面先用“扫描大师”为例简单介绍把图片“扫”进电脑中 的方法。 在桌面上点击“扫描大师”的快捷图标,屏幕上弹出界面如图-9所示:
点击“文件”菜单中的“扫描”选项,屏幕上显示的界面与图-2是完全一样的。 不同之处在于扫描对象的参数设置。根据图像的不同,可以有“彩色图像”、“黑 白图像”、“黑白线”和“半灰”四种选择。“解析度”可以比文字稿略低,如果 不是要求特别精密,一般用150~200dpi就可以了。300dpi以上,第一是速度慢,第 二是占用磁盘空间多(300dpi的要比150dpi的多占一倍磁盘空间)。如果原稿上有 网纹,还要在“去网纹”选项中选择“轻度”、“重度”或“正常”。 下面的操作基本上与扫描文字相同,即把图片放好,先预览一下,定好图片的 大小即扫描区域,然后点击“扫描”按钮,图片即扫描进去了。 扫描以后的图片为1 :1 显示,一般都很大,屏幕上只能看见一部分(这是为 了便于做细微的修改)。如果想看看全图,可以点击“显示”菜单中的“适应窗口”, 如图-10 所示。
如果只是一般的剪切,可以在“适应窗口”中进行。例如上图只要孩子部分, 不要太多的背景,可点击屏幕右上角“工具箱”中的 图标,这时候鼠标光标会变 成一个十字形。用这个十字形在图片中划一个框,把不要的部分划在框外,然后点 击“编辑”菜单中的“复制”功能,再到Word界面上新创建一个空文档,用“粘贴” 功能粘贴到某一个地方,如图-11所示。点击这张图片,四角和四边会出现八个小 框框,可以用光标移动键或鼠标按住图片任意移动,也可以用鼠标在四角的小框框 上按住以后拉变:放大或缩小。
如果要在图片中写字,可点击工具箱中的图标,然后在图片的空白处随便一点, 屏幕上就会弹出一个“文字选项”选择框如图-12 所示。
用字迹熟悉的汉字输入法在“文字”输入框中输入几个字,选定字体和大小, 点击“确认”按钮认定,这几个字就在图片上刚才“随意一点”的地方出现,不过 字的外面有一个小框。用鼠标左键按住这几个字,能够在图片中任意移动。移动到 适当地方,放开按键,字就固定住,再在框外一点,框就消失了,如图-13所示。 这时候,就可以用彩色打印机把图片打印出来。
如果所扫描的是旧照片,画面上有破洞或污垢,可以进行简单的修补。方法是: 先估计破损处是什么颜色,然后在工具箱中点击“采取色彩”图标 ,再切换到工 具箱中的划点或划线功能,用点或线把破损的地方补足。当然,这是简易的修补, 如果要补得“天衣无缝”第一需要高超的技巧,第二需要更高级的软件。这里就不 多说了。 “扫描大师”主要用于图片扫描,制作功能比较差。如果希望制作彩色名片、 贺卡或个人相册之类,就要用随机赠送的图像处理软件“我行我速”。这是台湾 “友立”公司的产品,本来是专业软件,随扫描仪赠送的是2.0 版的普及版,对业 余用户来说,也够用了。 在“桌面”上点击“我行我速”的快捷图标,屏幕上弹出的界面如图-14所示。
在这里,既可以用扫描仪扫进图片,也可以用数码相机摄入图片,然后进行处 理。例如把自己的照片做成电子贺卡通过Email 发给亲友,或做成猜测名片通过彩 色打印机打印出来使用等等。如果需要更加专业的图片出落出软件,那就要用到Photoshop 了。图像处理软件变化万千,既不是一两句话所能说得明白,也不属于这一节介绍 扫描仪用法的范围,这里就不详细说了。