Краткая интсрукция по использованию програм для сканирования книг

Самая лучшая система распознавания текста

Самая лучшая система распознавания текста на данный момент. Позволяет пользователю автоматизировать процесс сканирования, с легкостью распознавать книжный тексти сохранить текст и сканированные изображения в различные форматы. Так же с ее помощью возможно удобное создание электронных книг.

Данный комплекс можно скачать по следующим адресам:

Программа - http://fr7.abbyy.com/fr80/FR80PE_TB_ER.exe

Доп. языки распознавания - http://download.abbyy.com/addlang/build800706/default.aspx?language=en

Русский интерфейс - http://fr7.abbyy.com/fr80/addlang/8.0.0.706/Russian%20UI/Russian%20UI.exe

Вопросы по регистрации и др. - http://forum.ru-board.com/forum.cgi

Данная программа предназначена для создания

Данная программа предназначена для создания DjVu файлов.

DjVu - графический формат, оптимизированный для хранения отсканированных документов. В частности он идеально подходит для создания электронных книг.

Особое значение этот формат приобретает для переноса в сеть математической и вообще технической литературы, где обилие схем и формул делает распознавание и перевод в текстовый формат практически невыполнимым. В настоящее время DjVu становится фактическим стандартом для электронных библиотек технической и научной литературы.

Данный комплекс можно скачать по следующим адресам:

Программа

Без поддержки распознавания, виртуального принтера идр (каждый файл не более 1.5 Mb)

Document Express Editor v6.0.1 Build 1320 LE NT - http://www.dstu2204.narod.ru/djvu/Editor6_LE_nt.rar

Document Express Editor v6.0.1 Build 1320 LE 9x - Document Express Editor v6.0.1 Build 1320 LE 9x

Полная версия (53.1 Mb)

Document Express Editor v6.0.1 Build 1320 - http://www.lizardtech.co.jp/download/djvu/modules/windows/editor/6.0.1/ProfessionalEditor.zip

Русификатор http://abab.front.ru/Document_Express_Editor_6.0.1.1320_rus.zip

Более подробно о программах и др, можно узнать на http://www.dstu2204.narod.ru/djvu/

Краткая инструкция по использованию

Данная инструкция предназначена для людей, которые хотят сэкономить свое время, автоматизируя процесс перевода текстового материала (книг, рукописей и др.) в электронный вид.
Инструкция находится в стадии написания, поэтому все предложения и пожелания направляйте по e-mail.
Содержание:

  • Краткая инструкция по использованию программ ABBYY FineReader 8.0, Document Express Editor 6 для сканирования книг...
  • ABBYY FineReader 8.0
  • Работа с программой
  • Шаг 0 (смена языка интерфейса)

  • Шаг 1 (настройка процесса сканирования)

  • Шаг 2 (сканирование)

  • Шаг 3 (Обрезка изображения) - необязательно


  • Шаг 4 (поворот листа)

  • Шаг 5 (распознавание) - необязательно

  • Шаг 6 (проверка после распознавания) - необязательно

  • Шаг 7 (сохранение)

  • Document Express Editor 6
  • Работа с программой
  • Шаг 1 (открытие файла)

  • Шаг 2 (добавление других файлов вDocument Express Editor проект) - при необходимости

  • Шаг 3 (сохранение)

  • Шаг 4 (распознавание) - необязательно

  • Шаг 5 (печать) - при необходимости


  • смена языка интерфейса)

    Запускаем программу c помощью "панели задач": "Пуск" --> "Программы" --> "ABBYY FineReader 8.0" --> "ABBYY FineReader 8.0 Professional Edition".

    После запуска в верхнем меню с помощью мыши выберите пункт "Tools".
    смена языка интерфейса)

    В ниспадающем меню выберите пункт "Options".

    смена языка интерфейса)

    После чего установите соответствующий язык интерфейса и нажмите кнопку "OK".

    смена языка интерфейса)

    После чего появится окно с информацией, нажимаете кнопку "ОК" и выходим их программы.

    смена языка интерфейса)

    настройка процесса сканирования)

    Нажимаем на стрелку "настройка процесса сканирования)", находящуюся слева от кнопки "Cканировать", далее в ниспадающем меню выбираем "Опции".

    настройка процесса сканирования)

    настройка процесса сканирования)

    Устанавливаем "Использовать интерфейс ABBYY FineReader", "Сканировать несколько страниц" (незабудте, что если вы в дальнейшем будите сканировать малое число страниц убрать эту опцию), "Устранить искажение строк".

    После чего настраиваем сам сканер, для этого нажмите на кнопку "Настройки сканера" (иногда после нажатии этой кнопки следует подождать от 5 до 60 секунд), после откроется окно настройки сканера.

    Опцию "Определять ориентацию страницы" следует включать, если вы собираетесь распознавать текст, в этом случае вам не придется переворачивать страницы самим. Но следует иметь ввиду, что при работе с технической литературой, изобилурущей различными сложными формулами и сложными схемами..., применять данную опцию бесполезно.
    настройка процесса сканирования)

    Режим сканирования устанавливайте в соответствии с примером приведенного на картинке (не рекомедруется устанавливать цветное изображение, т.к. это значительно увеличит время сканирования, разрешение сканирование не делайте менее 300 dpi).

    "Ориентация изображения" - устанавливайте исходя из источника (книги и т.п.), данный пункт позволит в дальнейшем не переворачивать изображения.

    "Пауза между страницами" - если вы сканируете большое количество материала, то желательно отметить именно этот пункт (установите интервал сканирования в пределах 3-10 секунд). Если же страниц 1-10, то лучше выбрать опцию "Останавливаться между страницами", тогда при каждом новом сканировании будет появляться соответствующее окно).

    "Делить разворот книги" - если книга полностью помещается в сканер, то имеет смыл включить эту опцию (но помните что из 100 файлов 8-10 разрезаются неправильно, позже вам придется сделать это вручную).

    настройка процесса сканирования)

    После чего откройте ниспадающее меню "Источник бумаги" и "Выберите пользовательский".

    настройка процесса сканирования)

    После чего вы сможете выбирать размеры источника (книги и т.п.), предварительно померив книгу... линейкой (задавайте размеры с небольшим запасов (5-10 см).

    настройка процесса сканирования)

    открытие файла)

    Для октрытия файла нажмите на иконку открытие файла) или сочетание клавиш "Ctrl+O", так же файл можно открыть из верхнего меню (см. рисунок).

    открытие файла)

    После появится диалоговое окно, в котором необходимо выбрать формат файла (в нашем случае tiif).

    открытие файла)

    открытие файла)

    добавление других файлов вDocument Express Editor проект) - при необходимости

    Зачастую вам приходится изготавливатDjVu - файл их нескольких файлов. В этом случае при добавлении новых файлов, вам необходимо выделить страницу после (или до которой) необходимо вставить файл(ы). Для примера вставим еще один любой файл в конец проекта, для этого выделяем последний файл, как показано на рисунке.

    добавление других файлов вDocument Express Editor проект) - при необходимости
    После чего в верхнем меню выбираем "Правка" -> "Добавить страницы после", после чего у вас появляется окно аналогичное в 1 шаге, где вы и выбираете нужный файл.

    добавление других файлов вDocument Express Editor проект) - при необходимости

    сканирование)

    Нажимаем на кнопку "Cканировать".

    сканирование)

    После чего появиться нижние окно.

    сканирование)

    Далее произойдет снова сканирование, что бы его остановить необходимо один раз нажать кнопку "Сканировать" (после чего процесс сканирования завершается через 1-120 сек), а не кнопку "Отмена".

    Обрезка изображения) - необязательно

    Очень часто при сканировании нужно удалить некоторые не нужные части документа (например черные полосы по краям, пустые части и др.) Эту опцию имеет смысл применять если у вас небольшое количество материала ( 1-20 страниц), т.к. обрезка идет вручную (для автоматизации этого процесса необходимо воспользоваться программами сторонних разработчиков).

    Так же для того, что бы не было черных полос можно положить белый листок на сканируемый материал или прикрывать крышкой сканера.

    Выделите одно необходимое изображение и нажмите "Ctrl+Shift+C" или можно воспользоваться меню (см. рис. ниже).

    Обрезка изображения) - необязательно

    После чего появится окно, в котором вы сможете указать необходимую область, документа, которая должна остаться. Также можно "привести" изображение с соответствующему формату (A4, пользовательский...).

    Обрезка изображения) - необязательно

    сохранение)

    Для сохранения файла нажмите на значок сохранение) или сочетание клавиш "Ctrl+S", а так же с помощью верхнее меню (см. рисунок).

    сохранение)

    После чего отмечаем: сохранять страницы "Вместе". Если у вас полная версия программы (дистрибутив более 40Mb), то возможно распознавание текста, для этого поставьте галочку рядом с "OCR" (распознавание текста, точнее вставка текстового слоя можно привести и с помощью программы DjvuOCR, которая работает в комплексе с программой ABBYY FineReader 7). Далее распознавание документа будет расмотренно более подробно в шаге 4.

    .

    сохранение)

    Профиль сохранения:

    Названия профиля говорит о его назначении, поэтому особой трудности вызнать это не должно. Но при неправильном выборе можно получить исходный файл плохого качества или большего размера.

    Например:

    "Нормальный" - в большинстве случаев можно использовать его (в основном для книг, для рукописи использовать не рекомендуется)

    "Черно-белый" - выбирайте, если материал хорошего качества, и большая часть - книжный текст (рекомендуется для книг и различный буклетов)

    "Рукопись" - подходит для лекций и др.

    сохранение)

    Разрешение

    Чем выше разрешение, тем лучше исходный текст, рекомендуется выбирать 600 dpi (несмотря на то, что сканирование шло при 300 dpi).

    сохранение)

    Качество текста

    В большинстве случаев лучше выбирать "почти без потерь" (если текст в исходном файле получится неудовлетворительного качества, то установите сохранение "без потерь"). Но если вы собираетесь переслать текст, например, для предварительного ознакомления, то можно поставить качество с большими потерями.

    сохранение)

    Пример файлов (профиль сохранения: черно-белый, качество текста: почти без потерь): 300 dpi и при 600 dpi. Как видно из примера файл с разрешением 600dpi по качеству лечше чем 300dpi, к тому же файл с 600dpi занимает место меньше чем другой (примеры этих файлов).

    поворот листа)

    После того как начато сканирования, создается новый пакет, в который и сохраняется вся последующая информация. Ниже приведен пример пакета.

    поворот листа)

    Как видно из примера, вторую страницу необходимо перевернуть, для этого нажмите на нужную страницу правой кнопкой мыши, после чего откроется ниспадающее меню, выберите пункт "Повернуть/Отразить зеркально" и далее поверните соответственно страницу для нормального просмотра.

    Для группового выполнения операций нажмите на нужную первую страницу проекта, начиная с которой вы хотите произвести нужные действия, потом зажмите клавишу "Shift" и стрелками вверх или вниз выделите нужные страницы. Так же вместо этого вы можете воспользоваться мышью и по аналогии с выделением нескольких файлов в системе Windows, выделить нужные страницы.

    поворот листа)

    распознавание) - необязательно

    Распознавание так же возможно непосредственно в программе Document Express Editor.

    Из верхнего меню: "Сервис"-> "OCR" -> "OCR документа" (также можно указать распознать при сохранении файла, см. шаг 3).

    распознавание) - необязательно

    После чего пойдет процесс распознавания текста.

    распознавание) - необязательно

    Если в результате распознавания у вас некорректно был выбран язык распознавания (например, текст на русском языке, а распознавание производилось с учетом того, что это был английский, в результате чего оно получилось некорректным).

    Для настройки языка распознавания зайдите, как показано на нижних рисунках и выберите соответствующий язык.

    распознавание) - необязательно

    распознавание) - необязательно

    печать) - при необходимости

    Заключительный процесс распечатка документа.

    Иногда бывает, что в исходном файле отчетливо не видно некоторых элементов (например, надпись карандашом). Для того чтобы увидеть и распечатать документы с такими элементами необходимо произвести коррекцию цвета.

    Входим в настройки программы (см. рисунок).

    печать) - при необходимости

    Далее отмечаем флажки "Как на мониторе" и "Высококачественная печать". После регулируем любой ползунок (при регулировании одного ползунка, второй автоматически принимает аналогичное положение) для достижения наилучшего качества изображения (чем темнее тем, более отчетливее изображение). Если у вас неполучилось с первого раза, то меняйте данное расположение ползунка для достижения необходимого эффекта.

    печать) - при необходимости

    Для распечатки файла нажмите на значок печать) - при необходимости или сочетание клавиш "Ctrl+P", также можно распечатать файл из верхнего меню: "Файл" -> "Печать" (см. рисунок).

    печать) - при необходимости

    В данной работе обрабытывались лекции Семенова П.В. (МГПУ)

    Автор: Русинов А.С.

    распознавание) - необязательно

    Данную возможность имеет смысл применять, если у вас преобладает обычный книжный текст (нет формул, сложных схем, рисунков с надписями внутри рисунков...) и в дальнейшем будет необходимость копировать или править исходный текст.

    Для начала процесса распознавания, необходимо установить язык распознавания. Для этого нажимаем на стрелку "распознавание) - необязательно",находящуюся слева от кнопки "Распознавать", далее в ниспадающем меню выбираем "Опции".

    распознавание) - необязательно

    Далее устанавливаем необходимые языки распознавания, как правило "Русский и английский" вполне достаточно. Но если вы работаете, например, с английским изданием, где не встречает кириллица, то соответственно выбираем только английский язык (данный шаг позволит ускорить процесс распознавания). После чего нажимаем кнопку "ОК".

    распознавание) - необязательно

    Далее нажимаем кнопку "Распознать".

    распознавание) - необязательно

    Для распознавания сразу всех страниц необходимо нажать на сочетание клавиш "Ctrl+Shift+R" или нажимаете на стрелку "распознавание) - необязательно", находящуюся слева от кнопки "Распознавать", далее в ниспадающем меню выбираем "Распознать все".

    распознавание) - необязательно

    сохранение)

    Для последующего этапа создания электронной книги... вам необходимо сохранить страницы в формате TIFF. Выберите соответствующий пункт из верхнего меню (см. рис. ниже) или нажмите сочетание клавиш "Ctrl+Alt+S".

    сохранение)

    Далее устанавливаем сохранить все страницы в один файл (как на рис.).

    сохранение)

    В ниспадающем меню выбираем "TIFF, серый, несжатый (*.tif)" (помните, что у вас должно быть достаточно места, т.к. данный файл занимает много места, в среднем для обычной тетради необходимо 1000 Mb). Если у вас мало места на диске, то можно сохранить (но все же не желательно, т.к. качество будущей книги... может быть ухудшено) в формат "TIFF, серый, сжатие: JPEG (*.tif)".

    сохранение)

    После чего сохраняете в tiff файл.

    Если у вас распознанный документ, то можно сохранить данные... в различные текстовые форматы. Для этого нажмите сочетание клавиш "Ctrl+S" или как выше через меню файл выберите "Сохранить страницы".

    После сохранения изображения не забудьте сохранить сам проект в "пакет" (сохраняйте, если захотите продолжить проект в будущем; а также после 100 отсканированных страниц, во избежание порчи проекта).

    Из меню файл, выбираем пункт "Сохранить пакет как".

    сохранение)

    После чего выбираем имя и сохраняем

    сохранение)

    

        Реклама: Создание - PR - Софт