Герб Оренбурга История Оренбуржья Герб Орска
Главная О проекте Форум Гостевая книга Обратная связь Поиск Ссылки В Контакте
Разделы


Библиотека

Видео

Геральдика

Города и села

Живопись

Земляки

Картография

Краеведение

Личности

Музеи

Мультимедийные материалы

Памятники и мемориалы

Разное

Религия

Сигиллатия

Учебные заведения

Фотоальбом

Экспедиции










При помощи FineReader 11 можно выполнить обработку любого количества электронных документов.

Сканирование книг для последующего распознавания текста в FineReader или конвертирования в DJVU

Основные параметры при сканировании

При сканировании книг или других важных документов я рекомендую придерживаться следующих параметров:

  1. Разрешение сканированного документа – 300 dpi (точек на дюйм)
  2. Формат сохранения отсканированных изображений – TIFF (без сжатия)
  3. Черно-белые страницы сканируются в оттенках серого цвета (Grayscale), цветные страницы в полноцветном формате.

Разрешение 300 точек на дюйм позволяет без проблем распознать текст в дальнейшем, а формат TIFF хорош тем, что не сжимает, а следовательно, не искажает изображение как это происходит в JPG. Применение этих двух параметров увеличивает время сканирования документа и его объем по сравнению со стандартными настройками, но в дальнейшем это оправдывает себя.

Сканирование и предварительная обработка

Одна из главных проблем при сканировании книг – это проглядывающиеся оборотные страницы. Я рекомендую решать это проблему в самом начале сканирования. Для этого необходимо отсканировать одну страницу и сразу её посмотреть на компьютере. Если качество не удовлетворительное, то необходимо подрегулировать яркость/контрастность в программе сканирования и попробовать снова. Как только приемлемый результат будет достигнут можно приступать к сканированию оставшихся страниц. Следует помнить, что настройки для обычных черно-белых страниц и для цветных вкладок или обложек могут существенно различаться, поэтому рекомендую, сначала отсканировать все цветные страницы, обложки и форзацы, а потом перенастроить сканер и приступить к черно-белым страницам.

После того как завершен этап сканирования следует прогнать все страницы книги через Photoshop с целью устранения перекосов, отсечению ненужных фрагментов и дополнительной подгонки яркости/контрастности.

Конвертирование в DJVU

Для конвертирования в DJVU нам понадобится специальная программа, к примеру Document Express Editor. Открываем в ней первую страницу нашей книги, добавляем остальные и нажимаем «сохранить». По умолчанию будет предложен профиль «Photo», соглашаемся и наблюдаем процесс конвертирования. После его завершения проверяем вновь созданный файл и если нас всё устраивает, то работа на этом закончена. Если результат не устраивает, то можно попробовать поменять профиль на другой, а также изменить качество текста (Text quality).

Распознавание текста в FineReader

В большинстве случаев FineReader отлично справляется с распознавание текста, но проверять текст на наличие ошибок следует обязательно. И лучше это делать прямо в программе, тем более что для этого созданы максимально удобные условия – программа сама подсвечивает места, где есть сомнения в правильности распознания и рядом показывает нужный участок отсканированного фрагмента.

Процесс коррекции ошибок очень нудный. Рекомендую не делать всё за один раз, а  разбивать работу на несколько этапов с перерывами.

После завершения коррекции ошибок экспортируем результат в формат MS Word, где окончательно довершаем оформление книги и опять проверяем на ошибки, которые найдет Word.

 

На главную Обсудить на форуме Версия для печати

Назад

 

Наверх

     
Twitter

Твиттер История Оренбуржья

Закладки


Orphus

Система Orphus

Вести с форума

Авторский проект Раковского Сергея
© Copyright 2002–2012