Полуавтоматическая работа с программой DjvuOCR по распознаванию файлов большими группами

Страница программы на сайте автора.

Введение и обзор используемого софта.

Советую Вам использовать версию 2.3 в связке с Finereader 8, а при возникновении ошибок, из — за которых невозможна обработка определенного файла, попробовать применить к нему версию 2.4 Beta также совместно с Finereader 8. Не знаю, прав ли, однако помню, что ранее некоторое время мучился с большим количеством ошибок (возможно отчасти оттого, что версия 2.4 предназначена для Finereader 9) и связанных с этим лишних действий. После чего стал действовать таким образом.

Если нужно внедрить текстовой слой в DJVU, страницы которого при первоначальном открытии в программе просмотра, расположены боком.

Работа с DjvuOCR v.2.3 с помощью вспомогательных утилит автоматизации

 Переименовываем имена файлов в цифры и обратно

Отделяем уже распознанное ранее

Ищем распознанные файлы с ошибками


У нижеописанного подхода есть альтернативный вариант (сам его пока что не пробовал, на данный момент это только предположение). Примерно такой, как наверное думал автор DjvuOCR. С помощью его программы распаковать на страницы с файлами настроек Finereader множество DJVU, с общей суммой страниц в несколько тысяч, затем разделить их примерно по 1000 страниц, распознать каждую пачку отдельно, затем объединить снова вместе и внедрить в DJVU документы.
И если Вы новичек в этих вопросах, то возможно это будет более удобным вариантом для Вас и можете начать с него, а если так не понравится или в случае с вашими файлами где то будет происходить трудно устранимая или сложно выявляемая ошибка, воспользуетесь утилитами по ссылкам ниже, чтобы делить по количеству страниц файлы на группы, а не их многотысячное содержимое. Таким образом может быть легче выявить сбойный файл в некоторых случаях.

Делим файлы по группам утилитой 1

Делим файлы по группам утилитой 2


Автоматически переименовываем файлы обратно из цифр в прежние имена

После запуска программы жмем на ножницы с бумагой, при необходимости перед этим сменив язык в интерфейсе на русский:


1.Кнопкой Добавить загружаем несколько файлов, отсортированных, как описано ссылкам выше.

2. Под пунктом 2 показано, что удобно создать недалеко от корня диска директорию, в которую складываются автоматически рассортированные папки с файлами. Их таким образом удобно потом последовательно выбирать после завершения распознавания предыдущей директории.

3. Под пунктом 3 проверяем, стоит ли именно в том месте маркер, где нужно.

4. То что выделил под цифрой 4 лучше оставить, как есть. В некоторых случаях файлы DJVU бывают повернуты боком. Пытался поворачивать этими пунктами, думая, что это поможет, однако это не так. В последующем сделал вывод, что поворачивать лучше в более поздних версиях Finereader, сам имею опыт в v.10. При необходимости потом сразу автоматически можно разрезать страницы пополам.

Далее по ходу дела появится окно с предложением сохранить проект, что делаем, присваивая файлу имя папки и сохраняя в этой же директории, которую с этими настройками обрабатываем.

Затем нажимаем "Создать FR8 Batch".

После этих действий и во время работы с Finereader программу не закрываем, чтобы если Вы что то забыли сделать, не нужно было начинать настраивать сначала.

Далее работаем в Finereader.

 

 Иногда возникают ошибки, отложите эти файлы, если не можете их преодолеть, может быть потом получится, когда появится больше опыта. Один из вариантов - попробовать распознать эти документы в другой операционной системе с более поздней версией Finereader.

После распознавания в Finereader закрываем в нем пакет и в окне DjvuOCR нажимаем кнопку "Назад":


Жмем:


1. Открываем ранее созданный файл проекта

2.Проверяем, что галочка стоит.

3. Проверяем путь, чтобы он соответствовал имени файла проекта, который мы только что открывали.

4. Нажмите "Тест проекта". Что делать, если тест показал, что имеются проблемы, опишу ниже.

По поводу пункта: "Сохранить распознанное как ТХТ Файл". Эту галочку  убираю, так как во многих случаях это не требуется и образуется лишний мусор на ПК.

Если "Тест проекта" не показал ошибок, нажимаем "Обработка".

В будущем можете почитать из справки к программе что означают другие настройки.


Если нажатие по кнопке "Тест проекта" выявило проблемы, то там отображаются номера страниц, одной или нескольких. В этом случае надо открыть проект в Finereader, найти указанные страницы и они могут быть не распознаны, то есть там могут быть какие то сложные таблицы, формулы, текст боком или еще что нибудь. Насколько помню, они помечаются значком сообщения об ошибке. С помощью инструментов редактирования исправляете эти страницы, распознаете. Есть еще возможность чтобы произошла запись в проект, не закрывать документ целиком, а выделить соседние привью страниц, чтобы с этих, с которыми сейчас работаем, оно снялось. В DjvuOCR производим снова "Тест проекта" и если все в порядке, закрываем проект и нажимаем кнопку "Обработка".

К оглавлению