Адрес для входа в РФ: exler.world

Как много нам открытий чудных...

02.05.2006 14:26  7479   Комментарии (5)
Вы знаете, что в MS Office есть распознавалка, причем вполне неплохая? Я не знал. Спасибо ne0d1n, который просветил.

Программа называется Microsoft Office Document Imaging и находится в папке "Средства Microsoft Office". (Если компонент не установлен, то Office при первом запуске программы попросит дистрибутивный диск, чтобы его установить.)

Я потестировал - вполне понравилось.



Сканирует быстро и просто, не задавая лишних вопросов. Поддерживает режим сканирования многостраничных документов (опционально). Сам процесс сканирования достаточно наглядный.



Распознается текст очень быстро, так что после сканирования остается только выбрать пункт меню "Отправить текст в Microsoft Word", задав опционально возможность сохранения картинок. Смешанный (русский с английским) текст определяет вполне достойно.

Что классно, при распознавании текст сохраняется в достаточно простом формате (удобном для дальнейшей обработки), и программа старается сохранять только варианты начертания - например, полужирный и курсив. Картинки сохраняются в отдельной папке.

Вот, например, текст Word, полученный после сканирования простого листочка - текст.

Потестировал и на более сложной задаче - журнальный лист в несколько колонок с иллюстрацией: вот  отсканированный лист, вот распознанный документ.

Раньше для решения подобной задачи я пользовался Abbyy FineReader HomeEdition (он, в отличие от FineReader Pro, стоит вполне разумных, а не совершенно заоблачных денег). Но у этой версии есть серьезные недостатки, главный из которых - жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее. Ну и со сканированием (а точнее - с сохранением результатов распознавания) многостраничных документов там тоже большие проблемы - все это делается весьма неудобно

В данном же случае программа, с одной стороны, простенькая, но с другой - делает все что нужно, причем быстро и удобно.

"А пацаны-то и не знают" (с)
02.05.2006 14:26
Комментарии 5

В Офисе есть Документ Сканинг и Документ Имджинг (последний шире). Но при сканировании много ошибок, которые надо редактировать в Ворде. Файнридер и Омнипейдж (другие не пробовал) позволяют редакцию на уровне распознвания и дают возможные варианты замен. Да и качество распознавания много лучше.
06.10.06 20:20
0 0

Ага, я сам бы не узнал, если б не получил однажды документ с расширением .mdi . Оказалось, что это Microsoft Document Imaging, и для чтения нужно установить соответствующий компонент.
02.05.06 23:59
0 0

Понял, спасибо. Значит, мы не знали его много лет 😉
02.05.06 22:21
0 0

Небольшое замечание: Microsoft Office Document Imaging доступно, если я не ошибаюсь, с версии 2002 (т.е. Office XP). В 2000 его еще нет.
02.05.06 22:18
0 0

жесткое сохранение формата оригинального текста (и это в Home-версии не настраивается), в результате чего его потом обрабатывать в Word крайне сложно, потому что сначала нужна убирать все эти бесконечные таблицы, настройки абзацев, шрифтов и так далее.

Хм, а кто мешает сохранить из Ворда как "обычный текст" (.txt) ? При этом всё уберётся автоматом. А потом уже делать с текстом всё что нужно.
02.05.06 14:40
0 0
Теги
Сортировать по алфавиту или записям
BLM 20
Calella 143
exler.ru 270
авто 440
видео 3975
вино 359
еда 496
ЕС 60
игры 114
ИИ 28
кино 1579
попы 189
СМИ 2747
софт 930
США 125
шоу 6