Как распознать текст с картинки в word
Содержание:
- Программы для преобразования текста с фото в Word
- Adobe Acrobat
- Droid Scan Lite – сканер с запутанным интерфейсом
- Что делать с рукописным вводом?
- Что вы найдете здесь
- Типы OCR
- Простой OCR — распознает почерк
- Определить участки изображения, в которых присутствует текст, используя MSER
- Mnist
- Стратегии
- Извлечение текста с помощью OneNote
- Шаг 2: посмотрите на данные
- RiDoc
- CuneiForm — бесплатная программа для распознавания текста
- CAPTCHA,
- Рекомендации
- Принцип действия
- Особенности
- OCR с использованием Microsoft OneNote
Программы для преобразования текста с фото в Word
Перед переносом текста с фото в Word онлайн использование программ имеет некоторые преимущества. Так, наиболее мощные из них могут работать в оффлайн режиме, обладая при этом куда более широкими и гибкими настройками OCR. Кроме того, подобные приложения позволяют работать с документами Word напрямую, вставляя в них распознанный текст прямо из буфера обмена.
ABBYY Screenshot Reader
Пожалуй, самый удобный инструмент, позволяющий сконвертировать нераспознанный текст с фото в Word-документ, обычный текстовый файл или передать в буфер обмена для дальнейшего использования. Программой поддерживается около 200 естественных, специальных и формальных языков, захват может производиться целого экрана (с отсрочкой и без), окна и выделенной области. Пользоваться ABBYY Screenshot Reader очень просто.
Скачать: https://www.abbyy.com/ru/screenshot-reader/
- Запустите приложение и выберите область сканирования и язык распознавания;
- Укажите в окошке-панели, куда нужно передать распознанный текст;
- Нажмите в правой части кнопку запуска операции;
- Используйте полученный текст по назначению.
Readiris Pro
«Понимает» более 100 языков, умеет работать с PDF, DJVU и внешними сканерами, с разными типами графических файлов, в том числе многостраничными. Поддерживает интеграцию с популярными облачными сервисами, коррекцию перспективы страницы, позволяет настраивать форматирование. Посмотрим для примера, как скопировать текст с фото в Word в этой сложной на первый взгляд программе.
Скачать для Windows: https://www.irislink.com/EN-US/c1729/Readiris-17—the-PDF-and-OCR-solution-for-Windows-.aspx
Вариант A:
- Перетащите на окно изображение, после чего будет автоматически произведено распознавание имеющегося на нём текста;
- В меню «Выходной файл» выберите Microsoft Word DOCX и сохраните документ.
Вариант B:
- Кликните правой кнопкой мыши по изображению и выберите в контекстном меню Readiris → Convert to Word;
- Получите готовый файл в исходном каталоге.
- Функциональна и удобна.
- Интеграция с облачными сервисами.
- Позволяет конвертировать фото в текст Word через меню Проводника.
Платная, не лучшим образом справляется с изображениями с разноцветным фоном.
Microsoft OneNote
Если у вас установлен офисный пакет Microsoft, то среди приложений должна быть программа OneNote — записная книжка с поддержкой распознавания текста из картинок. Приложение также входит в состав всех версий Windows 10. Хорошо, взглянем, как перенести текст в Word с ее помощью.
- Запустите OneNote и перетащите на ее окно изображение с текстом;
- Выделив изображение, нажмите по нему правой кнопкой мыши и выберите в меню Поиск текста в рисунках → Свой язык;
- Вызовите контекстное меню для картинки повторно и на этот раз выберите в нём опцию «Копировать текст из рисунка»;
- Вставьте из буфера обмена распознанный текст из рисунка в Word или другой редактор.
- Высокое качество распознавания текста даже на цветном фоне.
- Работа в автономном режиме.
- Бесплатна.
- Не столь удобна, как две предыдущие программы.
- Текст вставляется в Word-документ только через буфер.
- Мало доступных языков (русский есть).
Adobe Acrobat
Есть две ее версии – обычная и Pro, с расширенным функционалом. Естественно, вторая распространяется не бесплатно. Standard без акции обойдется по 1777 рублей в месяц, а расширенная Pro будет стоить 1932 рубля, и это только для физических лиц. Предусмотрен 7-дневный пробный период.
Стоит учитывать, что данная программа способна работать только с файлами формата pdf. Отредактированный документ можно перевести в формат Блокнота, Word, Excel, PowerPoint, картинки jpeg и так далее.
Плюсы
- Создание и редактирование файлов формата pdf.
- Добавление маркеров, закладок или комментариев.
- Конвертирование pdf-файла в другие форматы.
- Удобный и развитый текстовый редактор.
- Есть возможность восстановления поврежденных участков документа.
- Регулярные обновления.
Droid Scan Lite – сканер с запутанным интерфейсом
Приложение с неплохими возможностями, но слегка запутанным интерфейсом из-за нескольких рабочих столов и большого количества тэгов. К тому же в бесплатной версии недоступно создание многостраничных документов.
Некоторое время придется потратить на привыкание к организации главной «галереи» приложения. Разработчик предоставил возможность создания «проектов». Каждый из них, в свою очередь, может содержать «сканы», разнесенные по тэгам. В результате, при большом количестве изображений это может вызвать затруднения при поиске.
По умолчанию приложение использует системное приложение для камеры, хотя в настройках можно разрешить доступ к другим приложениям. Впрочем, в нашем случае при включенной опции Droid Scan Lite не смог найти программу PicsArt, оснащенное «своей» камерой.
После получения снимка первый этап обработки – обрезание. Автоматическое определение углов срабатывает не всегда так, как нам хотелось бы. Поэтому приходится прибегать к ручному редактированию. Углы многоугольника перемещаются очень медленно, поэтому простейшая операция отнимает довольно много времени.
Переходим к режимам улучшения. Не считая настроек контраста и яркости, их здесь три: исходный вариант цвета, цвет с малой насыщенностью и черно-белый вариант. Поколдовав с настройками, от изображения документа, полученного при фотографировании в хороших условиях, можно получить неплохую электронную копию. Хотя некоторые «артефакты» на фоне все-таки остаются.
Шутка это или нет, однако, изучив приложение «от и до», мы так и не смогли отыскать опцию сохранения изображения в формате PDF. Скорее всего, это свойственно только платной версии. Все «сканы» хранятся на карте памяти в формате JPG в каталоге, расположенному по пути mnt/sdcard/Droid Scan.
Что делать с рукописным вводом?
Человек способен догадаться о смысле предложения, даже если оно написано самым неразборчивым почерком (если речь не идет о рецепте на лекарства, конечно).
Задачу для компьютера иногда упрощают. Например, людей просят писать почтовый индекс в специальном месте на конверте специальным шрифтом. Формы, созданные для дальнейшей обработки компьютером, обычно имеют отдельные поля, которые просят заполнять печатными буквами.
Планшеты и смартфоны, которые поддерживают рукописный ввод, часто используют принцип выявления признаков. При написании буквы «А» экран «чувствует», что сначала пользователь написал одну линию под углом, затем вторую, и, наконец, провел горизонтальную черту между ними. Компьютеру помогает то, что все признаки появляются последовательно, один за другим, в отличие от варианта, когда весь текст уже записан от руки на бумаге.
Что вы найдете здесь
В этом посте я расскажу о некоторыхстратегии,методыа такжелогикаиспользуется для решения различных задач OCR и поделится некоторыми полезными подходами. В последней части мы рассмотримпроблема реального мирас кодом. Это не следует рассматривать как исчерпывающий обзор (к сожалению), поскольку глубина, история и широта подходов слишком широки для такого рода постов в блоге.
Однако, как всегда, я не избавлю вас от ссылок на статьи, наборы данных, репозитории и другие соответствующие посты в блоге.
Типы OCR
Как я уже говорил, для распознавания текста существует несколько значений. В самом общем смысле это относится к извлечению текста из каждого возможного изображения, будь то стандартная печатная страница из книги или случайное изображение с граффити («в дикой природе«). В промежутке вы можете найти много других задач, таких как чтениеномерные знакинет роботаCAPTCHAs,дорожные знакии т.п.
Хотя каждый из этих вариантов имеет свои трудности, очевидно, что задача «в дикой природе» является самой сложной.
Слева: печатный текст. Справа: текст в дикой природе
Из этих примеров мы можем сделать некоторыеатрибутыиз задач OCR:
- Плотность текста: на печатной / письменной странице, текст плотный. Однако, учитывая изображение улицы с одним дорожным знаком, текст разреженный.
- Структура текста: текст на странице структурирован, в основном в строгих строках, в то время как текст в дикой природе может быть разбросан повсюду в разных поворотах.
- шрифты: печатные шрифты проще, так как они более структурированы, чем шумные рукописные символы.
- Тип персонажа:Текст может быть на другом языке, который может сильно отличаться друг от друга. Кроме того, структура текста может отличаться от номеров, таких как номера домов и т. Д.
- АртефактыОчевидно, что снимки на улице намного шумнее, чем на удобном сканере.
- Место расположенияНекоторые задачи включают обрезанный / центрированный текст, в то время как в других текст может располагаться в произвольных местах на изображении.
Простой OCR — распознает почерк
И одно из популярнейших приложений — Simple OCR для мобильных устройств Android. Преобразовывает текста на нескольких языках. Учтите, что если в вашем документе есть необычные шрифты, некачественные или цветные картинки, может выйти некачественный результат. Также отметим, что она не распознает символы с надстрочными и подстрочными составляющими (например, буква ё).
Как пользоваться:
- Запустите приложение Простой OCR;
- Затем выберите снимок из галереи или сделайте фото;
- Выделите область, которую необходимо перевести в текстовый вариант, и нажмите на синюю кнопку;
- Дождитесь сканирования текста;
- Результат сканирования рукописного текста из фотографии.
В приложении можно сохранять отсканированные тексты в разных форматах и пользоваться встроенным редактором.
Определить участки изображения, в которых присутствует текст, используя MSER
В функции MSER детектор хорошо работает для поиска регионов с содержанием текстовых символов. Она неплохо выполняет свою работу, поскольку последовательные цвет и высокая контрастность текста приводит к прочным профилям интенсивности.
Используя функцию detectMSERFeatures найдем образы и сюжет всех регионов
Обратите внимание, что функция также выделяет много нетекстовых областей:
colorImage = imread('handicapSign.jpg'); I = rgb2gray(colorImage); % Detect MSER regions. = detectMSERFeatures(I, ... 'RegionAreaRange',,'ThresholdDelta',4); figure imshow(I) hold on plot(mserRegions, 'showPixelList', true,'showEllipses',false) title('MSER regions') hold off
Mnist
Хотя на самом деле это не задача OCR, невозможно написать об OCR и не включать пример Mnist. Самая известная проблема, связанная с компьютерным зрением, на самом деле не рассматривается и не является задачей OCR, поскольку она содержит один символ (цифру) за раз и всего 10 цифр. Тем не менее, это может подсказывать, почему OCR считается простым. Кроме того, в некоторых подходах каждая буква будет обнаруживаться отдельно, и тогда Mnist-подобные (классификационные) модели становятся актуальными ץ
Стратегии
Как мы уже видели и подразумевали, распознавание текста в основном состоит из двух этапов. Во-первых, вы хотели быобнаружитьтекст (ы) появляются на изображении, может ли он быть плотным (как в печатном документе) или разреженным (как текст в дикой природе).
После определения уровня строки / слова мы можем выбрать еще раз из большого набора решений, которые обычно основаны на трех основных подходах:
- Классические методы компьютерного зрения.
- Специализированное глубокое обучение.
- Стандартный подход глубокого обучения (обнаружение).
Давайте рассмотрим каждый из них:
Извлечение текста с помощью OneNote
OneNote OCR уже на протяжении нескольких лет остается одной из самых лучших программ для распознавания текста. Однако, распознавание это одна из тех менее известных функций, которые пользователи редко используют, но как только вы начнете ее использовать, вы будете удивлены тем, насколько быстрой и точной она может быть. Действительно, способность извлекать текст — одна из особенностей, которая делает OneNote лучше Evernote.
Это стандартная программа, скорее всего вам не придется устанавливать ее самостоятельно. Найдите ее на компьютере в папке Microsoft Office или же с помощью поиска на панели «Пуск». Запустите программу.
Инструкции по извлечению текста:
-
Шаг 1. Откройте любую страницу в OneNote, желательно пустую.
-
Шаг 2. Перейдите в меню «Вставка»> «Изображения» и выберите файл изображения и настройте язык распознавания.
- Шаг 3. Щелкните правой кнопкой мыши по вставленному изображению и выберите «Копировать текст с изображения». Он сохранится в буфере обмена.
Копируем текст с изображения
Теперь вы можете вставить его куда угодно. Удалите вставленное изображение, если оно вам больше не нужно.
Вставляем текст куда угодно
Шаг 2: посмотрите на данные
Перед началом процесса моделирования вам следует лучше изучить данные. Я предоставляю только быструю функцию для проверки работоспособности, но я рекомендую вам сделать еще один анализ:
def viz_random_image(df): file = np.random.choice(df.fname) im = skimage.io.imread(data_folder+file) annots = df.iterrows() plt.figure(figsize=(6,6)) plt.imshow(im) current_axis = plt.gca() for box in annots: label = box current_axis.add_patch(plt.Rectangle( (box, box), box-box, box-box, color='blue', fill=False, linewidth=2)) current_axis.text(box, box, label, size='x-large', color='white', bbox={'facecolor':'blue', 'alpha':1.0}) plt.show()viz_random_image(df)
Типичный образец формы набора данных SVHN
Для следующих шагов я предоставляюutils_ssd.pyв репо, который облегчает тренировку, весовую нагрузку и т. д. Часть кода взята из репозитория SSD_Keras, который также широко используется.
RiDoc
RiDoc — специальная утилита для сканирования документов и распознавания текста. Итоговый результат можно сохранить в любом удобном формате: jpeg, tiff, bmp, png. Есть возможность экспорта файлов в PDF и Microsoft Word. Поддерживается функция склейки несколько документов. На склеенный файл можно наложить водяной знак.
Приложение полностью совместимо с операционной системой Windows (на 32-х и 64-битных версиях). Для установки и запуска утилиты требуется Windows XP и новее. Доступна полностью русская версия для скачивания. Модель распространения программы RiDoc — условно-бесплатная. Чтобы получить полную версию приложения, необходимо купить лицензию. Стоимость лицензионной версии для личного использования составляет 350 рублей. Доступна бесплатная пробная версия на 30 дней. На сохраненных документах будет размещена надпись «No registration».
Чтобы начать работу с утилитой, необходимо запустить RiDoc на компьютере. На первом этапе нужно загрузить изображение или PDF-файл для распознавания текста. Для этого используется функция «Открыть», которая расположена на панели инструментов. После того, как файл загружен в программу, пользователи могут приступать к процессу распознавания текста. Для этого необходимо нажать кнопку «Распознать» на панели инструментов.
Время выполнения этой задачи зависит от общей длины текста на изображении. Итоговый результат отобразится в отдельном окне в правой части интерфейса программы RiDoc.
Пользователи могут скопировать этот текст, внести собственные изменения или добавить новые текстовые блоки. Также результат можно сохранить на компьютер. Для этого необходимо воспользоваться функциями, которые расположены на верхней панели инструментов.
Файл можно сохранить в формате картинки, MS Word, OpenOffice или PDF. Также доступна функция отправки документа по электронной почте. Есть инструмент для печати файла на отдельном листе бумаги любого размера.
Преимущества программы RiDoc:
- простой и удобный интерфейс с поддержкой русского языка;
- быстрое распознавание текста;
- программа работает с графическими изображениями и документами формата PDF;
- итоговый результат распознавания текста можно отправить по электронной почте;
- доступна функция склейки несколько документов с возможностью добавления водяных знаков.
Недостатки:
нет интеграции с популярными облачными сервисами.
CuneiForm — бесплатная программа для распознавания текста
По моей оценке, вторая по популярности программа OCR в России — бесплатная CuneiForm, скачать которую можно с официального сайта https://cognitiveforms.ru/products/cuneiform/.
Установка программы также очень проста, никакого стороннего софта (как многое бесплатное ПО) она установить не пытается. Интерфейс лаконичен и понятен. В некоторых случаях проще всего воспользоваться мастером, для чего предназначена первая из иконок в меню.
С образцом, которым я пользовался в FineReader, программа не справилась, или, точнее, выдала что-то плохо читаемое и ошметки слов. Вторая попытка была предпринята со скриншотом текста с сайта самой этой программы, который, правда, пришлось увеличить (ей нужны сканы с разрешением 200dpi и выше, скриншоты с толщиной линий шрифтов 1-2 пикселя она не читает). Тут она справилась хорошо (часть текста не распознана, так как был выбран только русский язык).
Распознавание текста в CuneiForm
Таким образом, можно предположить, что CuneiForm — это то, что следует попробовать, особенно если у вас качественно отсканированные страницы и вы хотите распознать их бесплатно.
CAPTCHA,
Поскольку в Интернете полно роботов, обычная практика отличать их от реальных людей — это зрительные задачи, в частности чтение текста, или CAPTCHA. Многие из этих текстов являются случайными и искаженными, что затрудняет чтение на компьютере. Я не уверен, кто бы ни разрабатывал CAPTCHA, он предсказал достижения в области компьютерного зрения, однако большинство современных текстовых CAPTCHA не очень трудно решить, особенно если мы не пытаемся решить все из них сразу.
Facebook знает, как делать сложные капчи
Адам Geitgey обеспечиваетхороший учебникк решению некоторых CAPTCHA с глубоким обучением, которое включает в себя синтез искусственных данных еще раз.
Рекомендации
Чтобы качество распознавания было высоким, исходные файлы должны соответствовать следующим требованиям:
- Формат. Поддерживаются файлы JPEG, PNG, GIF и PDF (многостраничные документы).
- Размер. Максимально допустимый размер файла – 2 МБ.
- Разрешение. Высота каждой строки в документе должна составлять не менее 10 пикселей.
- Ориентация. Распознается только правильно сориентированный текст. При необходимости поверните изображение, прежде чем загрузить его на Google Диск.
- Языки. Язык документа определяется автоматически.
- Шрифты и наборы символов. Лучше всего распознаются распространенные шрифты, такие как Arial и Times New Roman.
- Качество изображения. Изображение должно быть четким, равномерно освещенным и контрастным.
Принцип действия
Как же работает такая программа? Какие алгоритмы используются для распознавания текста и как они взаимодействуют в софте? Чем объясняются отличия в качестве распознавания материалов разными программами?
Принцип действия программы такой:
1 В каждой программе имеется база данных, в которую занесен алфавит, при этом каждой букве, как строчной, так и заглавной, присваивается целая группа вероятных графических отображений этой буквы – различные шрифты, учет качества фото, поворота и угла камеры при съемке и т. д.;
2 Таким образом, после попадания в программу изображение анализируется с целью выявления имеющихся символов и определения их положения, то есть, фактически, определяется, где именно на фото расположены буквы;
3 Распознавание обнаруженных букв, по окончанию которого формируется печатный текст;
4 Распознавание особенностей форматирования, величины отступов и т. д. (только некоторые программы способны сохранять форматирование, при работе большинства доступных бесплатных сервисов этот пункт вовсе отсутствует);
5 Как только распознавание заканчивается, то, в зависимости от типа программы и принципов ее работы, готовый текст появляется в окне софта или создается текстовый файл с ним (того или иного формата, также в зависимости от программы).
Полученный таким образом материал остается только отредактировать.
<Рис. 2 Принцип>
Особенности
Каждая программа способна работать только с теми символами, которые были занесены в ее базу, только их она распознает.
В программу может быть внесено несколько алфавитов, как уже писалось выше, поэтому, при выборе подходящего софта проверьте, что бы он работал с языком, на котором напечатан текст на вашей картинке.
Если речь идет о не слишком популярных и визуально нестандартных языках, то найти подходящий софт может быть непросто.
Чем сложнее форматирование или расположение букв на фотографии, тем сложнее программе правильно распознать текст, и тем больше будет ошибок.
Ведь иногда в таком случае неточности могут возникнуть уже на стадии определения местоположения печатных символов на картинке.
Распознавание текста, напечатанного на нестандартном языке, происходит с ошибками. Причем, часто чем сложнее этот текст, тем больше ошибок может быть, так как алгоритмы распознавания могут в этом случае работать неточно.
При определении буквы программа использует определенный «алгоритм» сравнений с ее основными чертами – расположением и размером элементов (некоторые утилиты также учитывают соседние распознанные буквы и лексическую сочетаемость).
Благодаря этой особенности, даже если небольшая часть буквы стерлась или изменена, она все еще может быть распознана.
Единственный минус данного способа в том, что когда букву не удается распознать, задействуются все алфавиты из базы для определения, и в результате может быть обнаружено больше сходств с буквой, например, английского алфавита, хотя текст напечатан на русском.
Перед началом процесса распознавания, обратите внимание на качество фото. Лучше всего определяется текст с отсканированных изображений документов, скриншотов
Лучше всего определяется текст с отсканированных изображений документов, скриншотов.
Более или менее нормально может быть определен и сфотографированный на камеру текст.
Хуже всего распознаются материалы с фото плохого качества, сделанного под углом, особенно если имеет место сложное форматирование.
Художественные шрифты не распознаются.
<Рис. 3 Онлайн-сервис>
OCR с использованием Microsoft OneNote
Microsoft OneNote имеет расширенные функции распознавания текста, которые работают как с изображениями, так и с рукописными заметками.
- Перетащите отсканированное изображение или сохраненное изображение в OneNote. Вы также можете использовать OneNote для клип часть экрана или изображение в OneNote.
- Щелкните правой кнопкой мыши на вставленной картинке и выберите Копировать текст с картинки, Скопированный оптически распознанный текст попадает в буфер обмена, и теперь вы можете вставить его обратно в OneNote или в любую программу, например Word или Notepad.
OneNote также может извлечь текст из многостраничной распечатки одним щелчком мыши. Вставьте многостраничную распечатку в OneNote и затем щелкните правой кнопкой мыши на текущей выбранной странице.
- Нажмите Скопируйте текст с этой страницы распечатки захватить текст только с этой выбранной страницы.
- Нажмите Копировать текст со всех страниц распечатки скопировать текст со всех страниц одним снимком, как показано ниже.
Обратите внимание, что точность распознавания также зависит от качества фотографии. Вот почему оптическое распознавание рукописного ввода все еще немного нечетко для OneNote и другого программного обеспечения для распознавания текста на рынке
Тем не менее, это одна из ключевых функций в OneNote
13 лучших новых функций OneNote, которые вы еще не пробовали
13 лучших новых функций OneNote, которые вы еще не пробовалиMicrosoft добавила много новых привилегий в OneNote для Windows 10. Вот лучшие новые функции OnenNote в OneNote, которые вы, возможно, пропустили.
Прочитайте больше
Вы должны использовать при каждой возможности.
Хотите узнать, как OneNote сравнивается с платным программным обеспечением для распознавания текста? Прочитайте наше сравнение OneNote и OmniPage
Сравнение бесплатного и платного программного обеспечения для распознавания текста: сравнение Microsoft OneNote и Nuance OmniPage
Сравнение бесплатного и платного программного обеспечения для распознавания текста: сравнение Microsoft OneNote и Nuance OmniPageПрограммное обеспечение сканера OCR позволяет преобразовывать текст в изображениях или PDF-файлах в редактируемые текстовые документы. Достаточно ли хорош инструмент OCR, например OneNote? Давайте разберемся!
Прочитайте больше
,