Перейти к содержимому

Распознавание текста (OCR)

Извлекает текст из изображения в браузере. Поддержка русского и английского, в т.ч. одновременно. Файл не уходит на сервер — OCR-движок работает локально.

Распознавание текста с изображения (OCR — Optical Character Recognition) без отправки картинки на сервер. Принимает JPEG, PNG, WebP, BMP. Поддерживает русский, английский и смешанный режим «русский + английский» — выбирается переключателем перед запуском. Под капотом — Tesseract.js, JavaScript-порт классического движка Tesseract OCR через WebAssembly. Сам движок (wasm + языковые модели для рус/анг — суммарно ~25 МБ) скачивается один раз при первом запуске тула и кэшируется в IndexedDB браузера; повторные распознавания мгновенные. Сценарии: вытащить текст из скриншота с сайта, который не отдаёт текст в виде HTML (например, JS-приложения с canvas-рендерингом); распознать текст с фотографии страницы книги, объявления, табло, ценника, расписания; вытащить цитату из мема, цифры из выписки, серийный номер с упаковки. После распознавания текст можно скопировать одной кнопкой или скачать как .txt. Показывается также метрика «уверенность движка» (confidence ~0-100%): значения выше 80% — почти всегда чистый результат; 60-80% — стоит перечитать; ниже 60% — Tesseract сам не уверен (скорее всего, плохой контраст, перекошенное фото, рукописный текст, экзотический шрифт). Точность сильно зависит от качества исходника: ровно сфотографированный/отсканированный печатный текст распознаётся почти идеально, фото под углом и с бликами — заметно хуже, рукописный текст и стилизованные шрифты — плохо. Лимит на размер файла — 30 МБ (выше — браузер перестаёт справляться с памятью). В отличие от Google Vision, Yandex OCR, ABBYY FineReader Online и подобных сервисов, изображение и распознанный текст никуда не передаются — всё происходит локально на вашем устройстве.