Облачное индексирование

Облачное индексирование

Удаленная обработка любых документов в облаке, хранение и работа в удаленном режиме.

Облачное индексирование — это сервис, в рамках которого мы извлекаем данные из скан-копий документов, присылаемых заказчиком или загружаемых в облачную инфраструктуру.

Общая схема услуг

Облачное индексирование

1. Загрузка документов

Документы могут предоставляться в любом графическом или текстовом формате.

Возможность недорогой автоматической обработки напрямую зависит от качества отсканированных изображений. Поэтому приоритетными параметрами являются разрешение 300 dpi, цветной режим (RGB). Изображения более низкого качества также будут гарантированно проиндексированы, но качество полнотекстового распознавания снизится, что потребует увеличения ручных операций и повысит стоимость обработки.

Возможны различные варианты загрузки:

  • Пересылка по электронной почте, факсом, через мессенджеры и мобильные приложения
  • Ручная загрузка в облачный архив или в согласованную FTP-папку (в т.ч с созданием VPN-туннеля).

Для автоматизации процесса загрузки группы документов и отдельные документы могут при сканировании разграничиваться специальными листами-разделителями, либо идентифицироваться с помощью штрих-кода (наклейка или непосредственная печать на документе). Специалисты ЭЛАР окажут полную консультационную поддержку во внедрении подобных технологий для упрощения и снижения стоимости последующей обработки.

2. Классификация и обработка

Поступившие скан-образы автоматически классифицируются с помощью специального программного обеспечения ЭЛАР:

  • Электронные образы приводятся к стандартному виду (доворот по тексту, обрезка краев и пр.)
  • Определяются начало и конец документа, приложения (при наличии), исключаются пустые и неинформативные листы
  • Производится полнотекстовое распознавание, определяется тип документа (тип задает условия дальнейшей обработки)
  • Скан-образы каждого документа объединяются в один файл (по умолчанию — многостраничный PDF с текстовой подложкой).

Документы, не прошедшие автоматическую классификацию, классифицируются вручную (согласно нашему опыту, при хорошем качестве печати таких документов не более 0,7%).

3. Индексирование

Из каждого документа извлекается требуемый набор реквизитов. Проиндексирована может быть любая информация, расположенная в любом месте документа (номер, дата, ФИО, наименования юрлиц, ИНН, суммы и пр.).

Процесс извлечения из документов значимой информации также производится в автоматическом режиме, с применением методов шаблонного распознавания (для формализованных документов) и разработанных ЭЛАР интеллектуальных алгоритмов поиска ключевых слов (фраз, символов).

Информация, которая не может быть проиндексирована автоматически (рукописный или плохо читаемый текст, дефекты изображений), автоматически направляется на обработку операторам ввода. Операторы также осуществляют верификацию — контроль качества автоматического индексирования (выборочный или полный).

Вся обработка осуществляется в облачной инфраструктуре, сотрудники ЭЛАР имеют доступ через специализированный АРМ с ограниченным функционалом. Для обработки персональных данных и конфиденциальной информации применяются технологии деперсонификации.

4. Результат

Стандартным вариантом является сохранение подготовленного ресурса в «Облачном архиве».

Вы можете использовать эти данные и электронные копии по своему усмотрению:

  • Хранить в облаке, искать и работать с документами в удаленном режиме 24*7
  • Выгружать в требуемом формате (xml, DBF, Access и пр.) для загрузки в свои информационные системы
  • Разработать интеграционные сервисы для автоматической загрузки данных в свои локальные или облачные учетные системы

Мы также можем передавать вам подготовленную базу данных любым другим удобным для вас способом.

Решим вашу задачу
Просто заполните форму. Для вас: оперативная обработка запроса,
качественная экспертиза, скидки за комплексные услуги и многое другое.

Возврат к списку