Индексирование и извлечение данных

Индексирование и извлечение данных

Ретроконверсия, создание атрибутивных и поисковых баз данных для всех видом и типов документов.

Неотъемлемой частью оцифровки является ретроконверсия документов, или формирование индексной/поисковой базы данных, чтобы в электронном информационном ресурсе можно было искать нужную информацию.

Мы применяем проектный подход — в зависимости от ваших потребностей, готовы организовать:

Департамент ретроконверсии — самое крупное подразделение корпорации ЭЛАР. Несколько тысяч человек по всей стране заняты извлечением данных из отсканированных документов. Причем значительная часть штата — надомные операторы индексирования, работающие через нашу облачную платформу (операторы часто набираются из того региона, в котором выполняется проект).

Прямой контролируемый ввод данных

Прямой ввод (перепечатка данных) с бумажных документов в информационные системы — это распространенный способ их наполнения. Основным минусом данного подхода является высокая вероятность ошибок из-за человеческого фактора. Поэтому особое значение приобретает квалификация операторов ввода и использование программных средств контроля качества.

В ЭЛАР накоплен опыт реализации множества проектов по прямому вводу данных, мы предлагаем следующие решения:

  • Организацию прямого ввода в любой точке России, с привлечением опытных штатных сотрудников и/или обучением любого дополнительного количества местных опеоператоров.
  • Разработку АРМ ввода с использованием типовых справочников, с контролем ошибок и автоматическим подставлением верного значения, а также программным контролем соответствия введенных данных шаблону (длина, структура записи)
  • Программный контроль действий и качества работы каждого оператора, формирование отчетных документов о сформированном ресурсе (вплоть до ежедневной отчестности)

Прямой ввод в большинстве случаев выгоднее и удобней классического индексирования, а также применяется при невозможности массового изъятия документов из деятельности (например, при оцифровке первых экземпляров актовых книг ЗАГС)

В случае, когда необходима 100% достоверность загружаемых в систему данных (например, при оцифровке финансовых документов или наполнении государственных реестров и информационных систем), применяется массовое индексирование.

Массовое индексирование: ручное и автоматическое извлечение данных

Работы по массовому индексированию осуществляются в защищенной программной инфраструктуре ЭЛАР.

  • Для текстовых документов, с целью удешевления работ, максимально применяется программное распознавание и извлечение данных.
  • Неуверенно распознанные данные и рукописные документы обрабатываются операторами. Операторам ввода могут предоставляться целые документы, либо обезличенные фрагменты (такой принцип применяется при обработке конфиденциальных документов).

Условия индексирования определяются на этапе экспертизы.

Ручная ретроконверсия или, по крайней мере, ручная проверка извлеченных данных необходима для распознавания рукописного текста, напечатанных необычным шрифтом, низкокачественных или поврежденных текстов книг, газет, архивных документов, чертежей и пр.

В штате компании имеются профессиональные почерковеды, специалисты по технической документации и другие «узкие» специалисты, умеющие работать с особыми видами документов.

По каждому проекту разрабатывается технологическая и маршрутная карты, распределяются работы на региональные центры индексирования и штат надомных операторов. ЭЛАР применяет запатентованную систему управления производственным циклом, которая позволяет автоматически распределять нагрузку и контролировать этапы сканирования. Операторам система «помогает» вводить данные «подсказками». В ней используются постоянно пополняемые типовые словари-справочники, поэтому порой достаточно набрать две первые буквы (адреса, наименования, названия), чтобы система сама ввела слово в поле полностью

Одним из главных преимуществ ЭЛАР является гибкость производства. Мы умеем оперативно распределять нагрузку между сотрудниками и расширять штат. Применяем технологии автоматического индексирования, даже можем обрабатывать документы и извлекать данные в облаке. Благодаря этому одновременно выполняем по 100 проектов, среди которых — крупнейшие задачи оцифровки документов федерального уровня.

Ручная ретроконверсия — медленный и дорогой процесс, поэтому ЭЛАР использует программные технологии для ускорения и снижения стоимости оцифровки.

Программное извлечение данных применяется для напечатанных на современном принтере текстов. Необходимые данные могут быть извлечены с использованием автоматизированных методов — применением шаблонов и автоэкстракции индексов (алгоритмы определения ключевых слов, семантического анализа и т.д.).

Эти технологии позволяют ускорить и удешевить работы. Мы применяем все промышленные OCR-программы, собственные алгоритмы классификации и ретроконверсии документов.

Мы разрабатываем новое ПО. Например, для упрощения и снижения стоимости ретроконверсии неструктурированных документов мы разработали собственную систему распознавания и автоклассификации на основе математических моделей и специальных алгоритмов, без использования традиционных шаблонов.

Прежде всего этот подход призван ускорить процесс путем:

  • Автоматической классификации документов — определения типов и распределения документов по заданным свойствам/параметрам
  • Экстракции — извлечения заданных пользователем данных (сущностей/атрибутов) из теста
  • Связывания — простановки связей между документами разных типов/подразделений на основе выявленных атрибутов
  • Автопроверки пакетов документов — контроля полноты и правильности заполнения документов, включая правильность вычислений сумм, НДС и т.п.

Эти технологии позволили реализовать сервис оперативной выездной оцифровки под ключ.

Контроль качества

Проверке качества в ЭЛАР уделено особое внимание. Если заказчикам важна абсолютная точность загружаемых данных и качество электронных образов документов, Отдел контроля качества проверяет информационный ресурс на соответствие требованиям на всей технологической цепочке: в процессе сканирования, после индексирования, а также перед передачей заказчику.

Осуществляются различные операции контроля, причем их стоимость уже заложена в цену услуг ЭЛАР. Например, для сокращения числа ошибок в ЭЛАР используют технологию двойного ввода, при котором два работника независимо друг от друга вводят одинаковую информацию. Одинаково введенные данные считаются правильными, а несовпадающие попадают к специалисту по верификации.

Благодаря развитым механизмам контроля мы постепенно повысили стандартное качество наших услуг до 99,8%, сертифицировали производство по ИСО 9001:2016. Это позволило минимизировать повторную обработку документов, что особенно важно в масштабных проектах. А также дало возможность создать механизм гарантии.


Решим вашу задачу
Просто заполните форму. Для вас: оперативная обработка запроса,
бесплатная экспертиза, скидки за комплексные услуги и многое другое.

Возврат к списку