Содержание
ВВЕДЕНИЕ
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ
1.1 Понятие и специфика произвольного описания элементов справочников
1.2 Обзор существующих подходов к автоматизированному парсингу строк
1.3 Проблемы извлечения атрибутов в условиях вариативности естественного языка
ГЛАВА 2. АНАЛИЗ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
2.1 Сравнительная характеристика алгоритмов классификации и извлечения данных
2.2 Применение нейросетевых моделей в задачах структурирования информации
2.3 Обоснование выбора технологического стека для реализации парсера
ГЛАВА 3. ПРОЕКТИРОВАНИЕ И РАЗРАБОТКА АЛГОРИТМА АВТОМАТИЧЕСКОЙ РАСКЛАДКИ СОДЕРЖИМОГО ПО ПОЛЯМ
3.1 Разработка архитектуры системы интеллектуального парсинга
3.2 Формирование обучающей выборки и предобработка текстовых описаний
3.3 Описание программной реализации механизмов распределения данных
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ И ОЦЕНКА ЭФФЕКТИВНОСТИ РАЗРАБОТАННОГО РЕШЕНИЯ
4.1 Методика проведения тестирования и показатели точности распознавания
4.2 Анализ результатов обработки контрольных групп данных
4.3 Направления оптимизации и масштабирования предложенного алгоритма
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ
ВВЕДЕНИЕ
Современный этап развития информационных технологий характеризуется стремительным ростом объемов неструктурированных данных, требующих оперативной обработки и систематизации. В условиях цифровой трансформации бизнес-процессов предприятия сталкиваются с необходимостью интеграции разрозненных текстовых описаний в жестко структурированные базы данных и справочники. Проблема заключается в том, что значительная часть входящей информации поступает в виде произвольных текстовых строк, формат которых не регламентирован. Традиционные методы парсинга, основанные на регулярных выражениях или жестких правилах, оказываются неэффективными при столкновении с вариативностью естественного языка, опечатками и сокращениями. Актуальность данного исследования обусловлена потребностью в создании интеллектуальных инструментов, способных с высокой точностью интерпретировать семантику текста и автоматически распределять извлеченные атрибуты по соответствующим полям информационных систем [1].
Объектом исследования является процесс автоматизированной обработки текстовой информации, представленной в виде произвольных описаний элементов справочников. Предметом исследования выступают алгоритмы и модели машинного обучения, обеспечивающие интеллектуальный парсинг и семантическую раскладку содержимого текстовых строк по заданным атрибутивным полям. Необходимость перехода от ручного ввода к автоматизированному распознаванию сущностей диктуется требованиями к повышению скорости обработки данных и минимизации человеческого фактора, который зачастую становится источником ошибок в корпоративных мастер-данных [2].
Целью курсовой работы является разработка и обоснование алгоритма интеллектуального парсинга текстовой строки, обеспечивающего эффективную автоматическую раскладку извлеченных данных по полям справочника. Для достижения поставленной цели необходимо решить ряд исследовательских задач. Во-первых, требуется изучить теоретические основы обработки неструктурированных текстов и специфику формирования произвольных описаний. Во-вторых, необходимо провести сравнительный анализ существующих методов машинного обучения и нейросетевых моделей, ориентированных на распознавание именованных сущностей. В-третьих, следует спроектировать архитектуру системы интеллектуального парсинга и разработать методику подготовки обучающих выборок. Наконец, важной задачей является проведение экспериментальной оценки разработанного решения для подтверждения его практической эффективности и точности [3].
Методологическую основу исследования составляет комплексный подход, сочетающий методы системного анализа, теорию классификации и современные технологии интеллектуального анализа данных (Data Mining). В работе применяются методы математической статистики для оценки качества работы алгоритмов, а также принципы объектно-ориентированного проектирования при создании архитектуры парсера. Использование глубокого обучения и трансформерных моделей позволяет рассматривать текст не просто как набор символов, а как семантическую единицу, что существенно повышает качество выделения значимых характеристик объекта из текстового шума [4].
Научная новизна работы заключается в адаптации современных моделей обработки естественного языка к специфической задаче заполнения отраслевых справочников, где критически важна точность сопоставления каждого слова конкретному техническому или коммерческому параметру. Практическая значимость исследования состоит в возможности внедрения разработанного программного модуля в действующие системы управления ресурсами предприятия (ERP) и системы ведения нормативно-справочной информации (MDM). Это позволит существенно сократить временные затраты на первичную обработку данных и повысить качество информационного обеспечения управленческих решений. Структура работы выстроена таким образом, чтобы последовательно раскрыть путь от теоретического анализа проблемы до практической реализации и верификации предложенного интеллектуального метода [5].