Курсовая

"Интеллектуальный парсинг текстовой строки с произвольным описанием элемента справочника для автоматической раскладки содержимого по полям справочника"

Данная работа посвящена решению актуальной проблемы автоматизации обработки неструктурированных текстовых данных при заполнении информационных систем. Основная идея исследования заключается в применении методов интеллектуального анализа для извлечения значимых атрибутов из произвольных описаний элементов справочников. Целью работы является разработка алгоритма, который позволяет эффективно распределять содержимое входной строки по соответствующим полям базы данных. Для достижения этого результата решаются задачи по выбору оптимальных моделей машинного обучения, проектированию архитектуры парсера и проведению экспериментальной оценки точности распознавания сущностей.
Итог работы
Создан точный алгоритм на базе ML для автоматического извлечения атрибутов из текстовых описаний.
Актуальность
Актуальность обусловлена ростом объемов неструктурированных данных и необходимостью минимизации ручного ввода в информационные системы. Автоматизация парсинга повышает скорость обработки справочников и снижает риск ошибок, обеспечивая высокую точность структурирования данных методами машинного обучения.
Цель
Разработка и программная реализация алгоритма интеллектуального парсинга для структуризации данных.
Задачи
1. Провести сравнительный анализ и выбор оптимальных моделей машинного обучения для извлечения сущностей. 2. Спроектировать архитектуру интеллектуального парсера и реализовать алгоритм обработки строк. 3. Выполнить экспериментальную оценку точности распознавания атрибутов на тестовых данных.

Содержание

ВВЕДЕНИЕ
ГЛАВА 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВЫХ ДАННЫХ
1.1 Понятие и специфика произвольного описания элементов справочников
1.2 Обзор существующих подходов к автоматизированному парсингу строк
1.3 Проблемы извлечения атрибутов в условиях вариативности естественного языка
ГЛАВА 2. АНАЛИЗ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ РАСПОЗНАВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
2.1 Сравнительная характеристика алгоритмов классификации и извлечения данных
2.2 Применение нейросетевых моделей в задачах структурирования информации
2.3 Обоснование выбора технологического стека для реализации парсера
ГЛАВА 3. ПРОЕКТИРОВАНИЕ И РАЗРАБОТКА АЛГОРИТМА АВТОМАТИЧЕСКОЙ РАСКЛАДКИ СОДЕРЖИМОГО ПО ПОЛЯМ
3.1 Разработка архитектуры системы интеллектуального парсинга
3.2 Формирование обучающей выборки и предобработка текстовых описаний
3.3 Описание программной реализации механизмов распределения данных
ГЛАВА 4. ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ И ОЦЕНКА ЭФФЕКТИВНОСТИ РАЗРАБОТАННОГО РЕШЕНИЯ
4.1 Методика проведения тестирования и показатели точности распознавания
4.2 Анализ результатов обработки контрольных групп данных
4.3 Направления оптимизации и масштабирования предложенного алгоритма
ЗАКЛЮЧЕНИЕ
СПИСОК ЛИТЕРАТУРЫ

ВВЕДЕНИЕ

Современный этап развития информационных технологий характеризуется стремительным ростом объемов неструктурированных данных, требующих оперативной обработки и систематизации. В условиях цифровой трансформации бизнес-процессов предприятия сталкиваются с необходимостью интеграции разрозненных текстовых описаний в жестко структурированные базы данных и справочники. Проблема заключается в том, что значительная часть входящей информации поступает в виде произвольных текстовых строк, формат которых не регламентирован. Традиционные методы парсинга, основанные на регулярных выражениях или жестких правилах, оказываются неэффективными при столкновении с вариативностью естественного языка, опечатками и сокращениями. Актуальность данного исследования обусловлена потребностью в создании интеллектуальных инструментов, способных с высокой точностью интерпретировать семантику текста и автоматически распределять извлеченные атрибуты по соответствующим полям информационных систем [1].

Объектом исследования является процесс автоматизированной обработки текстовой информации, представленной в виде произвольных описаний элементов справочников. Предметом исследования выступают алгоритмы и модели машинного обучения, обеспечивающие интеллектуальный парсинг и семантическую раскладку содержимого текстовых строк по заданным атрибутивным полям. Необходимость перехода от ручного ввода к автоматизированному распознаванию сущностей диктуется требованиями к повышению скорости обработки данных и минимизации человеческого фактора, который зачастую становится источником ошибок в корпоративных мастер-данных [2].

Целью курсовой работы является разработка и обоснование алгоритма интеллектуального парсинга текстовой строки, обеспечивающего эффективную автоматическую раскладку извлеченных данных по полям справочника. Для достижения поставленной цели необходимо решить ряд исследовательских задач. Во-первых, требуется изучить теоретические основы обработки неструктурированных текстов и специфику формирования произвольных описаний. Во-вторых, необходимо провести сравнительный анализ существующих методов машинного обучения и нейросетевых моделей, ориентированных на распознавание именованных сущностей. В-третьих, следует спроектировать архитектуру системы интеллектуального парсинга и разработать методику подготовки обучающих выборок. Наконец, важной задачей является проведение экспериментальной оценки разработанного решения для подтверждения его практической эффективности и точности [3].

Методологическую основу исследования составляет комплексный подход, сочетающий методы системного анализа, теорию классификации и современные технологии интеллектуального анализа данных (Data Mining). В работе применяются методы математической статистики для оценки качества работы алгоритмов, а также принципы объектно-ориентированного проектирования при создании архитектуры парсера. Использование глубокого обучения и трансформерных моделей позволяет рассматривать текст не просто как набор символов, а как семантическую единицу, что существенно повышает качество выделения значимых характеристик объекта из текстового шума [4].

Научная новизна работы заключается в адаптации современных моделей обработки естественного языка к специфической задаче заполнения отраслевых справочников, где критически важна точность сопоставления каждого слова конкретному техническому или коммерческому параметру. Практическая значимость исследования состоит в возможности внедрения разработанного программного модуля в действующие системы управления ресурсами предприятия (ERP) и системы ведения нормативно-справочной информации (MDM). Это позволит существенно сократить временные затраты на первичную обработку данных и повысить качество информационного обеспечения управленческих решений. Структура работы выстроена таким образом, чтобы последовательно раскрыть путь от теоретического анализа проблемы до практической реализации и верификации предложенного интеллектуального метода [5].

Про версия
499
  • Формат Word
  • от 15 страниц текста
  • Список литературы (ГОСТ)
Оплатить 499 
Интеллектуальный парсинг текстовой строки с произвольным описанием элемента справочника для автоматической раскладки содержимого по полям справочника