Создание системы интеллектуального анализа, оценки и категоризации текстового контента чатов, сообщений в режиме реального времени

Обзор проекта Text Analyzer

Система обеспечивает интеллектуальный анализ входных текстов, чатов и сообщений для нахождения желаемого содержимого определенного экспертами. Эксперты системы создают ресурсную базу для процесса анализа с использованием программы с графическим интерфейсом, а также задают желаемое содержимое для поиска: слова\фразы, экспертные значения, категории и языки. Данная система имеет отдельную часть для анализа, которая представляет собой кросс-платформенный компонент для использования в высоко-нагруженных системах в режиме реального времени. Компонент разбирает и анализирует входящий текст и возвращает найденное содержимое которое было определено экспертами. Этот компонент имеет набор дополнительных входных параметров, таких как пользовательские слова\фразы и уровень чувствительности. Система возвращает список найденных текстовых фрагментов с детальной информацией: язык, вероятность, категория и набор терминов.

Технические особенности:

Целевые платформы: Windows, Linux, Mac OS. 
Источники данных:Binary storage.
Технологии программирования:  Cross-platform C++, stl
Программная оболочка:Managed C++ для .Net, JNI для Java.
 
Особенности бизнес-логики:
  • Поиск необходимых данных в исходных документах. 
  • Высокоэффективный парсинг и анализ. 
  • Возврат найденных фрагментов текста с детальной информацией: язык, сходимость, категории и наборы терминов.
Управление и ресурсы:
  • Сроки реализации: (versions 1.0 - 1.3): сентябрь 2009 - август 2010 
  • Ресурсы: 1 руководитель, 2 аналитика, 5 разработчиков и 2 тестировщика
  • Методология разработки: Agile