В результате автоматического распознавания речь дикторов преобразуется в текстовый индексированный файл, пригодный для автоматического лексико-семантического анализа.
Для работы системы тематической кластеризации не требуется какого-либо обучения движков распознавания речи, подбора словарей контролируемой лексики или других технологических процедур.
В основе технологического базиса системы лежат технологии распознавания слитной речи на большом словаре (LVCSR — Large Vocabulary Continuous Speech Recognition) и извлечения информации с помощью кластерного анализа данных (Data Mining clustering)
Представление данных в виде «семантического облака» или «облака тэгов». Легенда «облака» содержит информацию о мощности тематического кластера, частоте использования основных лексических единиц, определяющих тему