Глоссарий

Семантическое сопоставление

Сравнение текстов по смыслу, а не по поверхностным словам. Два человека, пишущих об одном и том же разной лексикой, всё равно регистрируются как совместимые.

Евгений Родионов3 мин чтения

Молодой учёный работает за ноутбуком с заметками в коворкинге

Определение

Семантическое сопоставление — это практика сравнения двух текстов по тому, что они означают, а не по тому, какие слова они разделяют. Семантический матчер распознает, что фразы Я читаю всё, что нахожу о советской кухонной архитектуре и Я обожаю дизайн квартир позднего брежневского периода — об одном и том же, даже если в этих предложениях нет общих слов. Кейворд-матчер этого не сделает.

Это и есть метод сопоставления, который Анкетта применяет к анкетам пользователей. Модель читает каждую анкету, строит числовое представление смысла и находит людей, чьи представления математически близки — близки по смыслу, а не по выбору слов.

Как это работает под капотом

Современное семантическое сопоставление использует эмбеддинги — векторы чисел высокой размерности, которые представляют текст. Два текста, означающие похожие вещи, дают похожие векторы; тексты на не связанные темы — непохожие. Сходство — это простой расчёт расстояния в векторном пространстве (стандартная метрика — косинусное сходство).

Векторы получаются из языковой модели, обученной на большом корпусе текстов. Модель усвоила, какие предложения обычно встречаются в похожих контекстах, и геометрия её эмбеддингового пространства это отражает. Советская кухонная архитектура и дизайн позднего брежневского периода попадают рядом, потому что в обучающем корпусе оба термина появлялись в перекрывающихся контекстах — оба использовались авторами, писавшими об истории советского быта.

Это та же технология, что стоит за современным семантическим поиском и retrieval-augmented generation в ИИ-ассистентах. Это не чёрный ящик; математика хорошо изучена и воспроизводима.

Крупный план руки на трекпаде ноутбука рядом с бумагами

Почему семантика, а не ключевые слова

Кейворд-алгоритм — в духе старого OkCupid — даёт совпадение только когда одни и те же слова есть в обоих профилях. Это плохо по двум причинам:

Люди, пишущие об одном и том же, часто используют разную лексику. Два филолога, описывающие свои отношения с чтением, могут разделять три ключевых слова и быть очевидной парой.
Накрутка ключевых слов — это просто, и она ломает качество совпадений. Тот, кто хочет больше матчей, перечисляет все интересы, какие может вспомнить; алгоритм поощряет перечисление, а не настоящий интерес.

Семантическое сопоставление закрывает оба пробела. Различия в лексике не скрывают реального совпадения. Список ключевых слов не помогает — модель распознаёт филлерный текст как низкосмысловой, и сигнал остаётся в осмысленной прозе.

Чего оно не делает

Семантическое сопоставление не:

чтение мыслей
тест личности
тест ценностей
гарантия совместимости
ИИ, решающий, с кем вам встречаться

Это один сигнал — сходство по смыслу в ваших письменных анкетах, — который алгоритм подбора использует вместе с другими (взаимные заявленные предпочтения, базовые фильтры совместимости, география). Сигнал сильный, но не единственный.

Приватность

Анкетта запускает всё семантическое сопоставление на собственной инфраструктуре. Манускрипты не отправляются в OpenAI, Google, Anthropic или какую-либо стороннюю модель. Эмбеддинги вычисляются локально и хранятся зашифрованными. Полная политика данных — в политике конфиденциальности.

Связанные термины

Анкета (бывш. манускрипт) — вход, который читает семантический матчер
Медленные знакомства — механика, делающая сильный сигнал совпадения ценным
Осознанные знакомства — пользовательская рамка, которая ложится на хорошие семантические совпадения