Семантическое сопоставление
Определение
Семантическое сопоставление — это практика сравнения двух текстов по тому, что они означают, а не по тому, какие слова они разделяют. Семантический матчер распознает, что фразы Я читаю всё, что нахожу о советской кухонной архитектуре и Я обожаю дизайн квартир позднего брежневского периода — об одном и том же, даже если в этих предложениях нет общих слов. Кейворд-матчер этого не сделает.
Это и есть метод сопоставления, который Анкетта применяет к анкетам пользователей. Модель читает каждую анкету, строит числовое представление смысла и находит людей, чьи представления математически близки — близки по смыслу, а не по выбору слов.
Как это работает под капотом
Современное семантическое сопоставление использует эмбеддинги — векторы чисел высокой размерности, которые представляют текст. Два текста, означающие похожие вещи, дают похожие векторы; тексты на не связанные темы — непохожие. Сходство — это простой расчёт расстояния в векторном пространстве (стандартная метрика — косинусное сходство).
Векторы получаются из языковой модели, обученной на большом корпусе текстов. Модель усвоила, какие предложения обычно встречаются в похожих контекстах, и геометрия её эмбеддингового пространства это отражает. Советская кухонная архитектура и дизайн позднего брежневского периода попадают рядом, потому что в обучающем корпусе оба термина появлялись в перекрывающихся контекстах — оба использовались авторами, писавшими об истории советского быта.
Это та же технология, что стоит за современным семантическим поиском и retrieval-augmented generation в ИИ-ассистентах. Это не чёрный ящик; математика хорошо изучена и воспроизводима.
Почему семантика, а не ключевые слова
Кейворд-алгоритм — в духе старого OkCupid — даёт совпадение только когда одни и те же слова есть в обоих профилях. Это плохо по двум причинам:
- Люди, пишущие об одном и том же, часто используют разную лексику. Два филолога, описывающие свои отношения с чтением, могут разделять три ключевых слова и быть очевидной парой.
- Накрутка ключевых слов — это просто, и она ломает качество совпадений. Тот, кто хочет больше матчей, перечисляет все интересы, какие может вспомнить; алгоритм поощряет перечисление, а не настоящий интерес.
Семантическое сопоставление закрывает оба пробела. Различия в лексике не скрывают реального совпадения. Список ключевых слов не помогает — модель распознаёт филлерный текст как низкосмысловой, и сигнал остаётся в осмысленной прозе.
Чего оно не делает
Семантическое сопоставление не:
- чтение мыслей
- тест личности
- тест ценностей
- гарантия совместимости
- ИИ, решающий, с кем вам встречаться
Это один сигнал — сходство по смыслу в ваших письменных анкетах, — который алгоритм подбора использует вместе с другими (взаимные заявленные предпочтения, базовые фильтры совместимости, география). Сигнал сильный, но не единственный.
Приватность
Анкетта запускает всё семантическое сопоставление на собственной инфраструктуре. Манускрипты не отправляются в OpenAI, Google, Anthropic или какую-либо стороннюю модель. Эмбеддинги вычисляются локально и хранятся зашифрованными. Полная политика данных — в политике конфиденциальности.
Связанные термины
- Анкета (бывш. манускрипт) — вход, который читает семантический матчер
- Медленные знакомства — механика, делающая сильный сигнал совпадения ценным
- Осознанные знакомства — пользовательская рамка, которая ложится на хорошие семантические совпадения