Переводчик Денис Александрович Кирьянов
Корректор Анастасия Лобанова
© Денис Александрович Кирьянов, 2024
© Денис Александрович Кирьянов, перевод, 2024
ISBN 978-5-0064-3419-6
Создано в интеллектуальной издательской системе Ridero
В данной книге применяются следующие термины с соответствующими определениями:
Лемматизация (англ. lemmatization) – процесс приведения словоформы к ее словарной форме.
Партиционирование (англ. partitioning) – разделение больших таблиц (исходя из количества записей) в базе данных на маленькие.
Стемминг (англ. stemming) – процесс нахождения основы слова для заданного исходного слова.
Суммаризация (англ. summarization) – процесс выделения краткого содержимого из текста.
Токенизация (англ. tokenization) – процесс разделения текста на составляющие.
Naive Estimator – наивная оценка.
Twitter Topic Fuzzy Fingerprints – нечеткие отпечатки на основе тем сообщений в сети «Twitter».
Перечень сокращений и обозначений
В данной книге применяются следующие сокращения и обозначения:
БД – база данных.
API, АПИ (англ. Application Programming Interface) – аппаратно-программный интерфейс.
DNS (англ. Domain Name System) – система доменных имен.
FOAF (англ. Friend of a Friend) – спецификация для описания пользователя в социальных сетях.
HTML (англ. Hyper Text Markup Language) – язык гипертекстовой разметки.
JSON (англ. JavaScript Object Notation) – текстовый формат обмена данными, основанный на языке программирования JavaScript.
MNA (англ. Matrix-based News Analysis) – метод матричного анализа новостей.
MLE (англ. Maximum Likelihood Estimator) – подход оценки максимального правдоподобия.
MME (англ. Moment Matching Estimator) – метод определения вероятности изменения агрегированных данных.
NLP (англ. Natural Language Processing) – обработка естественного языка.
REST (англ. Representational State Transfer) – архитектурный стиль взаимодействия компонентов распределенного приложения в сети.
RSS (англ. Rich Site Summary) – обогащенная сводка сайта.
SVM (англ. Support Vector Machine) – метод опорных векторов.
TF-IDF (англ. Term Frequency – Inverse Document Frequency) – статистическая мера, используемая для оценки важности слова в контексте документа.
URL (англ. Uniform Resource Locator) – унифицированный указатель ресурса.