Шинглы
Шинглы - хеш-значение непрерывной последовательности слов текста фиксированной длины
Метод шинглов разработан Андреем Бродером в 1997 году. Свое название шингл получил из-за того, что разбивает текст на кусочки - ШИНГЛЫ (по-английски “shingles” – это чешуйки, черепички). Удобство способа проверки шинглами состоит в том, что он позволяет сначала описать текст, заменяя каждый шингл контрольной суммой в двоичном коде, а затем сравнительно оперативно сопоставить эти коды шинглов - ведь с числами работать куда проще и быстрее, чем со словами и фразами!
Допустим, имеется текст для проверки “Попробуем обмануть метод шинглов, подсунув не содержащий уникальности контент?”. Отбрасывается все лишнее (табуляции, пробелы, знаки препинания), в итоге останется “попробуем обмануть метод шинглов подсунув не содержащий уникальности контент”. Затем текст делится на шинглы (обычно поисковики применяют длину шингла в 4 или 5, берем четыре):
- попробуем обмануть метод шинглов
- обмануть метод шинглов подсунув
- метод шинглов подсунув не
- шинглов подсунув не содержащий
- подсунув не содержащий уникальности
- не содержащий уникальности контент
Заметьте, что шинглы строятся внахлест - это гарантирует, что поисковая системе при проверке не пропустит ни единой подстроки контента, что очень важно в процессе нахождения копий. Наконец, остается последнее - сравнить шинглы у разных текстов. Кто знаком, как строятся индексы у базы данных, тот сразу сообразит, как это производится с наименьшими затратами машинных ресурсов. Чем меньше шинглов совпало - тем больше вероятность того, что текст является уникальным.
Описательные слова (Descriptive Words) - довольно изящный способ формализовать текст для его последующей проверки на копирование. Суть метода проверки описательными словами заключается в том, что формируется выборка объемом в 2…3 тысячи слов. Эта выборка должна соответствовать следующим задачам:
- она должна описывать почти любой документ в сети
- описание должно быть минимальным и не избыточным
- совокупность векторов описательных слов уникальна
Для построения выборки из описательный слов отбрасываются все стоп-слова, различные узко-специализированные термины и очень редкие слова (такие, как “конъюнктивообразность”) и прилагательные. Затем каждая страница с текстом сопоставляется с выборкой, и рассчитывается вектор совпадения, размерность которого равна объему выборки. Уникальность контент определяется путем сравнения этих векторов.

