8(495) 645 60 21
8(495) 645 90 71

manager@globalmg.ru
Москва, 3-я Хорошевская улица дом 11 офис №20
12 ЛЕТ на рынке веб-технологий

Шинглы

Шинглы - хеш-значение непрерывной последовательности слов текста фиксированной длины

Метод шинглов разработан Андреем Бродером в 1997 году. Свое название шингл получил из-за того, что разбивает текст на кусочки - ШИНГЛЫ (по-английски “shingles” – это чешуйки, черепички). Удобство способа проверки шинглами состоит в том, что он позволяет сначала описать текст, заменяя каждый шингл контрольной суммой в двоичном коде, а затем сравнительно оперативно сопоставить эти коды шинглов - ведь с числами работать куда проще и быстрее, чем со словами и фразами!

Допустим, имеется текст для проверки “Попробуем обмануть метод шинглов, подсунув не содержащий уникальности контент?”. Отбрасывается все лишнее (табуляции, пробелы, знаки препинания), в итоге останется “попробуем обмануть метод шинглов подсунув не содержащий уникальности контент”. Затем текст делится на шинглы (обычно поисковики применяют длину шингла в 4 или 5, берем четыре):

  • попробуем обмануть метод шинглов
  • обмануть метод шинглов подсунув
  • метод шинглов подсунув не
  • шинглов подсунув не содержащий
  • подсунув не содержащий уникальности
  • не содержащий уникальности контент

Заметьте, что шинглы строятся внахлест - это гарантирует, что поисковая системе при проверке не пропустит ни единой подстроки контента, что очень важно в процессе нахождения копий. Наконец, остается последнее - сравнить шинглы у разных текстов. Кто знаком, как строятся индексы у базы данных, тот сразу сообразит, как это производится с наименьшими затратами машинных ресурсов. Чем меньше шинглов совпало - тем больше вероятность того, что текст уникальный.

Описательные слова (Descriptive Words) - довольно изящный способ формализовать текст для его последующей проверки на копирование. Суть метода проверки описательными словами заключается в том, что формируется выборка объемом в 2…3 тысячи слов. Эта выборка должна соответствовать следующим задачам:

  • она должна описывать почти любой документ в сети
  • описание должно быть минимальным и не избыточным
  • совокупность векторов описательных слов уникальна

Для построения выборки из описательный слов отбрасываются все стоп-слова, различные узко-специализированные термины и очень редкие слова (такие, как “конъюнктивообразность”) и прилагательные. Затем каждая страница с текстом сопоставляется с выборкой, и рассчитывается вектор совпадения, размерность которого равна объему выборки. Уникальность контент определяется путем сравнения этих векторов.

Свяжитесь с нашим менеджером

Тел.: 8 (495) 645 60 21
E-mail: manager@globalmg.ru