Байесовский фильтр, Белый» список, Черный» список – Инструкция по эксплуатации ESET NOD32 Smart Security 5

Страница 128: Контроль на стороне сервера

Advertising
background image

128

6.3.4.2 Байесовский фильтр

Байесовская фильтрация спама является эффективным методом фильтрации электронной почты, который
применяется в большинстве программных продуктов для защиты от спама. Этот метод позволяет
идентифицировать нежелательные сообщения с высокой точностью и может настраиваться для каждого
пользователя отдельно.

Работа метода основана на описанных далее принципах. На первом этапе происходит процесс обучения.
Пользователь вручную помечает достаточное количество сообщений как нормальные или спам (обычно 200 и
200). Фильтр анализирует обе категории и узнает, например, что в спаме часто содержатся слова «Ролекс» или
«Виагра», тогда как нормальные сообщения отправляются членами семьи или корреспондентами из адресной
книги пользователя. После обработки достаточного количества сообщений байесовский фильтр может
присвоить каждому сообщению определенный «индекс спама», показывающий, является ли данное сообщение
спамом.

Основным преимуществом байесовского фильтра является гибкость. Например, если пользователь по
профессии биолог, всем входящим сообщениям, содержимое которых может быть отнесено к биологии и
другим близким сферам знаний, обычно будет присвоен более низкий индекс вероятности. Если сообщение
содержит слова, которые обычно позволяют классифицировать его как нежелательное, но при этом оно было
отправлено корреспондентом из адресной книги пользователя, оно будет помечено как нормальное. Это
происходит потому, что наличие отправителя в адресной книге уменьшает общую вероятность спама.

6.3.4.3 «Белый» список

Вообще под «белым» списком понимается перечень объектов или лиц, которые являются приемлемыми или
имеют доступ. Термин «"белый" список электронной почты» означает список адресов пользователей, от
которых разрешено получать сообщения. Такого рода списки создаются на основе поиска по ключевым словам
в адресах электронной почты, именах домена или IP-адресах.

Если «белый» список работает в «исключительном» режиме, сообщения с других адресов, доменов или IP-
адресов получаться не будут. Если же «белый» список не является исключительным, такие сообщения не будут
удаляться, а будут обрабатываться каким-либо другим способом.

«Белый» список обладает противоположным

«черному» списку

назначением. «Белые» списки сравнительно

просто поддерживать, значительно проще, чем «черные». Для большей эффективности фильтрации спама
рекомендуется использовать и «белый», и «черный» списки.

6.3.4.4 «Черный» список

В общем случае «черный» список является списком неприемлемых или запрещенных объектов или лиц. В
виртуальном мире это метод, позволяющий принимать сообщения, которые приходят от всех пользователей,
отсутствующих в таком списке.

Существует два типа «черных» списков. К первому типу относятся списки, созданные самими пользователями,
в их приложениях для защиты от спама, а ко второму — профессиональные регулярно обновляемые «черные»
списки, которые создаются специализированными учреждениями и распространяются через Интернет.

Принципиально важно использовать «черный» список для блокировки спама, но при этом вести такой список
сложно, так как новые объекты блокирования появляются ежедневно. Рекомендуется использовать и «белый»,
и «черный» список, чтобы максимально эффективно отфильтровывать спам.

6.3.4.5 Контроль на стороне сервера

Контроль на стороне сервера — это метод выявления массовых рассылок спама на основе количества
полученных сообщений и реакции пользователей на них. Каждое сообщение оставляет уникальный цифровой
«отпечаток», который основан на его содержимом. Уникальный идентификационный номер ничего не говорит
о содержимом сообщения. Однако два одинаковых сообщения имеют одинаковые отпечатки, тогда как два
различающихся — разные.

Если сообщение помечено как спам, его отпечаток отправляется на сервер. Если сервер получает и другие
идентичные отпечатки (соответствующие одному и тому же нежелательному сообщению), этот отпечаток
сохраняется в базе данных отпечатков спама. При сканировании входящих сообщений программа отправляет
отпечатки сообщений на сервер. Сервер возвращает данные о тех отпечатках, которые соответствуют
сообщениям, уже помеченным пользователями как спам.

Advertising