Фильтр Байеса

Фильтрация сообщений по Байесу является очень эффективным методом, который применяется в большинстве приложений для защиты от нежелательной почты. Он помогает идентифицировать нежелательную почту с высокой степенью достоверности. Байесовский фильтр настраивается для каждого пользователя отдельно.

Метод основан на следующих принципах: В первой фазе происходит процесс обучения. Пользователь вручную отмечает некоторое количество сообщений, сортируя нежелательную почту и полезную (обычно 200/200). Фильтр анализирует сообщения в каждой из категорий и составляет правила фильтрации на основе статистической информации. Например, нежелательные сообщения содержат такие слова, как «Ролекс» или «Виагра», в то время как полезная почта отправляется членами семьи или корреспондентами из адресной книги. После анализа необходимого количества писем байесовский фильтр способен присваивать каждому из сообщений определенный «индекс спама», который позволяет установить, является ли сообщение нежелательным или нет.

Основным преимуществом метода является гибкость. Например, если получатель по профессии биолог, сообщения, содержимое которых может быть отнесено к биологии и другим близким сферам знаний, будут расцениваться как полезные. Если сообщение содержит слова, которые так или иначе могут быть отнесены к нежелательному содержимому, но письмо было отправлено корреспондентом из адресной книги, оно может быть классифицировано как полезное. Это происходит потом, что письмо от корреспондента из адресной книги с малой вероятностью является нежелательным.