14/12/16

Déterminer si un message est un spam par les probabilités:

 

On cherche la probabilité qu'un message soit un spam à partir du nombre de mots "tabous" (appartenant souvent au spam):

 

Évènement:

S: "le message est un spam."

M: "le mot est tabou."

 

P(S) sachant M = [P(M) sachant S x P(S)] / [P(S) x P(M) sachant S + P(S barre) x P(M) sachant S barre]

Problèmes du premier algorithme 12/10

 j'ai trouvé un site pour le traitement d'image, mais il est en anglais.....

 

http://scikit-image.org/docs/dev/auto_examples/xx_applications/plot_coins_segmentation.html

un peu d'aide ne serait pas de refus...

 

Florent

 

Liste des éléments à corriger sur l'algorithme

 

 

 

Liste caractères à remplacer par des espaces /!\

 

 

 

' ( ) « » * , ; " . ? ! : / - _ + = # | ~

 

 

 

 

 

Limite entrée

 

 

 

255 caractères maximum

 

Retour à la ligne empêche la prise en compte de la suite du texte

 

 

 

Accents

 

 

 

é, è, ê, ë → e

 

à, â, á, ä → a

 

ô, ö → o

 

û, ü, ù, ú → u

 

ï, î → i

 

ÿ →y

 

 

 

Résumé 28/09

Idée 1:

copier tout les mails dans un feuille de calcul et chercher la fréquence des mots clés.

Idée 2:

affecter a chaque mail une "note" en fonction des résultats de l'idée 1.

Résumé 21/09

 

Club math 21/09

 

 

 

Mots récurrents spam :

 

 

 

-Félicitations

 

-Réduction(s)

 

-Cliquer(z)

 

-Gagner(z)

 

-Profiter(z)

 

-Fonce

 

-Ne pas répondre

 

-Désabonner(z)

 

-Recevoir

 

 

 

 

Idées :

 

 

 

Comment trouver les mots qui reviennent le plus souvent ?

 

 

Beaucoup de spam pour étudier les fréquences

 

 

Les classer

 

 

 

 

Faire un arbre associant les mots :

 

 

 

Félicitations

 

↓                                                ↓                   ↓                

 

Voir police de caractères            Bac            Gagner           

 

↓                ↓                    ↓            

 

Pas spam     euros        dollars   

 

↓                    ↓            

 

Etc…            

 

 

 

 

Regrouper beaucoup de spam :

 

 

 

Utiliser un traitement texte pour regrouper tous les spams :

 

Problèmes : Mis sous forme de tableau, nécessité d'en sortir le texte