14/12/16
Déterminer si un message est un spam par les probabilités:
On cherche la probabilité qu'un message soit un spam à partir du nombre de mots "tabous" (appartenant souvent au spam):
Évènement:
S: "le message est un spam."
M: "le mot est tabou."
P(S) sachant M = [P(M) sachant S x P(S)] / [P(S) x P(M) sachant S + P(S barre) x P(M) sachant S barre]
Problèmes du premier algorithme 12/10
j'ai trouvé un site pour le traitement d'image, mais il est en anglais.....
http://scikit-image.org/docs/dev/auto_examples/xx_applications/plot_coins_segmentation.html
un peu d'aide ne serait pas de refus...
Florent
Liste des éléments à corriger sur l'algorithme
Liste caractères à remplacer par des espaces /!\
' ( ) « » * , ; " . ? ! : / - _ + = # | ~
Limite entrée
255 caractères maximum
Retour à la ligne empêche la prise en compte de la suite du texte
Accents
é, è, ê, ë → e
à, â, á, ä → a
ô, ö → o
û, ü, ù, ú → u
ï, î → i
ÿ →y
Résumé 28/09
Idée 1:
copier tout les mails dans un feuille de calcul et chercher la fréquence des mots clés.
Idée 2:
affecter a chaque mail une "note" en fonction des résultats de l'idée 1.
Résumé 21/09
Club math 21/09
Mots récurrents spam :
-Félicitations
-Réduction(s)
-Cliquer(z)
-Gagner(z)
-Profiter(z)
-Fonce
-Ne pas répondre
-Désabonner(z)
-Recevoir
Idées :
Comment trouver les mots qui reviennent le plus souvent ?
↓
Beaucoup de spam pour étudier les fréquences
↓
Les classer
Faire un arbre associant les mots :
Félicitations
↓ ↓ ↓
Voir police de caractères Bac Gagner
↓ ↓ ↓
Pas spam euros dollars
↓ ↓
Etc…
Regrouper beaucoup de spam :
Utiliser un traitement texte pour regrouper tous les spams :
Problèmes : Mis sous forme de tableau, nécessité d'en sortir le texte