Oko Kufuneka Ukwazi Nge-Filesi ye-Bayesian Spam

by Heinz Tschabitscher

Fumana indlela amaninzi anceda ngayo ukugcina ibhokisi lakho lokungenayo licocekile

Izihlungi ze-spesi ze-Bayesian zibala ukuba kungenzeka ukuba umyalezo ugaxekile ngokusekelwe kwimixholo yayo. Ngokungafani nezihlungi ezisekelwe kumxholo, i-Bayesian spam filtering ifunda kwi-spam kwaye ivela kwi-imeyile efanelekileyo, ephumela ekusebenziseni ngendlela enamandla, yokulungelelanisa kunye neyobuchule eyi-spam, eyona nto ibhetele, ayibuyanga nakanjani nayiphi na imiphumo emibi.

Uyaziwa njani i-Junk Email?

Cinga ngendlela ova ngayo ugaxekile . Ukujonga ngokukhawuleza kudla ngokwaneleyo. Uyazi ukuba i-spam ibonakala ngathi, kwaye uyazi ukuba i-imeyile enhle ibonakala ngathi.

Ubunokwenzeka bokuthi ugaxekile obukhangeleka njengeposi efanelekileyo ... u-zero.

Iifayile ezijoliswe kwi-Content Based Based Filters Awuyi-Adapt

Ngaba bekungekho mkhulu xa iifayile ezigaxekileyo zogaxekile zisebenza njengaye?

Ukulinganisa izihlungi zogaxekile ezisekelwe kumxholo zizama nje oko. Bafuna amagama kunye nezinye iimpawu eziqhelekileyo zogaxekile. Yonke into ephawulekayo ibelwe amanqaku, kwaye amanqaku ogaxekile omyalezo wonke uya kubalwa ukusuka kumanqaku ngamnye. Abanye abafaka izihlungi kwakhona bajonga iimpawu zee-imeyile ezisemthethweni, behlisa amanqaku okugqibela omyalezo.

Indlela yokuhlunga i-scoring isebenze, kodwa nayo inezintlu ezingapheliyo:

Uluhlu lweempawu lwakhiwe kwi-spam (kunye ne-mail efanelekileyo) efumaneka kwiinjineli ezicoca. Ukuze ufumane kakuhle kakuhle ugaxekile owenziwa ngumntu, i-imeyile kufuneka iqokelelwe kumakhulu amakheli e-imeyile. Oku kunciphisa ukusebenza kweefayile, ingakumbi kuba iimpawu zeposi ezilungileyo ziyahlukahluka kumntu ngamnye , kodwa oku akuqwalaselwanga.
Iimpawu zokubheka zininzi ziphantsi kwelitye . Ukuba ngaba ugaxekile benza umgudu wokulungelelanisa (kwaye ukwenza ukuba ugaxekile ujonge njenge-mail efanelekileyo kwiifayile), iimpawu zokucoca kufuneka zifakwe ngesandla-umzamo omkhulu nakakhulu.
Amanqaku anikezelwe kwigama ngalinye mhlawumbi lisekelwe kwisilinganiselo esilungileyo, kodwa sisengqinelani. Kwaye njengoluhlu lweempawu, aluvumelani nehlabathi elitshintshayo logaxekile ngokubanzi okanye kwiimfuno zomsebenzisi ngamnye.

I-Bayesian Spam Filters Tweak ngokwabo, Ukuphucula nokuphucula

Izihlungi ze-spesi ze-Bayesian zihlobo lokufaka amanqaku e-content based based filters. Inkqubo yabo iyakucima iingxaki zefayile ezilula zokufaka amanqaku ogaxekile, nangona kunjalo, kwaye yenza njalo. Ekubeni ubuthathaka bokuhlunga iifayile zikwisihloko esakhelwe ngokweenkcukacha neempawu zabo, olu luhlu lupheliswa.

Kunoko, abahluzi be-spesi ye-Bayesian bakhela uluhlu ngokwabo. Ngokufanelekileyo, uqala nge-(enkulu) iqela le-imeyile oye lahlula njengogaxekile, kunye nezinye i-mail yeposi. Iifayile zijonga zombini kwaye zihlaziye iimeyile ezisemthethweni kunye ne-spam ukubala ukuba amathuba amanani ahlukeneyo avela kwi-spam, nakwi-imeyile efanelekileyo.

Indlela i-Bayesian Spam Filter ihlola ngayo i-imeyile

Iimpawu zesicatshulwa se-spesi ye-Bayesiya esinokubujonga singaba:

amagama emzimbeni womyalezo, ngokuqinisekileyo, kwaye
iintloko (abathumeli kunye neendlela zomyalezo , umzekelo!), kodwa kwakhona
ezinye iinkalo ezifana nekhowudi ye HTML / CSS (njengemibala kunye nokufomathiza), okanye
amagama amabini, amagama kunye
ulwazi lweemeta (apho kukho ibinzana elithile, umzekelo).

Ukuba igama elithi "Cartesian" umzekelo, lisoloko luvela kwi-spam kodwa kaninzi kwi-imeyile esemthethweni oyifumanayo, amathuba okuthi "i-Cartesian" ibonisa ugaxekile isondele. "Toner", ngakolunye uhlangothi, ibonakala kuphela, kwaye kaninzi, ngogaxekile. "I-Toner" inokuphakanyiswa kakhulu kwi-spam, kungabi ngaphantsi kwe-1 (100%).

Xa umyalezo omtsha ufika, uhlalutyiweyo ngesihlunu se-Bayesian spam, kwaye ubuhle bomyalezo opheleleyo ugaxekile bubalwa ngokusebenzisa iimpawu zodwa.

Cinga ukuba umyalezo uqulethe zombini "I-Cartesian" kunye ne "toner". Ukususela kula magama kuphela akukacaci nokuba sinokuthi sigaxekile okanye sithunyelwe ngeposi. Ezinye iziganeko ziya kuthi (zithemba kwaye zininzi kakhulu) zibonisa ukuba kunokwenzeka ukuba uluhlu lwefayile luhlukanise umyalezo njenge-spam okanye i-mail efanelekileyo.

Ama-Filesi ye-Bayesian Spam angafunda ngokuzenzekelayo

Ngoku ukuba sinomlinganiselo, umyalezo ungasetyenziselwa ukuqeqesha icebo ngokwalo. Kule meko, mhlawumbi amathuba okuthi "i-Cartesian" ebonisa i-mail enhle iyancipha (ukuba umyalezo oqulethe "i-Cartesian" kunye ne "toner" ufunyenwe ukuba ugaxekile), okanye ukuba kungenzeka ukuba "i-toner" ebonisa ugaxekile.

Ukusebenzisa lobu buchule bokuziphendulela ngokuzenzekelayo, iifayile ze-Bayesian ziyakwazi ukufumana izigqibo zombini kunye nezigqibo zomsebenzisi (ukuba uyilungisa ngokuzilungisa iifayile ezicwangcisiweyo). Ukulungelelaniswa kokuhlunga kwe-Bayesian kuyaqinisekisa ukuba banempumelelo kakhulu kumsebenzisi ngamnye we-imeyile. Ngelixa abantu abaninzi begaxekile banokuba neziganeko ezifanayo, i-imeyile esemthethweni iyahluke ngokuthe ngqo kubo bonke abantu.

I-Spammers ingawafumana njani iifayile ezidlulileyo zeBaseesi?

Impawu yemeyile esemthethweni ibaluleke kakhulu kwinkqubo yokucoca ugaxekile lwe-Bayesian njengogaxekile. Ukuba abafayili baqeqeshwa ngokukhethekileyo kubo bonke abasebenzisi, abagaxekile baya kuba nexesha elinzima ngakumbi bebonke abantu (okanye nokuba baninzi) izihlungi zogaxekile, kwaye iifayile ziyakwazi ukuvumelanisa phantse yonke into eyenziwa ngabagaxekile.

I-Spammers izakuyenza kuphela iifayile eziqeqeshwe kakuhle ze-Bayesian xa zenza imiyalezo yabo yogaxekile ibonakale ngokufana ne-imeyile eqhelekileyo wonke umntu angayifumana.

I-spammers ayidla ngokuthumela ii-imeyile eziqhelekileyo. Makhe sicinge ukuba kuba ii-imeyili azisebenzi njenge-imeyili engenamsebenzi. Ngoko, amathuba abo abayi kuyenza xa ii-imeyli eziqhelekileyo, ezithandekayo ziphela yindlela yokwenza iifayile ezidlulayo zidlulileyo.

Ukuba ngaba ugaxekile utshintshe kwii-imeyile eziqhelekileyo eziqhelekileyo, kunjalo, siza kubona ugaxekile ezininzi kwiibhokisi ze-Inboxes kwakhona, kwaye i-imeyli ingaba yinkxalabo njengokuba yayisezinsukwini zangaphambili zaseBasesi (okanye zibi nakakhulu). Kuye kuya kubonakalisa intengiso kwiintlobo ezininzi zogaxekile, nangona kunjalo, kwaye ke akunakuhlala ixesha elide.

Iimpawu eziqinileyo zingaba yi-Bayesian Spam Filter & # 39; s Achilles & # 39; Isithende

Omnye umzekelo ungabonwa ukuba ugaxekile ukuba asebenze ngendlela yawo ngokusebenzisa iifayili zeBazesian kunye neziqulatho zabo eziqhelekileyo. Kuhlobo lwamaxabiso e-Bayesian ukuba elinye igama okanye uphawu olubonakala rhoqo kwi-imeyile elungileyo lunokuba luncedo kakhulu ukuphendulela nawuphi na umyalezo ukusuka ngathi ugaxekile ukuba ulinganiswe njenge ham ngefayile.

Ukuba abagaxekile bafumana indlela yokufumanisa amagama akho asemthethweni-e-mail ngokusebenzisa iirejista zokubuya ze-HTML ukuze ubone imiphi imilayezo owavulekileyo, umzekelo-, unokufaka omnye wabo kwi-imeyile engenanto kwaye afikelele kwi- isiqhamo esiqeqeshwe seBaseesi.

U-John Graham-Cumming uzame ngoku ngokuvumela amafayili amabini aseBaseesane asebenzisane, "okubi" ukulungelelanisa ukuba imilayezo ifumaneka ukuba iphume "kwisiqulatho" esihle. Uthi isebenza, nangona inkqubo ichitha ixesha kwaye iyinkimbinkimbi. Asicinga ukuba siya kubona oku kuyenzeka oku, ubuncinci kungekhona kwizinga elikhulu, kwaye kungenakulinganiswa neempawu ze-imeyile zabantu. I-Spammers inokwenza (zama ukuzama) ukufumana amagama angundoqo kumibutho (into efana ne "Almaden" kwabanye abantu kwi-IBM mhlawumbi?) Endaweni yoko.

Ngokuqhelekileyo, ugaxekile uza kuhlala (ngokubalulekayo) eyahlukileyo kwi-imeyile rhoqo okanye ayiyi kuba ngumgaxekile, nangona kunjalo.

Umxholo: I-Bayesian Filtering & # 39; s Iimandla ezinokuthi zingabuthathaka

Izihlungi ze - spesi ze-Bayesian zifayile ezixhomekeke kumxholo :

baqeqeshwe ngokukodwa ukuba baqaphele ugaxekile womsebenzisi we-imeyile kunye ne-mail efanelekileyo , okwenza kube yimpumelelo kakhulu kwaye kunzima ukulungelelanisa nabagaxekile.
Unokuqhubeka kwaye ungenayo inzame enkulu okanye uhlalutyo lwencwadi olulungelelanisa neendlela zokugqibela ze-spammers.
ukuthatha i-imeyile ye-imeyile efanelekileyo kunye neqondo eliphantsi kakhulu leempembelelo zobuxoki .
Ngelishwa, ukuba oku kubangele ukungathembeki kwamanye amacebo e-anti-spam e-Bayesian, ibuyisela impazamo yexesha elithile . Umphumo ochaseneyo wezinto ezingamanga (i-spam ekhangeleka njengeposi ngokuqhelekileyo) inakho ukuphazamisa nokuphazamisa abasebenzisi.