מחקר חדש בתחום אבטחת סייבר לאיתור אתרים זדוניים ע"י מאפיינים עיצוביים

המחלקה להנדסת תעשייה

15 ספטמבר 2014

כריית האינטרנט (Web Mining) עושה שימוש בטכניקות של כריית נתונים במטרה לגלות וללמוד באופן אוטומטי ידע באינטרנט (WWW). אחד היישומים האתגריים ביותר של כריית האינטרנט הינו זיהוי סוג אתר על פי הקטגוריה אליה הוא משתייך, ובפרט זיהוי של אתרי אינטרנט זדוניים. אתרים זדוניים הינם אתרים אשר מטרתם לפגוע במשתמשים, לגנוב מידע או לעשות פעולות אינן רצויות אחרות בעת ולאחר הכניסה לאתר.

 

במהלך השנים האחרונות, פותחו שיטות רבות לזיהוי קטגוריות של אתרי אינטרנט, ביניהן, שיטות אשר נשענות על ניתוח הטקסט המצוי באתר, ניתוח ניווט המשתמשים בו, תכונות חשודות שנמצאות באתר, זיופי IP ורבים אחרים. במקביל, כמות המידע העצומה הנמצאת באינטרנט ממשיכה לעלות באופן אקספוננציאלי ובמהירות רבה ואיתה עולה גם סיבוכיות הזיהוי, מה שדורש לעיתים קרובות משאבים רבים ויקרים.

 

במחקר שנערך ע"י דורון כהן, בהנחיית פרופ' עירד בן גל ופרופ' שולמית קרייטלר, נוסתה שיטה חדשה לזיהוי אתרי אינטרנט, שיטה המתבססת על ניתוח העיצוב הגרפי של האתר על ידי שימוש בשיטות של כריית ידע. לצורך הפעולה, נבנה אלגוריתם אשר מקבל כקלט כתובת אתר נדרשת (URL) וכפלט מבצע משיכה ועיבוד של כל מאפייני העיצוב ושמירתם בצורה טבלאית בשרת. במחקר נבדקו מאות דפי בית (Home pages) של אתרים אשר נלקחו מרשימת האתרים הגדולים ביותר לפי 'גוגל' (Google top 1000 sites). עבור כל אתר נבדקו מעל 1000 תכונות עיצוביות כגון: גודל השטח עבור כל צבע שהופיע באתר, גודל הפונט בו כתוב הטקסט, כמות התווים, סטיות תקן, כמות האלמנטים באתר, סוג האלמנטים באתר ורבים נוספים.

 

לאחר עיבוד המידע וניתוחו נבנה מודל חיזוי באמצעות עץ  החלטה ובוצע אימות למודל על פי שיטת Cross Validation. בניסוי ראשון, נמצא כי סיווג על ידי עיצוב בלבד מאפשר לחזות ברמה גבוהה יחסית את כל חמשת הקטגוריות של אתרי האינטרנט שנבדקו (כולל קטגורית האתרים הזדוניים). בניסוי נוסף, נמצא כי הוספת תכונות של עיצוב לשיטת חיזוי אובייקטיבי אחרת, יכולה לשפר דווקא את תוצאות החיזוי של אתרים זדוניים באחוז דיוק גבוה של מעל 95% ובאופן מובהק סטטיסטי, כל זאת ע"י שימוש במשאבים נמוכים וזמן ריצה נמוך. ההסבר אפשרי לממצאים הינו שככל הנראה אתרים זדוניים מנסים להסוות מילות מפתח על מנת שמנועי חיפוש לא יאתרו אותם, בעוד שחיפוש לפי מאפייני עיצוב רבים כל כך יזהה תבניתיות חוזרת באתרים אלו אשר קיים קושי גדול יותר להסוותם.

 

מסקנות המחקר מראות כי לעיצוב חשיבות רבה בחיזוי קטגוריות אתרים, ולצבעים בפרט. מומלץ לשקול את הוספת מאפייני העיצוב לחיזויים אחרים בכדי לשפר את רמת הדיוק. המחקר יוצג בכנס הסייבר הלאומי שיערך בספטמבר באוניברסיטת תל אביב.

 

Keywords + Design

Keywords

Design

Prediction type

Category

22

7

17

12

18

11

Confusion Matrix

CRACK

3

418

0

421

31

390

97.78%

97.33%

90.67%

Total tree Accuracy

22

6

18

10

10

18

Confusion Matrix

SHOPPING

14

408

0

422

24

398

95.56%

97.78%

90.67%

Total tree Accuracy

20

6

18

8

6

20

Confusion Matrix

GAMES

4

420

0

424

14

410

97.56%

98.22%

92.44%

Total tree Accuracy

31

12

24

19

21

22

Confusion Matrix

NEWS

16

391

0

407

23

384

93.78%

95.78%

90%

Total tree Accuracy

6

4

2

8

6

4

Confusion Matrix

SEARCH

6

434

0

440

2

438

97.78%

98.22%

98.67%

Total tree Accuracy

טבלה  1 – Confusion matrix עבור עצי החלטה J48

תרשים 2 עץ החלטה שהתקבל ע"י חיזוי בתכונות עיצוב בלבד

μ 

μ0

H0

T-test results

Above 3σ

Results

TPmeta

TPmeta& design

TPmeta ≤ TPmeta&design

1.11E-49

Yes

TPmeta&design is higher than TPmeta

TNmeta

TNmeta& design

TNmeta ≥ TNmeta&design

6.41E-41

Yes

TNmeta&design is lower than TNmeta

TTL Accuracy Meta

TTL Accuracy meta&design

TTL Accuracy ≤ TTL Accuracy meta&design

7.51E-04

Yes

Total accuracy of meta&design is higher than Total accuracy of meta

טבלה 2 מבחן T עבור True positive ו-True negative לצורך השוואת החיזויים הבאים: מילות מפתח מול עיצוב+מילות מפתח. המטרה להציג את השיפור שמביא העיצוב

אוניברסיטת תל אביב עושה כל מאמץ לכבד זכויות יוצרים. אם בבעלותך זכויות יוצרים בתכנים שנמצאים פה ו/או השימוש
שנעשה בתכנים אלה לדעתך מפר זכויות, נא לפנות בהקדם לכתובת שכאן >>