• Oren Tsur

הפרלמנט - הפאדיחות

דו-משמעות, חוסר בהירות ואי הבנה הן תופעות נפוצות בתקשורת בין אישית. אלגוריתמים לעיבוד שפה מתקשים גם הם, לעיתים, ונדיר שאלגוריתם לומד ("בינה מלאכותית") מצליח להשיג דיוק מושלם על דטא אמיתי ומורכב כמו טקסט בשפה טבעית.

הפרלמנט - פרוייקט לא טריוויאלי ודי אוטונומי מפשל לפעמים. בפוסט המתגלגל הזה נסקור חלק מהפאדיחות וננצל אותן להסבר כללי על האתגרים בעיבוד שפה טבעית, על פעולת המערכת ועל פיתרונות והאקים אפשריים. על חלק מהגליצ'ים אנחנו עובדים ואת חלקם אנחנו אולי יודעים איך לתקן - אך יש לזכור שהפרלמנט הוא פרוייקט צד במעבדה ולעיתים מאחורי טעות קטנה ומשעשעת בסיווג ציוץ מסתתר פרוייקט שלם (עבודת מאסטר) לתיקון.

מצאתם עוד פאדיחות? שרשרו בתגובות (אם הטאב ולמה אתם חושבים שזה מצחיק. לינק לצילום מסך בדרופבוקס ודומיו יעזור גם הוא וישעשע את הקוראים).


נתחיל.


על אירועים (פוליטיים) אמיתיים ומדומים

אתמול (9 בספטמבר) נפל סופית חוק המצלמות שהסעיר את המערכת הפוליטית וכיכב גם בפרלמנט. שלשום השיקה אפל את האייפון החדש. בעמוד הפרלמנט הופיעו, פזורים גם ציוצים בודדים המתייחסים לאייפון.



מה בעצם קרה כאן? אז מעט על מאחורי הקלעים. במובן מסויים הפרלמנט הוא מערכת פשוטה להפליא. אחרי שזיהינו (אוטומטית) את אלפי החשבונות של הפרלמנטרים, המערכת מחפשת בין ציוצי הפרלמנטרים את הציוצים העוסקים בנושאים הפוליטיים השונים. הציוצים שנמצאו נשלפים בצורה דינמית ומוצגים בעמוד הפרוייקט. אבל מה הוא בעצם 'נושא'? מאחורי הקלעים 'נושא' הוא אוסף מילים בודדות וביטויים. האוסף הזה מגדיר את הנושא והחיפוש מתבצע על רשימות הביטויים האלו. אבל מה הם הביטויים בנושא מסויים? מי מגדיר אותם? בהגדרה הזו יש אלמנט ידני וכמה טריקים חישוביים פשוטים. כל אחד מהם יכול להכניס גם רעש למערכת.


כש'חוק המצלמות' הוסף כאחד הנושאים החמים, הגדרנו מספר ביטויים באופן ידני (על המודול שמזהה נושאים חמים באופן אוטומטי נכתוב בפוסט אחר). לביטויים שמוכנסים באופן ידני (וגם לנושאים חמים שמזוהים אוטומטית) אנחנו קוראים ה'גרעין' (seed). ההכנסה הידנית נעשית, ובכן, כלאחר יד. גם זיהוי הנושאים האוטומטי עדיין אינו מושלם. אחד הביטויים בגרעין היה 'המצלמות'. זה אמור לתפוס ביטויים מורכבים יותר כמו 'חוק המצלמות' וגם 'הצבת המצלמות בקלפיות'. נשמע סביר. כלומר רעש מסויים יכול להיכנס, אבל תחת ההנחה הסבירה שהפרלמנטרים עוסקים בעיקר בפוליטיקה וש'המצלמות' אינו ביטוי שגור ביום יום הפוליטי, למעט בנושא חוק המצלמות הנחנו שהרעש יהיה מינימלי, אם בכלל.


אבל כאן נכנסים למשחק עוד שני גורמים (למעשה שלושה) - מודול ההרחבה המורפולוגית, מודול ההרחבה הסמנטית והחיים עצמם - כלומר אירועים משמעותיים (?!) אך לא דווקא פוליטיים, למשל הכרזה 'דרמטית' על אייפון חדש. איך משפיעים הגורמים על המערכת?

מודול ההרחבה המורפולוגית בעצם מזהה באופן אוטומטי הטיות נוספות של המילים והביטויים בגרעין. 'המצלמות', למשל מורחב למילים נוספות כמו {מצלמות, מצלמה, המצלמה, לצלם, ...} (המודול הסמנטי מרחיב אוטומטית לביטוים נוספים כמו, למשל, תמונה, תמונות ועוד; גם על המרחיב הסמנטי בפוסט אחר ). בפועל המערכת מאחזרת לא רק את הציוצים המכילים את ביטויי הגרעין אלא גם את הביטויים בקבוצה המורחבת. למעשה לא רק שהרחבנו את הביטויים לאיחזור - הגדלנו גם את הרעש ואת פוטנציאל הטעות. שוב, ההנחה הסבירה שעיקר הדיון הוא פוליטי מגינה מעט מכניסת רעש לפרלמנט. משתמשים רגילים מדברים על מצלמות ותמונות בהקשרים מגוונים אך משתמשי הפרלמנט מצייצים על המונחים האלו בעיקר בהקשר הפוליטי. בעיקר. עד שקורה משהו שמשנה קצת את הסטטיסטיקות. אירוע מתוקשר ומדווח כמו השקת האייפון חודר גם את בועת הפרלמנטרים וחלקם מצייץ גם עליו. במקרים כאלו ההרחבה המורפולוגית גורמת לחיפוש מורעש בדטא רועש יותר מהרגיל והמערכת תאחזר ותציג ציוצים כמו "מהירים יותר עם מצלמה משודרגת וחיי סוללה ארוכים יותר...". נדגיש שוב - המילה 'מצלמה' כלל לא מופיעה בגרעין ומוסקת אוטומטית.


ואחרי הסבר הפאדיחה - נסב את תשומת הלב גם להצלחה - מרבית הציוצים אכן עוסקים בחוק המצלמות. וחלקם בצורה מעט עקיפה ומתוחכמת (שוב, גרעין, הרחבה מורפולוגית וסמנטית) - המערכת מאחזרת אוטומטית גם ציוצים כמו "פעילים בליכוד זומנו לחקירה במשטרה בקשר לחשדות לזיופים בקלפיות".

[אל פאדיחת מצלמות הפלאפונים הפנתה את תשומת ליבי הגר בוחבוט]


על פאדיחות נוספות נכתוב בעתיד.


חזרה לעמוד הפרלמנט.

COPYRIGHT © NASLAB