What's in here?

This blog is used to share the lab's research in a more accessible way. It will feature the research done in the lab as well as various anecdotes and still unverified hypothesis. The language of the posts (Heb;En) depends on the subject, e.g. Israeli Twitter-sphere and analysis related to the 2019 Israeli election is in Hebrew. Summaries of research papers and cool research insights will be in English.  

  • Oren Tsur

בפוסטים הקודמים סיפקנו אנקדוטות ומספרים: כמה צייצנים עבריים יש (עשרות אלפים פעילים), מתי הם מצייצים (באמצע השבוע, כנראה בעבודה), מה ההבדל בינם לבין אלפי צייצני הפרלמנט (הרומנטיקה!), איך נראות השיחות שלהם (דו שיח חרשים זו שיחה ערה לעומת מה שקורה כאן) וכו'. בפוסט הזה נעסוק ביחסים המיוחדים עם התקשורת. או יותר נכון - עם העיתונאים.


עיתונאי בכיר ששמו שמור במערכת אמר לי לפני זמן מה שהוא מרגיש שטוויטר זה כלי לברנז'ה. סוג של פרפורמנס שנדרש מהם. קצת קידום עצמי והרבה דיבור תוך ברנז'אי שמספק בידור להמונים. מעין "ישחקו הנערים לפנינו" (למעשה יכול להיות שהוא אמר שהיוזרים ברגילים הם בבחינת הנערים המשחקים, אבל בסטנדרד הדיווחים של השבועות האחרונים אני מרשה לעצמי לא לזכור ואולי להפוך את היוצרות).


אז מי הם העיתונאים שזוכים לתשומת לב חברי הפרלמנט ולאיזה סוג של תשומת לב?

כמה גרפים ואחריהם כמה הסתייגויות. הנתונים הם לחודש אוגוסט 2019. קבלו את עשרים הגדולים ב-replies, mentions, retweets ו-quotes.




בראש המאוזכרים (@mention) נמצא חיים לוינסון המכהן ככתב הפוליטי של ה'ארץ' יצרן ממים וטרול לעת מצוא (אני משתמש בכינוי לחיוב). הוא זוכה לקרוב ל-8000 איזכורים פרלמנטריים בחודש, הוא זוכה ללא מעט איזכורים מימין, אבל נירמול במספר חברי הפרלמנט מכל גוש מראה שלמרות דומיננטיות לא מבוטלת בימין, את עיקר המינשונים הוא מקבל גם משמאל. איזן מדומה כזה אפשר לראות גם אצל ברק רביד, נדב אייל וטל שניידר. שאר העיתונאים ב-20 המובילים זוכים לאיזכורים בעיקר מימין.


בעוד איזכורים משמעותם התייחסות מסויימת, לכאורא דיון מעל ראשו של העיתונאי - תגובות (replies) הן התייחסיות ישירות לציוץ. להלן גרף התגובות:


המספרים כאן נמוכים יותר אבל התמונה דומה. לוינסון וסגל (עמית) מובילים במספר הכללי וגם הטרנד של חלוקת הקולות נשמר, פחות או יותר. סביר להניח שהמינשונים הם המשך התגובות (replies) באמעים אחרים, כלומר הממנשנים הם המגיבים למגיבים. קרן נויבך אמנם לא מובילה במספרים מוחלטים אבל בהחלט מובילה בתגובות אדומות (היא גם לא נכנסה לעשרית הממונשנים).


ומה בדבר ריטווטים (retweets)? ריטוויט, כידוע, אינו הסכמה הבה ונבחן את החלוקה:


ובכן - עמית סגל מוביל, הן במספר הכללי והן בדמוגרפיית המרטווטים - הרוב המוחלט של המרטווטים שלו הוא מהפרלמנטרים הימנים. אחריו אראל סגל וגם הוא עם בלעדיות ימנית ולוינסון יורד למקום השלישי עם דומיננטיות משמאל - דומיננטיות שהופכת למובהקת עוד יותר אחרי נרמול הדטא. ברק רביד ונדב אייל מרוטווטים גם הם בדומיננטיות מהשמאל. ומי שומר על איזון (אחרי נרמול)? שמרית מאיר.


"בפנים ידעת שאם את רק ציטוט, אז למה...?"

ציטוט הוא ריטווט בתוספת הערה. אם ריטווט הוא הפצת הבשורה, ציטוט הוא בד"כ הפצה בתוספת ההערה - לעיתים "hear hear!" ולעיתים "אוייויוי".

קל לראות שכתבים שזכו לריטווטים כמעט אך ורק מימין (עמית סגל, קלמן ליבסקינד) זוכים גם לציטוטים מהשמאל (שוב, בנירמול זה מובהק אף יותר) וניתן לראות שהרכב ה-טופ-20 משתנה.


הסתייגויות:

  1. הגרפים לעיל מציגים את המספרים המוחלטים מה שנותן תמונה מוטה במקצת (תלוי מה רוצים לראות). נירמול המספרים משנה את תמונת הפילוח. ראו גרפים למטה.

  2. הטייה נוספת שנכנסת בגלל המספרים המוחלטים היא ייצוג יתר לעיתונאים ימנים בטופ-20. יתכן ונירמול מקדים ישנה מעט את התמונה אם כי כנראה שלא מהותית.

  3. כל הנתונים כאן דורשים עיבוד מקיף יותר על מנת לחלץ תובנות משמעותיות. הבטחת בחירות: יעשה בעתיד.

  4. וכמובן שכדאי להידרש גם לתוכן - מה סוג התגובות שמקבלים העיתונאים השונים ואגפי הפרלמנט השונים. גם זה מתוכנן להעשות בעתיד - אם נצליח להרכיב קואליציה.






  • Oren Tsur

דו-משמעות, חוסר בהירות ואי הבנה הן תופעות נפוצות בתקשורת בין אישית. אלגוריתמים לעיבוד שפה מתקשים גם הם, לעיתים, ונדיר שאלגוריתם לומד ("בינה מלאכותית") מצליח להשיג דיוק מושלם על דטא אמיתי ומורכב כמו טקסט בשפה טבעית.

הפרלמנט - פרוייקט לא טריוויאלי ודי אוטונומי מפשל לפעמים. בפוסט המתגלגל הזה נסקור חלק מהפאדיחות וננצל אותן להסבר כללי על האתגרים בעיבוד שפה טבעית, על פעולת המערכת ועל פיתרונות והאקים אפשריים. על חלק מהגליצ'ים אנחנו עובדים ואת חלקם אנחנו אולי יודעים איך לתקן - אך יש לזכור שהפרלמנט הוא פרוייקט צד במעבדה ולעיתים מאחורי טעות קטנה ומשעשעת בסיווג ציוץ מסתתר פרוייקט שלם (עבודת מאסטר) לתיקון.

מצאתם עוד פאדיחות? שרשרו בתגובות (אם הטאב ולמה אתם חושבים שזה מצחיק. לינק לצילום מסך בדרופבוקס ודומיו יעזור גם הוא וישעשע את הקוראים).


נתחיל.


על אירועים (פוליטיים) אמיתיים ומדומים

אתמול (9 בספטמבר) נפל סופית חוק המצלמות שהסעיר את המערכת הפוליטית וכיכב גם בפרלמנט. שלשום השיקה אפל את האייפון החדש. בעמוד הפרלמנט הופיעו, פזורים גם ציוצים בודדים המתייחסים לאייפון.



מה בעצם קרה כאן? אז מעט על מאחורי הקלעים. במובן מסויים הפרלמנט הוא מערכת פשוטה להפליא. אחרי שזיהינו (אוטומטית) את אלפי החשבונות של הפרלמנטרים, המערכת מחפשת בין ציוצי הפרלמנטרים את הציוצים העוסקים בנושאים הפוליטיים השונים. הציוצים שנמצאו נשלפים בצורה דינמית ומוצגים בעמוד הפרוייקט. אבל מה הוא בעצם 'נושא'? מאחורי הקלעים 'נושא' הוא אוסף מילים בודדות וביטויים. האוסף הזה מגדיר את הנושא והחיפוש מתבצע על רשימות הביטויים האלו. אבל מה הם הביטויים בנושא מסויים? מי מגדיר אותם? בהגדרה הזו יש אלמנט ידני וכמה טריקים חישוביים פשוטים. כל אחד מהם יכול להכניס גם רעש למערכת.


כש'חוק המצלמות' הוסף כאחד הנושאים החמים, הגדרנו מספר ביטויים באופן ידני (על המודול שמזהה נושאים חמים באופן אוטומטי נכתוב בפוסט אחר). לביטויים שמוכנסים באופן ידני (וגם לנושאים חמים שמזוהים אוטומטית) אנחנו קוראים ה'גרעין' (seed). ההכנסה הידנית נעשית, ובכן, כלאחר יד. גם זיהוי הנושאים האוטומטי עדיין אינו מושלם. אחד הביטויים בגרעין היה 'המצלמות'. זה אמור לתפוס ביטויים מורכבים יותר כמו 'חוק המצלמות' וגם 'הצבת המצלמות בקלפיות'. נשמע סביר. כלומר רעש מסויים יכול להיכנס, אבל תחת ההנחה הסבירה שהפרלמנטרים עוסקים בעיקר בפוליטיקה וש'המצלמות' אינו ביטוי שגור ביום יום הפוליטי, למעט בנושא חוק המצלמות הנחנו שהרעש יהיה מינימלי, אם בכלל.


אבל כאן נכנסים למשחק עוד שני גורמים (למעשה שלושה) - מודול ההרחבה המורפולוגית, מודול ההרחבה הסמנטית והחיים עצמם - כלומר אירועים משמעותיים (?!) אך לא דווקא פוליטיים, למשל הכרזה 'דרמטית' על אייפון חדש. איך משפיעים הגורמים על המערכת?

מודול ההרחבה המורפולוגית בעצם מזהה באופן אוטומטי הטיות נוספות של המילים והביטויים בגרעין. 'המצלמות', למשל מורחב למילים נוספות כמו {מצלמות, מצלמה, המצלמה, לצלם, ...} (המודול הסמנטי מרחיב אוטומטית לביטוים נוספים כמו, למשל, תמונה, תמונות ועוד; גם על המרחיב הסמנטי בפוסט אחר ). בפועל המערכת מאחזרת לא רק את הציוצים המכילים את ביטויי הגרעין אלא גם את הביטויים בקבוצה המורחבת. למעשה לא רק שהרחבנו את הביטויים לאיחזור - הגדלנו גם את הרעש ואת פוטנציאל הטעות. שוב, ההנחה הסבירה שעיקר הדיון הוא פוליטי מגינה מעט מכניסת רעש לפרלמנט. משתמשים רגילים מדברים על מצלמות ותמונות בהקשרים מגוונים אך משתמשי הפרלמנט מצייצים על המונחים האלו בעיקר בהקשר הפוליטי. בעיקר. עד שקורה משהו שמשנה קצת את הסטטיסטיקות. אירוע מתוקשר ומדווח כמו השקת האייפון חודר גם את בועת הפרלמנטרים וחלקם מצייץ גם עליו. במקרים כאלו ההרחבה המורפולוגית גורמת לחיפוש מורעש בדטא רועש יותר מהרגיל והמערכת תאחזר ותציג ציוצים כמו "מהירים יותר עם מצלמה משודרגת וחיי סוללה ארוכים יותר...". נדגיש שוב - המילה 'מצלמה' כלל לא מופיעה בגרעין ומוסקת אוטומטית.


ואחרי הסבר הפאדיחה - נסב את תשומת הלב גם להצלחה - מרבית הציוצים אכן עוסקים בחוק המצלמות. וחלקם בצורה מעט עקיפה ומתוחכמת (שוב, גרעין, הרחבה מורפולוגית וסמנטית) - המערכת מאחזרת אוטומטית גם ציוצים כמו "פעילים בליכוד זומנו לחקירה במשטרה בקשר לחשדות לזיופים בקלפיות".

[אל פאדיחת מצלמות הפלאפונים הפנתה את תשומת ליבי הגר בוחבוט]


על פאדיחות נוספות נכתוב בעתיד.


חזרה לעמוד הפרלמנט.

עודכן ב: 6 ספט 2019

כמה צייצנים פעילים מצייצים בעברית? וכמה מצייצים הפרלמנטרים שלנו? פוסט במספרים.

נתונים משלימים לפרוייקט הפרלמנט.


  • סה"כ צייצנים*: 574,000

  • סה"כ ציוצים: 23,437,990

  • צייצנים שצייצו למעלה ממאה ציוצים: 20,397

  • סה"כ ציוצים של צייצנים פעילים (>100 ציוצים בתקופה): 22,488,000 (צייצנים שצייצו ציוץ ביום בממוצע**: 11,830; צייצנים שצייצו יותר מעשרה ציוצים בתקופה: 63,320)

  • צייצני הפרלמנט (בזיהוי נוכחי): 5859 (חלוקה גושית: על מונולוגים ודיאלוגים)

  • ציוצים פרלמנטריים: 6,706,825

  • תקופה: דצמבר 2018-אוגוסט 2019.

  • כיסוי: הנתונים מבוססים על כ-90% מהציוצים הפומביים בעברית (נוט טו סלף: לכתוב פוסט על שיטת האיסוף, שיטת ההערכה והטיות דמוגרפיות אפשריות).


מהו חשבון פעיל? הגדרת חשבון פעיל היא מעט עמומה. לצורך הניתוחון כאן נגדיר חשבון פעיל כחשבון שמצייץ מספר מינימלי של ציוצים. אם נגדיר חשבון פעיל כחשבון שצייץ לפחות מאה ציוצים בתקופה המצויינת אזי הפרלמנטרים מהווים 28% מכלל החשבונות הפעילים והם מצייצים מעט יותר מ-28% מהציוצים העבריים (של כלל הצייצנים). לעומת זאת, אם נגדיר חשבון כפעיל כחשבון שצייץ עשרה ציוצים בתקופה אזי הפרלמנטרים מהווים פחות מ-10% מהחשבונות הפעילים אך הם מצייצים יותר מפי שלוש מחלקם באוכלוסיה. הגרפים למטה מראים את מספר הציוצים העבריים ליום לעומת מספר הציוצים על ידי הפרלמנטרים (מחולק לאגפים).



כִּי גְדוֹלָה הַשִּׂנְאָה אֲשֶׁר שְׂנֵאָהּ מֵאַהֲבָה אֲשֶׁר אֲהֵבָהּ (שמואל ) - על טרנדים, פוליטיקה ורומנטיקה

הגרף לעיל*** מראה מחזוריות שבועית בכמות הציוצים. הישראלים מצייצים בימי עבודה ומצייצים פחות בסופי שבוע (שישי ושבת). התבנית הזו קיימת גם אצל הפרלמנטרים, אם כי ניתן לראות שהם מצייצים משמעותית יותר מחלקם באוכלוסיה (=כל הצייצנים).

הנפילות בגרף מסמנות קריסה/איתחול של השרת. שתי נקודות השיא (בגרף הירוק) מציינות את יום הבחירות ואת ט"ו באב - ימים בהם הישראלים התעוררו וצייצו משמעותית יותר מהרגיל. אולם בעוד ביום הבחירות גם הפרלמנטרים הגבירו את קצב הציוץ, בט"ו באב הפרלמנטרים (מכל האגפים!) דווקא הורידו את קצב הציוץ. אולי על המכורי הפוליטיקה אמר הנביא "כִּי גְדוֹלָה הַשִּׂנְאָה אֲשֶׁר שְׂנֵאָהּ מֵאַהֲבָה אֲשֶׁר אֲהֵבָהּ" (שמואל ב, יג, טו).





* כמובן שחלק ניכר מהם אינם צייצנים עבריים אלא בוטים שריטוטו או ג'ינרטו (בינה מלאכותית או העתקות מכתמי מוטיבציה וציטוטים מפורסמים) או סתם אוהדים מחו"ל שריטווטו ציוצים בעברית.

** שיאן הציוצים הוא חשבון בשם 'מוקד החדשות של ישראל' ששותה דיווחי חדשות מחשבונות ואתרי חדשות אחרים, מציג את הכותרת (לא מרטווט!) ונותן לינק לעמוד באתר ,מוקד החדשות' שם מאומבדת (שתולה) הידיעה המקורית. בתשעה חודשים החשבון צייץ 66,254 ציוצים.

*** למטה גרף ציוצים יומיים רק של אגפי הפרלמנט. הגרף מאפשר קריאה טובה יותר של מספר הציוצים היומי של כל אגף. נקודת השיא במרכז היא יום הבחירות (9.4.2019).





COPYRIGHT © NASLAB