מיד אחרי שסיימו להתווכח על הבחירות בקבוצת הוואטסאפ המשפחתית שלנו, עברו להתווכח על הקורונה.
אני טענתי שלדעתי זה קשקוש, ובתגובה קיבלתי שיחת טלפון נזעמת מאחד הדודים, שבמשך 20 דקות נתן לי דיווח מדויק על מצב התפשטות הקורונה בכל אחת ממדינות העולם.
(גם לכם יש דוד כזה, שיודע מה קורה בחדשות בכל רגע נתון?).
בכל מקרה,
במהלך הויכוח ציטטתי את המשפט המפורסם Correlation does not imply causation.
בגדול, המשפט הזה אומר שגם אם יש קורלציה בין שני נתונים – זה לא אומר שיש ביניהם גם קשר של סיבה ותוצאה.
כדוגמא לזה, תמיד מביאים את הקשר בין אכילת גלידה לטביעה בים.
הנתונים בשטח מוכיחים, שככל שנמכרות יותר גלידות – כך יותר אנשים מתים כתוצאה מטביעה בים, ולכן דיי ברור שהגלידה היא זו שגורמת לאנשים לטבוע.
אהה לא?
ברור שלא.
מכירות הגלידה צומחות בקיץ בגלל מזג האוויר החם, ובגלל שחם – יותר אנשים הולכים לים, ובגלל זה גם טובעים יותר.
אבל ברור לכל בר דעת, שלא הגלידה היא זו שגורמת לאנשים לטבוע…
במילים אחרות: זה שיש קורלציה בין נתונים, לא אומר שיש ביניהם יחס של סיבה ותוצאה.
כלומר, זה לא אומר שאחד מהם בהכרח גורם לשני לקרות.
מה הקשר לקורונה, ומה הקשר לאנליטיקס?
הקשר לקורונה פשוט –
בכל יום, מתים 150,000 איש בכל העולם.
זה אומר שמאמצע ינואר, הזמן בו העולם התחיל לדבר על “מגיפת הקורונה”, מתו כ-7,000,000 איש.
מתוכם, אצל 3,569 איש גילו את חיידק הקורונה (על פי האתר הזה).
כמו כן, חיים כיום בעולם 7.8 מליארד אנשים.
אצל כמה מהם יש קורונה ללא תסמינים? כנראה שלהמון, אבל אף אחד לא יודע מזה, בדיוק כמו שלהמון אנשים יש סרטן והם לא יודעים מזה.
(תאים סרטניים מתפתחים כל הזמן, אצל כולנו, אבל ברוב המקרים הגוף מחסל אותם עוד לפני שהם הופכים לבעיה).
בכל מקרה, מה שאני רוצה להגיד זה שגם אם מצאו קורונה אצל 0.05% מהאנשים שמתו בחודש וחצי האחרונים – זה עדיין לא אומר שהקורונה היא זו שהרגה אותם.
(אתם יכולים להתווכח איתי על זה, אבל כנראה שלאף אחד מאיתנו לא תהיה הוכחה מוחלטת, אז בואו נעבור לנושא הבא).
איך זה קשור לאנליטיקס?
הרבה פעמים אנשים מזהים קשר בין מספרים מסויימים באנליטיקס, אבל לא שמים לב שמדובר בקורלציה בלבד ולא בקשר של סיבה ותוצאה.
במקרים הללו, הסקת מסקנות על סמך הנתונים מבלי לחשוב על הקשר האמיתי, תהיה שגויה.
למשל:
“אחוז ההמרה של דפדפן אקספלורר 8 נמוך יותר, ולכן כנראה שהאתר שלנו לא עובד טוב על הדפדפן הזה”.
על פניו הטענה נשמעת הגיונית, אבל רגע לפני שאתם הולכים לבצע התאמה של האתר, נסו לחשוב רגע: האם דפדפן אקספלורר 8 הוא הבעייתי?
או שאולי אופי הגולשים שמשתמשים באקספלורר 8 (אנשים מבוגרים עם Windows XP שלא טרחו לשדרג את הדפדפן מהיום בו קיבלו את המחשב) הם אנשים פחות טכנולוגיים, ולכן חוששים יותר לקנות אונליין?
עוד דוגמא אפשר לראות ביחס בין משתמשי iOS לאנדרואיד.
לכו לאנליטיקס שלכם, פתחו את הדוח Audience > Mobile, ואז בחרו למעלה Operating System בחלק של ה-Primary Dimension.
נכון שגולשי iOS ממירים יותר מגולשי Android, בהפרשים עצומים?
מה זה אומר?
האם זה אומר שמערכת iOS יותר טובה? האם זה אומר שהאתר עובד יותר טוב על סמארטפונים של אפל?
לא ולא.
זה אומר שיש קורלציה בין גולשי iOS לאחוז המרה גבוה, אבל לא אומר שמערכת ה-iOS היא זו שגורמת לכך.
הסיבה האמיתית לתופעה, היא פשוט בגלל שמערכת iOS מותקנת רק על מכשירי קצה (high-end), שהבעלים שלהם יותר טכנולוגים, יש להם יותר כסף לבזבז, והאינטרנט שלהם מהיר יותר.
כל זה ביחד גורם להם לקנות יותר.
לעומת זאת מערכת אנדרואיד מותקנת גם על מכשירים פשוטים של 400 שקל, שהבעלים שלהם פחות טכנולוגיים, יש להם פחות כסף, והאינטרנט שלהם איטי יותר, ולכן הם קונים פחות.
אני יכול להביא לכם עוד מליון דוגמאות, אבל המסר ברור:
כשאתם מסתכלים על מספרים (ולא רק על מספרים של גוגל אנליטיקס), תמיד תחפשו את ההגיון.
זה שיש קורלציה בין המספרים זה סבבה, אבל תמיד תבדקו האם יש ביניהם גם קשר של סיבה ותוצאה, והאם באמת נראה לכם הגיוני שאחד גורם לשני לקרות.
איך בודקים את זה? על ידי ניסויים.
בגרסא אחת שמים את הגורם שלדעתנו ישפיע על המספרים, ובגרסא שניה שמים את המקור, ואז בודקים אם באמת היתה השפעה.
אני לא נכנס לאיך בדיוק לעשות את הטסט, כי צריך להקפיד שלא יהיו רעשי רקע שיכולים לעוות את התוצאות, אבל את הרעיון הבנתם.
זהו להיום.
שמרו על עצמכם.
ופורים שמח.
שוקי