גב' רוני רמון-גונן

גב'
גב' רוני רמון-גונן
דוא"ל: 
תחומי מחקר: 

תחומי מחקר

שילוב מדדים טכניים ומדדי תוכן בניתוח אשכולות

תקציר

נאמנות הלקוח היא קריטית לקיומו של העסק. השגת נאמנות לקוחות הינה משימה ניהולית ושיווקית מורכבת ביותר. על מנת לבצע משימה זו יש להכיר בצורה טובה את הלקוחות, להבין מהם הצרכים של הלקוחות, מהם מאפייניהם וכיצד יש לפעול על מנת לספק את צרכיהם ולהעלות את רמת שביעות הרצון והנאמנות שלהם. מכיוון שלקוחות שונים האחד מהשני ובעלי צרכים מגוונים לא ניתן להתייחס לכולם בצורה זהה מכיוון שפעולה שתגרום ללקוח אחד להיות מרוצה לא תשפיע על לקוח אחר. ההנחה היא שבין הצרכנים יש תת קבוצות בעלות צרכים הומוגניים ויש צורך לבצע פילוח לקוחות וליצור פרופיל לכל פלח. רמת ההומגניות צריכה להיות סבירה בין הצרכנים בכדי לאפשר שיווק אחיד בתוך הפלח, כל פלח מטרה חייב להיות גדול מספיק על מנת לאפשר פעילות רווחית.

פילוח לקוחות לקבוצות המבטאות מהויות עסקיות בצורה ברורה מנקודת מבט של העסק אינה משימה פשוטה וישנן דרכים רבות לבצע משימה זו. תהליך פילוח הלקוחות, הנקרא גם ניתוח אשכולות, מתחיל בהחלטה על סט הנתונים שיש להשתמש בו על מנת לפלח את הלקוחות, לאחר מכן יש להחליט על שיטת פילוח מתאימה, שיטה להעריך את טיב הפילוח שהתקבל ושיטה לפרש את התוצאות שהתקבלו. לשלבים השונים מגבלות שונות:

  1. כאשר מבצעים ניתוח אשכולות לא יודעים מראש לכמה קבוצות לחלק את הלקוחות ולאיזה קטגוריה כל לקוח שייך. ניתוח אשכולות בו לא ידועה מראש הקטגוריה אליה משתייך הלקוח מוגדר כ unsupervised learning. ישנם אלגוריתמים הממליצים על מספר האשכולות אך כל אלגוריתם ממליץ על מספר שונה של קבוצות.
  2. קיימים אלגוריתמים רבים באמצעותם ניתן לבצע פילוח לקוחות. כל אלגוריתם פילוח מביא לתוצאות שונות, גם אותו האלגוריתם עם פרמטרים שונים או סידור שונה של קלט הנתונים מביא לתוצאות שונות, דבר המקשה על בחירת שיטת הפילוח.
  3. ישנו מספר רב של מדדי הערכה להערכת טיב הפילוח, לכל מדד שיטת הערכה שונה וכל מדד הערכה נותן תוצאות שונות, עבור אותו האלגוריתם יהיה מדד שיקבע שחלוקה לעשרה אשכולות היא האופטימלית לעומת מדד אחר שיקבע שחלוקה לשש היא אופטימלית, מדדי ההערכה הנ"ל הינם טכניים, מרביתם מבוססים על מדידת הדמיון בין הנקודות בתוך האשכול לעומת הדמיון/השוני בין כל אשכול, הגדרת קריטריון הדמיון נבדל בין המדדים השונים.
  4. התוצאות הטכניות שמדדי ההערכה המקובלים מספקים אינן מספקות את התובנות שמעניינות את מומחה התוכן, שאותו מעניינת המשמעות. כלומר אבחון/הגדרת הקבוצות על פי מאפיינים מהותיים בעולמו.
  5. ישנם מספר כלים המסייעים בשלב פרוש תוצאות החלוקה וניתוח התוכן של כל אשכול. כלים אלו מציגים מהם המאפיינים של כל אשכול, מהן התכונות הבולטות בכל אשכול ומה מבדיל אשכול מסוים מאשכול אחר. כל כלי מציג את פרוש התוכן בצורה שונה על ידי דוחות שונים ומושגים שונים, אין סטנדרט ואין מונחים מוגדרים וכאשר מסתכלים על כל פרשנות ניתן לראות שגם בשלב זה יש שוני בפרוש תוצאות החלוקה.

בעוד מדדים טכניים מעריכים את תוצאת הסיווג-החלוקה בהתאם לפונקצית מטרה "טכנית".  לדוגמה, במקרים בהם נתונה החלוקה המבוקשת, פונקציות מטרה "טכניות" יכולות להתבסס על מרכיבי ה- Confusion Matrix,  כגון:  Precision, Recall וכד'.  ובמקרים בהם לא נתונה מראש החלוקה המבוקשת, פונקציות מטרה "טכניות" יכולות להתבסס על מדדים כגון: Within Class Distance, Between Class Distance וכד'.

המדדים הטכניים הנ"ל אינם מתייחסים לא למהותם של המשתנים ולא להתפלגות הערכים, כי אם לאותן פונקציות "טכניות".  לעומת זאת, מדדי התוכן הנידונים בעבודה זו מבוססים על ניתוח הערכים-התכנים של המשתנים.

מדד התוכן, בעבודה זו מתבסס על בולטות ערכי התכונות, תופעה המכונה בעבודה זו בשם Total Saliency Factor (TSF), ומבוסס על פונקצית הסתברות (המשקפת את הבולטות/Saliency) הלקוחה מרעיון ה Bounded Rationality Concept של כהנמן וטברסקי (Kahneman & Tversky, 1979). מדד תוכן מסייע להעריך את טיב הפילוח על סמך ערכי התכונות שהתקבלו בכל אשכול לעומת ערכי התכונות באוכלוסיה כולה. מטרתו לבחון האם אשכול מכיל תכונות בולטות המבדילות אותו מכלל האוכלוסיה.

בעבודה זו שילבנו מדדים טכניים יחד עם מדדי תוכן על מנת לברור חלוקות שלא תורמות לנו, במטרה להגיע למספר מצומצם של חלוקות אותם בחנו בצורה פרטנית וקיבלנו החלטה מהי החלוקה האופטימלית עבורנו מבחינה עסקית.

בעבודה זו השתמשנו במספר אלגוריתמים לביצוע ניתוח אשכולות, בחנו מדדים שונים להערכת טיב הפילוח והשוונו מספר שיטות לפירוש תוצאות הפילוח.

בעבודה זו בחנו נתונים אודות ביצוע עסקאות של לקוחות בשנים Y עד Y+4.  ומתוך נתונים אלו ניסינו להבין מהי הדרך האופטימלית לחלק את הלקוחות לקבוצות לפי התנהגותם בהקשר של ביצוע עסקאות. מטרתנו היתה למצוא דרך לחלק את האוכלוסיה בצורה שתשקף את היבט נאמנות הלקוח.

לאור העובדה שקיימים בשוק כלים רבים, אלגוריתמים רבים לביצוע ניתוח אשכולות, שיטות שונות להערכת תוצאות ושיטות שונות לאפיון האשכולות; בחנו מספר כלים ומספר אלגוריתמים והשוונו בין התוצאות שהתקבלו. כל כלי נותן מדד הערכה משלו ולכן החלטנו למדוד את איכות החלוקה גם באמצעות מחשבון ה Saliency שנותן מדד הערכה תוכני (TSF) לגבי בולטות התכונות באשכולות וגם באמצעות מדד טכני NPV (Negative Predictive Value).

נתוני המקור אינם מכילים שדה מטרה, המייצג נאמנות לקוח.  כיוון שכך, כאמור, נעשה שימוש בטכניקות של ניתוח אשכולות, במטרה לחלק את הנתונים באופן שישקף ככל האפשר מאפיין זה.  לשם כך, חולקו הנתונים לשתי קבוצות:  נתוני Y עד Y+3, ונתוני Y+4.  נתוני Y עד Y+3 חולקו בהרצות השונות ל-9 עד 15 קבוצות, והערכתם בוצעה לאור רציונל הלקוח שעמד על חלוקה ל-14 קבוצות.   הערכה נוספת של הדברים בוצעה באמצעות נתונים "עתידיים", נתוני שנת Y+4 שהוערכו באמצעות שילוב של מדד טכני NPV (המבוסס על רכיבי ה Confusion matrix)  ומדד תוכן  TSF המבוסס על השוואת ערכי התכונות בכל אשכול אל מול ערכי התכונות בכלל האוכלוסייה.

מהמחקר עולה שבזכות שימוש במדדי התוכן הצלחנו לסנן את מגוון התוצאות ולהתכנס למספר מצומצם של תוצאות. התוצאה הטובה ביותר שהתקבלה היתה של אלגוריתם MAV הבונה חלוקה לאשכולות על סמך השוואת תוצאות חלוקה של אלגוריתמים שונים. ולאחריו התוצאה של Weka simpleKMeans עם 14 אשכולות.

ראינו את השיקולים לבחירת חלוקה על ידי מומחה תוכן וכן שהבחירה של מומחה התוכן משלבת תוצאות טובות בכל המדדים שנבחנו.

בחנו את נושא הבנת ופירוש תוצאות החלוקה ומתן משמעות לכל אשכול וראינו שישנן דרכים שונות להגדיר מהם המאפיינים של אשכול ומהן התכונות הבולטות בכל אשכול. ראינו שגם בשלב זה ישנם הבדלים בין הכלים וראינו את היתרונות והחסרונות בכל כלי.