במאה ה-21, שזכתה לכינוי המוצדק "עידן המידע", דאטה הוא משאב יקר ערך. מאוד. לא בכדי יש מי שמשווים את הדאטה לזהב – ואתם לא צריכים לעבוד במכרה אלא יכולים להגיע למשרד מעוצב וממוזג. כשיודעים איך לזקק ממנה מקסימום ערך, ביג דאטה היא כבר אוצר של ממש. מי שיודעים לעשות זאת הם בעלי תפקידים כמו דאטה אנליסט, אנליסט BI, ביזנס אנליסט ודאטה סיינטיסט, ובהתאם ההזדמנויות שפרושות בפניהם אינסופיות כמעט. לכן זה לא מפתיע שביג דאטה היא יכולת בסיסית שנלמדת בכל קורס דאטה אנליסט ובתכניות הכשרה לתפקידים אחרים בעולמות הדאטה.
השמות של המקצועות נשמעים דומים ומבלבלים? אתם לא בטוחים שהבנתם עד הסוף מה זה ה-Big Data הזה? רוצים לדעת איך רוכשים מקצוע ממש מבוקש בתחום? מה כולל קורס מתאים? המדריך המקיף שהכנו לכם כולל תשובות לכל השאלות האלה ואחרות.
לצפייה בסרטון – מה זה Data Analysis ואיך נראית קריירה בתחום:
מה זה ביג דאטה?
אז מה זה big data? מאגר מידע גדול. ממש גדול. למעשה, עצום בגודלו, עד כדי כך רחב יריעה שהמוח שלנו, משוכלל ככל שיהיה, לא מסוגל להפיק ממנו תועלת אמיתית. איך כן ממנפים ביג דאטה לתובנות חכמות וביצועים משופרים לחברה? בעזרת יכולות מחשוב מתקדמות ומשמעותיות (וכמובן אנשי מקצוע מיומנים שמשתמשים ביכולות האלה ומפתחים אותן עוד).
הסיבה לפוטנציאל העצום של התחום היא שמאגרי המידע מתרחבים בקצב בלתי נתפש. מאז שהתחלתם לקרוא את הכתבה הזו, בני אדם בכל רחבי העולם ביצעו מיליארדי פעולות במרחב הדיגיטלי: חיפושים בגוגל, פרסומים ברשתות חברתיות, הודעות בווטסאפ, קניית מוצרים כאלה ואחרים, לייקים ושיתופים, הפסקת צפייה בסרטון שלא ייצר מספיק עניין בעידן של סבלנות מעטה למדי, ועוד ועוד. כל פעולה כזו היא דאטה, מן הסתם מאגרי המידע רק ילכו ויגדלו ולכן הביקוש לתפקידים כמו דאטה אנליסט וכו' ילך ויתרחב.
ההיסטוריה של הביג דאטה
אמנם big data הוא מונח חדש יחסית, אבל גם כך יש לו היסטוריה (קצרה). כבר בשנות ה-70 של המאה הקודמת הונחו היסודות לבסיסי נתונים, מן הסתם צנועים בהיקפם. החל מ-2005 הופיעו כלים כמו Hadoop שמטפלים בו-זמנית בפריטי מידע רבים מאוד, תוך שימוש בכמות סבירה של משאבים והישענות גם על למידת מכונה. כלים אלה התאפיינו ביכולת להתרחב במידה ניכרת בקלות, וכך ה-big data התחיל להיות גדול באמת.
באותם ימים נולד גם ה-NoSQL (ראשי תיבות של Not Only SQL): מודל חדש לבניית מסדי נתונים שתורם גם הוא ליכולת להרחיב ביעילות כל בסיס נתונים ולהתמודד עם כמויות עצומות של דאטה. האינטרנט של הדברים (IoT) סיפק עליית מדרגה נוספת בזכות עוד הרבה מאוד מקורות מידע, ואילו מחשוב ענן שדרג את היכולת לעבד במחיר סביר ביג דאטה.
מאמרים נוספים שיכולים לעניין אותך:
למה ביג דאטה זה כזה חשוב?
אחרי שמבינים מה זה ביג דאטה, כדאי להקדיש קצת זמן גם לתועלות המשמעותיות שטמונות באוקיינוס המידע. דרך מקובלת אחת להבהיר את החשיבות היא באמצעות שלושת ה-V-ים – Volume, Velocity, Variety:
1. Volume – הנפח העצום של המידע שמצטבר מהמון מקורות הופך אותו לבעל ערך רב. ההיקף מקנה גם אמינות.
2. Velocity – המידע הרב נקלט במהירות וגם מנותח תוך זמן קצר מאוד. כתוצאה מכך, אנליסט ביג דאטה מוכשר יכול לעזור לחברה להגיב בזריזות לכל תרחיש ולנצל כל הזדמנות. זוהי כמובן איכות קריטית במציאות הדינמית שבה אנחנו חיים.
3. Variety – הנתונים הרלוונטיים מגיעים בשלל פורמטים וגם יכולים להיות מוצגים במגוון רחב של דרכים. זהו גם יתרון מבחינת היכולת להשתמש במידע וגם אתגר שמחייב אנשי מקצוע בקיאים ומיומנים.
מנקודת מבט עסקית החשיבות של הביג דאטה מתבטאת בדברים הבאים:
- תמונת מצב מפורטת ועדכנית לגבי רצונות הלקוחות, הצרכים שלהם, ההעדפות וכו', ולכן שיווק אפקטיבי להפליא
- התנהלות יעילה במיוחד של מחלקות ותהליכים שונים
- מקסימום גמישות של שרשראות האספקה
- זיהוי מהיר מאוד של בעיות ומצבים חריגים
- קבלת החלטות מדויקות ומועילות
- התרחבות והתחדשות על בסיס דאטה רלוונטי
איך זה נראה בעולם האמיתי?
אם התשובה לשאלה מה זה big data ופירוט היתרונות נראים לכם תיאורטיים מדי, הנה כמה דוגמאות מהעולם האמיתי שכולם מכירים: רובנו נעזרים בווייז כדי להגיע בדרך הטובה ביותר למקומות שונים. ווייז נעזרת במידע שהיא אוספת מהמון נהגים בכל מקום, בכל נקודת זמן, ובקיצור – ביג דאטה.
עוד דוגמה היא נטפליקס: האלגוריתם של חברת הסטרימינג לומד את ההרגלים וההעדפות של כל הצופים, וכך הוא יכול להמליץ לנו על תכנים שנאהב (לפחות רוב הזמן…). בעולם הרפואה מסדי נתונים ענקיים צפויים לחולל מהפכה דרמטית, ופריצת דרך משמעותית שכבר הושגה בזכות הביג דאטה היא מיפוי גנום החיטה (גנום מורכב הרבה יותר מזה של בני אדם, אגב).
מאמרים נוספים שיכולים לעניין אותך:
איך עובד ביג דאטה?
כדי להפיק תועלת מדאטה נדרשות 3 פעולות: איסוף, ניתוח והסקת מסקנות. חשוב להקדיש לכל מרכיב תשומת לב מלאה.
לצורך איסוף המידע הרלוונטי במלואו וביעילות נבנית אסטרטגיה מפורטת: מהם מקורות המידע, איך הוא נאסף, איך הוא נשמר מבחינה טכנית ועוד. הניתוח כולל שימוש בכלים משוכללים ותוכנות ייעודיות וכמובן גם ידע של דאטה אנליסט. על הסקת המסקנות כבר אחראים גורמים אחרים בחברה: אם למשל חברה צוברת מידע אודות מאפייני הקונים של כל מוצר, וניתוח הדאטה מעלה שפריט מסוים נרכש בעיקר ע"י נשים בגילאי 40-60, מסקנה אפשרית היא למקד את השיווק של המוצר הזה בקהל היעד הנ"ל (או לחילופין דווקא בגברים, שעדיין לא זיהו את הפוטנציאל של הפריט).
באילו תפקידים נוספים הטכנולוגיה הזו רלוונטית?
ביג דאטה הוא מונח רחב, ולכן יש כמה וכמה תפקידים שהוא רלוונטי לגביהם:
דאטה אנליסט
דאטה אנליסט הוא איש מקצוע עם שליטה מלאה בשתי שפות: שפת ה-data והשפה העסקית. בהתאם הוא יודע להעביר לגורמים שונים בחברה את המידע הרלוונטי עבורם מתוך כל הדאטה שנאסף. הדרישות הטכניות מהדאטה אנליסטים יחסית צנועות, וכוללות בעיקר שליטה ב-SQL, אקסל וכלים לשליפת נתונים, ומצד שני נדרשת הבנה עסקית טובה מאוד.
- לקריאה נוספת: קורסים מומלצים שיהפכו אותך ל- Data Analyst >>
אנליסט BI
פירוש המונח BI הוא בינה עסקית – Business Intelligence. כלומר, אנליסט BI הוא הגורם המקצועי בחברה שמאפיין צרכים עסקיים ומתרגם אותם לדרישות טכניות לצוות הפיתוח (הצוות האחראי על בניית בסיסי הנתונים הנחוצים ועל פיתוח הממשקים שיאפשרו את הצגת הדאטה באופן נוח לעיבוד וניתוח). בנוסף אנליסט BI הוא זה שמשתמש בתוכנות השונות כדי לספק תובנות מועילות להנהלה. כדי למלא תפקיד זה באופן מיטבי נדרשת יכולת לחקור ולהעמיק בתהליכים עסקיים. התגמול הוא גם שכר נאה מאוד וגם יכולת להשפיע על הארגון.
- לקריאה נוספת: סקירה של קורסי BI מומלצים שיכניסו אתכם לתחום >>
ביזנס אנליסט
ביזנס אנליסט ממלא תפקיד דומה לדאטה אנליסט, אבל במיקוד שונה (ולכן למעשה משלים אותו). כמוהו, הוא מחבר בין הפן העסקי לפן הטכנולוגי, ומצד שני יש גם הבדלים: ה-Business Analyst מתמקד בצרכים העסקיים של החברה ולאו דווקא בדאטה עצמה כמו ה-Data Analyst. בנוסף הוא משתמש בנתונים לטובת שיפור תהליכים, ייעול ההתנהלות וקידום פתרונות טכנולוגיים ועסקיים. מי שממלא תפקיד של ביזנס אנליסט עובד מול המנהלים בחברה ומול מומחים עסקיים, ונדרש לשלוט בכלים עסקיים כגון UML ו- BPMN.
דאטה סיינטיסט
תפקיד שמהותו זיהוי ואפיון מגמות עתידיות על-מנת להפיק מקסימום תועלת מכל ה-Data שיש ברשות החברה. Data Scientist זקוק לרקע במתמטיקה ובסטטיסטיקה לצד יכולת לכתוב קוד בשפות תכנות רלוונטיות (ובפרט פייתון ו-R). באותה מידה עליו להבין לעומק את עולמות התוכן שבהם פועלת החברה. הוא משתמש בכלים לניתוח נתונים, בכלי ויזואליזציה (Power BI, למשל, וגם Tableau) כדי שהנתונים יוצגו באופן נוח להבנה, ושולט גם בתחומי ה-Machine Learning וה-Deep Learning.
מה תלמדו בקורס ביג דאטה?
הביקוש הרב, שכאמור צפוי להתרחב עוד יותר, לנשות ואנשי מקצוע בתפקידים הנ"ל, מוביל לכך שבאופן טבעי יהיו לא מעט אופציות של לימודי ביג דאטה. יש הבדלים בין קורס big data אחד לשני, וכמובן גם מכנה משותף לא מבוטל. בפרט כוללים הקורסים את הנושאים הבאים:
יסודות ה- Hadoop Ecosystem
ה-Hadoop הוא כאמור אחד המבשרים הראשונים של עולם ה-Big Data וגם היום הוא כלי מרכזי. המרכיב הזה בלימודים כולל היכרות עם הטכנולוגיה שבה Hadoop שומרת ומנהלת קבצים (HDFS), עם מנהל המשאבים YARN, ועם תוכנה שבזכותה ניתן לעבד טרה בייטים של דאטה (MapReduce).
בנוסף תלמדו לאבטח מידע עם Kerberos ו-Sentry, להשתמש בממשק ניתוח הנתונים Apache Hive (שבו נעזרת למשל נטפליקס), לעבוד עם Impala (מנוע שאילתות SQL מתקדם) ולשלוט ב-Pig (שפת תכנות ייעודית לעבודה עם Hadoop).
העברת נתונים – Transporting Data
עוד נושא שנלמד בכל קורס ביג דאטה הוא העברת מידע. הכלים הרלוונטיים בתחום זה הם Apache Flume – שמאפשר להטעין את Hadoop במידע רב ממקורות רבים; ה- Apache Sqoop – שנועד להעביר דאטה גם ממסדי נתונים רלציונים (RDBMS) וגם ממסדי נתונים לא רלציונים (NoSQL); וה- Apache Kafka – מערכת אופטימלית להעברת הודעות וגם לניתוח נתונים.
ספארק – Spark
לימודי ביג דאטה מקנים גם יכולת לעבוד עם כלי עיבוד המידע מהדור החדש, Spark. בכלי הזה אפשר לעבוד עם פייתון, ג'אווה, Scala וגם שפת R, להיעזר בו לצורך עיבוד מבוסס למידת מכונה, לבצע עיבוד נתונים בזמן אמת, לעבוד מול שלל מקורות של דאטה כולל IoT ויש לו עוד שלל איכויות.
שימוש בשפת R לצורך תכנות סטטיסטי – Statistical programming Using R
קורס big data עשוי להקנות גם שליטה בשפת התכנות R, ובפרט לצורך Statistical programming. זוהי שיטה יעילה לפתרון בעיות עתירות נתונים, תוך הישענות על כלים מתחום הסטטיסטיקה וגם המתמטיקה.
מאמרים נוספים שיכולים לעניין אותך:
עבודה עם Neo4j
כלי נוסף ששליטה בו מהווה יתרון עבור דאטה אנליסט, אנליסט BI, ביזנס אנליסט ושאר אנשי מקצוע בתחום הביג דאטה הוא Neo4j. ה-Neo4j משמש לבניית בסיסי נתונים גרפיים שכוללים צמתים וחיבורים, והיתרון הבולט שלו הוא היכולת לייצג בפשטות וביעילות מבחר תרחישים לגבי הקשרים בין פריטי המידע הקיימים.