DeepSeek: האמנם פריצת דרך טכנולוגית?

DeepSeek: האמנם פריצת דרך טכנולוגית?

פרטים וניתוח השלכות אפשריות

עומרי וקסלר, דורון פלדמן, אופיר בראל

 

 

השקתו של מודל ה-R1 של חברת הבינה המלאכותית הסינית DeepSeek הובילה לדיון ער בנוגע לתחרות הגוברת בין ארה"ב וסין על ההובלה העולמית בטכנולוגיית הבינה המלאכותית, ובנושאים הנוגעים לביטחון לאומי ולפרטיות. יש הטוענים כי המודל מציג תוצאות המשתוות, ואף עולות באיכותן על פני מודלי LLM מערביים כגון ChatGPT מתוצרת OpenAI או Gemini של גוגל. טענות אלו, לצד טענות החברה כי המודל מתבסס על עוצמת מחשוב הנמוכה משמעותית מזו של מתחרותיה, הובילו לערעור מסוים במעמדן של חברות הטכנולוגיה האמריקניות ולירידה מוגבלת בערך מניותיהן – עד כדי השוואת הופעתו של המודל הסיני ל"הפתעת הספוטניק" של שנת 1957.

אחד היתרונות שאינם שנויים במחלוקת של DeepSeek, טמון בכך שהתוכנה מבוססת על קוד פתוח, המאפשר גמישות והתאמת המודל לצרכי המשתמש. יתרון משמעותי אף יותר טמון ביכולת של המודל 'לזקק' יכולות חשיבה ממודלים סבוכים וכבדים יותר לטובת מודל קטן ויעיל יותר. פעולת הזיקוק בתחומי הבינה המלאכותית מתייחסת ליכולת להעביר 'ידע' ממודלים גדולים המכונים 'המורה' (Teacher model), למודלים קטנים ופשוטים יותר, המכונים 'התלמיד' (Student model). כמו כן, DeepSeek נעזרת בלמידת חיזוק (Reinforcement learning) לפיתוח יכולות חשיבה העוקפות את תהליך הלמידה המפוקחת (Supervised learning) המתקיים בשלבי האימון הראשוניים של מוצרים מקבילים, כגון אלו של OpenAI. בנוסף, בדיקות שנערכו בנושא איכות התוצאות המתקבלות הוכיחו כי המודל של DeepSeek נמצא כתחרותי ואף מוביל בביצוע משימות המחייבות חשיבה מורכבת, ובמיוחד בעיות מתמטיקה ותכנות קוד.

עם זאת, נכון לתחילת פברואר 2025, טרם נבדקה לעומק השאלה האם DeepSeek אכן משתמשת במשאבי מחשוב מצומצמים בהשוואה למקבילותיה האמריקניות והאם לא העתיקה חלקים מהמודל שלה מ-OpenAI. בעוד שמומחים העריכו כי מגבלות ייצוא השבבים שהטילה ארה"ב על סין ככל הנראה היו צפויים להקשות על DeepSeek לקבל גישה לשבבים מתקדמים, היו אחרים שטענו כי סין הצליחה לעקוף מגבלות אלו ולהשיג גישה לעשרות אלפי שבבי H100 מתוצרת Nvidia.

מומחים שהתייחסו ליתרונותיה של DeepSeek טענו כי המודל של החברה משתמש בשיטת ה-Test Time Scaling, המאגדת טכניקות לשיפור תוצאות המודל ויעילות צריכת האנרגיה וכוח המחשוב שלו. טכניקות אלו מאפשרות למודל לצרוך פחות משאבי מחשוב בעת ביצוע משימות שביצע בעבר, ולהגביר את צריכתם בעת ביצוע משימות חדשות. מכאן, שבעוד שהחברות האמריקניות דגלו בגישה של "גדול יותר, טוב יותר" והתמקדו בהגדלת כוח המחשוב ומאגרי הנתונים המשמשים לאימון המודל, ייתכן ופריצתה של DeepSeek תוביל למגמה חדשה, במסגרתה תתמקד התעשייה במודלים קטנים יותר, הצורכים פחות משאבי מחשוב.

מומחים שהתייחסו לפריצת הדרך של DeepSeek הביעו ביקורת על החזון של החברות האמריקניות שהתמקד במודלים גדולים ובהקצאת תקציבים הולכים וגדלים, ולא התמקד בחדשנות המאפשרת לפתח מודלים קטנים וחסכוניים יותר. גישה זאת באה לידי ביטוי בפרויקטים כמו Stargate עליו הכריזו חברות OpenAI ו-Oracle בינואר, ובמסגרתו יוקצו כ-500 מיליארד דולר להקמת מרכזי נתונים ותשתיות מחשוב להפעלת יישומי בינה מלאכותית. מומחים אחרים הדגישו את העובדה שגם מודל ה-R1 הנוכחי של DeepSeek אינו קטן במיוחד ומבוסס על 671 מיליארד פרמטרים. על אף זאת, ניכר כי DeepSeek אכן הציגה מודל מזוקק הקטן יותר מתוצריהן של מתחרותיה האמריקניות. לדברי ריטוויק גופטה (Ritwik Gupta) מאוניברסיטת ברקלי בקליפורניה, , המומחה לפיתוח מודלי בינה מלאכותית קטנים, חוקרי DeepSeek לקחו גרסאות מוקטנות של מודלים כגון Llama ו-Qwen, הכוללים בין 1.5 ל-70 מיליארד פרמטרים, ואימנו אותם על תוצאות (פְּלַטִּים) של מודל ה-R1. בכך למעשה, הצליחה החברה לייצר מודלים הדומים ל-R1 שיכולים לעבוד גם על מכשירים קטנים כגון טלפונים ולפטופים.

אחת ההשלכות המרכזיות של פריצת הדרך של DeepSeek עשויה להיות סלילת הדרך לשחקנים חדשים בשוק הבינה המלאכותית, שלהם אין גישה למשאבים ולכוח מחשוב הדומים לאלו של ענקיות הטכנולוגיה. אלו יוכלו לייצר מודלים משל עצמם שאומנו על מידע הנמצא בשליטתם, במקום להסתמך על מודלים של מספר מצומצם של יצרנים גדולים.

מגמה זו צפויה להשפיע גם על מגזרי תעשייה רבים וביניהם התעשיות הביטחוניות. בשנים האחרונות, תעשיות רבות, ביניהן התעשיות ביטחוניות, מגזרי האנרגיה, התחבורה, הייצור התעשייתי והערים החכמות, שואפות להציב יכולות וכוח מחשוב במערכות קצה (Edge systems), על מנת לאפשר פעולות חישוב ועיבוד על גבי המכשיר או הפלטפורמה האוספים את המידע, או בקרבתם. זאת בניגוד לשליחת המידע למרכזי נתונים ריכוזיים לצורך עיבודו. בהקשר זה, שימוש במודלים קטנים בעלי יכולות מתקדמות עשוי לאפשר את הצבתם על גבי מכשירי קצה, שמטבע הדברים יכולות החישוב שלהם מוגבלות, במטרה לאפשר עיבוד מהיר יותר של המידע הנאסף על ידי חיישנים המותקנים בקרבתם. מנקודת מבט ביטחונית, עשויה פריצת דרך זו לאפשר את הצבתן של מערכות בינה מלאכותית בשדה הקרב על גבי מערכות נשק, ולספק לכוחות לוחמים תוצרים ותובנות בזמן אמת. הטמעת מערכות אלו על גבי מכשירים קטנים בעלי כוח מחשוב מוגבל צפויה להנגיש אותן גם ליחידות בסדר גודל קטן ברמה הטקטית. תפוצתן, והעובדה כי מדובר במודלי קוד פתוח, עלולה אף להוביל להנגשתן לכוחות לא-סדירים, לוחמי גרילה ואף ארגוני טרור.

לצד היכולת לזקק מודלי בינה מלאכותית קטנים שאינם נסמכים על עוצמות חישוב גדולות, מעלה פריצת הדרך של DeepSeek שאלות בנושא הנגשת המודל לציבור. פרסום מודל ה-R1 כמודל קוד פתוח, יאפשר לארגונים במגוון תעשיות לאמץ אותו ולהשתמש בו לצרכי ייעול עבודה ולצרכי היום-יום. עם זאת, בדומה לשימוש בתוכנות קוד פתוח, עולה החשש לקיומן של חולשות או "דלתות אחוריות" במודל, העלולות לאפשר לגורמים מדינתיים ואחרים גישה למידע פרטי, לקניין רוחני ועוד.

למרות פריצת הדרך של DeepSeek וככל הנראה של חברות סיניות נוספות, נראה כי החששות הנלווים לכניסת המודלים מתוצרתן לשוק הבינה המלאכותית העולמית מוגזמים. בעבר, המגזר הפרטי והיזמים בארה"ב כבר הפגינו דינמיות ויכולת הסתגלות גבוהה למגמות חדשות, פיתחו טכנולוגיות מתקדמות כתגובה לשינויים ושמרו על יתרונם היחסי באמצעות חדשנות, ייעול ושיפור מתמיד. לא מן הנמנע כי עלייתה של DeepSeek תוביל בטווח הזמן הנראה לעין להופעת שחקנים חדשים – קטנים, נמרצים ויעילים יותר – אשר יוכלו להתחרות ואף לעלות על ביצועי המודלים הקיימים.

שנית, יש להדגיש כי אף על פי שסין ידועה ביכולתה לייצר פתרונות טכנולוגיים בעלות נמוכה יחסית, נותרת שאלה מהותית בנוגע לרמת האיכות של המוצרים המפותחים בה. ניסיון העבר מלמד כי עלויות ייצור נמוכות לעיתים קרובות באות על חשבון איכות הביצועים, דבר אשר צפוי להציב אתגר למודלים סיניים. בתחום אבטחת הסייבר, טענה החברה הישראלית KELA כי בהשוואה ל-ChatGPT, המודל של DeepSeek פגיע יותר למתקפות הנעזרות בטכניקת Jailbreaking, המאפשרת לגורמים זדוניים לעקוף את מגבלות האבטחה והאתיקה שלהם, ובכך לגרום להם לסייע בביצוע עבירות פליליות כגון פיתוח נוזקות וניסוח מסרים למתקפות דיוג. הדבר נובע, בין היתר, מהעובדה שתהליכי הסקת המסקנות (Reasoning processes) במודל של DeepSeek גלוי למשתמשים, בניגוד ל-ChatGPT, מה שעלול לאפשר לתוקפים לבצע מניפולציות בתהליכים הללו. סוגיית האבטחה מתחדדת גם לאור העובדה שסין רותמת מזה שנים טכנולוגיות מתקדמות לביצוע של פעולות לוחמת מידע ולהפצת מידע פוגעני וכוזב נגד יריבותיה במזרח אסיה ובמערב. ניתן להעריך כי המודל של DeepSeek אינו יוצא דופן בעניין הזה. במחקר שנערך בימים שלאחר הפצת המודל לשוק, נמצא כי הוא הוא בעל סיכוי מוגבר פי 3-11 לייצר תוכן מוטה ומזיק, בהשוואה למודלים מערביים מובילים, בהם GPT-4o ו-Claude-3 Opus. חלק גדול מהמידע הזה מבטא את עמדותיה הרשמיות של ממשלת סין בסוגיות לאומיות ובין-לאומיות שונות, המוכרות זה מכבר כעמדות מוטות ובלתי מבוססות.

על רקע זה, ניתן להניח כי שווקים, תעשיות ומגזרים מסוימים הדורשים פתרונות בינה מלאכותית מתקדמים ימשיכו להעדיף מודלים מערביים, המאופיינים בפיקוח הדוק יותר על תהליכי הפיתוח והאיכות, בהקפדה על עקרונות אבטחת מידע, פרטיות וסייבר, וכן בגישה למשאבי מחשוב ושיתוף פעולה עם מרכזי מחקר אקדמיים מובילים. יחד עם זאת, אם המודל של DeepSeek אכן יוכיח עליונות טכנולוגית ביחס למתחרים, מבחינת יעילותו או בצריכת משאבים, מדובר בהתפתחות שעשויה לשנות את כללי המשחק ומאזן הכוחות בתעשיית הבינה המלאכותית והטכנולוגיה.

פריצת הדרך של DeepSeek בפיתוח מודלים המשלבים יכולות מתקדמות תוך חיסכון במשאבי מחשוב מציבה יתרון אסטרטגי משמעותי עבור מדינות קטנות בעלות משאבים מוגבלים. בהקשר זה, מהווה ישראל דוגמא בולטת למדינה שהדגימה בעבר יכולת הסתגלות גבוהה לתמורות כלכליות וטכנולוגיות והתמודדות עם אילוצים תקציביים וגאופוליטיים. לאורך השנים, ישראל ביססה את מעמדה כמרכז חדשנות וטכנולוגיה עולמי, במיוחד בתחומי אבטחת הסייבר, למידת מכונה, ופיתוח יישומים צבאיים וטכנולוגיות לשימוש כפול (Dual Use). לאור זאת, אימוץ אסטרטגיית פיתוח של מודלים יעילים ומצומצמי משאבים עשוי להוות הזדמנות משמעותית לאומת החדשנות הישראלית להשתלב באופן משמעותי יותר בתעשיית הבינה המלאכותית העולמית. ניתן להניח עוד כי מגמה זו חופפת לאינטרסים של ארה"ב תחת ממשל דונלד טראמפ החדש, שעשוי לראות בישראל שותפה אסטרטגית במאבק הטכנולוגי מול סין.

לסיכום, נראה כי החששות המוקדמים סביב פריצת הדרך הטכנולוגית של DeepSeek מופרזים, ומוקדם להכריז על אובדן היתרון הטכנולוגי או היחלשות מעמדן של חברות הטכנולוגיה המערביות. עם זאת, הופעתה של DeepSeek מהווה קריאת השכמה למדינות המערב ולארה"ב, שיידרשו לבצע התאמות אסטרטגיות, ואשר צפויה להאיץ את התחרותיות ולחולל גל שני וחדש של חדשנות טכנולוגית. לא מן הנמנע כי פריצת הדרך תוביל לפיתוח מודלים מתוחכמים ויעילים יותר, תוך הפחתת התלות בהשקעות מסיביות במשאבי מחשוב. שינוי זה עשוי לאפשר לא רק לשחקנים גדולים, כגון OpenAI, גוגל ומיקרוסופט, למנף את השיפורים, אלא גם לשחקנים בעלי משאבים מוגבלים – דוגמת יזמים פרטיים ומדינות קטנות בעלות סביבה (Eco-System) טכנולוגית מפותחת, כדוגמת ישראל – לפתח פתרונות חדשניים, ובכך לתרום לעיצוב מחדש של שוק הבינה המלאכותית הגלובלי.

אוניברסיטת תל אביב עושה כל מאמץ לכבד זכויות יוצרים. אם בבעלותך זכויות יוצרים בתכנים שנמצאים פה ו/או השימוש
שנעשה בתכנים אלה לדעתך מפר זכויות יש לפנות למערכת הפניות >>