כל המאמרים

Latency בשיחות AI: למה 700ms הם קו פרשת המים בין שיחה טבעית לרובוטית

מה זה latency, למה זה חשוב יותר מכל פרמטר אחר בסוכן קולי, ואיך בודקים אם הספק שלכם עומד בסטנדרט.

Latency בשיחות AI: למה 700ms הם קו פרשת המים בין שיחה טבעית לרובוטית

כשאנשים שואלים "למה הסוכן AI שלכם נשמע טבעי יותר מאחרים?" — התשובה הראשונה היא latency.

לא הקול. לא הסקריפט. ה-latency.

מה זה Latency בשיחות AI?

Latency הוא הזמן שעובר בין הרגע שהלקוח מפסיק לדבר לרגע שה-AI מתחיל לענות.

בשיחה אנושית, ההשהיה הטבעית היא 200-400ms. כשהיא עוברת 700ms — השיחה מתחילה להרגיש מוזרה. מעל 1.5 שניות — הלקוח מתחיל לבדוק אם הקו נפל.

מה גורם ל-Latency?

שיחת AI עוברת שלושה שלבים:

דיבור הלקוח → STT (Speech-to-Text) → LLM (עיבוד) → TTS (Text-to-Speech) → תשובה

כל שלב מוסיף זמן:

  • STT: 100-300ms (תלוי בספק)
  • LLM: 200-800ms (תלוי בגודל המודל ועומס השרת)
  • TTS: 100-400ms עם streaming

סה"כ: 400ms עד 1.5 שניות. ההבדל הזה מורגש מאוד.

איך Callex מוריד Latency

Streaming בכל שלב

במקום לחכות לכל התשובה — כל שלב מתחיל לפעול על החלק הראשון של הפלט מהשלב הקודם.

LLM מתחיל לייצר תשובה → TTS מתחיל להשמיע את מילת הפתיחה → עד שה-LLM מסיים, כבר משמיעים חצי משפט.

מודלים קטנים ומהירים לשלב ראשון

לא כל שאלה דורשת GPT-4. "מה שעות הפתיחה?" דורש lookup פשוט. אנחנו מנתבים שאלות פשוטות למודלים קטנים ומהירים.

שרתים קרובים גאוגרפית

ב-Callex השרתים שלנו נמצאים באירופה ובישראל. כל ms של מרחק רשת — חשוב.

איך לבדוק Latency אצל ספק?

שאלו את הספק: "מה ה-P95 latency של הסוכן שלכם?"

P95 = ה-latency שמתחתיו 95% מהשיחות. אם הם לא יודעים לענות — זה אומר שהם לא מודדים.

מספר טוב: מתחת ל-600ms P95. מספר סביר: עד 900ms. מעל זה: הלקוחות ירגישו.

Bottom line

Latency הוא הדבר שהכי קשה לסלוח עליו בשיחת AI. אפשר להתרגל לקול לא מושלם. אי אפשר להתרגל לשיחה שנשמעת כמו שיחת לוויין מ-1998.

כשאתם בוחרים ספק Voice AI — תמיד תבקשו לשמוע שיחה חיה, לא דמו מוקלט.

רוצים לראות את זה על העסק שלכם?

20 דקות הדגמה — ותדעו אם Callex מתאים לכם

קבעו הדגמה עכשיו