כשאנשים שואלים "למה הסוכן AI שלכם נשמע טבעי יותר מאחרים?" — התשובה הראשונה היא latency.
לא הקול. לא הסקריפט. ה-latency.
מה זה Latency בשיחות AI?
Latency הוא הזמן שעובר בין הרגע שהלקוח מפסיק לדבר לרגע שה-AI מתחיל לענות.
בשיחה אנושית, ההשהיה הטבעית היא 200-400ms. כשהיא עוברת 700ms — השיחה מתחילה להרגיש מוזרה. מעל 1.5 שניות — הלקוח מתחיל לבדוק אם הקו נפל.
מה גורם ל-Latency?
שיחת AI עוברת שלושה שלבים:
דיבור הלקוח → STT (Speech-to-Text) → LLM (עיבוד) → TTS (Text-to-Speech) → תשובה
כל שלב מוסיף זמן:
- STT: 100-300ms (תלוי בספק)
- LLM: 200-800ms (תלוי בגודל המודל ועומס השרת)
- TTS: 100-400ms עם streaming
סה"כ: 400ms עד 1.5 שניות. ההבדל הזה מורגש מאוד.
איך Callex מוריד Latency
Streaming בכל שלב
במקום לחכות לכל התשובה — כל שלב מתחיל לפעול על החלק הראשון של הפלט מהשלב הקודם.
LLM מתחיל לייצר תשובה → TTS מתחיל להשמיע את מילת הפתיחה → עד שה-LLM מסיים, כבר משמיעים חצי משפט.
מודלים קטנים ומהירים לשלב ראשון
לא כל שאלה דורשת GPT-4. "מה שעות הפתיחה?" דורש lookup פשוט. אנחנו מנתבים שאלות פשוטות למודלים קטנים ומהירים.
שרתים קרובים גאוגרפית
ב-Callex השרתים שלנו נמצאים באירופה ובישראל. כל ms של מרחק רשת — חשוב.
איך לבדוק Latency אצל ספק?
שאלו את הספק: "מה ה-P95 latency של הסוכן שלכם?"
P95 = ה-latency שמתחתיו 95% מהשיחות. אם הם לא יודעים לענות — זה אומר שהם לא מודדים.
מספר טוב: מתחת ל-600ms P95. מספר סביר: עד 900ms. מעל זה: הלקוחות ירגישו.
Bottom line
Latency הוא הדבר שהכי קשה לסלוח עליו בשיחת AI. אפשר להתרגל לקול לא מושלם. אי אפשר להתרגל לשיחה שנשמעת כמו שיחת לוויין מ-1998.
כשאתם בוחרים ספק Voice AI — תמיד תבקשו לשמוע שיחה חיה, לא דמו מוקלט.
