
یکی از واقعیتهای کمتر مورد توجه در حوزهی مدلهای زبانی بزرگ (LLMs)، تفاوت آنها در فرآیند توکنسازی است. گرچه مشخص است که هر خانوادهی مدل از توکنایزر خاص خود استفاده میکند، اما بررسیهای جامع کمی در مورد میزان و پیامدهای این تفاوتها صورت گرفته است. آیا همهی توکنایزرها برای یک متن یکسان، تعداد مشابهی توکن تولید میکنند؟ اگر نه، این تفاوت چه اندازه است و چقدر میتواند در هزینهی نهایی اثرگذار باشد؟
در این مقاله، با مقایسهی دو مدل پیشرفته Claude از شرکت Anthropic و GPT از OpenAI به بررسی عملی این موضوع میپردازیم. با وجود آنکه هزینهی اعلامشدهی هر توکن در این دو مدل تقریباً یکسان است، اما شواهد نشان میدهد مدلهای Anthropic ممکن است در عمل تا ۲۰ تا ۳۰ درصد گرانتر تمام شوند.
مقایسه قیمتگذاری API — Claude 3.5 Sonnet در برابر GPT-4o
تا ژوئن ۲۰۲۴، ساختار قیمتگذاری دو مدل Claude 3.5 Sonnet و GPT-4o بسیار رقابتی بوده است. هر دو هزینهی یکسانی برای توکنهای خروجی دارند، اما Claude هزینهی توکنهای ورودی را تا ۴۰٪ کمتر تعیین کرده است.
«ناکارآمدی پنهان» در توکنسازی
با وجود نرخ پایینتر توکنهای ورودی در Claude، آزمایشهای عملی نشان میدهند که هزینهی نهایی پردازش یک مجموعهی ثابت از پرامپتها در GPT-4o کمتر از Claude است.
دلیل این امر به توکنایزر مدلها برمیگردد. توکنایزر Anthropic تمایل دارد یک متن را به تعداد بیشتری توکن تقسیم کند. در نتیجه، پرامپتهایی که در GPT با X توکن پردازش میشوند، ممکن است در Claude به X+۳۰٪ توکن تبدیل شوند. این موضوع، علیرغم قیمتگذاری پایینتر هر توکن، در عمل باعث افزایش هزینهی نهایی میشود.
این ناکارآمدی به شیوهی رمزگذاری اطلاعات در توکنایزر Claude مربوط میشود، که غالباً نیاز به استفاده از توکنهای بیشتری برای نمایش همان محتوا دارد. نتیجه؟ افزایش مصرف توکن و کاهش بهرهوری.
تأثیر نوع محتوا بر ناکارآمدی توکنایزر
میزان ناکارآمدی توکنایزر Claude بستگی به نوع محتوا دارد. بررسیها در سه حوزهی رایج مقالات انگلیسی، کد پایتون و معادلات ریاضی نشان میدهد:
- در مقالات انگلیسی: حدود ۱۶٪ توکن بیشتر
- در ریاضیات: حدود ۲۱٪ توکن بیشتر
- در کدنویسی پایتون: تا ۳۰٪ توکن بیشتر
این تفاوت از آنجا ناشی میشود که محتواهای فنی یا ساختاریافته شامل نمادها و الگوهایی هستند که توکنایزر Claude آنها را به قطعات کوچکتری تجزیه میکند. در حالیکه محتوای زبانیِ طبیعی، فشردهتر و با سربار توکن کمتر پردازش میشود.
پیامدهای عملی دیگر: پنجرهی متنی و بهرهوری
یکی دیگر از آثار این ناکارآمدی، استفادهی واقعی از پنجرهی متنی است. مدلهای Claude هرچند پنجرهی متنی ۲۰۰هزار توکنی را ارائه میدهند، اما به دلیل مصرف بالاتر توکن، در عمل بخش کمتری از محتوا را میتوان در این فضا جا داد. در مقابل، GPT-4o با پنجرهی ۱۲۸هزار توکنی ممکن است محتوای مؤثرتری را پوشش دهد.

مروری بر توکنایزرها
مدلهای GPT از الگوریتم Byte Pair Encoding (BPE) استفاده میکنند. در نسخههای جدید، توکنایزر o200k_base بهکار رفته که بهینهسازی مناسبی برای زبان طبیعی دارد. ساختار استفاده از این توکنایزر در مدلهای مختلف OpenAI به صورت زیر است:
json
{
"#reasoning": "o200k_base",
"#chat": {
"chatgpt-4o-": "o200k_base",
"gpt-4o-xxx": "o200k_base",
"gpt-4-xxx": "cl100k_base",
"gpt-3.5-turbo-xxx": "cl100k_base"
}
}
در مقابل، اطلاعات عمومی دربارهی توکنایزر Claude بسیار محدود است. اگرچه Anthropic در دسامبر ۲۰۲۴ یک API شمارش توکن منتشر کرد، اما این API در نسخههای ۲۰۲۵ حذف شد.
بر اساس گزارش Latenode، توکنایزر Claude تنها شامل ۶۵٬۰۰۰ نوع توکن است، در حالیکه GPT-4 دارای ۱۰۰٬۲۶۱ توکن متفاوت است. این محدودیت باعث میشود توکنایزر Claude محتوای بیشتری را با توکنهای کوچکتر و بیشتری رمزگذاری کند. تحلیلهای مستقل از جمله نوتبوکهای Google Colab نیز این یافتهها را تأیید کردهاند.
- صرفهجویی ظاهری ممکن است گمراهکننده باشد: کاهش هزینهی هر توکن ورودی در Claude لزوماً به معنای هزینهی کلی کمتر نیست.
- شناخت دقیق از رفتار توکنایزر حیاتی است: سازمانهایی که حجم بالایی از داده را پردازش میکنند، باید تفاوت در نحوهی توکنسازی را جدی بگیرند.
- نوع محتوا اهمیت دارد: در متون فنی، کد و ریاضی، توکنایزر Claude ناکارآمدتر عمل میکند.
- استفادهی مؤثر از پنجرهی متنی: پنجرهی متنی بزرگتر در Claude بهدلیل سربار توکن بیشتر، ممکن است در عمل کماثرتر از GPT باشد.
در زمان نگارش این مقاله، Anthropic هنوز به درخواستهای VentureBeat برای اظهار نظر پاسخ نداده است. در صورت ارائهی پاسخ، مقاله بهروزرسانی خواهد شد.
دیدگاهتان را بنویسید