این روزا سوال اکثر جوان هامون اینه که هوش مصنوعی جای منو میگیره؟مهم نیست که توی سوپرمارکت باشی یا توی همایش دانشگاه ها، معمولا اولین سوال همینه. توی این مقاله از جاجول، قرار نیست بدونی هوش مصنوعی جاتو میگیره یا نه. میخوایم به تاپیک مهم تری به اسم مدل های زبانی SLM مخفف (Small Language Model) و LLM مخفف (Large Language Model) بپردازیم.
مدل های زبانی یا Language models یه نوع مدل محاسباتی هوش مصنوعی هست که میتونه زبان هوش مصنوعی رو به زبان انسان شبیه سازی کنه.
جاجول : در واقع ما در مدل های زبانی با کلمه Generate و Generative زیاد برخورد میکنیم. این به معنای توانایی Language models در تولید پاسخ به درخواست دهنده هست. یعنی هوش مصنوعی این قابلیت رو داره که هر دفعه که ازش درخواستی دارین جوابی رو تولید کنه و نه این که جواب تکراری بده.
مدل های زبانی به وسیله مدل های یادگیری ماشین (Machine learning models) ، آموزش (train) داده میشن.
مدل های زبانی برای نزدیک شدن به انسان، روی دو بعد علمی تمرکز دارن:
- درک کردن ذات هوش
- ارتباط گیری با انسان به روش معنادار و ارتباط گیری با هوش ذاتی انسان
در کل هنوز مدل های زبانی، تست تورینگ رو به صورت کامل پشت سر نذاشتن. (جاجول : تست تورینگ یا Turing test به تستی گفته میشه که ماشین ها رفتار های انسانی رو رد میکنن یا قبول میشن). زمانی یک ماشین در تست تورین موفق هست که فرق رفتار یک انسان با ماشین رو نمیشه تشخیص داد.
اما این روز ها که حسابی مدل های زبانی سر زبون ها افتادن، به موفق شدن در تست تورینگ خیلی نزدیک هستیم: هم با تبلیغات بزرگ LLM و وعده و وعید ها طرفیم و هم با تبلیغات کمتر SLM ها.(SLM ها به صورت short language model هم شناخته میشن.)

SLM و LLM چیه و چه تفاوتی دارن؟
اگر شما هم تبلیغات های حوزه هوش مصنوعی LLM رو دنبال کردید، حتما با چت جی پی تی (ChatGpt) آشنایی دارید. این مدل های هوش مصنوعی برای بخش های آکادمیک، صنعت و مصرف کننده ها جذاب هستن. مهم ترین توانایی این مدل ها در پیچیدگی ارتباط گفتاری اونها با آدم هاست.
LLM یک رابط ماشینی هست که به تمام دانشی که در وب هست دسترسی داره. LLM به این منابع دسترسی داره تا بتونه این داده ها رو غربال کنه و در نتیجه یک جواب منطقی و درست به کاربر بده تا بتونه از اون استفاده کنه. این خیلی راحت تر از سرچ کردن در وب هست تا شما بتونین جواب مد نظرتون رو پیدا کنین.
در واقع ChatGpt اولین مدلی بود که از LLM استفاده میکرد و اخیرا به OpenAi و BERT یا GEMINI اخیر رسیده.(جاجول: BERT یا Gemini توسط گوگل توسعه داده میشه.)
خیلی از مدل های زبانی که فقط به ChatGpt ختم نمیشن، مهندسی شده هستن تا اسکریپت های برنامه نویسی رو انجام بدن. برنامه نویسا ها الان این قابلیت رو دارن تا بتونن با توضیح انسانی که به این مدل ها میدن، کد قابل مصرفی رو داشته باشن.

LLM یا مدل زبانی بزرگ چجوری کار میکنه؟
پس بیاید به این بحث از این مقاله بپردازیم که چجوری LLM یک زبان با طبیعت ذهن انسان داره.
قدم اول- احتمالات عمومی در یادگیری ماشین ( General probabilistic machine learning)
این ایده با استفاده از توسعه مدل های ریاضیات در هوش مصنوعی، بالاترین احتمال رو نسبت به پیشبینی های یه انسان به شما ارائه میده.
در حیطه مدل زبانی، این پیشبینی ها برگرفته از توزیع داده های زبان طبیعی انسان هستن.جاجول: زبان طبیعی هر اون چیزیه که در مکالمات انسان در نظر گرفته میشه. هدف این هست که با استفاده از احتمالاتی که ماشین یاد گرفته، دنباله ای از عبارات و جملاتی رو بسازه که نزدیک به دانش متنی موجود هست. این دانش نسبت به کوئری یا پرس و جوهایی هست که کاربر به اون وارد میکنه.
قدم دوم- معماری ترنسفورم و خود توجهی (Architecture transformers and self-attention)
جاجول : مدل های ترنسفورم ، یک مدل از یادگیری عمیق (Deep learning) هست که از مکانیزم توجه (Attention Mechanism) استفاده میکنه.
جاجول: مکانیزم توجه یک روش برای گسترش مدل های هوش مصنوعی هست که روی اطلاعات مربوط (اطلاعاتی که برای حل یک مشکل خاص استفاده میشه) تمرکز داره.
برای یادگیری پیچیدگی بین کلمات و عبارات دنباله دار یا متوالی، مدل های جدید مثل چت جی پی تی یا برت از ترنسفورم ها استفاده میکنن. هدف از ترنسفورم ها، تبدیل متن به وزن های عددی از نظر اهمیتشون هست تا بتونه احتمالات متوالی رو بسازه. (جاجول: وزن در حیطه ماشین لرنینگ خیلی پیچیدست. به صورت خلاصه پارامتر های قابل یادگیری از جمله شبکه های عصبی هست.سرچ کنید weight AI ).
قدم سوم- پیش تمرینی و تنظیم دقیق شده (Pretraining and fine tuning)
مدل های زبانی روی حوزه های خاص، به شدت دقیق تنظیم و آموزش داده شدن تا جلوی تعصب رو بگیرن . مثلا تندرویی و جملاتی که نفرت آمیزن (منظورش زن ستیزی، نژاد پرستی، و … هست).
این پروسه شامل رسیدگی به این موارد هست:
- مدل رو در یک مورد خاص آموزش بدین.
- پارامتر های مدل رو بر اساس داده های از قبل آموزش داده شده، راه اندازی کنید.
- حرکات مدل رو زیر نظر داشته باشین.
- گسترش هایپرپارامتر ها (hyperparameters) (جاجول : هایپرپارامتر ها در ماشین لرنینگ به پارامتر های ثابت میگن – شبیه به constant یا ثابت در ریاضیات ؟ -)
تفاوت SLM و LLM
هر دو زبان مدلی SLM و LLM از مفاهیم احتمالات در یادگیری ماشین برای طراحی معماریشون، آموزش هاشون و ساخت داده ها پیروی میکنن.
حالا بیاین به بررسی تفاوت هاشون بپردازیم.
اندازه و پیچیدگی مدل
فاحش ترین تفاوت بین SLM و LLM اندازه مدل هاست.
یک مدل زبانی مثل GPT شامل ۱.۷۶ تریلیون پارامتر هست در صورتی که مدل زبانی کوچیکی مثل Mistral شامل ۷ بیلیون پارامتر هست.
تفاوت ها به فرایند آموزش دیدن مدل ها هم میرسه. مثلا معماری مدل GPT از مکانیزم خود توجهی برای رمز گشایی یا رمز گذاری بهره میبره. در صورتی که Mistral از توجه پنجره کشویی (Sliding window attention) برای فقط رمز گشایی استفاده میشه. جاجول : مکانیزم پنجره کشویی یکی از مکانیزم های توجه هست که در شبکه های عصبی استفاده میشه.این مکانیزم به مدل زبانی اجازه میده تا زمان مرحله پیشبینی، در بخش های مختلف ورودی تمرکز کنه تا جوابی منعطف و با آگاهی بیشتر ارائه بده.
درک کانتکست ( متنی )
SLM یا مدل های زبانی کوچک در دامنه های خاصی آموزش دیدن. این مدل ها ممکنه در اطلاعات در مورد یک سری مفاهیم کمبود داشته باشن اما در مورد حوزه هایی که آموزش دیدن برتری دارن.(این حوزه ها انتخابی هست.)
از طرفی، هدف LLM تقلید هوش انسان در دامنه های گسترده تر هست. اونا روی منابع بزرگ تر داده ها کار میکنن و انتظار میره که در تمام حوزه هایی که پوشش میده رویکرد بهتر نسبت به SLM داشته باشه.
در نتیجه LLM مهندسی و دولوپ شده که کارهایی مثل برنامه نویسی رو به خوبی بتونه انجام بده.
مصرف منابع
این یکی از مهمترین تفاوت های بین این دو مدل زبانی هست. آموزش LLM یا مدل زبانی بزرگ یک فرایند منابع فشرده (resource intensive process) (جاجول : این فرایند به منابع خاصی در مقیاس بزرگ نیاز داره ) هست که به منابع محاسبات GPU در فضای ابری نیاز داره. آموزش ChatGPT از ابتدا نیازمند چندین هزار GPU هست در صورتی که یک مدل زبانی کوچک در کامپیوتر های خانگی هم قابل استفادست.
تعصب
LLM ها آموزش دیدن تا متعصب باشن. از اونجایی که بخشی از آموزش دیدن اون ها به منابعی که در اینترنت منتشر شده برمیگرده و ممکنه این داده ها:
- به ارزش ها یا یک گروه خاصی بی احترامی کرده باشن.
- محتوای اشتباه و نادرست منتشر کرده باشن.
حالا این مسئله پیچیده تر هم میشه: مدل زبانی خودش اخلاقیات و تعصب خودش رو بیان میکنه. این اخلاقیات از فاکتور های متفاوتی مثل گویش، منطقه جغرافیایی و قوانین گرامری تشکیل شده.یک مشکل که بسیار رایج هست،معماری مدل زبانی میتونه ناخواسته یک تعصب رو اجرا کنه و خودش هم متوجه این مشکل نشه.
از اونجایی که مدل های زبانی کوچک روی یک سری حوزه های خاصی فعالیت دارن، درصد اشتباه در تعصبشون بسیار کمتر از مدل های زبانی بزرگ هست.
میتونین برای اطلاعات بیشتر سرچ کنید : AI bias.
سرعت منطق
مدل های زبانی کوچک به این منظوراستفاده میشن که در کامپیوتر ها به صورت لوکال اجرا بشن و این امر باعث میشه کاربران بتونن در زمان قابل قبولی داده ها رو بسازن.
LLM ها برای ساخت داده نیاز دارن تا چندین فرایند رو همزمان اجرا کنن.این فرایند بسته به تعداد کاربرانی که دارن از اون استفاده هم میکنن داره. پس انتظار میره که این مدل ها سرعت کمتری داشته باشن.
آیا LLM بهترین انتخاب هست؟
این سوال کاملا بستگی به مورد استفاده کاربر از هوش مصنوعی رو داره. برای یکسری کسب و کار هایی که نیاز به یک کارمندی که در بخش پشتیبانی چت کنه دارن، LLM میتونه بهترین گزینه واسشون باشه.
در مورد هایی که هوش مصنوعی قراره در یک حیطه خاص فعالیت کنه، SLM میتونه بهترین گزینه باشه.
موارد پزشکی، حقوقی و مالی رو در نظر بگیرید. هر کدوم از این مواردنیاز به دانش خاص خودش رو داره و با آموزش دادن یک مدل زبانی کوچیک میتونیم بهترین استفاده رو در این دامنهها بکنیم.
نتیجه گیری جاجول
در کل به نظر خودم حوزه هوش مصنوعی تنها یک مسئله مربوط به تکنولوژی نیست. داره کم کم تبدیل به یک بحث فلسفی هم میشه. این که یک مدل هوش مصنوعی بتونه تست تورینگ رو قبول بشه این سوال پیش میاد که اخلاقیات و ذات انسان چه محدودیت هایی داره و تا کجا میتونه محدودیت رو زیر پا بذاره. بهتر اینه که به این ذات نوین نه نگیم و ازش استفاده کنیم و نترسیم.
” آنهایی که همه چیز را متصور میشوند، غیرممکن را میسازند “
منبع : وبسایت Splunk
اینستاگرام جاجول رو دنبال کنید.