این مقاله را به اشتراک بگذارید
[ad_1]
مدل جدید QWEN در انتظار طولانی در 28 آوریل 2025 منتشر شد. پس از آنکه چند بار در بغل کردن صورت و Modelcope قابل مشاهده بود و دوباره ناپدید شد ، QWEN3 اکنون به طور کلی در دسترس است.
یک دانشمند داده و معمار یادگیری ماشین است. وی دکترای خود را در فیزیک نظری انجام داد و به مدت 20 سال در زمینه مقادیر زیادی از داده ها و هوش مصنوعی کار کرده است ، به خصوص با تمرکز بر سیستم های مقیاس پذیر و الگوریتم های هوشمند برای پردازش متن انبوه. وی از سال 2022 استاد در نورنبرگ بوده و تحقیقات خود را در مورد بهینه سازی تجربه کاربر با استفاده از فرآیندهای مدرن متمرکز می کند. او بنیانگذار Datanizing GmbH ، سخنران در کنفرانس ها و نویسنده مقالات مربوط به یادگیری ماشین و تجزیه و تحلیل متن است.
خانواده مدل ناهمگن
طبق معمول ، نسخه جدیدی از اندازه های مختلف نیز وجود دارد ، یعنی 600 میلیون پارامتر تا 235 میلیارد. بر خلاف Llama 4 ، Alibaba مدلهای کوچکتر را به عنوان مخلوط متخصص آموزش نداد. در مدل های QWEN3 با 600 میلیون ، 1.7 میلیارد ، چهار میلیارد ، هشت میلیارد ، 14 میلیارد و 32 میلیارد پارامتر در دسترس است. در مقایسه با مدل های قبلی QWEN2.5 ، کوچکتر (600 متر تا 4b) حدود 10 درصد رشد کرده اند ، دو بزرگتر عملاً اندازه آنها را تغییر نداده اند.
با این حال ، QWEN3 همچنین مدل های بزرگ را به عنوان مدل های مخلوط در دسترس قرار می دهد. این مدل با 30 میلیارد پارامتر “فقط” فقط به “فقط” سه میلیارد پارامتر برای هر فاکتور نیاز دارد ، در حالی که بزرگتر با 235 میلیارد پارامتر. اگر رم کافی دارید ، می توانید به سرعت با مدل 30B نشانه هایی تولید کنید ، حتی با مدل 235B باید حتی سریعتر از مدل متراکم 32B کار کند.
چیزی که از انتشار Llama-4 غافلگیر شد ، عدم وجود یک مدل استدلال بود. در اینجا QWEN3 بسیار سازگارتر است: همه مدل ها استدلال را تسلط داده اند – اگر می خواهید. پارامتر enable_thinking
این مدل باعث شد قبل از پاسخ “فکر کنید” و همچنین این روند فکر را در دسترس قرار دهد. این به خوبی کار می کند و بسیار کاربردی است: شما فقط باید یک مدل را در رم بارگذاری کنید و بسته به استفاده در نظر گرفته شده ، می توانید از آن به عنوان استدلال یا LLM کلاسیک استفاده کنید.
در مقاله وبلاگ در مورد انتشار QWEN 3 اطلاعات جالبی در مورد آموزش وجود دارد. برای مدل اساسی ، قدمت قبل از آموزش در مقایسه با QWEN2.5 از 18 تریلیون نشانه تا 36 تریلیون توکن ، دو برابر شد ، توسعه دهندگان علاوه بر اسناد HTML (که با استفاده از QWEN2.5-VL استخراج شده بود) از PDF استفاده می کردند. مدلهای قدیمی QWEN2.5-MATH و QWEN2.5 کد از Alibaba برای تولید داده های آموزش مصنوعی استفاده کردند.
این آموزش در دو مرحله انجام شد: اولی با طول زمینه 4K و 30 تریلیون نشانه و دوم با افزایش 32K طول زمینه ، با محتوای خواستار بیشتر و همچنین سایر مهارت های شروع و نعنا. پس از آموزش ، که Alibaba در چهار سطح (32b و 235b) فقط در فرآیند اختراع شده توسط Deepseek با دو مرحله یادگیری مجدد انجام داده است ، بسیار جالب است. توسعه دهندگان سپس مدل های آموزش دیده را با استفاده از تقطیر دانش به مدلهای اساسی کوچک منتقل کردند.
کارت های مدل شامل برخی از سرنخ های جالب است که باعث بهبود Alibaba شده است. بنابراین گفته می شود که قابلیت های استدلال QWEN3 بهتر از QWQ است. علاوه بر این ، مهارت های ریاضی ، منطقی و کد QWEN3 باید بهتر باشد ، مدل ها نیز باید برای نوشتن خلاق بسیار مناسب باشند. به ویژه به نظر می رسد که QWEN3 برای همکاری با نمایندگان و MCP بهینه شده است. این یک مدل چند زبانه است که بیش از 100 زبان تسلط داشته است. طول ممکن است 32،768 نشانه باید برای بسیاری از برنامه ها برآورده شود. با مقیاس طناب (تعبیه موقعیت دوار) می توانید آنها را (برای برخی از مدل ها) تا 128K افزایش دهید. علاوه بر وزنهای موجود در دقت BFLOAT16 ، افراد دارای FP8 نیز در دسترس هستند.
برخلاف انتشار غافلگیرکننده Llama 4 ، به نظر می رسد QWEN3 بسیار خوب فکر شده است. بر خلاف Llama 4 ، شما به راحتی می توانید از آن در اتحادیه اروپا استفاده کنید ، زیرا وزن مطابق با Apache 2.0 دارای مجوز است. این یک پیشرفت کوچک در مقایسه با مدل های QWEN2.5 است که در هر اندازه قابل استفاده نیست.
تست با مدل جدید
می توانید سعی کنید چقدر خوب کار می کند ، زیرا وزنه ها را می توان به عنوان یک مدل باز بارگیری کرد.
خوشبختانه ، تقریباً تمام مدلهای QWEN3 قبلاً کمیت شده اند ، به طوری که می توان آنها را به راحتی بارگیری کرد و از بغل کردن چهره امتحان کرد. از آنجا که مدل ها نسبتاً کوچک هستند ، به خودتان اجازه دهید با llama.cpp انجام شود. علاوه بر این ، مدل های دارای GPU می توانند اجرا شوند ، اما بسته به RAM موجود ، با مدل های بزرگتر می تواند کمی محکم شود.
این آزمایشات با QWEN3-32B-Q4_K_M.GGUF انجام شد. متأسفانه llama.cpp هنوز به درستی با آن نمی تواند enable_thinking
-PRY پارامترهای. ضمیمه به عنوان درمانی عمل می کند /no_think
و سریع
با QWEN3 حساب کنید و محاسبه کنید
اولین آزمایش مدل با و بدون استدلال در نتیجه زیر نتیجه می گیرد:
چند “E” در “توت فرنگی” وجود دارد؟
خوب ، من باید دریابم که چه تعداد “E” در کلمه “Erdbeere” قرار دارند. بگذارید کلمه را بنویسم و به هر حرف نگاه کنم.
E – R – D – B – E – E – R – E
اکنون ، من “E” را حساب می کنم: 1. حرف اول E (1) 2 است. نامه پنجم E (2) 3 است. نامه ششم E (3) 4 است. نامه هشتم E (4)
بنابراین 4 “e” در کلمه “erdbeere” وجود دارد.
در واقع ، اجازه دهید من آن را دوبار بررسی کنم. ممکن است خیلی سریع حساب کنم.
E – R – D – B – E – E – R – E
1. حرف اول E (1) است
2. نامه پنجم E (2)
نامه ششم E (3) است
4. نامه هشتم E (4)
بله ، این 4 “e” در کلمه “erdbeere” است.
صبر کنید ، من در اینجا از زبان آلمانی استفاده می کنم ، و در آلمانی سرمایه گذاری مهم است. حرف اول E یک حرف بزرگ است و سایر موارد کوچک هستند. اما سوال فقط پرسیدن این است که چه تعداد “E” وجود دارد ، صرف نظر از این مورد. بنابراین من فکر می کنم جواب هنوز 4 است.
در واقع ، دوباره صبر کنید. بگذارید یک بار دیگر با دقت حساب کنم:
E (1) RDBE (2) E (3) Re (4)
بله ، 4 “e” در کلمه “erdbeere” وجود دارد.
به منظور تعیین تعداد حروف “E” در کلمه “توت فرنگی” ، ما به کلمه نامه با نامه نگاه می کنیم:
E – R – D – B – E – E – R – E
اکنون ما حروف “E” را می شماریم (هر دو حروف کوچک و حروف بزرگ شمارش می کنند): 1. حرف اول E (1) 2 است. نامه پنجم E (2) 3 است. نامه ششم E (3) 4 است. نامه هشتم E (4)
تعداد حروف “E” در کلمه توت فرنگی بنابراین است:
4
چند “E” در “توت فرنگی” وجود دارد؟ /no_think
کلمه “توت فرنگی” حاوی 4 “E” است.
این بخش است:
توت فرنگی
– اولین “E” در آغاز است
– 2 “E” در 4 است.
– “E”. “E” در مکان 5 است
– 4. “E” در پایان است
✅ نتیجه: 4 E
QWEN3-32B همچنین می تواند نامه ها را به زبان آلمانی بشمارد. این با استدلال (!) کار می کند. این امر به وضوح نسبت به بیش از سه برابر Llama 4 بزرگ برتر است. با کلمه انگلیسی “توت فرنگی” نیز کار می کند. همه مدل های QWEN3 به این امر تسلط ندارند. کوچکترین مدل (0.6b) سازگار است ، مدل 1.7B می تواند در حالت استدلال به درستی حساب شود ، مدل 4B می تواند این کار را به زبان انگلیسی بدون استدلال انجام دهد ، در مدل 14B نیز به زبان آلمانی موفق می شود.
متأسفانه ، با معماهای ریاضی خیلی خوب به نظر نمی رسد. فاکتورسازی 2^20+1 (1،048.577 = 17 * 61.681) متاسفانه با هیچ مدل (کمیت) QWEN3 کار نمی کند. در یک لحظه همیشه یک خطای محاسبه یا دستگاه سیستم در یک حلقه بی پایان وجود دارد.
(تصویر: DOAG)
در 19 و 20 نوامبر ، کنفرانس KI Navigator دوباره در نورنبرگ برگزار می شود. در فراخوان مقالات ، برگزارکنندگان هنوز به دنبال سخنرانی برای این کنفرانس هستند.
KI Navigator کنفرانس عملکرد AI در سه زمینه فناوری اطلاعات ، اقتصاد و جامعه است. این کار به کاربرد مشخص هوش مصنوعی اختصاص یافته است. این سخنرانی ها با هر دو جنبه فنی حوزه های فردی مانند یادگیری عمیق یا LLMS (مدل های بزرگ زبان) و همچنین استفاده در شرکت و تأثیرات بر جامعه سروکار دارند. علاوه بر این ، تمرکز روی قوانین و الزامات نظارتی مانند قانون هوش مصنوعی و همچنین جنبه های اخلاقی است.
[ad_2]
لینک منبع