*Publish Date: Sep 13, 2024* > We've developed a new series of AI models designed to spend more time thinking before they respond. > https://openai.com/index/introducing-openai-o1-preview/ دیشب OpenAI از دو مدل جدید با نام‌های `o1-preview` و `o1-mini` رونمایی کرد که به نوعی بهبود مدل GPT-4o با قابلیت استدلال (reasoning) هست. ## آموزش دیده برای زنجیره تفکر در مقاله [Learning to Reason with LLMs](https://openai.com/index/learning-to-reason-with-llms/)، توضیح داده می‌شه که این مدل‌ها چطور آموزش داده شده‌اند: > Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). The constraints on scaling this approach differ substantially from those of LLM pretraining, and we are continuing to investigate them. > > [...] > > Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses. It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn’t working. This process dramatically improves the model’s ability to reason. با توضیحات بالا، ما باید انتظار هندل کردن پرامپت‌های بسیار پیچیده‌تر رو بخصوص زمانی که نیاز به بازبینی و تفکر هست، داشته باشیم (فراتر از پیشبینی توکن بعدی). ## مثال‌ها در [اینجا](https://openai.com/index/learning-to-reason-with-llms/#chain-of-thought)، OpenAI چند تا مثال قرارداده و چیزهایی مثل ساخت بش اسکریپت‌ها، حل جدول متقاطع و... رو کاور کرده. نمونه‌ها نشون می‌ده که این مدل‌ها جزییاتی از زنجیره تفکر رو هم نشون می‌دهن و از یک مکانیزم جداگانه استفاده می‌شه تا مراحل به شکلی خواناتر و قابل فهم‌تر برای انسان، خلاصه بشه. همچنین با نگاه به این ارزیابی، باز داریم مشاهده می‌کنیم که در موضوعات تحلیلی مثل ریاضی، شیمی، فیزیک و... بهبود زیادی رو می‌بینیم. این [نمونه انجام شده](https://x.com/itsarmanj/status/1834417901081694320?s=4) از کنکور ریاضی ۱۴۰۳ هم جالب هست. ![](https://twitter.com/itsarmanj/status/1834417901081694320?s=4) ## در نهایت چی داریم یه کم زمان می‌بره تا آدم‌ها با این مدل‌ها کار کنند و از تجربیاتشون بنویسند ([اینجا می‌تونید](https://x.com/8teAPi/status/1834450848505888793) برخی از این تجربیات جالب رو ببینید) و البته که این مدل‌ها در حالت Preview هستن و قرار هست خیلی بهتر بشوند اما همانطور که خود OpenAI هم اشاره کرده، برای کارهای روزمره کماکان GPT-4o گزینه مناسب‌تری خواهد بود. تجربه خود من از کار کردن با این مدل این بوده که به وضوح تو مسائل تحلیلی خروجی جالب‌تری می‌ده اما هنوز نیاز به زمان بیشتری دارم تا دستم بیاد چطور فکر و تحلیل می‌کنه و البته روی کد نوشتنش هم باید زمانی رو بگذارم و مقایسه کنم. ولی این نکته رو در نظر داشته باشید که مدل‌های جدید تو مسائل ساده که جواب شاید ساده و سر راستی دارند می‌تونند با تحلیل‌های زیاد جواب‌های عجیبی برگردونند. بنابراین همونطور که در بالا هم اشاره شد، استفاده روزمره کماکان GPT-4o بهترین گزینه هست بین مدل‌‌ها. به نظرم کلمه reasoning که براش به کار رفته یه کم جنبه تبلیغاتی داره و همونطور که بالاتر عنوان شد داره تحلیل می‌کنه صورت مسئله رو با خورد کردنش به قسمت‌های کوچکتر و البته تلاش بیشتر برای ارزیابی جواب خودش و بازفکر خروجی. **پی‌نوشت ۱:** به نظر می‌رسه تو مسائل مرتبط با کد و ریاضی، مدل o1-mini خروجی مطلوب‌تری داره (برای مثال [اینجارو ببینید](https://www.reddit.com/r/LocalLLaMA/comments/1ffcecf/openai_o1preview_fails_at_basic_reasoning/)). **پی‌نوشت ۲**: [این ویدئو](https://www.youtube.com/watch?v=jrA47yocyV0) توضیحات خوبی در این رابطه داده. > [!NOTE] ChatGPT > همیشه یک تب من به [[ChatGPT]] اختصاص داره و سعی می‌کنم به عنوان یک دستیار همواره باهاش همفکری کنم و ازش کمک بگیرم. به مرور بیشتر ازش می‌نویسم، بخصوص مدلی که خودم باهاش کار می‌کنم.