*Publish Date: Sep 13, 2024*
> We've developed a new series of AI models designed to spend more time thinking before they respond.
> https://openai.com/index/introducing-openai-o1-preview/
دیشب OpenAI از دو مدل جدید با نامهای `o1-preview` و `o1-mini` رونمایی کرد که به نوعی بهبود مدل GPT-4o با قابلیت استدلال (reasoning) هست.
## آموزش دیده برای زنجیره تفکر
در مقاله [Learning to Reason with LLMs](https://openai.com/index/learning-to-reason-with-llms/)، توضیح داده میشه که این مدلها چطور آموزش داده شدهاند:
> Our large-scale reinforcement learning algorithm teaches the model how to think productively using its chain of thought in a highly data-efficient training process. We have found that the performance of o1 consistently improves with more reinforcement learning (train-time compute) and with more time spent thinking (test-time compute). The constraints on scaling this approach differ substantially from those of LLM pretraining, and we are continuing to investigate them.
>
> [...]
>
> Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses. It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn’t working. This process dramatically improves the model’s ability to reason.
با توضیحات بالا، ما باید انتظار هندل کردن پرامپتهای بسیار پیچیدهتر رو بخصوص زمانی که نیاز به بازبینی و تفکر هست، داشته باشیم (فراتر از پیشبینی توکن بعدی).
## مثالها
در [اینجا](https://openai.com/index/learning-to-reason-with-llms/#chain-of-thought)، OpenAI چند تا مثال قرارداده و چیزهایی مثل ساخت بش اسکریپتها، حل جدول متقاطع و... رو کاور کرده.
نمونهها نشون میده که این مدلها جزییاتی از زنجیره تفکر رو هم نشون میدهن و از یک مکانیزم جداگانه استفاده میشه تا مراحل به شکلی خواناتر و قابل فهمتر برای انسان، خلاصه بشه.
همچنین با نگاه به این ارزیابی، باز داریم مشاهده میکنیم که در موضوعات تحلیلی مثل ریاضی، شیمی، فیزیک و... بهبود زیادی رو میبینیم.
این [نمونه انجام شده](https://x.com/itsarmanj/status/1834417901081694320?s=4) از کنکور ریاضی ۱۴۰۳ هم جالب هست.

## در نهایت چی داریم
یه کم زمان میبره تا آدمها با این مدلها کار کنند و از تجربیاتشون بنویسند ([اینجا میتونید](https://x.com/8teAPi/status/1834450848505888793) برخی از این تجربیات جالب رو ببینید) و البته که این مدلها در حالت Preview هستن و قرار هست خیلی بهتر بشوند اما همانطور که خود OpenAI هم اشاره کرده، برای کارهای روزمره کماکان GPT-4o گزینه مناسبتری خواهد بود.
تجربه خود من از کار کردن با این مدل این بوده که به وضوح تو مسائل تحلیلی خروجی جالبتری میده اما هنوز نیاز به زمان بیشتری دارم تا دستم بیاد چطور فکر و تحلیل میکنه و البته روی کد نوشتنش هم باید زمانی رو بگذارم و مقایسه کنم.
ولی این نکته رو در نظر داشته باشید که مدلهای جدید تو مسائل ساده که جواب شاید ساده و سر راستی دارند میتونند با تحلیلهای زیاد جوابهای عجیبی برگردونند. بنابراین همونطور که در بالا هم اشاره شد، استفاده روزمره کماکان GPT-4o بهترین گزینه هست بین مدلها.
به نظرم کلمه reasoning که براش به کار رفته یه کم جنبه تبلیغاتی داره و همونطور که بالاتر عنوان شد داره تحلیل میکنه صورت مسئله رو با خورد کردنش به قسمتهای کوچکتر و البته تلاش بیشتر برای ارزیابی جواب خودش و بازفکر خروجی.
**پینوشت ۱:** به نظر میرسه تو مسائل مرتبط با کد و ریاضی، مدل o1-mini خروجی مطلوبتری داره (برای مثال [اینجارو ببینید](https://www.reddit.com/r/LocalLLaMA/comments/1ffcecf/openai_o1preview_fails_at_basic_reasoning/)).
**پینوشت ۲**: [این ویدئو](https://www.youtube.com/watch?v=jrA47yocyV0) توضیحات خوبی در این رابطه داده.
> [!NOTE] ChatGPT
> همیشه یک تب من به [[ChatGPT]] اختصاص داره و سعی میکنم به عنوان یک دستیار همواره باهاش همفکری کنم و ازش کمک بگیرم. به مرور بیشتر ازش مینویسم، بخصوص مدلی که خودم باهاش کار میکنم.