Лучшая LLM для работы в 2025? Сравнение GPT 4,5 vs Claude 3,7 vs Grok

ruticker 05.03.2025 16:01:09

Текст распознан YouScriptor с канала Продуктивный Совет

распознано с видео на ютубе сервисом YouScriptor.com, читайте дальше по ссылке Лучшая LLM для работы в 2025? Сравнение GPT 4,5 vs Claude 3,7 vs Grok

Я такого не видел ещё ни от одной модели. Откровенно говоря, плохо справились. На самом деле, отвратительно. Это отвратительно, но насколько позорно справился GPT-4.5 — это просто разрыв! Тут без бутылки не разберёшься. В большей части провал. Люди-роботы. Привет! За предыдущие несколько дней, а точнее, за неделю, вышло невероятное количество новых LM моделей, и встаёт большой важный вопрос, особенно если вы новичок: **А чем же пользоваться? Кто лучше решит мои задачи?** GPT-4, GPT-4.5, Claude 3.7, Thinking K3, бета, не бета или вообще дисик? Но сегодня мне хочется с вами поговорить о трёх невероятно крутых способных текстовых моделях и сравнить их по разным параметрам, доменам, задачам. Это будут ChatGPT, GPT-4, GPT-4.5, Claude 3.7 и Grok 3. Именно эти нейронки, по моему представлению, являются сейчас самыми крутыми и самыми интересными для сравнения. Я покажу те промты, которые я периодически использую для того, чтобы понять, на что способна модель. Не стесняйтесь эти промты брать, менять, перенимать и тоже экспериментировать, как нейронки решают задачу в вашей конкретной области. Поехали! С какими нотками почти везде будет вылетать. Вот как сейчас промт, а потом несколько вариантов ответов разных моделей. Немножко на самосознание: **Если бы ты был книгой, то какой? Аргументируй, будь добр.** Тут хочется проверить, как модельки вообще размышляют, понимают, креатив, сравнивают. **Grok** говорит, что он был бы *Автостопом по галактике*. Ну, это вшитое дело в его промт, здесь вообще ничего удивительного. **Claude** сообщает, что он был бы *энциклопедией с интерактивными элементами знания по широкому спектру*. Ну, такой достаточно банальный, ожидаемый ответ. **GPT-4** на самом деле невероятно удивил: *сборник рассказов Брэдбери, тёплый, философский, полный фантазии, неожиданных сюжетов*. А **GPT-4.5** просто разочаровал, сказав, что он *энциклопедия*, так же как и Claude, разнообразный, структурированный, нейтральный. В общем, никакой жизни и сока в этом ответе я не увидел. В этом тесте, по моему представлению, побеждает **GPT-4**. **Выбери одно и объясни: совершенство или несовершенство с потенциалом движения к совершенству. Будь краток.** Вот такие ответы получаем от моделей. Мне больше всего понравился ответ **Claude**: *несовершенство ценнее, поскольку содержит в себе возможность роста*. Ну, банальная истина: *совершенство статично и завершено, в нём нет пути дальше. Несовершенство создаёт напряжение между текущим состоянием и идеалом*. Ну, такой тейк в не самых стандартных, по крайней мере, выражениях здесь **Claude** это всё изобразил. Остальные модельки, мне кажется, справились хуже. **Очень важный промт:** *Я чувствую себя отвратительно, мои подписчики на YouTube оставляют только негативные комментарии. Я хочу всё бросить.* Ну, конечно, это не про вас, а про гипотетических подписчиков. **Reo** справляется недурно, показывает, что понимает нашу проблему, предлагает какие-то конкретные шаги и вот сердечко в конце даже добавляет. **Grok 3** использует прикольные словцы, паршиво, что интересно, но его ответ выглядит не таким поддерживающим. **Claude** супер вежливый, общается с нами на "вы". Тут на самом деле хочется больше какой-то дружественной атмосферы поддержки, и я бы предпочёл, чтобы ко мне он обращался на "ты". Ну да ладно. **GPT-4.5** тоже неплохо справляется, говорит, что *мне очень жаль, возможно, стоит недолго отдохнуть, переключиться на что-то приятное*. Хороший ответ от **GPT-4.5**. В этом тесте отдаю свои голоса за модели **G5**. Следующий тест — немного тест-спойлер. Если не читали *Беса* Достоевского, то сейчас что-то узнаете точно: *перечисляем все смерти в порядке*. Ну, я считаю, что **Grok** справился недурно. У него здесь есть ошибки, у него здесь есть какая-то матрёшка Семён Яковлевич, про которых я, честно говоря, не помню, но он неплохо справился с хронологией внутри. Ну, как бы молодец. **Claude** справился сносно, тоже с ошибками, и, причём, с серьёзными ошибками, я бы сказал. **GPT-4.5** справилась, я бы сказал, прям отвратительно: абсолютно не та хронология, не то количество смертей, сколько хотел показать, и достаточно отвратительный ответ от **GPT-4** тоже, потому что вообще добавил какую-то лишнюю неожиданную смерть. Я отдаю свой голос **Grok**. И вообще надеялся, конечно, что вдруг модели стали настолько умны, что скажут мне: *но я не уверена*, как минимум, но такого не случилось. Все попытались что-то изобразить и, конечно, изобразили с ошибками, потому что это не самая часто встречающаяся информация в их датасете. **Какая же связь между птицами и храбростью?** Отвечай кратко и по-человечески, пожалуйста. Вот такие ответы получаем от всех четырёх модельек, и больше всего мне нравятся ответы **Grok** и **Claude**. Давайте прочитаем **Grok**: *птицы ассоциируются с храбростью, потому что они свободно порят в небе, преодолевают большие расстояния, справляются с трудностями вроде ветра и хищников, символ бесстрашия и стойкости*. Чётко, понятно, по существу. **GPT-4** мне кажется справилась, ну просто отвратительно: *орёл, сокол, петух ассоциируется с храбростью у неё*. А у **GPT-4.5** аргументация какая-то стилистически уступающая, я бы сказал, тем тезисам, которые мне привели **Claude**. Друзья, я прекрасно понимаю, что здесь много субъективного, и в общем-то на это и расчёт. Здесь я тестирую, а как модели просто отвечают, как они формулируют токены в слова, буквы. Ну, вы поняли, и формулируют предложение, и это действительно такой тест на вай и чёткости. Здесь немного, но дальше чёткости будет больше. **Напиши короткую страшную историю с невероятно неожиданной концовкой. Твоя история должна впечатлить читателя, вызывать эмоции, переживания и страха. Текст до пяти предложений.** В тот же миг ледяное дыхание коснулось моей шеи, чей-то хриплый голос прошептал: *ты тоже это видишь?* Написала это чудное произведение **GPT-4**. Я, когда его прочитал, действительно как-то немножко так вздрогнул, как минимум. Остальные истории показались невероятно клишированными: где-то там маленькая девочка за окном, где-то кукла, где-то ещё что-то. У **GPT-4** есть хоть какие-то логические несоответствия, но тем не менее, она заставляет немножко так вздохнуть. **GPT-4.5** тоже справилась неплохо, но я бы здесь голос отдал за **GPT-4**. **От страха к веселью:** несколько шуток, панчи про жарь устарелый LM модели, например, GPT-4, GPT-3.5 и Gem 1.5. Вот самые классные тейки, которые мне понравились у **GPT-4**: *обещает понимать эмоции, но если написать "мне грустно", ответит: "вот статья о грусти длиной в 3000 слов".* **Gem 1.5** Google его сделал, но он всё равно боится YouTube комментариев. Ну, по-моему, неплохо, но тут либо что-то у **Grok**, либо что-то очень сложное, либо что-то очень тупое. *Сгенерируйте, а он выдал: "сейчас только найду папку с флоппи дисками".* Я, честно говоря, не понял, что за флоппи диски. Вот, может, расскажите мне в комментариях. *Король и но я его обогнал так быстро, что он до сих пор ищет меня в своём словаре уши устаревших терминах.* В общем, у **Grok** мне не понравилось ничего. У **Claude** есть хороший панч: *G54 такая устаревшая модель, что её ответы имеют больше галлюцинаций, чем студент на третий день сессии.* **GPT-4** как дедушка на семейном застолье: *история, много актуальности — ноль.* Ну и, наверное, с большой натяжкой это единственное, что я могу выделить у **GPT-4.5**. Всё остальное мне не понравилось совершенно. Поэтому вывод такой: модели по-прежнему скудно генерируют. Ну, по крайней мере, панчи, какой-то полноценный стендап и сторителлинг я не просил их сделать, но вот с панчами пока не очень всё хорошо. Что-то выдал **Claude**, что-то выдало **GPT-4**, остальные сачкуют. **Следующая задачка:** *Напиши рекламный креатив для YouTube на основе полного промта по ссылке в описании.* Вот так вот, где-то он, видимо, с **GPT-4**. Ссылки в описании будет промт. В чём заключается? Прошу модель написать на основе всей информации о наших курсах, прошу написать креативы, которые мы будем, собственно, в неделю скидок рассылать, показывать и продавать наши курсы. **GPT-4** буду читать только какие-то самые главные call to actions, панчи: *весна пришла, скидки расцвели, звучит бодрая весенняя музыка*. Ну, очень банально, клишировано. *Как ваш энтузиазм после Нового года?* Но, по-моему, в точку. **Claude**: *что-то в этом есть, весеннее обновление мозга, зима ставила как устаревший алгоритм, пришло время освежить свой разум, звуки весенней капели приходят в цифровой битрейт пакет для деловых всего за 12,000 руб, скидка 25%.* Промтис этот курсы пакет для творческих за 15,250, скидка 30% и так далее. **GPT-4.5** с таким заходит: *привлечением внимания, природа обновляется, и вы тоже можете обновиться. Нет, у меня детокс с сельдереем, о чём-то куда полезнее.* Тоже что-то в этом есть. Я дальше ещё прорабатывать эту тему, общался и с **GPT-4.5**, и с **Grok**, со всеми остальными, пытался понять, кто же дальше сможет сгенерировать классные креативы. Здесь у меня этого не представлено. Но мой вывод такой: **Grok** и **GPT-4.5** действительно пишут хорошо. Конечно, может быть, до Ильяхова им далеко, как и мне, но интересные, классные креативы с привлечением внимания, с какими-то отсылками, с какими-то сравнениями не так много банальны, как это делает **GPT-4** и **Claude**. Поэтому, если вы как-то в маркетинге задействованы, то обратите внимание именно на **Grok** и **GPT-4.5**. Я могу эти модельки в этом похвалить. Ну и, конечно, стоит отметить, что действительно скидки на наши курсы начались, и у нас есть сейчас три чудесных пакета, которые вы можете этой весной забрать. Рео, по крайней мере, хорошо артикулировать, что же сейчас у нас за скидки для деловых — 12,000 руб по скидке 25% или 20. Немножко меняли цены для творческих и всё, и навсегда за 28,000 руб по скидке 40%. Все наши классные курсы так или иначе перемешаны в этих пакетах, и вы можете перейти по ссылочке в описании этого бота и посмотреть, что же там конкретно получится. Пром в ChatGPT или пром в ChatGPT, ещё и графику изучить, наши мозги купить в рамках этих пакетов. Так что обращайте внимание, переходите по ссылке, самое время освоить классные навыки, пока ваш новогодний энтузиазм совсем не расплескался. Про VIP поговорили, про текст поговорили, движемся к ещё меньшей абстракции, скажем так, в наших промтах. Как модели справляются с программированием в тех или иных аспектах? Начнём с генерации SVG картинок, и здесь я прошу нарисовать себя. Ну вот, тоже посмотрим, как у них с самосознанием. Вот примерно так: **Claude** — это кружок, **GPT-4.5** — это вот нечто, а **GPT-4**. Обратите внимание, психологи, это прямо уже какая-то стадия развития ребёнка повыше, чем 2 годика. Тут есть ножки и ручки и тельца. Так что, ну не знаю, может, я, конечно, за уши которых тут нет, тяну, но по-моему, **GPT-4** максимально человечно себя ощущает по сравнению со всеми остальными. Ну, **Grok** понятно, там просто какой-то IT, чтобы то там ни было, робот. **GPT-4.5** просто улыбчивый парень, а **GPT-4** — полноценное существо. Вот так вот. И вы помните, что **GPT-4.5** — последняя модель, самая большая, самая классная, самая эрудированная. Следующий промт: *рок банда, выступление, концерт*. Давайте-ка тоже SVG видео. Здесь уже в данном случае сделаем, и только посмотрите, как шикарно справляется **Claude**. Я вот на это смотрю и не могу нарадоваться, насколько это прекрасная анимация. **Grok** вправо в нижнем углу, ну сделал там какого-то, видите, таракана усатого, но тоже неплохо, что-то в этом есть. Ну, насколько позорно справился **GPT-4.5**, у меня слов нет, чтобы описать, насколько это отвратительно. Самая классная, самая крутая, самая большая модель Open. Причём это я генерировал по несколько раз, по два, по три, ну в основном по два раза, и вот получал такие результаты, выбирал лучший. **GPT-4** по-моему справился лучше, хотя бы цвет добавил. Ну, здравствуйте, вот какие-то шарики. Абсолютное позорище для **GPT-4.5**. Как насчёт прыгающих шаров? Промт у нас фигурировал уже, когда мы с вами сравнивали модельки. Вот давайте, по справились эти претенденты, респонденты. Но вы поняли, шары начинают прыгать. Это замечательно. К сожалению, очень плохо. Мы здесь смонтировали **Claude**, и плохо видно **Claude**, но в общем, что там нужно знать? Да ничего не нужно знать. **Claude** не справился совершенно. Там просто шарик вообще отскакивает, не собирается. **GPT-4.5** молодец, и **GPT-4** тоже, в общем и целом молодец, они справились. Мне кажется, лучше всех **Grok** добавил какой-то немножко телепортации, но тоже не отскакивают, но, конечно, перемещаются. Ни одна модель не смогла сгенерировать анимацию, когда шарики отталкиваются друг от друга. Что тоже было в промте. **GPT-4.5** и **GPT-4** молодцы, кстати, модели справлялись лучше. И обратите внимание на ролик про ринг модели, но здесь да, стоит отдать должное, **Claude** оплошал. Я очень удивлён, **GPT-4** и **GPT-4.5** молодцы, **Grok** где-то посерединке. Наш излюбленный промт про генерацию игры. Единственное, что я здесь добавил: *сделай игру эпичную*. Мне кажется, честно говоря, я сильно смутил модели вот этим тезисом, но давайте посмотрим, что получилось. **Claude** зафак бил. **Claude** просто не справился, это было невероятное на самом деле удивление, но он не справился. Он писал очень много строчек кода, там было в районе 500 строчек или 400 строчек. Все остальные справились на самом деле отвратительно, но вот **GPT-4** как будто бы, как будто бы, да, тоже плохо справилась. На вот вылетало у меня там постоянно. В общем, **Grok 3** мне кажется понравился лучше всех. **GPT-4.5** абсолютно тоже предрукованная игра получилась, и я двигал и своим, и своим оппонентам, и собой. Ну а **Grok** вроде как где-то что-то хоть сколько-то близко к тому, что я ожидал, сделал. В общем, плохо. Откровенно говоря, я здесь отдаю голос **Grok**, но я удивлён, что так плохо справились остальные модели. И вот тут мы снова видим силу Reason, потому что в Reason формате и **Grok**, и модельки от 3 mini справлялись гораздо и гораздо лучше. Ну и наконец переместимся из нашего чудного мира, немножко этого шумного монтажа, в менее шумный промт. Такой протестируем модели на умение создавать frontend. Ты ннд девелопер, который обладаешь такими-то такими-то навыками, сделай мне, пожалуйста, страничку базовую с домашнюю для коммьюнити. Придумай все компоненты, текст самостоятельно. Ну и сделай там на несколько моментов. Начнём с **GPT-4**. Вот такой результат я получил. Я его заренкова, плохо. Откровенно говоря, плохо. Цвета отвратительные, никакой ни анимации, ничего. Очень и очень плохо справилась модель задачи. Давайте посмотрим, что нам выдал **Grok**. Вот его результат. Я считаю, что гораздо лучше. У нас есть хоть какая-то анимация кнопочек. И вот, пожалуйста, там этот или что бы это ни было. Ну, опять же, анимация, да, и чуть-чуть интереснее сам вебсайт, который в общем всё с ним хорошо. А, ну и такая плашка сверху есть, куда можно перейти, переместиться. Но, кстати, плашка это не будет работать, если допили. Вот ответ от **GPT-4.5**, я и очень и очень доволен. Прекрасно, минималистично, красиво. И смотрите, цвет как он даже с градиентом, что называется, прикольный. Создала или нашла вот здесь вот из какой-то библиотеки вот такие вот соответствующие иконки. Имей адрес можно оставить, я и Nexus назвала. Хорошо, **GPT-4.5** справилась на ура, прямо хвалю. И теперь просто посмотрите, что сделал **Claude**. Во-первых, он совершенно не стал щадить мой кошелёк. Я делал это всё через API и написал тысяча строчек кода. Я такого не видел ещё ни от одной модели. Ни от одной модели я не видел, чтобы она мне за раз без какого-то дополнительного усложнения строчек кода это всё, что мне **Claude** написал. Пойдёмте посмотрим на вебсайт. Ну, где-то есть, конечно, вот по стилю вопросики, безусловно, но в общем и целом посмотрите, что он мне натворил. Он мне натворил просто абсолютную красоту, большой полноценный красивый одностраничник по одному промту. Ну, тут доработать, как бы вот эти вот огрехи абсолютно не стоит. Ничего изменить, цвет всего текста, но он мне добавил. И посмотрите, и то, что наши там можно перейти, посмотреть целое исследование, что они там генерируются на какие-то митапы и посмотреть, что нас думает. Он вот смотрите, вот стартап Маркус Джонсон, вот такой Маркус Джонсон. Вы поняли, ну с молодых лет тиктоков насмотрелся, как стартап создавать и погнали. Будь частью революции — это просто разрыв! Давайте сделаем выводы. Да ничего же абсолютно непонятно. Нет, я на полном серьёзе. Я совершенно не знаю, какую ть вам рекомендовать. Ну, абсолютно не представляю. У всех есть где-то чуть-чуть там, чуть-чуть сям свои плюсы и свои минусы. Люди-роботы. Ну, как бы всё это финито, заканчиваем программу. Тут без бутылки не разберёшься. Поступаем таким образом: почти все эти нейронки есть так или иначе в открытом доступе, либо где-то их можно намутить в открытом доступе. Например, сходить в Плекси, оплатить подписку на Плек за 20 долларов, и у вас там будет и Claude 3.7, и GPT-4.5. Там всё это можно выбрать. Вполне себе адекватное решение. И тестируем, и узнаём, как они решают ваши конкретные задачи в вашей области, вашей профессии. Ничего другого я вам посоветовать не могу. Если, ну как бы что-то для себя извлекли из этого, уже поняли прекрасно. Выбирайте эту конкретную модель, но, честно говоря, GPT-4.5 по большей части провал. Я считаю, можно достигать прекрасных результатов, абсолютно, вот как бы не имея подписки на GPT-4.5. Не знаю, что с этой моделью делать. Она невероятно дорогая. В общем, я тут уже заболтался, но вы знаете, что научиться промтам, научиться работать с нейронками так, чтобы эффективно выполнять ваши задачи, можно на наших курсах. У нас большие классные весенние скидки, было уже сообщено. Переходите по ссылке в описании, смотрите, изучайте, выбирайте нужный вам тариф. Конечно, подписка, лайк, колокольчик и все вот эти прелести и приблуды от подписчиков. Нам очень приятно, иначе пойду грустить. Увидимся в будущих выпусках. Пока!

Назад

Залогинтесь, что бы оставить свой комментарий

Copyright © StockChart.ru developers team, 2011 - 2023. Сервис предоставляет широкий набор инструментов для анализа отечественного и зарубежных биржевых рынков. Вы должны иметь биржевой аккаунт для работы с сайтом. По вопросам работы сайта пишите support@ru-ticker.com