chatgptとclaudeの比較記事です。随時更新しています。
Contents
claude3.5 sonnet newとchatgpt o1-previewの比較!どっち!?
Here’s the latest benchmark comparison between Claude 3.5 Sonnet and OpenAI o1 Preview.
— Augusdin (@augusdin) October 23, 2024
(Some o1 data is roughly converted, created by Claude 3.5 Sonnet New)
Confirming its coding ability is amazing. 🤯
Crucially, Sonnet 3.5 achieves this without needing as many tokens as o1. pic.twitter.com/0LEaWmgE2c
スコア的には大差ないので、実際に利用してみて実践でどちらが使えるかですかね。
試したところ次のような感じです。
claude3.5 sonnet newの方が新しい情報に疎いです。たとえば「iOS 18はまだリリースされていない」と言います。GPT君はサーチして調査してくれます。
校正は以前はGPT君の方が積極的によくも悪くもなおしてくれる感じだったのですが、Claude君もかなり積極的に修正してくれる形になってきました。Claude君推し。
ChatGPT君はよく数を数えまちがえます。無難な仕事はClaude君。
コーディングは今のところ一長一短です。どっちもいいところがありますね。どっちもダメなところもあります。ただ、推論能力などはo1-previewの方がややいいかなという印象を持っています。
o1-previewは画像を添付できないことが弱点ですが、画像を言葉で説明してもclaude3.5 sonnet newよりchatgpt o1-previewの方を使いたい場合があります。
コードの解説はClaude君の方がわかりやすいけど、リードプログラマはo1-previewに任せたいですね。僕は仕様・設計、アシスタントプログラマ、デバッガーですかね。o1-preview君が解決できないときは、アシスタントプログラマの出番です><
chatgpt o1-previewとclaude3.5 sonnetの比較!どっち!?
(追記)最近、claude3.5 sonnetの劣化を感じています。とくに前の流れを失念します…。
少し難しいことをやると困ることが多々あります。自力解決の方が早いことも多々あり…。(´・ω・`)
そんなとき、OpenAIのo1-preview、o1-miniが2024年9月にリリースされました。
軽く調査しました。再びchatgptでしょうか。
Difyだと、OpenAI o1-previewがフリーユーザーでも使えると思います。私はプログラミングは、o1-previewとclaude 3.5 sonnetで並行処理させるDifyのエージェントを使ってます。これが今のところプログラミングの最適解じゃないかな🤔
— 旅人🇬🇧 (@Tomoto1234567) September 13, 2024
VS codeのGithub copilotも便利だけど、まだGPT-4oだと思います。 https://t.co/Ms4ojpuW5T pic.twitter.com/nhCcW0orVV
DifyはXserver VPSで利用できます。
最近よく使うLLM (頻度順):
— 逆瀬川 (@gyakuse) September 17, 2024
Web: o1-preview > Claude 3.5 Sonnet
API: Gemini 1.5 Flash > Gemini 1.5 Pro > GPT-4o-mini
Local: Llama 3.1 70B, 8B > CALM3-22B-Chat > Mixtral-8x7B
他: Gemma 2 2B
OpenAI ChatGPT o1-preview
— 2001Y|田村義希(Yoshiki Tamura) (@Y20010920T) September 15, 2024
「すごいけど "これだ!"」ってものなかったけど、プログラミングのリファクタリングにおいては GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro より圧倒的な気がする。 pic.twitter.com/XTHk46f1UX
Claude 3.5 sonnet(プログラミング用にシステムプロンプトを最適化済み)であの手この手でpromptを変えてみても解決できなかったPythonプログラムのエラーが、o1-previewで一撃で解決した。
— Yuki Serizawa (@yk_srzw) September 14, 2024
※依頼文は同様かつ、Claudeのシステムプロンプトに入れてある長文のプロンプトをそのままchatベタ貼りで投下
ChatGPT o1-preview 使ってみたけど、やっぱり Claude 3.5 Sonnet と Artifacts の生成の方が自分の使い方には合ってるなぁ…
— Niishi Kubo | GitLab,Limeboard (@n11sh1_) September 14, 2024
ChatGPT o1-previewとClaude 3.5 sonnetのアルゴリズム問題の解決能力とシステム設計面接での能力を比較しました。全体的に、ChatGPT o1-previewは両方の分野でClaudeを大きく上回っていますhttps://t.co/sH0w9UdYq1 pic.twitter.com/KFrMQ7nnwU
— Zhenjia Zhou (@zhenjiazhou) September 14, 2024
o1-previewでモデリングまで行ってドキュメントを作成
— りず (@rizumita) September 13, 2024
↓
ドキュメントを元にClaude 3.5 sonnetで実装
が最も良いコードが作れるっぽい。
淡々としたツンデレだった GPT と比べて、o1-preview が能弁になったことは体感できる差。ただ、コーティング能力は Claude 3.5 Sonnet、gemini-1.5-pro-exp-0827 の方が高いように感じる。ゲームが遊べる。
— きのぴー@「Cursor完全ガイド」 (@kinopee_ai) September 13, 2024
o1-preview (と o1 )は頻繁に使うには高いし待ち時間も長いので用途は限られそう。
— 生成 AI レーダー (@gen_ai_radar) September 13, 2024
他方、 o1-mini は GPT-4o や Claude 3.5 Sonnet と同じ価格帯でレイテンシも小さいので、プログラミングで大量に使われそう。
8 〜 9 割のプログラマよりもコーディング能力の高いモデルがこの価格なのはやばい! https://t.co/c5g0fHm7oh
ChatGPT o1-preview
— Sho (@Vitalogy_jp) September 14, 2024
Claude 3.5 Sonnetと比較してプログラミング能力は体感1.5倍ぐらいあるな。
とりあえず開発で悩んでた箇所にバンバン答え出してくれるので天国。
はじめてコード系でClaude Sonnet 3.5ではエラー原因を特定できなくて、o1-previewでは特定できたというパターンに遭遇した。初めてo1の能力を実感した
— Jun Tamaoki / 玉置絢 (@OKtamajun) October 12, 2024
プログラミング性能の高いLLM(要はチャットボットアリーナの coding のランキング
— NITTA, katsuyoshi(新田 勝貴) (@read_me) October 11, 2024
1 GPT o1 preview $60 /1M tokens out
1 GPT o1 mini $12
2 GPT 4o $10
5 claude 3.5 sonnet $15
o1 って今まで openAI に API だけで $100 以上払った客しか使わせてもらえないらしい
ちょっと頑張って課金するか… pic.twitter.com/BXaYkrU8x8
AIの見直し!
— neru【個人開発作家*AI研究】 (@neruplan) September 25, 2024
Claude 3.5 sonnetの劣化を感じる。特に前の流れを失念する。o1-previewを導入!回数的に本家か!
-Cursor
>10 o1-mini uses per dayhttps://t.co/SR28I86qTq
-本家
>50 queries per week for o1-preview and 50 queries per day for o1-mini.https://t.co/3JNH60Z7RY#GitHub Copilot
意見は多少わかれるようですが、いったんクロード君降格ですかね…。ただし、o1-previewは厳しい制限がありますからしばらくはperplexity AIでclaudeをサブで利用しましょうかね。文章や軽い作業をclaude君に任せましょうか。
As I've said many times before, don't sleep on Google.
— AshutoshShrivastava (@ai_for_success) November 14, 2024
Gemini new model : Gemini-Exp-1114
Overall Ranking: 1
Math: 1
Hard Prompts: 1
Creative Writing: 1
Vision: 1
Coding: 3
I wish Google would make Gemini number 1 in coding too.
Now, OpenAI has to release o1, they… pic.twitter.com/50PUSZ4jmf
ちなみに、Twitterで出回っているランキングのサイトですが、こちらのようです。
ただ、あくまで参考程度で、実際に実装を試してみて実践以外で判断するのは危険ですね!
chatgpt 4oとclaude3 opusの比較!どっち!?
軽く調査しました。
uiなど特殊なことができることを除けば、基本的にclaude opusの方が優秀という答えのようですね。
Claude解約しようか迷うー。日本語性能、日本人らしい表現はまだClaudeの方が上な気がするんだよなー
— あるだま|ChatGPT 自然言語プログラミング (@ARDAMA) May 14, 2024
どう思います?
ChatGPT4,ChatGPT4oともに、Next.jsのapp routerよくわかってない感じする。たびたびpage routerの方のコードを示すし、違うよって言っても直ってなかったり。
— 大森翔吾 (@dai_mori219) May 16, 2024
Claude Opusが強いなあ。
Next.jsは個人的にも利用しているため参考になりますね。
お話作りにおすすめのAI、あります!
— 岡安モフモフ(アーガイル社長)@ChatGPTやClaudeでサービスつくる人、SNSマーケ歴15年 (@shields_pikes) May 16, 2024
総合点ではChatGPTのGPT-4oが一番優秀ですが、自然な日本語の性能では今もClaude3 Opusが一番です(課金必要)。
まずは、GPT-4oを試してみて(回数制限はあるが無料でもOK)、良さそうならそのまま課金して使うか、Claude3も試して比較してみるのが良いかと。
医学系の日本語抄録作成もClaude3Opusの方が医師っぽい単語選択です
— 限界助教|ChatGPT/Claudeで論文作成と科研費申請 (@genkAIjokyo) May 14, 2024
少なくとも医学系の日本語はClaude3の方が良さそうです
GPT-4oに人が流れてClaudeが過疎ってOpusの利用制限が緩くなる事を願います笑
ChatGPTのアプリの音声チャットは全然繋がらないですね🥲
個人的にもclaude3 opusのまま動かずメインは変わりません。詳しくはこちらの記事をみてください。
perplexity aiはchatgpt 4o、claude3.5 sonnet、claude3 opusの3つが使えます。
chatgpt 4oとclaude3.5 sonnet比較!どっち!?
ChatGPT4oの時はただ早くなったけど、能力落ちてない?みたいな疑惑があったけど、Claude3.5 sonnetは速さと能力も高まっている!
— 遠藤巧巳 – 生成AI開発 (@it_overseas) June 21, 2024
ChatGPT研究所さんのClaude3.5 Sonnet AGIラボに参加しています☺️。
— blue@プログラミングで業務効率化 (@blue201507) June 25, 2024
✅ChatGPT-4oより図解や資料のレベルが高い(svg, よりリッチに) 業務で使えるレベル
✅UIフェースやゲーム開発などプロトタイプ開発に強い
✅わかりにくい概念をビジュアライズ化してくれる
✅アートに強い(そう)
Claude3.5 sonnetの方がよさそうですね。とはいえ併用が理想。chatgpt 4oはperplexity AIで使っています。
perplexity aiはchatgpt 4o、claude3.5 sonnet、claude3 opusの3つが使えます。
claude3.5 sonnetの無料版の利用制限はこちらの記事にまとめました。
GPT-4o miniとは
2024年7月18日にリリースされました。
- GPT-4o miniは、OpenAIが開発したコスト効率の高い小型の言語モデルです。
- APIを使う場合、料金が安いです。
- また速度が高速です。
- ただし、性能はGPT-4oの方が上です。
- Free、Plus、Teamプランのユーザーが利用可能。
ベンチマークはOpenAIの公式で公開されています。
HumanEvalがコーディング能力です。
ChatGPTのデメリット
ものによっては調べるなら自分の方が早い場合もあります!
自分の専門分野になればなるほど、違和感がある答えが返ってくることが多い気がします。自分の方が詳しいからという気がします。逆にいえば、その程度だと自覚しましょう。
たとえば、翻訳の専門家に聞くとChatGPTの単語の選定は微妙だそうです。だから、自分の英語レベルがアッパーですね。チェックできませんから。一つの方法としてできるだけ平易な英語で翻訳してもらう方法があります。
個人的にはぐぐるのはわりと得意な方です。自分でぐぐった方が正確かつ早いですね!ただ、時短になることもあるため、ChatGPT君の得意不得意分野という個性をふまえて併用していく形がよい気がします。
コメント