動画をそのままAIに読み取らせてみたら、思ったより全部わかった話
この記事でわかること
- やってみたこと:Claude Codeの設定画面を動画でGeminiに渡した
- なぜGeminiは動画に強いのか
- 動画をそのまま理解している
- 長い動画でも文脈が切れない
- 主要AIとの比較(2026年時点)
- まとめ:「見せる」だけで伝わる時代
「この設定、どうなってたっけ」というとき、みなさんはどうしていますか?スクリーンショットを何枚も撮ったり、メモを見返したり……けっこう手間ですよね。
今回、ふと試したのが「操作画面を動画で撮って、そのままGeminiに投げてみる」という方法です。結果として、思っていた以上にすんなりと情報を引き出せたので、その内容をシェアしてみます。
やってみたこと:Claude Codeの設定画面を動画でGeminiに渡した
Claude Code(デスクトップアプリ)の設定画面をぐるっと見て回る、1分ほどの動画を撮影。それをそのままGeminiに読み込ませて、「この動画に映っている設定内容を教えて」と聞いてみました。
Geminiが読み取ってくれた内容(要約):
- プロフィールに設定されている名前(casio-pgs)を正確に認識
- サブスクリプションのプランや、次回更新日(2026年5月14日)も把握
- セッション使用量(13%)、全モデルの使用率(67%)といった数値も読み取り
- GitHub連携の有無や、ドメイン許可リストの設定まで一通りテキスト化
特に驚いたのは、スクロールして一瞬しか映らなかった項目や、画面の端に出ていた設定値まで、ちゃんと時系列で整理されていたことです。「あ、これ人間よりちゃんと見てるな」と思いました。
なぜGeminiは動画に強いのか
動画を分析できるAIは増えてきましたが、Geminiにはちょっと違う強みがあります。
動画をそのまま理解している
多くのAIは、動画を「一定間隔でスクリーンショットを撮って、その画像を順番に見ていく」という形で処理します。一方Geminiは、映像と音声を連続したデータとして直接受け取る設計になっていて、流れや文脈ごと理解できます。
長い動画でも文脈が切れない
Geminiは、数時間の動画でも文脈を保ったまま処理できる「長いコンテキストウィンドウ」を持っています。「全体を通して何が言われていたか」「どの設定がどのタイミングで変わったか」といった質問にも答えやすいのはこの仕組みのおかげです。
主要AIとの比較(2026年時点)
| AIモデル | 動画の扱い方 | 向いていること |
|---|---|---|
| Gemini (Google) | 動画をそのまま読み込むネイティブ方式 | 長い動画の要約、UIの文字起こし、時系列の整理 |
| GPT-4o (OpenAI) | 静止画を抜き出して解析 | 短い動画での素早い理解、特定のアクションの把握 |
| Claude(Anthropic) | 公式チャットでは動画の直接アップロード非対応(画像のみ) | テキストの論理構成やコード生成 |
「動画をそのまま渡して中身を分析してほしい」という用途では、今のところGeminiが一番使いやすいと感じています。
まとめ:「見せる」だけで伝わる時代
今回やってみてわかったのは、動画を撮ってAIに渡すだけで、設定のドキュメント化やマニュアル作成がかなり楽になるということ。
「あの設定、どうだったっけ」というときに、録画を見返しながらメモする必要がなくなるかもしれません。記録しておいた動画資産が、あとからAIで活用できる素材になるとしたら、それはちょっとおもしろいですよね。
この記事は、実際のGeminiとの対話・動画解析の実証結果をもとに構成しました。
