画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2919 bookmarks

Custom sorting

ついに動画生成AI「HappyHorse 1.0」が誰でも使用可能になったので使ってみた、日本語セリフも出力可能で実写風・アニメ風どっちもOK

中国企業のAlibabaが高性能な動画生成AI「HappyHorse 1.0」の公式サイトを公開しました。HappyHorse 1.0は正式公開前からAI比較サイトのArtificial Analysisで世界最高スコアを獲得して話題となっていたモデルです。Googleアカウントでサインインすれば無料で使用可能だったので、実際に動画を生成してみました。

·gigazine.net·Apr 28, 2026

ついに動画生成AI「HappyHorse 1.0」が誰でも使用可能になったので使ってみた、日本語セリフも出力可能で実写風・アニメ風どっちもOK

中国によるChatGPTを使った高市早苗首相への信用失墜攻撃を拒否したとOpenAIが公表

中国の偽情報拡散計画に関連する複数のアカウントが高市早苗首相を攻撃していたとする報告書をOpenAIが公表しました。これらのアカウントはOpenAIのAI「ChatGPT」を使い、高市首相を正当性に欠け軍国主義的であるかのように吹聴していました。

·gigazine.net·Apr 17, 2026

中国によるChatGPTを使った高市早苗首相への信用失墜攻撃を拒否したとOpenAIが公表

AIは著作権法を壊したのではなく「元から壊れていた著作権法の仕組み」を露呈させただけ

生成AIをめぐる著作権問題では「学習データに著作物を使っていいのか」「出力結果が著作物と似てしまったら誰が責任を負うのか」といった論点が繰り返し議論されています。テック系ブロガーのジェイソン・ウィレムズ氏は、そもそも著作権法は人間の規模で成り立つ前提に依存してきたのであり、生成AIはその前提を崩して曖昧さを表面化させただけだと自らのブログで指摘しています。

·gigazine.net·Apr 17, 2026

AIは著作権法を壊したのではなく「元から壊れていた著作権法の仕組み」を露呈させただけ

「AIが生成した画像の著作権はAIが保有する」と主張する訴訟の審理をアメリカ最高裁が棄却

画像生成AIや文章生成AIは誰でも気軽に扱えるようになりましたが、著作権に関する問題も度々浮上しています。そんな中、アメリカの最高裁判所が「AIが生成した画像の著作権はAIが保有する」と主張する訴訟の審理を棄却したことが明らかになりました。

·gigazine.net·Apr 17, 2026

「AIが生成した画像の著作権はAIが保有する」と主張する訴訟の審理をアメリカ最高裁が棄却

Luma AIの新型画像生成モデル「Uni-1」がベンチマークでNano Banana 2・GPT Image 1.5を凌駕する性能を発揮

AIプラットフォームのLuma AIが、同社初の統合理解生成モデルとなる「Uni-1」を発表しました。

·gigazine.net·Apr 17, 2026

Luma AIの新型画像生成モデル「Uni-1」がベンチマークでNano Banana 2・GPT Image 1.5を凌駕する性能を発揮

無料でYouTubeなどから動画・音楽をダウンロードできるyt-dlpを簡単に使える「ytdlp-interface」、オープンソースで開発され広告やユーザー登録なしで利用可能

YouTubeやニコニコ動画などのストリーミングサービスからムービーをダウンロードできる「yt-dlp」のWindows用グラフィカルインターフェースである「ytdlp-interface」が公開されています。MITライセンスの下でオープンソースで開発されており、無料で利用可能です。

·gigazine.net·Apr 17, 2026

ByteDanceが著作権問題で動画生成AI「Seedance 2.0」のグローバルローンチを延期との報道

ショート動画共有アプリ・TikTokの運営元として知られるByteDanceが、動画生成AI「Seedance 2.0」の著作権侵害問題を受け、同AIのグローバルリリースを延期させたと報じられています。

·gigazine.net·Apr 17, 2026

ByteDanceが著作権問題で動画生成AI「Seedance 2.0」のグローバルローンチを延期との報道

無料の画像編集アプリ「GIMP 3.2」がリリースされる、外部アプリでの編集を即座に反映できる「レイヤーリンク」が追加＆ライト・ダークモードの追従が可能に

無料で使える画像編集アプリ「GIMP」のバージョン3.2が2026年3月14日にリリースされました。

·gigazine.net·Apr 17, 2026

Appleが1枚の画像からリアルな照明効果を持つ3Dオブジェクトを再現できるAIモデルを発表

Appleの研究チームが反射やハイライト、その他の効果を様々な視点から見ても一貫して維持しながら、一枚の画像から3Dオブジェクトを再構築することができるAIモデルの「LiTo」を開発しました。

·gigazine.net·Apr 17, 2026

Appleが1枚の画像からリアルな照明効果を持つ3Dオブジェクトを再現できるAIモデルを発表

NVIDIAのAIアップスケーリング技術「DLSS 5」が加工しすぎで本物からかけ離れてしまうとネットユーザーにいじり倒される

2026年3月16日、NVIDIAが「コンピュータグラフィックスにおけるブレークスルー」と称してAIで映像のアップスケーリングを行う「DLSS 5」を発表しました。DLSS 5で加工した際のビフォーアフター映像も公開されているのですが、あまりにも加工しすぎだと指摘されています。

·gigazine.net·Apr 17, 2026

NVIDIAのAIアップスケーリング技術「DLSS 5」が加工しすぎで本物からかけ離れてしまうとネットユーザーにいじり倒される

「FFmpeg 8.1」リリース、VulkanとD3D12を中心にGPU活用をさらに拡大したバージョンで開発元もアップデートを推奨

オープンソースマルチメディアフレームワーク「FFmpeg」のバージョン8.1となる「FFmpeg 8.1(コードネーム：Hoare)」が安定版として2026年3月16日に公開されました。このリリースは2025年8月に登場したバージョン8.0に続くアップデートで、開発チームは最新のgitマスターを使用していないすべてのユーザー、ディストリビューター、システムインテグレーターに対して、このバージョンへのアップグレードを推奨しています。

·gigazine.net·Apr 17, 2026

「FFmpeg 8.1」リリース、VulkanとD3D12を中心にGPU活用をさらに拡大したバージョンで開発元もアップデートを推奨

銃乱射事件を起こそうとする人物をAIでいち早く特定するスタートアップが登場

銃社会のアメリカでは頻繁に銃乱射事件が起きており、2026年3月にはテキサス州オースティンの繁華街で銃撃事件が発生して3人が死亡して10人以上が負傷したほか、バージニア州ノーフォークの大学では教室内で発砲事件があり1人が死亡して2人が負傷しました。そんな中、テキサス州に拠点を置くAngel ProtectionというAIスタートアップが、AIを使用して銃乱射事件を起こそうとする人間をいち早く特定する技術を発表しました。

·gigazine.net·Apr 17, 2026

銃乱射事件を起こそうとする人物をAIでいち早く特定するスタートアップが登場

生成AIの4か月間に及ぶ画像・動画VAE実験から得られた教訓

動画生成技術は目覚ましい進化を遂げていますが、根幹を支えるVAE(Variational Autoencoder)の設計と訓練には依然として多くの困難が伴います。AIラボのLinumが画像と動画の両方に対応するVAEの開発に挑んだ過程で直面した課題や得られた貴重な知見について自社のブログにて詳細に解説していました。

·gigazine.net·Apr 17, 2026

生成AIの4か月間に及ぶ画像・動画VAE実験から得られた教訓

あのワープロソフト「一太郎」に「写真の顔を自動検出して隠せる機能」が追加されたので使ってみた

ジャストシステムのワープロソフト「一太郎」は1985年からアップデートが続いているソフトですが、「一太郎というワープロソフトの存在は知っているけど、どんな機能があるのかは知らない」という人も多いはず。2026年2月6日に登場した一太郎2026ではAIで音声を文字起こしする「JUSTボイスライター」や、画像の顔を自動的に隠せる「プライバシーフィルター」などの便利機能が多数追加されました。実際に一太郎2026を使う機会を得られたので、まずはプライバシーフィルターの使い勝手を確かめてみました。

·gigazine.net·Apr 17, 2026

あのワープロソフト「一太郎」に「写真の顔を自動検出して隠せる機能」が追加されたので使ってみた

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

インターネット・ウォッチ財団(IWF)が2026年3月24日に公開した報告書において、AIによって生成された現実的な児童性的虐待の画像や動画がオンライン上で過去最高の水準に達していると警告しました。この報告書はAI生成コンテンツによる被害の実態を明らかにしており、安全性が確保されていないAIツールへの対策を求める公衆の声が高まっていることを示しています。

·gigazine.net·Apr 17, 2026

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

OpenAIがAI動画生成アプリ・Soraを終了すると発表、ディズニーによる1600億円の投資もとん挫か

OpenAIがAI動画生成アプリの「Sora」を終了すると発表しました。これにより、ディズニーからのOpenAIへの10億ドル(約1600億円)の投資もとん挫することとなります。

·gigazine.net·Apr 17, 2026

OpenAIがAI動画生成アプリ・Soraを終了すると発表、ディズニーによる1600億円の投資もとん挫か

Appleが10倍大きなAIモデルよりも優れた画像キャプションを付けられる「RubiCap」を発表

Appleの研究チームが、既存のAIモデルよりもはるかに小さなサイズでより正確で詳細な画像の説明文を作成できるAIモデル「RubiCap」を開発しました。

·gigazine.net·Apr 17, 2026

Appleが10倍大きなAIモデルよりも優れた画像キャプションを付けられる「RubiCap」を発表

ByteDanceの新たな動画生成AI「Dreamina Seedance 2.0」が動画編集ツールのCapCut上で提供開始

TikTokの運営元であるByteDanceが2026年2月、新たな動画生成AIの「Dreamina Seedance 2.0」を発表しました。ハリウッドなどから著作権侵害が指摘される中、ByteDanceは動画編集ツールのCapCut上でDreamina Seedance 2.0の提供を開始しました。

·gigazine.net·Apr 17, 2026

ByteDanceの新たな動画生成AI「Dreamina Seedance 2.0」が動画編集ツールのCapCut上で提供開始

「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能

AlibabaのAI研究チームであるQwen(Tongyi Lab)が「Qwen3.5-Omni」を2026年3月30日に発表しました。Qwen3.5-Omniはテキスト・画像・音声・動画の理解が可能なオムニモーダルモデルで、テキストだけでなく音声も生成することが可能。音声と映像の理解能力はGemini 3.1 Proを超えているとアピールされています。

·gigazine.net·Apr 17, 2026

「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能

廃止されるSoraは1日100万ドルもコストがかかっていたという指摘

OpenAIが提供している動画生成アプリ「Sora」は、発表からおよそ半年後の2026年3月にサービス終了が告知されました。伝えられるところによると、Soraには膨大なコストがかかっていたとのことです。

·gigazine.net·Apr 17, 2026

廃止されるSoraは1日100万ドルもコストがかかっていたという指摘

画像や音声に対する人間の脳の反応を正確に予測するAIモデル「TRIBE v2」をMetaが公開

ほぼあらゆる視覚や音に人間の脳がどのように反応するかを予測するよう訓練された基盤モデルが「TRIBE v2」です。

·gigazine.net·Apr 17, 2026

画像や音声に対する人間の脳の反応を正確に予測するAIモデル「TRIBE v2」をMetaが公開

Metaが動画内の物体を切り抜くAIモデル「SAM 3」の複数オブジェクトの追跡能力を向上した「SAM 3.1」をリリース

Metaは2025年11月、画像や動画内のオブジェクトを検出・分割・識別するためのAIモデル「Meta Segment Anything Model 3(SAM 3)」を発表しました。現地時間の2026年3月27日、SAM 3の複数オブジェクトを追跡する能力を向上したバージョン「SAM 3.1」をMetaがリリースしました。

·gigazine.net·Apr 17, 2026

Metaが動画内の物体を切り抜くAIモデル「SAM 3」の複数オブジェクトの追跡能力を向上した「SAM 3.1」をリリース

無料でメトロポリタン美術館が公開している名作約140点の高解像度3Dスキャンをブラウザだけで簡単に見る方法

ニューヨークのメトロポリタン美術館が石棺や古代彫刻、大理石像、フィンセント・ファン・ゴッホの絵画など約140点の所蔵品の高精細3Dモデルをオンラインで公開しています。ブラウザだけで簡単に見られるということなので、実際に展示品をじっくりと観察してみました。

·gigazine.net·Apr 17, 2026

無料でメトロポリタン美術館が公開している名作約140点の高解像度3Dスキャンをブラウザだけで簡単に見る方法

ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ

書類の写真や古文書の画像データを入力するだけでテキストデータとして文字起こしできるウェブアプリが「NDLOCR-Lite Web AI」です。NDLOCR-Lite Web AIは2026年2月に国立国会図書館のNDLラボが公開して話題となった「NDLOCR-Lite」の派生アプリで、インストール操作不要でウェブブラウザからアクセスするだけで使用可能。さらに、各種AIのAPIキーを登録することでAIを用いた校正作業も実行できます。

·gigazine.net·Apr 17, 2026

Googleが低価格な動画生成AI「Veo 3.1 Lite」をリリース

Googleが動画生成AI「Veo 3.1」の低価格API「Veo 3.1 Lite」を2026年3月31日にリリースしました。

·gigazine.net·Apr 17, 2026

Googleが低価格な動画生成AI「Veo 3.1 Lite」をリリース

Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース

Microsoftが自社開発のAI基盤モデルとして、音声生成モデルの「MAI-Voice-1」、音声認識モデルの「MAI-Transcribe-1」、画像生成モデルの「MAI-Image-2」を発表しました。

·gigazine.net·Apr 17, 2026

Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース

無料で重複した動画ファイル・画像ファイルを類似性に基づいて検出する「Video Duplicate Finder」、他の重複ファイル検索ツールと異なり解像度やフレームレート違い・透かしの入った重複ファイルも検出可能

動画や画像ファイルの重複を検出するツールは数多くありますが、「ファイル名が一致する」・「ハッシュ値が一致する」など付加情報や完全一致でしか重複を判断できないケースがほとんどです。「Video Duplicate Finder」はファイルの形式や解像度が違ったり、透かしなど一部だけが加工されているような動画や画像でも、見た目の類似度から重複を検出できるオープンソースのツールです。

·gigazine.net·Apr 17, 2026

Android版Googleフォトの「AI補正」機能が日本でも実装、さらに動画再生速度の変更も可能に

光と色を即座にバランスよく整えるGoogleフォトの「AI補正」機能が、世界中で利用可能になりました。

·gigazine.net·Apr 17, 2026

Android版Googleフォトの「AI補正」機能が日本でも実装、さらに動画再生速度の変更も可能に

ネイティブなマルチモーダル推論モデル「Muse Spark」をMetaが発表、AI事業の「根本的な見直し」の一環

Meta Superintelligence Labsが開発した新しいAIモデル「Muse Spark」が2026年4月8日に発表されました。Muse Sparkは、個人向けスーパーインテリジェンスの実現を目指すMuseファミリーの第1弾モデルであり、Metaが自社のAI開発体制を根本から見直した最初の成果だと位置付けられています。

·gigazine.net·Apr 17, 2026

ネイティブなマルチモーダル推論モデル「Muse Spark」をMetaが発表、AI事業の「根本的な見直し」の一環

謎の動画生成AIモデル「HappyHorse-1.0」が匿名テストで世界最高性能を達成

AI情報分析サイト「Artificial Analysis」の動画生成AI性能ランキングに「HappyHorse-1.0」という名前のモデルが登場し、GoogleやByteDanceなどの高性能モデルを抜いてランキング1位の座を獲得しました。

·gigazine.net·Apr 17, 2026

謎の動画生成AIモデル「HappyHorse-1.0」が匿名テストで世界最高性能を達成