画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

画像認識、コンピュータビジョン、画像処理に関連する記事へのリンク集

2919 bookmarks
Custom sorting
ついに動画生成AI「HappyHorse 1.0」が誰でも使用可能になったので使ってみた、日本語セリフも出力可能で実写風・アニメ風どっちもOK
ついに動画生成AI「HappyHorse 1.0」が誰でも使用可能になったので使ってみた、日本語セリフも出力可能で実写風・アニメ風どっちもOK
中国企業のAlibabaが高性能な動画生成AI「HappyHorse 1.0」の公式サイトを公開しました。HappyHorse 1.0は正式公開前からAI比較サイトのArtificial Analysisで世界最高スコアを獲得して話題となっていたモデルです。Googleアカウントでサインインすれば無料で使用可能だったので、実際に動画を生成してみました。
·gigazine.net·
ついに動画生成AI「HappyHorse 1.0」が誰でも使用可能になったので使ってみた、日本語セリフも出力可能で実写風・アニメ風どっちもOK
中国によるChatGPTを使った高市早苗首相への信用失墜攻撃を拒否したとOpenAIが公表
中国によるChatGPTを使った高市早苗首相への信用失墜攻撃を拒否したとOpenAIが公表
中国の偽情報拡散計画に関連する複数のアカウントが高市早苗首相を攻撃していたとする報告書をOpenAIが公表しました。これらのアカウントはOpenAIのAI「ChatGPT」を使い、高市首相を正当性に欠け軍国主義的であるかのように吹聴していました。
·gigazine.net·
中国によるChatGPTを使った高市早苗首相への信用失墜攻撃を拒否したとOpenAIが公表
AIは著作権法を壊したのではなく「元から壊れていた著作権法の仕組み」を露呈させただけ
AIは著作権法を壊したのではなく「元から壊れていた著作権法の仕組み」を露呈させただけ
生成AIをめぐる著作権問題では「学習データに著作物を使っていいのか」「出力結果が著作物と似てしまったら誰が責任を負うのか」といった論点が繰り返し議論されています。テック系ブロガーのジェイソン・ウィレムズ氏は、そもそも著作権法は人間の規模で成り立つ前提に依存してきたのであり、生成AIはその前提を崩して曖昧さを表面化させただけだと自らのブログで指摘しています。
·gigazine.net·
AIは著作権法を壊したのではなく「元から壊れていた著作権法の仕組み」を露呈させただけ
「AIが生成した画像の著作権はAIが保有する」と主張する訴訟の審理をアメリカ最高裁が棄却
「AIが生成した画像の著作権はAIが保有する」と主張する訴訟の審理をアメリカ最高裁が棄却
画像生成AIや文章生成AIは誰でも気軽に扱えるようになりましたが、著作権に関する問題も度々浮上しています。そんな中、アメリカの最高裁判所が「AIが生成した画像の著作権はAIが保有する」と主張する訴訟の審理を棄却したことが明らかになりました。
·gigazine.net·
「AIが生成した画像の著作権はAIが保有する」と主張する訴訟の審理をアメリカ最高裁が棄却
無料でYouTubeなどから動画・音楽をダウンロードできるyt-dlpを簡単に使える「ytdlp-interface」、オープンソースで開発され広告やユーザー登録なしで利用可能
無料でYouTubeなどから動画・音楽をダウンロードできるyt-dlpを簡単に使える「ytdlp-interface」、オープンソースで開発され広告やユーザー登録なしで利用可能
YouTubeやニコニコ動画などのストリーミングサービスからムービーをダウンロードできる「yt-dlp」のWindows用グラフィカルインターフェースである「ytdlp-interface」が公開されています。MITライセンスの下でオープンソースで開発されており、無料で利用可能です。
·gigazine.net·
無料でYouTubeなどから動画・音楽をダウンロードできるyt-dlpを簡単に使える「ytdlp-interface」、オープンソースで開発され広告やユーザー登録なしで利用可能
無料の画像編集アプリ「GIMP 3.2」がリリースされる、外部アプリでの編集を即座に反映できる「レイヤーリンク」が追加&ライト・ダークモードの追従が可能に
無料の画像編集アプリ「GIMP 3.2」がリリースされる、外部アプリでの編集を即座に反映できる「レイヤーリンク」が追加&ライト・ダークモードの追従が可能に
無料で使える画像編集アプリ「GIMP」のバージョン3.2が2026年3月14日にリリースされました。
·gigazine.net·
無料の画像編集アプリ「GIMP 3.2」がリリースされる、外部アプリでの編集を即座に反映できる「レイヤーリンク」が追加&ライト・ダークモードの追従が可能に
Appleが1枚の画像からリアルな照明効果を持つ3Dオブジェクトを再現できるAIモデルを発表
Appleが1枚の画像からリアルな照明効果を持つ3Dオブジェクトを再現できるAIモデルを発表
Appleの研究チームが反射やハイライト、その他の効果を様々な視点から見ても一貫して維持しながら、一枚の画像から3Dオブジェクトを再構築することができるAIモデルの「LiTo」を開発しました。
·gigazine.net·
Appleが1枚の画像からリアルな照明効果を持つ3Dオブジェクトを再現できるAIモデルを発表
NVIDIAのAIアップスケーリング技術「DLSS 5」が加工しすぎで本物からかけ離れてしまうとネットユーザーにいじり倒される
NVIDIAのAIアップスケーリング技術「DLSS 5」が加工しすぎで本物からかけ離れてしまうとネットユーザーにいじり倒される
2026年3月16日、NVIDIAが「コンピュータグラフィックスにおけるブレークスルー」と称してAIで映像のアップスケーリングを行う「DLSS 5」を発表しました。DLSS 5で加工した際のビフォーアフター映像も公開されているのですが、あまりにも加工しすぎだと指摘されています。
·gigazine.net·
NVIDIAのAIアップスケーリング技術「DLSS 5」が加工しすぎで本物からかけ離れてしまうとネットユーザーにいじり倒される
「FFmpeg 8.1」リリース、VulkanとD3D12を中心にGPU活用をさらに拡大したバージョンで開発元もアップデートを推奨
「FFmpeg 8.1」リリース、VulkanとD3D12を中心にGPU活用をさらに拡大したバージョンで開発元もアップデートを推奨
オープンソースマルチメディアフレームワーク「FFmpeg」のバージョン8.1となる「FFmpeg 8.1(コードネーム:Hoare)」が安定版として2026年3月16日に公開されました。このリリースは2025年8月に登場したバージョン8.0に続くアップデートで、開発チームは最新のgitマスターを使用していないすべてのユーザー、ディストリビューター、システムインテグレーターに対して、このバージョンへのアップグレードを推奨しています。
·gigazine.net·
「FFmpeg 8.1」リリース、VulkanとD3D12を中心にGPU活用をさらに拡大したバージョンで開発元もアップデートを推奨
銃乱射事件を起こそうとする人物をAIでいち早く特定するスタートアップが登場
銃乱射事件を起こそうとする人物をAIでいち早く特定するスタートアップが登場
銃社会のアメリカでは頻繁に銃乱射事件が起きており、2026年3月にはテキサス州オースティンの繁華街で銃撃事件が発生して3人が死亡して10人以上が負傷したほか、バージニア州ノーフォークの大学では教室内で発砲事件があり1人が死亡して2人が負傷しました。そんな中、テキサス州に拠点を置くAngel ProtectionというAIスタートアップが、AIを使用して銃乱射事件を起こそうとする人間をいち早く特定する技術を発表しました。
·gigazine.net·
銃乱射事件を起こそうとする人物をAIでいち早く特定するスタートアップが登場
生成AIの4か月間に及ぶ画像・動画VAE実験から得られた教訓
生成AIの4か月間に及ぶ画像・動画VAE実験から得られた教訓
動画生成技術は目覚ましい進化を遂げていますが、根幹を支えるVAE(Variational Autoencoder)の設計と訓練には依然として多くの困難が伴います。AIラボのLinumが画像と動画の両方に対応するVAEの開発に挑んだ過程で直面した課題や得られた貴重な知見について自社のブログにて詳細に解説していました。
·gigazine.net·
生成AIの4か月間に及ぶ画像・動画VAE実験から得られた教訓
あのワープロソフト「一太郎」に「写真の顔を自動検出して隠せる機能」が追加されたので使ってみた
あのワープロソフト「一太郎」に「写真の顔を自動検出して隠せる機能」が追加されたので使ってみた
ジャストシステムのワープロソフト「一太郎」は1985年からアップデートが続いているソフトですが、「一太郎というワープロソフトの存在は知っているけど、どんな機能があるのかは知らない」という人も多いはず。2026年2月6日に登場した一太郎2026ではAIで音声を文字起こしする「JUSTボイスライター」や、画像の顔を自動的に隠せる「プライバシーフィルター」などの便利機能が多数追加されました。実際に一太郎2026を使う機会を得られたので、まずはプライバシーフィルターの使い勝手を確かめてみました。
·gigazine.net·
あのワープロソフト「一太郎」に「写真の顔を自動検出して隠せる機能」が追加されたので使ってみた
AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14%増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加
AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14%増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加
インターネット・ウォッチ財団(IWF)が2026年3月24日に公開した報告書において、AIによって生成された現実的な児童性的虐待の画像や動画がオンライン上で過去最高の水準に達していると警告しました。この報告書はAI生成コンテンツによる被害の実態を明らかにしており、安全性が確保されていないAIツールへの対策を求める公衆の声が高まっていることを示しています。
·gigazine.net·
AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14%増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加
ByteDanceの新たな動画生成AI「Dreamina Seedance 2.0」が動画編集ツールのCapCut上で提供開始
ByteDanceの新たな動画生成AI「Dreamina Seedance 2.0」が動画編集ツールのCapCut上で提供開始
TikTokの運営元であるByteDanceが2026年2月、新たな動画生成AIの「Dreamina Seedance 2.0」を発表しました。ハリウッドなどから著作権侵害が指摘される中、ByteDanceは動画編集ツールのCapCut上でDreamina Seedance 2.0の提供を開始しました。
·gigazine.net·
ByteDanceの新たな動画生成AI「Dreamina Seedance 2.0」が動画編集ツールのCapCut上で提供開始
「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能
「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能
AlibabaのAI研究チームであるQwen(Tongyi Lab)が「Qwen3.5-Omni」を2026年3月30日に発表しました。Qwen3.5-Omniはテキスト・画像・音声・動画の理解が可能なオムニモーダルモデルで、テキストだけでなく音声も生成することが可能。音声と映像の理解能力はGemini 3.1 Proを超えているとアピールされています。
·gigazine.net·
「Qwen3.5-Omni」が登場、文章生成・コード生成・映像認識・音声合成・ウェブ検索が可能
廃止されるSoraは1日100万ドルもコストがかかっていたという指摘
廃止されるSoraは1日100万ドルもコストがかかっていたという指摘
OpenAIが提供している動画生成アプリ「Sora」は、発表からおよそ半年後の2026年3月にサービス終了が告知されました。伝えられるところによると、Soraには膨大なコストがかかっていたとのことです。
·gigazine.net·
廃止されるSoraは1日100万ドルもコストがかかっていたという指摘
Metaが動画内の物体を切り抜くAIモデル「SAM 3」の複数オブジェクトの追跡能力を向上した「SAM 3.1」をリリース
Metaが動画内の物体を切り抜くAIモデル「SAM 3」の複数オブジェクトの追跡能力を向上した「SAM 3.1」をリリース
Metaは2025年11月、画像や動画内のオブジェクトを検出・分割・識別するためのAIモデル「Meta Segment Anything Model 3(SAM 3)」を発表しました。現地時間の2026年3月27日、SAM 3の複数オブジェクトを追跡する能力を向上したバージョン「SAM 3.1」をMetaがリリースしました。
·gigazine.net·
Metaが動画内の物体を切り抜くAIモデル「SAM 3」の複数オブジェクトの追跡能力を向上した「SAM 3.1」をリリース
無料でメトロポリタン美術館が公開している名作約140点の高解像度3Dスキャンをブラウザだけで簡単に見る方法
無料でメトロポリタン美術館が公開している名作約140点の高解像度3Dスキャンをブラウザだけで簡単に見る方法
ニューヨークのメトロポリタン美術館が石棺や古代彫刻、大理石像、フィンセント・ファン・ゴッホの絵画など約140点の所蔵品の高精細3Dモデルをオンラインで公開しています。ブラウザだけで簡単に見られるということなので、実際に展示品をじっくりと観察してみました。
·gigazine.net·
無料でメトロポリタン美術館が公開している名作約140点の高解像度3Dスキャンをブラウザだけで簡単に見る方法
ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ
ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ
書類の写真や古文書の画像データを入力するだけでテキストデータとして文字起こしできるウェブアプリが「NDLOCR-Lite Web AI」です。NDLOCR-Lite Web AIは2026年2月に国立国会図書館のNDLラボが公開して話題となった「NDLOCR-Lite」の派生アプリで、インストール操作不要でウェブブラウザからアクセスするだけで使用可能。さらに、各種AIのAPIキーを登録することでAIを用いた校正作業も実行できます。
·gigazine.net·
ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ
Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース
Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース
Microsoftが自社開発のAI基盤モデルとして、音声生成モデルの「MAI-Voice-1」、音声認識モデルの「MAI-Transcribe-1」、画像生成モデルの「MAI-Image-2」を発表しました。
·gigazine.net·
Microsoftが音声生成モデル「MAI-Voice-1」・音声認識モデル「MAI-Transcribe-1」・画像生成モデル「MAI-Image-2」の3つのAI基盤モデルをリリース
無料で重複した動画ファイル・画像ファイルを類似性に基づいて検出する「Video Duplicate Finder」、他の重複ファイル検索ツールと異なり解像度やフレームレート違い・透かしの入った重複ファイルも検出可能
無料で重複した動画ファイル・画像ファイルを類似性に基づいて検出する「Video Duplicate Finder」、他の重複ファイル検索ツールと異なり解像度やフレームレート違い・透かしの入った重複ファイルも検出可能
動画や画像ファイルの重複を検出するツールは数多くありますが、「ファイル名が一致する」・「ハッシュ値が一致する」など付加情報や完全一致でしか重複を判断できないケースがほとんどです。「Video Duplicate Finder」はファイルの形式や解像度が違ったり、透かしなど一部だけが加工されているような動画や画像でも、見た目の類似度から重複を検出できるオープンソースのツールです。
·gigazine.net·
無料で重複した動画ファイル・画像ファイルを類似性に基づいて検出する「Video Duplicate Finder」、他の重複ファイル検索ツールと異なり解像度やフレームレート違い・透かしの入った重複ファイルも検出可能
ネイティブなマルチモーダル推論モデル「Muse Spark」をMetaが発表、AI事業の「根本的な見直し」の一環
ネイティブなマルチモーダル推論モデル「Muse Spark」をMetaが発表、AI事業の「根本的な見直し」の一環
Meta Superintelligence Labsが開発した新しいAIモデル「Muse Spark」が2026年4月8日に発表されました。Muse Sparkは、個人向けスーパーインテリジェンスの実現を目指すMuseファミリーの第1弾モデルであり、Metaが自社のAI開発体制を根本から見直した最初の成果だと位置付けられています。
·gigazine.net·
ネイティブなマルチモーダル推論モデル「Muse Spark」をMetaが発表、AI事業の「根本的な見直し」の一環