🏆 Video Arena 第1位 · 2026年4月26日ローンチNEW · Happy Horse 1.0 by Alibaba · 2026-04

Happy Horse 1.0 リップシンク対応 AI 動画ジェネレータ

Alibaba 最新の AI 動画モデル — Artificial Analysis Video Arena で第1位(Text-to-Video Elo 1333、Image-to-Video Elo 1392)、Sora 2、Veo 3.1、Kling を上回ります。

音声と動画を 1 パスで同時生成。1080p 出力。英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語の 7 言語で多言語リップシンク。

3〜15 秒の範囲
ネイティブ音声 + リップシンク
5 種のアスペクト比
モード
モデル
Happy Horse 1.060
長さ
アスペクト比
解像度

音声

Happy Horse 1.0 は音声 + 動画をリップシンクとともに同時生成します — 別途の音声切替は不要です。出力には常にネイティブの同期音声が含まれます。

プロンプト

動画プレビュー

プロンプトを入力して生成をクリックすると、Happy Horse 動画が作成されます

Happy Horse 1.0 モデル

音声・動画同時生成と 7 言語リップシンクを備えた Alibaba の第1位 AI 動画モデル。

#1 VIDEO ARENA

Happy Horse 1.0

多言語リップシンク付きの音声・動画同時生成

#1 Video Arena
  • 音声・動画同時出力(1 パス)
  • 3〜15 秒の範囲
  • 多言語リップシンク(7 言語)
  • 最大 1080p 解像度
36 クレジット〜 / 3秒 @ 720p

主要機能

Happy Horse 1.0 が Artificial Analysis Video Arena の Text-to-Video と Image-to-Video の両方で第1位にランクインする理由。

ネイティブ音声 + リップシンク

音声と動画を 1 回のフォワードパスで同時拡散 — 後処理によるマージは不要です。キャラクターのセリフに対して 7 言語の多言語リップシンクを提供。

テキストから動画

テキストの説明を 3〜15 秒のシネマティック動画に変換。あらゆるセリフにネイティブの同期音声と口の動きの整合をもたらします。

画像から動画

静止画を自然な動きと同期音声でアニメ化。リファレンス画像をアップロードし、追加したい動き + セリフを記述してください。

5 種のアスペクト比

16:9 (YouTube)、9:16 (TikTok / Reels)、1:1 (Instagram)、4:3 (レガシー)、3:4 (縦) に対応。生成時に選択可能です。

機能の詳細

Happy Horse 1.0 が音声・動画同時生成を 1 回のフォワードパスでどのように実現するか。

テキストから動画

Text-to-Video 生成

テキストだけでキャラクターのセリフ、環境音、表現豊かな動きを含むシーンを作成。話す言語を指定すると、Happy Horse は 7 言語で口の動きを整合させます。

プロンプト例

東京のバリスタが日本語で「いらっしゃいませ」と客を迎える。温かいカフェの環境音、柔らかなジャズ、ゆっくりとしたドリーフォワード。

Text-to-Video 生成
画像から動画

Image-to-Video アニメーション

1 枚の写真を自然な動きと同期音声で命を吹き込みます。任意のリファレンス画像を投入し、アクション + セリフを記述してください。

プロンプト例

屋台の店主が英語で「Hello, my friend!」と笑顔で言う。ネオンサインがちらつき、霧雨が光を捉える。

Image-to-Video アニメーション
音声 + リップシンク

音声・動画同時生成

音声は後付けではなく、共生成されます。リップシンクの整合は 7 言語で実現:英語、北京語、広東語、日本語、韓国語、ドイツ語、フランス語。

プロンプト例

フランス人シェフがフランス語でレシピを説明する(「On commence par le beurre…」)、フライパンの音、まな板を叩く包丁の音、手持ちカメラ。

音声・動画同時生成
アスペクト比

5 種のアスペクト比

生成時に比率を選択。主要なソーシャルプラットフォームに最適化 — クロップなし、レターボックスなし。

プロンプト例

9:16 縦型クリップ — スケートボーダーがキックフリップを決める、街の環境音、歓声を上げる群衆。

5 種のアスペクト比

クレジット料金

720p で 1 秒あたり 12 クレジット · 1080p で 1 秒あたり 24 クレジット(Plykit Pro で 1 クレジット約 $0.06)。

Plykit Pro で 1 クレジット ≈ $0.06。音声は常に含まれます — Happy Horse は音声 + 動画を 1 パスで生成します。
長さ720p1080p
3s40 credits80 credits
5s60 credits120 credits
8s96 credits192 credits
10s120 credits240 credits
12s144 credits288 credits
15s180 credits360 credits

Happy Horse 1.0 の使い方

3 ステップで最初の Happy Horse 動画を生成します。

ステップ 1

モードを選ぶ

Text-to-Video はゼロから生成します。Image-to-Video はアップロードしたリファレンス画像をアニメ化します。どちらの場合もアクション + セリフを記述してください(リップシンク用の言語を指定)。

ステップ 2

サイズと長さを設定

3〜15 秒、720p または 1080p を選択。ターゲットプラットフォーム向けのアスペクト比を選択。まず 5 秒 720p でテストし、その後 1080p で本番再生成することをお勧めします。

ステップ 3

生成してダウンロード

「動画を生成」をクリック。1080p で約 38 秒 — ネイティブ同期音声と整合されたリップシンクを伴う動画が返ってきます。

ギャラリー

Happy Horse 1.0 で作成された動画のサンプル。

東京のバリスタ — 日本語のセリフ

東京のバリスタが日本語で客を迎える。温かいカフェの環境音、柔らかなジャズ、ゆっくりとしたドリーフォワード。

多言語リップシンク:日本語のセリフがネイティブな環境音とともにきれいに着地。

香港のスケートボーダー

9:16 縦型クリップ — スケートボーダーが香港のルーフトップでキックフリップを決める。街の環境音、歓声を上げる群衆。

人体モーション:スケート物理 + 群衆の反応を 1 パスで。

フランス人シェフのチュートリアル

フランス人シェフがフランス語でレシピを説明する。フライパンの音、まな板を叩く包丁の音、手持ちカメラ。

音声同期:フライパンの音 + 包丁の音がフレーム単位で映像と一致。

ニューヨークの屋台店主

屋台の店主が英語で「Hello, my friend!」と笑顔で言う。ネオンサインがちらつき、霧雨が光を捉える。

I2V:静止画が動き、天気、同期した英語の挨拶でアニメ化。

クリエイターは Happy Horse 1.0 を絶賛しています

Plykit で Happy Horse を使うクリエイターからの初期フィードバック。

北京語のリップシンクが驚くほどきれい — これまで使ったどれよりも上。後処理でのマッチングは不要です。

Lin — 旅行 Vlogger

音声・動画同時生成は革命的。1 分以内にネイティブのフランス語セリフ付きチュートリアル動画をプロトタイプできます。

Marc — フランス料理チャンネル

この価格で 1080p を 38 秒、同期音声付き — テストしたどの API も上回ります。

Asha — インディペンデント映像作家

他の動画モデルも見る

Plykit で Happy Horse 1.0 と他の AI 動画ジェネレータを比較しましょう。

Kling

Video

Kuaishou によるネイティブ音声付きのコスト効率の高い AI 動画。

今すぐ試す

Sora 2

Video

シネマティック品質を備えた OpenAI の高度な動画モデル。

今すぐ試す

Veo 3.1

Video

クラス最高の音声を備えた Google DeepMind の動画モデル。

今すぐ試す

Flux 2

Image

Black Forest Labs による高忠実度のトップオープンソース画像モデル。

今すぐ試す

Nano Banana

Image

Gemini を搭載した、クリエイティブ・マジックのためのフラッグシップ画像モデル。

今すぐ試す

FAQ

Plykit における Happy Horse 1.0 についてよくある質問。

同期音声付きの動画を作成する準備はできましたか?

Alibaba の第1位動画モデルである Happy Horse 1.0 で、ネイティブ音声 + 多言語リップシンク付きの AI 動画を生成しましょう。