वीडियो निर्माण में ओपन AI को टक्कर दे रहा है ओमनी ह्यूमन-1

चीन का नया AI मॉडल। TikTok की मूल कंपनी ByteDance ने वीडियो बनाने वाला आर्टिफिशियल इंटेलिजेंस (AI) मॉडल पेश किया है, जिसका नाम OmniHuman-1 है। यह मॉडल एक ही छवि या टेक्स्ट प्रॉम्प्ट से यथार्थवादी वीडियो बना सकता है, जिसमें लोग बात करते, नाचते, गाते और यहाँ तक कि वाद्ययंत्र बजाते हुए दिखाई देते हैं।

ओमनी ह्यूमन-1 का विवरण

मॉडल को मानव भाषण, आंदोलन और हाव-भाव को सटीक रूप से दोहराने के लिए डिज़ाइन किया गया है। कंपनी की वेबसाइट के अनुसार, चाहे वह पोर्ट्रेट हो, आधे शरीर का शॉट हो या पूरे शरीर की छवि हो, ओमनीह्यूमन जीवंत आंदोलनों, प्राकृतिक हाव-भाव और विवरण पर आश्चर्यजनक ध्यान उत्पन्न कर सकता है। इसके मूल में, ओमनी ह्यूमन-1 एक मल्टीमोडैलिटी-कंडीशन्ड ह्यूमन वीडियो जेनरेशन मॉडल है, जिसका अर्थ है कि यह अत्यधिक यथार्थवादी वीडियो बनाने के लिए छवियों और ऑडियो क्लिप जैसे विभिन्न इनपुट प्रकारों को एकीकृत करता है।

अनुसंधान और प्रशिक्षण

ओमनी ह्यूमन-1 अभी शोध चरण में है और अभी तक आम लोगों के लिए उपलब्ध नहीं है। डेवलपर्स ने डेमो साझा किए हैं और भविष्य में संभावित कोड रिलीज़ का संकेत दिया है। इस मॉडल की रिलीज़ डीपसीक के बड़े भाषा मॉडल (एलएलएम) डीपसीक-वी3 के बाद एआई उद्योग में एक और चीनी सफलता को चिह्नित करती है। बाइटडांस का ओमनीह्यूमन-1 ओपनएआई के वीडियो-जनरेटिंग मॉडल, सोरा का सीधा प्रतियोगी है, जिसे दिसंबर 2024 में रिलीज़ किया गया था, साथ ही रनवे के जेन-3 अल्फा और लूमा एआई के ड्रीम मशीन जैसे अन्य वीडियो-जनरेटिंग मॉडल भी शामिल हैं।

तकनीकी कार्यप्रणाली

ओमनी ह्यूमन-1 कैसे काम करता है? ओमनी ह्यूमन-1 एक एंड-टू-एंड, मल्टीमोडैलिटी-कंडीशन्ड मानव वीडियो जेनरेशन फ्रेमवर्क है, जिसे एकल छवि और गति संकेतों से मानव वीडियो बनाने के लिए डिज़ाइन किया गया है, जिसमें केवल ऑडियो, केवल वीडियो या दोनों का संयोजन शामिल है। यह ढांचा मल्टीमोडैलिटी मोशन कंडीशनिंग मिश्रित प्रशिक्षण रणनीति को शामिल करता है, जिससे मॉडल को मिश्रित कंडीशनिंग से स्केल-अप डेटा के लाभों का लाभ उठाने में सक्षम बनाता है। इस दृष्टिकोण को अपनाकर, ओमनी ह्यूमन-1 उन चुनौतियों का प्रभावी ढंग से समाधान करता है जो उच्च गुणवत्ता वाले डेटा की सीमित उपलब्धता के कारण पिछले एंड-टू-एंड तरीकों का सामना करती थीं।

प्रशिक्षण और डेटा सेट

ओमनी ह्यूमन-1 को एक विशाल डेटासेट और एक उन्नत एआई फ्रेमवर्क पर प्रशिक्षित किया गया था। शोधकर्ताओं ने एक अद्वितीय “ऑमनी-कंडीशन” दृष्टिकोण का उपयोग करके इसे 18,700 घंटे से अधिक मानव वीडियो फुटेज खिलाया, जिससे मॉडल को पाठ, ऑडियो और शरीर की हरकतों से एक साथ सीखने की अनुमति मिली और परिणामस्वरूप अधिक प्राकृतिक एनिमेशन प्राप्त हुए। इसकी प्रमुख विशेषताओं में मल्टीमोडैलिटी मोशन कंडीशनिंग, यथार्थवादी लिप सिंक और इशारे, विभिन्न इनपुट के लिए समर्थन, विभिन्न प्रारूपों में बहुमुखी प्रतिभा, उच्च गुणवत्ता वाले आउटपुट और मानव से परे एनीमेशन शामिल हैं।

मुख्य प्रतिस्पर्धी और तुलना

ओमनी ह्यूमन-1 के शीर्ष प्रतिस्पर्धी में ओपनएआई का सोरा, रनवे का जेन-3 अल्फा और लूमा एआई की ड्रीम मशीन शामिल हैं।

सोरा: ओपनएआई का टेक्स्ट-टू-वीडियो एआई मॉडल है, जो टेक्स्ट प्रॉम्प्ट से एक मिनट तक के उच्च-गुणवत्ता वाले वीडियो बनाने में सक्षम है। यह 3डी वातावरण, भौतिकी और यथार्थवादी गति की उन्नत समझ के साथ दृश्य स्थिरता प्रदान करता है।

जेन-3 अल्फा: रनवे का यह उन्नत एआई वीडियो मॉडल संरचना, शैली और गति पर सटीक नियंत्रण प्रदान करता है, जिससे उपयोगकर्ता टेक्स्ट प्रॉम्प्ट से जटिल और सुसंगत वीडियो अनुक्रम बना सकते हैं।

ड्रीम मशीन: लूमा एआई की यह ट्रांसफॉर्मर-आधारित वीडियो मॉडल स्केलेबिलिटी और दक्षता के लिए बनाई गई है, जो शारीरिक रूप से सटीक और विज़ुअली सुसंगत फुटेज तैयार करती है।

जहाँ सोरा भौतिकी सिमुलेशन और टेम्पोरल कोहेरेंस पर जोर देता है, वहीं ओमनी ह्यूमन-1 मानव गति और चरित्र निरंतरता के लिए अनुकूलित मल्टी-स्ट्रीम GAN दृष्टिकोण का उपयोग करता है, जिससे उच्च गुणवत्ता वाले, जीवंत मानवीय आंदोलनों और अभिव्यक्तियों का सृजन संभव हो पाता है। बाइटडांस ने एक बयान में कहा कि ओमनी ह्यूमन-1 “मौजूदा तरीकों से काफी बेहतर प्रदर्शन करता है, तथा कमजोर सिग्नल इनपुट, विशेष रूप से ऑडियो के आधार पर अत्यंत यथार्थवादी मानव वीडियो तैयार करता है।”

शोध निष्कर्ष

arXiv पर प्रकाशित एक शोध पत्र में, कंपनी ने दावा किया कि यह मॉडल किसी भी पहलू अनुपात की छवियों के साथ काम कर सकता है, चाहे वे पोर्ट्रेट, आधे शरीर या पूरे शरीर की छवियां हों, और विभिन्न परिदृश्यों में जीवंत तथा उच्च गुणवत्ता वाले परिणाम प्रदान करता है। हालांकि, इन मॉडलों के बीच आमने-सामने की तुलना नहीं की जा सकती क्योंकि मूल कंपनियों ने अभी तक विभिन्न बेंचमार्क पर अपने स्कोर जारी नहीं किए हैं; वर्तमान तुलना केवल उपयोगकर्ता अनुभव पर आधारित है, जो कि व्यक्तिपरक हो सकता है।

Spread the love