วิธีสร้างวิดีโอ AI ด้วย Sora 2 เจ๋งสมจริง จนคนแยกไม่ออก

OpenAI เปิดตัว Sora 2 โมเดล AI สร้างวิดีโอจากข้อความเวอร์ชันล่าสุด สร้างเสียงประกอบ บทสนทนาสมจริงยิ่งขึ้น วิธีใช้งาน พร้อมเผยเทคนิคจับผิดวิดีโอที่สร้างจาก AI
OpenAI ต่อยหมัดฮุกสู้ Banan nano ของ Gemini ด้วยการเปิดตัว Sora 2 โมเดลสร้างวิดีโอจากข้อความ (Text-to-Video) รุ่นใหม่ล่าสุดที่พัฒนาต่อยอดความสำเร็จเดิมให้ก้าวล้ำไปอีกขั้น ที่น่าทึ่งที่สุดของ Sora 2 คือการสร้างวิดีโอพร้อมเสียงประกอบ ไม่ว่าจะเป็นเสียงพูด เสียงซาวด์เอฟเฟกต์ หรือเสียงบรรยากาศ ที่สอดคล้องกับภาพเคลื่อนไหวได้อย่างแนบเนียน จนแทบแยกไม่ออกว่าเป็นวิดีโอจริงหรือผลงานจาก AI
Sora 2 ไม่เพียงแต่เปิดประตูสู่ความเป็นไปได้ใหม่ๆ ในการสร้างสรรค์คอนเทนต์ แต่ยังมาพร้อมกับคำถามสำคัญถึงเส้นแบ่งระหว่างโลกจริงกับโลกเสมือน ล่าสุดสมจริงจนแยกไม่ออกเลย ถ้าไม่สังเกตความผิดเพี้ยนของตัวอักษร
Sora 2 ทำงานอย่างไร? เบื้องหลังความสมจริง
หัวใจหลักของ Sora 2 คือเทคโนโลยีที่เรียกว่า Diffusion Model เป็นหลักการเดียวกับที่ใช้ในโมเดลสร้างรูปภาพอย่าง DALL-E กระบวนการจะเริ่มต้นจากภาพที่เป็นสัญญาณรบกวน (Static Noise) จากนั้น AI จะค่อยๆ ปรับแก้และลดสัญญาณรบกวนในแต่ละเฟรมของวิดีโอลงทีละน้อย พร้อมกับทำให้ภาพคมชัดขึ้นเรื่อยๆ จนกลายเป็นวิดีโอที่สอดคล้องกับคำสั่ง (Prompt) ที่ผู้ใช้ป้อนเข้าไป
สิ่งที่ทำให้ Sora 2 พิเศษกว่ารุ่นก่อน คือการผสาน Diffusion Model เข้ากับสถาปัตยกรรม Transformer ซึ่งช่วยให้ AI มีความเข้าใจในบริบท ความสัมพันธ์ขององค์ประกอบต่างๆ ในระยะยาวได้ดีขึ้น ผลลัพธ์คือวิดีโอที่มีความต่อเนื่องของวัตถุและฉาก (Object Permanence) แม้ว่าวัตถุนั้นจะถูกบดบังหรือเคลื่อนที่ออกจากเฟรมไปชั่วขณะก็ตาม
จุดเด่น Sora 2 ถูกฝึกฝนด้วยชุดข้อมูลวิดีโอจำนวนมหาศาล ทำให้มันเรียนรู้และเข้าใจหลักฟิสิกส์พื้นฐาน การเคลื่อนไหวของสิ่งมีชีวิต ปฏิสัมพันธ์ระหว่างวัตถุกับสิ่งแวดล้อมได้สมจริงยิ่งขึ้น เช่น การกระเพื่อมของน้ำ การพริ้วไหวของเสื้อผ้า หรือแสงเงาที่ตกกระทบบนวัตถุ
ขั้นตอนการสร้างวิดีโอ AI ด้วย Sora 2
ปัจจุบัน Sora 2 ยังจำกัดอยู่ในกลุ่มผู้ใช้ ChatGPT Plus และ Pro ผ่านแอปพลิเคชัน “Sora” บนระบบ iOS ซึ่งเปิดให้ใช้งานแบบ Invite-only ในช่วงแรก มีขั้นตอนการสร้างวิดีโอที่ไม่ซับซ้อน
1. ล็อกอินเข้าสู่บัญชี ChatGPT และเปิดส่วนของ Sora Video Editor
2. ป้อนคำสั่ง (Prompt) พิมพ์ข้อความอธิบายวิดีโอที่ต้องการในช่องรับคำสั่ง ยิ่งคำสั่งมีความละเอียดและเจาะจงมากเท่าไหร่ ผลลัพธ์ที่ได้ก็จะยิ่งตรงตามความต้องการมากขึ้นเท่านั้น เช่น แทนที่จะพิมพ์แค่ “ผู้หญิงเดินในป่า” ควรระบุรายละเอียดเพิ่มเติมเป็น “ผู้หญิงผมยาวในชุดเดรสสีขาวกำลังเดินเท้าเปล่าในป่าสนช่วงพระอาทิตย์ตกดิน แสงแดดส่องลอดกิ่งไม้ลงมาเป็นลำ”
3. ผู้ใช้สามารถกำหนดค่าต่างๆ เพิ่มเติมได้ เช่น อัตราส่วนภาพ (Aspect Ratio) ความละเอียดของวิดีโอ (สูงสุด 1080p) และความยาว (สูงสุด 20 วินาที)
4. หลังจากกดสร้าง AI จะใช้เวลาประมวลผลสักครู่เพื่อสร้างวิดีโอตามคำสั่ง
5. ผู้ใช้สามารถดูผลลัพธ์ เลือกเวอร์ชันที่ดีที่สุด และใช้เครื่องมือเพิ่มเติม เช่น Remix เพื่อปรับแก้รายละเอียดเล็กๆ น้อยๆ ก่อนจะดาวน์โหลดไฟล์เป็น MP4 หรือแชร์ต่อไปยังแพลตฟอร์มอื่น
เมื่อสมจริงเกินไป วิธีสังเกตวิดีโอที่สร้างโดย AI
วิธีสังเกตง่ายและเร็วสุดคือ ถ้าวิดีโอที่สร้างจาก Sora มันจะฝังลายน้ำบนวิดีโอที่คนดูสามารถเห็นทันที ด้วยข้อความ Sora ที่ยืนยันว่าไม่ใช่วิดีโอของจริง
ในส่วนของตัววิดีโอ ถ้าสร้างจาก AI ตัวอื่น ไม่มีลายน้ำ ให้สังเกตการเคลื่อนไหวของใบหน้าที่ผิดธรรมชาติ ยังทำได้ไม่สมบูรณ์แบบคือการแสดงออกทางสีหน้าและอารมณ์ที่ซับซ้อน ลองสังเกตการกะพริบตาที่อาจจะน้อยหรือถี่ผิดปกติ หรือการขยับริมฝีปากที่ไม่สัมพันธ์กับเสียงพูด หรืออย่างคลิป คนแบกช้าง คนแบกช้างหนักเป็นตันคล่องปรื๋อ ซึ่งผิดหลักฟิลิกส์อย่งาแรง ไม่มีทางเกิดขึ้นจริงแน่นอน
สังเกตความผิดปกติของมือและนิ้ว เพราะมือเป็นอวัยวะที่มีความซับซ้อนสูง วิดีโอจาก AI มักจะพลาดในรายละเอียดส่วนนี้ ราจะเจอทั้งนิ้วมือเกินมา 6 นิ้ว นิ้วมือขาดเหลือ 4 นิ้ว นิ้วบิดงอผิดธรรมชาติ หรือมือเคลื่อนไหวดูแข็งทื่อ
ลองหยุดวิดีโอและซูมดูรายละเอียดเล็กๆ น้อยๆ ในฉากหลัง หรือพื้นผิวของวัตถุต่างๆ อาจพบความบิดเบี้ยวหรือการหลอมรวมกันของวัตถุดูไม่เป็นธรรมชาติ วัตถุลอยหรือเคลื่อนที่อย่างผิดปกติ แสงเงาที่ไม่สอดคล้องกับแหล่งกำเนิดแสง หรือวัตถุที่ซ้อนทับกันโดยไม่มีปฏิสัมพันธ์ที่ถูกต้อง
ในหลายคลิป AI จะสร้างผิวของบุคคลที่ดูเรียบเนียนจนเกินไป ขาดรายละเอียดของรูขุมขนหรือริ้วรอยตามธรรมชาติ ส่วนนี้แหละที่จับโป๊ะง่ายสุด เวลาสร้างวิดีโอตัวละครคน
ตัวอย่างคลิปที่สร้างจาก AI สมจริง แต่ขัดกฎธรรมชาติ
ในคลิปนี้ แมวเข้าไปขโมยปลาในซุปเปอร์มาเก็ต วิ่งหนีคนคล่องปรื๋อ โดยอุ้มปลาตัวใหญ่ไว้กับขาหน้า เท่ากับมันต้องวิ่งไปด้วย 3 ขา ซึ่งเป็นไปไม่ได้เลย
หมาขับรถ ในวิดีโอ จะเห็นสุนัขนั่งจับหลังพวงมาลัยเหมือนคน แถมมีฉากที่ขับรถออกไปเร็วปรู๊ดปร๊าด เป็นไปไม่ได้ เพราะขาหมาไม่ถึงแน่นอน แถมจะเอามือที่ไหนจับเกียร์
คลิปนักบาส NBA ดูเผินๆ องค์ประกอบสมจริงมาก แต่มาโป๊ะตอนฉากโยนลูกบอลใส่คนดูข้างสนาม ปรากฎว่าไม่รู้จู่ๆ น้ำโผล่มาจากไหน แตกกระจาย
หมากินเนื้อในร้านสะดวกซื้อ ถ้าไม่มีโลโก้ หาจุดจับผิดยากมาก
สนใจลองสร้างวิดีโอ AI ด้วย Sora 2 คลิกที่นี่
อ่านบทความที่เกี่ยวข้อง
ติดตาม The Thaiger บน Google News: