วิธีใช้ Google AI Studio สอนเล่น เอไอกูเกิลเชิงลึก เครื่องมือจัดเต็ม

วิธีใช้ AISTUDIO.google.com สอนเล่น เอไอกูเกิลตัวล่าสุด สร้างภาพได้ง่ายๆ สมจริงตามพร้อมต์
Google AI Studio คืออะไร?
Google AI Studio เป็นเครื่องมือบนเว็บไซต์ที่ Google ให้เราใช้ เพื่อให้เราได้ลองเล่นกับโมเดลภาษาขนาดใหญ่ (LLMs) ของ Google อย่าง Gemini มันออกแบบมาให้ใช้งานง่าย ทำให้คุณสามารถสร้างต้นแบบและทดสอบแอปพลิเคชัน AI ได้อย่างรวดเร็ว โดยไม่ต้องมีความรู้ด้านการเขียนโค้ดมากนัก คิดซะว่ามันเป็นเหมือนกล่องเครื่องมือที่ให้คุณคุยกับ AI ของ Google ได้
- มันออกแบบมาสำหรับทุกคน ไม่ว่าจะมีประสบการณ์เขียนโค้ดหรือไม่ก็ตาม
- คุณสามารถลองไอเดียต่าง ๆ และดูว่า AI ทำอะไรได้บ้าง
- ทดลองใช้คำสั่งต่าง ๆ เพื่อให้ AI ทำในสิ่งที่คุณต้องการ
- สร้างแอปและโปรเจกต์ AI ของคุณเอง
- เชื่อมต่อกับบริการอื่น ๆ ของ Google Cloud ได้อย่างราบรื่น
วิธีใช้ Google AI Studio
ขั้นตอนแรก ๆ นั้นง่ายมากครับ เริ่มต้นด้วยการไปที่ เว็บไซต์ Google AI Studio แล้วสมัครบัญชี ถ้าคุณมีบัญชี Google อยู่แล้ว ก็ใช้บัญชีนั้นล็อกอินได้เลย
เมื่อคุณล็อกอินแล้ว คุณจะเจอกับหน้าหลัก การใช้งานก็ง่าย มีเมนูและตัวเลือกที่ชัดเจน ซึ่งจะนำคุณไปยังฟังก์ชันต่าง ๆ ที่ Google AI Studio มีให้
วิธีสร้างพร้อมต์คำสั่ง (Prompt)
ส่วน “Create Prompt” ใน Google AI Studio เป็นที่ที่คุณเขียนคำสั่งให้ AI ทำตาม ซึ่งจะช่วยให้คุณปรับแต่งการตอบสนองของ AI ให้เหมาะกับงานหรือบทสนทนาที่คุณต้องการ เหมือนกับการสอน AI ว่าคุณต้องการอะไร และมันก็มีวิธีเขียนคำสั่งที่หลากหลาย คล้ายกับ Playground ของ OpenAI ที่ให้คุณทดลองและหาวิธีที่ดีที่สุดได้
- คลิกที่ลิงก์ “Create Prompt” ในเมนูด้านซ้าย
- กำหนด System Instructions (คำแนะนำระบบ) ระบุบทบาทหรือพฤติกรรมที่คุณต้องการให้ AI แสดงออกมา ตัวอย่างเช่น: คุณคือแชทบอทที่เป็นมิตร ให้คำตอบที่กระชับและเป็นประโยชน์
- ในช่องป้อนข้อมูล “Type something” (พิมพ์อะไรบางอย่าง) ให้ป้อนคำถามตัวอย่างของผู้ใช้ เพื่อดูว่า AI ตอบสนองต่อคำแนะนำของคุณอย่างไร ตัวอย่างเช่น: ช่วยแนะนำหนังสือดี ๆ สักเล่มได้ไหม
- ปรับคำแนะนำระบบหรือคำสั่งป้อนข้อมูล เพื่อปรับแต่งการตอบสนองของ AI ให้ตรงกับความต้องการของคุณมากขึ้น
Model Settings (การตั้งค่าโมเดล)
คุณจะเห็นแผง “Model Settings” ในเมนูทางด้านขวา ในนั้น คุณสามารถกำหนดค่าพารามิเตอร์สำหรับการทำงานของโมเดลได้
- Get code (รับโค้ด): ตัวเลือกนี้ช่วยให้คุณดึงโค้ดที่โมเดลสร้างขึ้นมา ซึ่งน่าจะเป็นสำหรับการนำไปใช้ในโปรเจกต์ของคุณเอง
- Model (โมเดล): ระบุว่าโมเดลภาษาใดที่จะใช้ในการประมวลผลคำสั่งของคุณ ตอนนี้ที่เลือกไว้คือ “Gemini 2.0 Flash” โมเดลที่แตกต่างกันก็มีจุดแข็งและจุดอ่อนที่แตกต่างกันไป และอาจจะเหมาะกับงานประเภทต่าง ๆ กัน
- Token count (จำนวนโทเค็น): แสดงว่าคำสั่งของคุณและการตอบสนองของโมเดลใช้โทเค็นไปเท่าไหร่
- Temperature (อุณหภูมิ): ควบคุมความสุ่มของการแสดงผลของโมเดล ค่าที่ใกล้เคียง 0 จะทำให้ผลลัพธ์มีความแน่นอนและมุ่งเน้นมากขึ้น ในขณะที่ค่าที่ใกล้เคียง 1 (ตามที่แสดงไว้ที่นี่) จะทำให้ผลลัพธ์มีความคิดสร้างสรรค์และอาจจะคาดเดาไม่ได้มากขึ้น
- Tools (เครื่องมือ): ส่วนนี้รวมตัวเลือกสำหรับการเปิดใช้งานฟังก์ชันเฉพาะที่โมเดลสามารถใช้ได้ในระหว่างการประมวลผล
- Structured output (เอาต์พุตที่มีโครงสร้าง): โมเดลสามารถสร้างเอาต์พุตในรูปแบบที่มีโครงสร้าง เช่น JSON หรือ XML ซึ่งทำให้ง่ายต่อการแยกวิเคราะห์และใช้งานในโค้ด
- Code execution (การรันโค้ด): อนุญาตให้โมเดลรันส่วนของโค้ดได้ สิ่งนี้มีประโยชน์สำหรับงานที่ต้องมีการคำนวณหรือโต้ตอบกับระบบภายนอก
- Function calling (การเรียกใช้ฟังก์ชัน): เปิดใช้งานให้โมเดลสามารถเรียกใช้ฟังก์ชันที่กำหนดไว้ล่วงหน้าเพื่อทำงานเฉพาะ สิ่งนี้จะขยายความสามารถของโมเดลโดยอนุญาตให้โต้ตอบกับเครื่องมือและบริการภายนอกได้
- Grounding with Google Search (การอ้างอิงจาก Google Search): อนุญาตให้โมเดลเข้าถึงและใช้ข้อมูลจาก Google Search เพื่อให้ข้อมูลที่แม่นยำและเป็นปัจจุบันมากขึ้น
Media Input Menu (เมนูการป้อนข้อมูลสื่อ)
คุณจะใช้เมนูการป้อนข้อมูลสื่อนี้เมื่อใดก็ตามที่คุณต้องการรวมข้อมูลภายนอก สื่อ หรือรูปแบบเฉพาะ (เสียง รูปภาพ วิดีโอ) เข้ากับการโต้ตอบของคุณกับโมเดล AI ใน Google AI Studio
Allow Drive access (อนุญาตการเข้าถึง Drive)
เมื่อคุณต้องการใช้ไฟล์ที่จัดเก็บไว้ใน Google Drive เป็นข้อมูลป้อนเข้าสำหรับคำสั่งของคุณ สิ่งนี้มีประโยชน์สำหรับการวิเคราะห์เอกสาร สเปรดชีต หรือไฟล์ข้อมูลอื่น ๆ ที่คุณจัดเก็บไว้ใน Drive
ตัวอย่าง: คุณมีไฟล์ข้อความใน Drive ที่มีบทวิจารณ์ของลูกค้า และคุณต้องการใช้โมเดล AI เพื่อวิเคราะห์ความรู้สึกของบทวิจารณ์เหล่านั้น
Upload File (อัปโหลดไฟล์)
เมื่อไฟล์ที่คุณต้องการใช้ถูกจัดเก็บไว้ในเครื่องคอมพิวเตอร์ของคุณและยังไม่ได้อยู่ใน Google Drive นี่อาจเป็นเอกสารข้อความ ไฟล์โค้ด ชุดข้อมูล หรือไฟล์ประเภทอื่น ๆ ที่เกี่ยวข้องกับงานของคุณ
ตัวอย่าง: คุณมีไฟล์ CSV บนเดสก์ท็อปที่มีข้อมูลการขาย และคุณต้องการใช้โมเดล AI เพื่อทำการวิเคราะห์แนวโน้ม
Upload Image (อัปโหลดรูปภาพ)
เมื่อคุณต้องการให้โมเดล AI วิเคราะห์เนื้อหาของรูปภาพ นี่อาจใช้สำหรับงานต่าง ๆ เช่น การใส่คำบรรยายรูปภาพ การตรวจจับวัตถุ การตอบคำถามเกี่ยวกับภาพ หรือการแก้ไขรูปภาพ
ตัวอย่าง: คุณอัปโหลดรูปภาพของอาคารและขอให้โมเดล AI ระบุสไตล์สถาปัตยกรรม
Record Audio (บันทึกเสียง)
เมื่อคุณต้องการใช้ข้อมูลป้อนเข้าแบบเรียลไทม์เป็นพื้นฐานสำหรับคำสั่งของคุณ สิ่งนี้มีประโยชน์สำหรับงานต่าง ๆ เช่น การถอดเสียงพูดเป็นข้อความ แอปพลิเคชันที่ควบคุมด้วยเสียง หรือการวิเคราะห์เนื้อหาของข้อความที่พูด
ตัวอย่าง: คุณบันทึกเสียงเพื่อขอให้โมเดล AI ตั้งค่าการเตือนความจำให้คุณ
Take a photo (ถ่ายภาพ)
คล้ายกับการอัปโหลดรูปภาพ แต่ช่วยให้คุณสามารถถ่ายภาพได้โดยตรงโดยใช้กล้องของอุปกรณ์ของคุณ และใช้เป็นข้อมูลป้อนเข้าสำหรับโมเดล AI
ตัวอย่าง: คุณถ่ายภาพโน้ตที่เขียนด้วยลายมือและขอให้โมเดล AI ถอดความเป็นข้อความดิจิทัล
YouTube Video (วิดีโอ YouTube)
เมื่อคุณต้องการให้โมเดล AI วิเคราะห์เนื้อหาของวิดีโอ YouTube นี่อาจใช้สำหรับการสรุปวิดีโอ การตอบคำถามเกี่ยวกับวิดีโอ การดึงข้อมูลสำคัญ หรือการสร้างคำบรรยาย
ตัวอย่าง: คุณให้ลิงก์ไปยังวิดีโอสอนบน YouTube และขอให้โมเดล AI สรุปขั้นตอนที่เกี่ยวข้อง
Sample Media (สื่อตัวอย่าง)
เมื่อคุณต้องการสำรวจความสามารถของโมเดล AI และความสามารถในการประมวลผลสื่อประเภทต่าง ๆ ได้อย่างรวดเร็ว โดยไม่ต้องค้นหาหรืออัปโหลดไฟล์ของคุณเอง นี่เป็นวิธีที่ดีในการเรียนรู้วิธีการทำงานของโมเดลและทดลองใช้คำสั่งต่าง ๆ
ตัวอย่าง: คุณต้องการดูว่าโมเดล AI สามารถใส่คำบรรยายรูปภาพได้ดีแค่ไหน ดังนั้นคุณจึงใช้หนึ่งในรูปภาพตัวอย่างเพื่อทดสอบประสิทธิภาพ
ตัวอย่างการใช้งาน Model Settings (การตั้งค่าโมเดล)
การเลือกโมเดล AI เป็นสิ่งสำคัญ ต้องสมดุลระหว่างความเร็วและคุณภาพของผลลัพธ์ หากคุณต้องการคำตอบที่รวดเร็วทันที เช่น ในการสร้างแชทบอท หรือการสร้างต้นแบบที่ต้องการการตอบสนองแบบโต้ตอบ การเลือกใช้โมเดลที่เน้นความเร็ว เช่น Gemini 2.0 Flash จะเป็นตัวเลือกที่เหมาะสม โมเดลเหล่านี้เหมาะสำหรับงานที่ไม่ต้องการความคิดสร้างสรรค์มากนัก แต่เน้นที่ความแม่นยำและการดึงข้อมูลที่รวดเร็ว ในทางกลับกัน หากคุณต้องการผลลัพธ์ที่มีคุณภาพสูง มีความแตกต่าง และซับซ้อน แม้จะต้องใช้เวลาในการประมวลผลนานกว่า การเลือกใช้โมเดลที่มีประสิทธิภาพสูงกว่า เช่น Gemini 1.5 Pro จะตอบโจทย์ความต้องการได้ดีกว่า
“เอาต์พุตที่มีโครงสร้าง” มีความสำคัญเมื่อต้องการให้โมเดล AI ส่งคืนข้อมูลในรูปแบบที่คอมพิวเตอร์สามารถนำไปใช้ต่อได้ง่าย เช่น รูปแบบ JSON หรือ XML ซึ่งจำเป็นอย่างยิ่งสำหรับการประมวลผลข้อมูลโดยโปรแกรม เช่น การดึงข้อมูลจากข้อความเพื่อจัดเก็บในฐานข้อมูล การสร้างคำสั่งสำหรับ API หรือการสร้างไฟล์กำหนดค่า ในทางตรงกันข้าม หากต้องการให้ AI สร้างผลลัพธ์ที่เป็นภาษาธรรมชาติที่คนทั่วไปเข้าใจได้ เช่น ย่อหน้าข้อความ อีเมล หรือบทสนทนา การใช้เอาต์พุตที่มีโครงสร้างอาจไม่จำเป็น
ปุ่ม “รันโค้ด” ใน Google AI Studio เป็นเครื่องมือสำคัญสำหรับงานที่ต้องการความสามารถในการคำนวณ วิเคราะห์ข้อมูล หรือเชื่อมต่อกับระบบภายนอกผ่านโค้ด หากคุณต้องการให้ AI ทำงานที่ซับซ้อน เช่น การคำนวณราคาที่เหมาะสม การแปลงสกุลเงิน การสร้างกราฟ หรือการประมวลผลข้อมูลที่ซับซ้อน คุณจำเป็นต้องเปิดใช้งานการรันโค้ดเพื่อให้ AI สามารถสร้างและรันโค้ดเพื่อแก้ปัญหาได้ อย่างไรก็ตาม สำหรับงานที่เน้นความคิดสร้างสรรค์หรือการประมวลผลภาษาธรรมชาติ เช่น การเขียนบทความ การสร้างสโลแกน หรือการสรุปข่าวทั่วไป การเปิดใช้งานการรันโค้ดอาจไม่จำเป็น และอาจเพิ่มความเสี่ยงด้านความปลอดภัย โดยเฉพาะเมื่อใช้ข้อมูลจากแหล่งที่ไม่น่าเชื่อถือ ดังนั้น การใช้งานปุ่ม “รันโค้ด” ควรทำอย่างระมัดระวังและพิจารณาตามความเหมาะสมของงาน
“การอ้างอิงจาก Google Search” เป็นฟีเจอร์ที่ช่วยให้ AI สามารถดึงข้อมูลจากอินเทอร์เน็ตมาตอบคำถามได้ ซึ่งมีประโยชน์มากเมื่อต้องการคำตอบที่ทันสมัยและถูกต้อง โดยเฉพาะในเรื่องที่ต้องการข้อมูลล่าสุด เช่น ข่าวปัจจุบัน, ข้อมูลเฉพาะทาง, คำแนะนำต่างๆ, หรือการตรวจสอบความถูกต้องของข้อมูล อย่างไรก็ตาม ในบางกรณี การเปิดใช้งานฟีเจอร์นี้อาจไม่จำเป็นหรือเหมาะสม เช่น เมื่อต้องการให้ AI ใช้ความรู้ภายในเพื่อสร้างสรรค์งานอย่างการเขียนเรื่องแต่งหรือบทกวี หรือเมื่อทำงานกับข้อมูลที่เป็นความลับที่ไม่ควรถูกค้นหาจากภายนอก ในสถานการณ์เช่นนี้ การปิดฟีเจอร์ “การอ้างอิงจาก Google Search” จะช่วยให้ AI ทำงานได้อย่างเหมาะสมและปลอดภัยยิ่งขึ้น
Google AI Studio สตรีมเรียลไทม์
ฟีเจอร์ Stream Realtime ของ Google AI Studio ช่วยให้ผู้ใช้สามารถมีส่วนร่วมกับ Gemini ซึ่งเป็นโมเดล AI เชิงกำเนิดมัลติโมดัลขั้นสูงของ Google ในการสนทนาแบบเรียลไทม์ ฟังก์ชันนี้ช่วยให้เกิดการโต้ตอบที่เหมือนมนุษย์ผ่านเสียงและวิดีโอ อำนวยความสะดวกในการสื่อสารที่ราบรื่นระหว่างผู้ใช้และ AI
มีตัวเลือกเหล่านี้ให้ใช้งานได้แก่
- Talk to Gemini (คุยกับ Gemini): เปิดใช้งานการสนทนาด้วยเสียงโดยใช้ไมโครโฟนของคุณ
- Show Gemini (แสดงให้ Gemini เห็น): แชร์ฟีดเว็บแคมของคุณเพื่อให้ Gemini เห็นสิ่งที่คุณกำลังดู ซึ่งจะช่วยให้ได้รับคำติชมแบบเรียลไทม์
- Share your screen (แชร์หน้าจอของคุณ): เปิดใช้งานให้ Gemini ดูหน้าจอของคุณ ซึ่งจะช่วยให้สามารถช่วยเหลือในงานต่าง ๆ หรือให้ข้อมูลเชิงลึกเกี่ยวกับสิ่งที่คุณกำลังทำอยู่
หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ Stream Realtime ผมมีวิดีโอสอนเกี่ยวกับ Google AI Studio: Stream Realtime โดยเฉพาะ
ส่วนอื่น ๆ: Starter Apps, Tune a Model และ Prompt Gallery
ในขณะที่ฟังก์ชันหลักของ Google AI Studio อยู่ที่การสร้างคำสั่งและการโต้ตอบแบบเรียลไทม์ ส่วน Starter Apps, Tune a Model และ Prompt Gallery ก็มีแหล่งข้อมูลที่มีค่าสำหรับการเรียนรู้และการพัฒนา ส่วนเหล่านี้มีตัวอย่างเชิงปฏิบัติ ตัวเลือกการปรับแต่ง และแรงบันดาลใจ ซึ่งอาจเป็นประโยชน์อย่างยิ่งสำหรับการทำความเข้าใจความสามารถของ AI ของ Google และการปรับปรุงขั้นตอนการทำงานของคุณ
Starter Apps (แอปเริ่มต้น): ส่วนนี้มีเทมเพลตแอปพลิเคชันและตัวอย่างโค้ดที่สร้างไว้ล่วงหน้า ซึ่งออกแบบมาเพื่อช่วยให้นักพัฒนาเริ่มต้นโปรเจกต์ที่ขับเคลื่อนด้วย Google AI ได้อย่างรวดเร็ว ซึ่งจะช่วยลดความพยายามในการพัฒนาเริ่มต้นโดยนำเสนอตัวอย่างที่พร้อมใช้งานซึ่งแสดงให้เห็นถึงวิธีการรวม Gemini เข้ากับแอปพลิเคชันต่าง ๆ เทมเพลตเหล่านี้ครอบคลุมกรณีการใช้งาน AI ทั่วไป เช่น แชทบอทและตัวสรุปข้อความ และมาพร้อมกับตัวอย่างโค้ดและคำแนะนำในการปรับใช้ ทำให้ง่ายต่อการเปิดตัวต้นแบบและเรียนรู้วิธีการใช้ Gemini API
Tune a Model (ปรับแต่งโมเดล): ส่วนนี้ช่วยให้คุณสามารถปรับแต่งโมเดล Gemini ที่ฝึกอบรมไว้ล่วงหน้าด้วยชุดข้อมูลของคุณเอง ซึ่งจะช่วยปรับปรุงประสิทธิภาพอย่างมากสำหรับงานและโดเมนเฉพาะ โดยการอัปโหลดข้อมูลของคุณและปรับพารามิเตอร์ คุณสามารถปรับโมเดลให้จัดการกับรูปแบบข้อมูลที่ไม่ซ้ำกันและปรับปรุงความแม่นยำสำหรับแอปพลิเคชันเฉพาะกลุ่มได้ ความสามารถนี้มีความสำคัญอย่างยิ่งสำหรับการสร้างโมเดล AI เฉพาะทางที่ตอบสนองความต้องการเฉพาะของโปรเจกต์ของคุณ ซึ่งจะช่วยลดการพึ่งพาข้อมูลการฝึกอบรมจำนวนมาก
Prompt Gallery (คลังคำสั่ง): Prompt Gallery คือการแสดงตัวอย่างคำสั่งต่าง ๆ ที่แสดงให้เห็นถึงความสามารถที่หลากหลายของ Gemini ซึ่งเป็นแหล่งที่มาของแรงบันดาลใจและคำแนะนำสำหรับการสร้างแบบสอบถามที่มีประสิทธิภาพ โดยการสำรวจตัวอย่างเหล่านี้ คุณสามารถเรียนรู้เทคนิคการเขียนคำสั่งและค้นพบกรณีการใช้งานใหม่ ๆ สำหรับ Gemini คลังนี้จัดเรียงตามกรณีการใช้งานและงาน ทำให้ง่ายต่อการค้นหาตัวอย่างที่เกี่ยวข้องและเรียนรู้วิธีการสร้างคำสั่งที่ดึงดูดการตอบสนองที่ต้องการ
สร้างภาพสมจริงด้วย Google AI Studio
1. เมื่อเข้าสู่ระบบแล้ว ฟังก์ชันหลักจะอยู่ที่เมนูทางด้านซ้ายมือ ไปที่ส่วน “Create Prompt”
2. ในเมนูด้านขวามือ คุณจะพบตัวเลือกสำหรับเลือกแบบจำลอง AI ที่ต้องการ สำหรับการสร้างภาพ ให้เลือก “Gemini 2.0 Flash Experimental”
3. ต้องตรวจสอบให้แน่ใจว่ารูปแบบเอาต์พุตถูกตั้งค่าเป็น “Images and Text” เพื่อเปิดใช้งานการสร้างภาพ
4. สร้างภาพภายในอินเทอร์เฟซ “Create Prompt” การตั้งค่ารูปแบบเอาต์พุตเป็น “Images and Text” แสดงให้เห็นว่าแบบจำลองนี้สามารถจัดการได้ทั้งคำสั่งข้อความและเอาต์พุตที่เป็นรูปภาพ
ราคา Google AI Studio
Google AI Studio นั้นให้บริการฟรี อย่างไรก็ตาม Gemini API ซึ่งคุณสามารถใช้ร่วมกับ AI Studio ได้ มีทั้งรุ่นใช้งานฟรีสำหรับการทดสอบที่มีขีดจำกัดอัตราที่ต่ำกว่า และรุ่นชำระเงินที่มีขีดจำกัดอัตราที่สูงกว่าและฟีเจอร์เพิ่มเติม
นี่คือสรุปราคาสำหรับรุ่นชำระเงินของ Gemini API ในหน่วย USD ต่อ 1 ล้านโทเค็น
- Gemini 2.0 Flash: ข้อมูลป้อนเข้า: $0.10 (ข้อความ/รูปภาพ/วิดีโอ), $0.70 (เสียง); เอาต์พุต: $0.40
- Gemini 2.0 Flash-Lite: ข้อมูลป้อนเข้า: $0.075; เอาต์พุต: $0.30
- Imagen 3: รูปภาพ: $0.03 ต่อรูปภาพ
- Gemini 1.5 Flash: ข้อมูลป้อนเข้า: $0.075 (คำสั่ง <= 128k โทเค็น) / $0.15 (คำสั่ง > 128k โทเค็น); เอาต์พุต: $0.30 (คำสั่ง <= 128k โทเค็น) / $0.60 (คำสั่ง > 128k โทเค็น)
- Gemini 1.5 Flash-8B: ข้อมูลป้อนเข้า: $0.0375 (คำสั่ง <= 128k โทเค็น) / $0.075 (คำสั่ง > 128k โทเค็น); เอาต์พุต: $0.15 (คำสั่ง <= 128k โทเค็น) / $0.30 (คำสั่ง > 128k โทเค็น)
