TTS Director Docs
model gemini-3.1-flash-tts speakers ≤ 2
กลับไปหน้าใช้งาน

คู่มือการใช้งาน · Guide

TTS Director
คู่มือการใช้งาน

วางเนื้อหาดิบ ตั้งค่า แล้วกด Generate — ได้ Studio Fields (Scene, Speaker, Director's Note) พร้อม JSON ที่เอาไปต่อกับ Gemini TTS ได้ทันที เปิดแอปได้ที่ tts-director.pages.dev

หลักการสำคัญ

ทุกช่องตั้งค่าฝั่งซ้าย ไม่ใช่ของประดับ — มันถูกยัดเข้าไปใน prompt ที่ส่งให้ AI จริง แล้วเปลี่ยนผลลัพธ์ที่ออกมา

ค่า Auto ทุกช่องแปลว่า "ให้ AI เดาเองจากเนื้อหา" ส่วนการเลือกค่าจริงคือ "บังคับทิศทาง" (override)

Workflow

ลำดับการใช้งาน#

ห้าขั้น จากข้อความดิบไปจนถึงค่าที่พร้อมวางใน Google AI Studio

  1. วางเรื่องดิบ / บทความ / ข้อความ ลงช่องใหญ่ด้านบน
  2. (ถ้าต้องการ) ปรับ Content type / Narrator / ตัวเลือกเสียง — หรือปล่อย Auto ทั้งหมด · เปิด Deep review ถ้าอยากให้เกลาบทเป็นพิเศษ
  3. ใส่ Access code
  4. กด Generate
  5. คัดลอกค่าจาก Studio Fields ฝั่งขวาไปวางใน Google AI Studio "Generate speech" หรือใช้ JSON ต่อกับ synth app

Reference

ช่องตั้งค่าทั้งหมด#

เจ็ดช่อง แต่ละช่องคุมมิติของผลลัพธ์คนละด้าน บางช่องส่งให้ AI ทุกครั้ง บางช่องส่งเฉพาะตอนเลือกค่าจริง ดูป้ายกำกับใต้แต่ละหัวข้อ

01 Content type — โครงเรื่อง (structure) #

ส่งให้ AI ทุกครั้ง คุมโครงสร้างบท

คุมอะไร: โครงสร้างบท — จำนวน scene, ลำดับ objective, จำนวนผู้พูดที่เหมาะกับหมวดนั้น

ส่งให้ AI ทุกครั้ง สั่งให้ตั้ง meta.content_type + เดา content_category จาก taxonomy 12 หมวด แล้วใช้ scene blueprint ของหมวดนั้น

12 หมวดที่เลือกได้ (แต่ละหมวดมีหัวข้อย่อย):

หมวดเหมาะกับ
Documentaryสารคดี — Nature / History / Investigative / Science / Cultural
Educationalสอน — Explainer / Tutorial / Course Lesson / Knowledge Summary
Businessธุรกิจ — Startup Story / Case Study / Strategy / Leadership
Newsข่าว — Breaking / Daily / Analysis / Economic / Tech Update
Storytellingเล่าเรื่อง — Personal / Life Lesson / Inspirational / Founder
Podcastพอดแคสต์ — Solo / Commentary / Deep Dive / Interview Recap
Marketingการตลาด — Ad / Product Launch / Review / Sales Letter / Brand
Spiritualจิตวิญญาณ — Dharma Talk / Meditation / Philosophy / Stoicism
Entertainmentบันเทิง — Fun Facts / Trivia / Pop Culture / Countdown
Social Mediaคลิปสั้น — YouTube Shorts / TikTok / Reel / Viral Fact
Corporateองค์กร — Training / Onboarding / Demo / Investor
Fictionนิยาย — Audiobook / Fantasy / Sci-Fi / Horror / Children's
ตัวอย่างผล เลือก "Nature Documentary" → ได้ scene แบบสารคดี (เปิดด้วยบรรยากาศ → ดำเนินเรื่อง → ปิดแบบสะท้อน) ส่วน "TikTok Story" → scene สั้น hook ไว กระชับ
Auto · detect ส่งคำว่า auto ให้ AI เดาหมวดเองจากเนื้อหา (ยังทำงานปกติ)

02 Narrator — บุคลิกเสียง (persona) #

เฉพาะตอนเลือกค่าจริง คุมน้ำเสียง / persona

คุมอะไร: น้ำเสียง / วิธีพูด / Audio Profile / Director's Note

ส่งให้ AI เฉพาะตอนเลือกค่าจริง (ไม่ใช่ Auto) สั่งให้ใช้ persona Level-3 ตัวนั้น + ตั้ง meta.narrator_archetype + ปั้น Audio Profile + Director's note รอบ persona นี้

persona ที่เลือกได้:

Narratorบุคลิก
Documentary Narratorบรรยายสารคดี สุขุม น่าเชื่อถือ
Trusted Expertผู้เชี่ยวชาญที่ไว้ใจได้
Friendly Teacherครูที่เป็นกันเอง
Curious Friendเพื่อนช่างสงสัย ชวนคุย
Investigative Journalistนักข่าวสืบสวน
Wise Mentorที่ปรึกษาผู้รู้ จังหวะช้า สุขุม
Podcast Hostพิธีกรพอดแคสต์
Newscasterผู้ประกาศข่าว
Energetic Promoterคนโปรโมตเร้าใจ จังหวะเร็ว
Immersive Storytellerนักเล่าเรื่องดึงเข้าโลกของเรื่อง
ตัวอย่างผล "Wise Mentor" → เสียงสุขุม จังหวะช้า; "Energetic Promoter" → เสียงเร้าใจ เร็ว
Auto ข้ามบรรทัดนี้ทั้งหมด → AI เลือก narrator ที่เหมาะเองจากเนื้อหา

03 Target model — โมเดล TTS ปลายทาง #

ส่งให้ AI ทุกครั้ง

โมเดล Gemini ที่จะเอา plan ไปสังเคราะห์เสียง (ใส่ใน meta.target_model)

ตัวเลือกหมายเหตุ
3.1 Flash TTSค่าเริ่มต้น เร็ว
2.5 Flash TTSรุ่นก่อน
2.5 Pro TTSคุณภาพสูง

04 Speakers — จำนวนผู้พูด #

เฉพาะตอนเลือกค่าจริง คุมจำนวน + render mode
ค่าผล
AutoAI ตัดสินเองจากเนื้อหา (สูงสุด 2)
1 / 2บังคับให้แบ่งบทเป็นผู้พูดตามจำนวนนี้พอดี
ข้อจำกัด Gemini คำขอแบบ multi-speaker ของ Gemini รับได้สูงสุด 2 เสียง — แอปนี้จึงจำกัดที่ 2 คน: เลือก 2 ใช้ multi-speaker ตรง ๆ; เลือก 1 เป็นผู้พูดเดี่ยว

05 Voice gender — เพศของเสียง #

เฉพาะตอนเลือกค่าจริง คุมเพศเสียง + สรรพนาม
ค่าผล
AutoAI เลือกเอง
ชาย / หญิงบังคับเพศเสียง + เลือกสรรพนามให้สอดคล้อง
ผสมคละเพศข้ามผู้พูด (เหมาะกับบทสนทนาหลายคน)

06 Pace — จังหวะการพูด #

เฉพาะตอนเลือกค่าจริง คุมจังหวะพูดทุกคน

ตั้ง directors_note.pace ให้ผู้พูดทุกคน

ค่าผล
AutoAI เลือกจังหวะเอง
Naturalจังหวะธรรมชาติ
Rapid Fireเร็ว กระชับ
The Driftช้า ค่อย ๆ
Staccatoสั้น หนักแน่นเป็นจังหวะ

07 Access code — รหัสเข้าใช้งาน #

ยืนยันสิทธิ์

รหัสสำหรับยืนยันสิทธิ์ก่อน Generate (ระบบจำไว้ในเบราว์เซอร์ครั้งถัดไป) บางรหัสมีโควต้าต่อวัน

08 Deep review — เกลาบทอีกรอบ (2 รอบ) #

สวิตช์ · ปิดเป็นค่าเริ่มต้น เช็กว่าเป็นภาษาพูดจริง

คุมอะไร: ทำให้บท "ฟังเป็นคนพูดจริง ไม่ใช่คนอ่านบทความ" — เปิดแล้วระบบจะเอาบทมาตรวจซ้ำอีกหนึ่งรอบว่าเป็นภาษาที่คนใช้พูดจริงไหม (เกณฑ์หลักคือ Human Speech Test: "ถ้าพูดประโยคนี้กับเพื่อน จะพูดแบบนี้จริงไหม") แล้วเกลาถ้อยคำให้เป็นธรรมชาติขึ้น พร้อมเช็กจังหวะ/hook/การหายใจประกอบ

ปกติ (สวิตช์ปิด) ระบบสร้างบท + เกลาในตัวรอบเดียว พอเปิด Deep review จะทำงาน 2 รอบ:

  1. รอบ 1 — สร้างบท: แปลงเนื้อหาดิบเป็น plan โครงเรื่อง + เสียง
  2. รอบ 2 — Script Reviewer: เอาบทรอบ 1 มาตรวจ 7 เกณฑ์ (ภาษาพูดจริง · ตัดประโยคยาว · hook · ช่องว่างความอยากรู้ · จังหวะหายใจ · emotional arc · Human Speech Test) แล้วเกลาเฉพาะถ้อยคำ หนึ่งรอบ — ไม่แตะเสียง/scene/dropdown
ได้อะไรเพิ่ม บทลื่นขึ้น เป็นธรรมชาติขึ้น + ช่อง Producer QA ท้าย Studio Fields จะอัปเดตเป็นผลตรวจของบทที่เกลาแล้ว
ข้อแลกเปลี่ยน ช้าขึ้น เพราะรัน 2 รอบ (ปกติ ~40–60s · เปิด Deep ~60–90s) — เลยตั้งเป็น ปิด ไว้ก่อน เปิดเมื่ออยากได้บทที่ขัดเกลาเป็นพิเศษ

ระบบทำงานแบบ async — กด Generate แล้วผลจะเด้งขึ้นเองเมื่อเสร็จ ไม่ต้องรอค้างหน้าจอ และไม่หลุด timeout แม้บทจะยาว

Output

Producer QA — ผลตรวจคุณภาพบท#

ท้าย Studio Fields ฝั่งขวาจะมีการ์ด Producer QA 5 ใบ — เป็นผลตรวจคุณภาพบทที่ AI ประเมินตัวเอง (จุดเขียว = ผ่าน) ใช้ดูเร็ว ๆ ว่าบทพร้อมเอาไปทำเสียงหรือยัง

เกณฑ์ตรวจอะไร
Humanฟังแล้วเหมือนคนพูดจริงไหม ไม่ใช่คนอ่านบทความ
Conversationมีจังหวะสนทนาจริง (พูด→ถาม→ตอบ) ถอดเสียงออกแล้วไม่ใช่บทความ
Energyพลังเสียงเปลี่ยนอย่างมีเหตุผล ส่วนใหญ่ ≤7 ไม่แบน ไม่ดังตลอด
Hookเปิดช่องให้อยากฟังต่อ แล้วมีการเฉลย/ปิดประเด็น
Pauseมีจังหวะหายใจตอนเฉลย (เว้นบรรทัด / …) ไม่อัดแน่นเป็นพรืด
เปิด vs ปิด Deep review ทั้งสองโหมดมี Producer QA ให้ดู — ต่างกันที่ เปิด Deep review ผลตรวจจะมาจากบทที่ผ่านการเกลารอบ 2 แล้ว

Cheat sheet

ตารางสรุป: ช่องไหนส่งให้ AI ตอนไหน#

ภาพรวมว่าแต่ละช่องส่งให้ AI เมื่อไร คุมอะไร และ Auto หมายถึงอะไร

ช่อง ส่งให้ AI เสมอ? คุมอะไร Auto =
Content type ใช่ โครง scene + จำนวนผู้พูดที่เหมาะ ให้ AI เดาหมวด
Narrator เฉพาะตอนเลือก บุคลิก / น้ำเสียง / Director's note ข้าม → AI เดาเอง
Target model ใช่ โมเดล TTS ปลายทาง
Speakers เฉพาะตอนเลือก จำนวนผู้พูด + render mode AI ตัดสินเอง
Voice gender เฉพาะตอนเลือก เพศเสียง + สรรพนาม AI เลือกเอง
Pace เฉพาะตอนเลือก จังหวะพูดทุกคน AI เลือกเอง
Deep review เมื่อเปิดสวิตช์ เกลาบทอีก 1 รอบ (2 รอบ) + อัปเดต Producer QA ปิด = รอบเดียว
ความต่างเล็กน้อยที่ควรรู้ Content type เลือก "Auto" ยังส่งคำว่า auto ไปให้ AI (สั่งให้เดา) ส่วน Narrator เลือก "Auto" คือไม่ส่งอะไรเลย — แต่ผลลัพธ์เหมือนกันคือ AI เดาเอง

In practice

คำแนะนำการใช้จริง#

ห้าสถานการณ์ที่เจอบ่อย และตั้งค่าแบบไหนได้ผลดีที่สุด

เนื้อหาหมวดชัดอยู่แล้ว

ปล่อย Auto ทั้งหมดได้เลย AI เดาแม่น ประหยัดเวลา

Auto ทุกช่อง

อยากบังคับทิศทาง

เช่นเนื้อหากลาง ๆ แต่อยากให้ออกมาเป็นสารคดีเสียงสุขุม → ล็อก Content type + Narrator เป็นค่าที่ต้องการ — สองตัวนี้คือปุ่ม override ที่ทรงพลังที่สุด

Content typeNarrator

บทสนทนาหลายคน

ตั้ง Speakers + Voice gender = ผสม

Speakers ≥ 2Voice gender · ผสม

คลิปสั้น / โฆษณา

Content type หมวด Social Media / Marketing + Pace = Rapid Fire + Narrator = Energetic Promoter

Social / MarketingRapid FireEnergetic Promoter

งานสำคัญ / เอาไปขาย

เปิด Deep review ให้เกลาบทอีกรอบก่อนทำเสียง — แลกกับเวลาเพิ่มอีกนิด แต่บทลื่นกว่าชัด

Deep review · ON2 รอบ