คู่มือการใช้งาน · Guide
TTS Director
คู่มือการใช้งาน
วางเนื้อหาดิบ ตั้งค่า แล้วกด Generate — ได้ Studio Fields (Scene, Speaker, Director's Note) พร้อม JSON ที่เอาไปต่อกับ Gemini TTS ได้ทันที เปิดแอปได้ที่ tts-director.pages.dev
หลักการสำคัญ
ทุกช่องตั้งค่าฝั่งซ้าย ไม่ใช่ของประดับ — มันถูกยัดเข้าไปใน prompt ที่ส่งให้ AI จริง แล้วเปลี่ยนผลลัพธ์ที่ออกมา
ค่า Auto ทุกช่องแปลว่า "ให้ AI เดาเองจากเนื้อหา" ส่วนการเลือกค่าจริงคือ "บังคับทิศทาง" (override)
Workflow
ลำดับการใช้งาน#
ห้าขั้น จากข้อความดิบไปจนถึงค่าที่พร้อมวางใน Google AI Studio
- วางเรื่องดิบ / บทความ / ข้อความ ลงช่องใหญ่ด้านบน
- (ถ้าต้องการ) ปรับ Content type / Narrator / ตัวเลือกเสียง — หรือปล่อย Auto ทั้งหมด · เปิด Deep review ถ้าอยากให้เกลาบทเป็นพิเศษ
- ใส่ Access code
- กด Generate
- คัดลอกค่าจาก Studio Fields ฝั่งขวาไปวางใน Google AI Studio "Generate speech" หรือใช้ JSON ต่อกับ synth app
Reference
ช่องตั้งค่าทั้งหมด#
เจ็ดช่อง แต่ละช่องคุมมิติของผลลัพธ์คนละด้าน บางช่องส่งให้ AI ทุกครั้ง บางช่องส่งเฉพาะตอนเลือกค่าจริง ดูป้ายกำกับใต้แต่ละหัวข้อ
01 Content type — โครงเรื่อง (structure) #
คุมอะไร: โครงสร้างบท — จำนวน scene, ลำดับ objective, จำนวนผู้พูดที่เหมาะกับหมวดนั้น
ส่งให้ AI ทุกครั้ง สั่งให้ตั้ง meta.content_type + เดา content_category จาก taxonomy 12 หมวด แล้วใช้ scene blueprint ของหมวดนั้น
12 หมวดที่เลือกได้ (แต่ละหมวดมีหัวข้อย่อย):
| หมวด | เหมาะกับ |
|---|---|
| Documentary | สารคดี — Nature / History / Investigative / Science / Cultural |
| Educational | สอน — Explainer / Tutorial / Course Lesson / Knowledge Summary |
| Business | ธุรกิจ — Startup Story / Case Study / Strategy / Leadership |
| News | ข่าว — Breaking / Daily / Analysis / Economic / Tech Update |
| Storytelling | เล่าเรื่อง — Personal / Life Lesson / Inspirational / Founder |
| Podcast | พอดแคสต์ — Solo / Commentary / Deep Dive / Interview Recap |
| Marketing | การตลาด — Ad / Product Launch / Review / Sales Letter / Brand |
| Spiritual | จิตวิญญาณ — Dharma Talk / Meditation / Philosophy / Stoicism |
| Entertainment | บันเทิง — Fun Facts / Trivia / Pop Culture / Countdown |
| Social Media | คลิปสั้น — YouTube Shorts / TikTok / Reel / Viral Fact |
| Corporate | องค์กร — Training / Onboarding / Demo / Investor |
| Fiction | นิยาย — Audiobook / Fantasy / Sci-Fi / Horror / Children's |
02 Narrator — บุคลิกเสียง (persona) #
คุมอะไร: น้ำเสียง / วิธีพูด / Audio Profile / Director's Note
ส่งให้ AI เฉพาะตอนเลือกค่าจริง (ไม่ใช่ Auto) สั่งให้ใช้ persona Level-3 ตัวนั้น + ตั้ง meta.narrator_archetype + ปั้น Audio Profile + Director's note รอบ persona นี้
persona ที่เลือกได้:
| Narrator | บุคลิก |
|---|---|
| Documentary Narrator | บรรยายสารคดี สุขุม น่าเชื่อถือ |
| Trusted Expert | ผู้เชี่ยวชาญที่ไว้ใจได้ |
| Friendly Teacher | ครูที่เป็นกันเอง |
| Curious Friend | เพื่อนช่างสงสัย ชวนคุย |
| Investigative Journalist | นักข่าวสืบสวน |
| Wise Mentor | ที่ปรึกษาผู้รู้ จังหวะช้า สุขุม |
| Podcast Host | พิธีกรพอดแคสต์ |
| Newscaster | ผู้ประกาศข่าว |
| Energetic Promoter | คนโปรโมตเร้าใจ จังหวะเร็ว |
| Immersive Storyteller | นักเล่าเรื่องดึงเข้าโลกของเรื่อง |
03 Target model — โมเดล TTS ปลายทาง #
โมเดล Gemini ที่จะเอา plan ไปสังเคราะห์เสียง (ใส่ใน meta.target_model)
| ตัวเลือก | หมายเหตุ |
|---|---|
| 3.1 Flash TTS | ค่าเริ่มต้น เร็ว |
| 2.5 Flash TTS | รุ่นก่อน |
| 2.5 Pro TTS | คุณภาพสูง |
04 Speakers — จำนวนผู้พูด #
| ค่า | ผล |
|---|---|
| Auto | AI ตัดสินเองจากเนื้อหา (สูงสุด 2) |
| 1 / 2 | บังคับให้แบ่งบทเป็นผู้พูดตามจำนวนนี้พอดี |
05 Voice gender — เพศของเสียง #
| ค่า | ผล |
|---|---|
| Auto | AI เลือกเอง |
| ชาย / หญิง | บังคับเพศเสียง + เลือกสรรพนามให้สอดคล้อง |
| ผสม | คละเพศข้ามผู้พูด (เหมาะกับบทสนทนาหลายคน) |
06 Pace — จังหวะการพูด #
ตั้ง directors_note.pace ให้ผู้พูดทุกคน
| ค่า | ผล |
|---|---|
| Auto | AI เลือกจังหวะเอง |
| Natural | จังหวะธรรมชาติ |
| Rapid Fire | เร็ว กระชับ |
| The Drift | ช้า ค่อย ๆ |
| Staccato | สั้น หนักแน่นเป็นจังหวะ |
07 Access code — รหัสเข้าใช้งาน #
รหัสสำหรับยืนยันสิทธิ์ก่อน Generate (ระบบจำไว้ในเบราว์เซอร์ครั้งถัดไป) บางรหัสมีโควต้าต่อวัน
08 Deep review — เกลาบทอีกรอบ (2 รอบ) #
คุมอะไร: ทำให้บท "ฟังเป็นคนพูดจริง ไม่ใช่คนอ่านบทความ" — เปิดแล้วระบบจะเอาบทมาตรวจซ้ำอีกหนึ่งรอบว่าเป็นภาษาที่คนใช้พูดจริงไหม (เกณฑ์หลักคือ Human Speech Test: "ถ้าพูดประโยคนี้กับเพื่อน จะพูดแบบนี้จริงไหม") แล้วเกลาถ้อยคำให้เป็นธรรมชาติขึ้น พร้อมเช็กจังหวะ/hook/การหายใจประกอบ
ปกติ (สวิตช์ปิด) ระบบสร้างบท + เกลาในตัวรอบเดียว พอเปิด Deep review จะทำงาน 2 รอบ:
- รอบ 1 — สร้างบท: แปลงเนื้อหาดิบเป็น plan โครงเรื่อง + เสียง
- รอบ 2 — Script Reviewer: เอาบทรอบ 1 มาตรวจ 7 เกณฑ์ (ภาษาพูดจริง · ตัดประโยคยาว · hook · ช่องว่างความอยากรู้ · จังหวะหายใจ · emotional arc · Human Speech Test) แล้วเกลาเฉพาะถ้อยคำ หนึ่งรอบ — ไม่แตะเสียง/scene/dropdown
ระบบทำงานแบบ async — กด Generate แล้วผลจะเด้งขึ้นเองเมื่อเสร็จ ไม่ต้องรอค้างหน้าจอ และไม่หลุด timeout แม้บทจะยาว
Output
Producer QA — ผลตรวจคุณภาพบท#
ท้าย Studio Fields ฝั่งขวาจะมีการ์ด Producer QA 5 ใบ — เป็นผลตรวจคุณภาพบทที่ AI ประเมินตัวเอง (จุดเขียว = ผ่าน) ใช้ดูเร็ว ๆ ว่าบทพร้อมเอาไปทำเสียงหรือยัง
| เกณฑ์ | ตรวจอะไร |
|---|---|
| Human | ฟังแล้วเหมือนคนพูดจริงไหม ไม่ใช่คนอ่านบทความ |
| Conversation | มีจังหวะสนทนาจริง (พูด→ถาม→ตอบ) ถอดเสียงออกแล้วไม่ใช่บทความ |
| Energy | พลังเสียงเปลี่ยนอย่างมีเหตุผล ส่วนใหญ่ ≤7 ไม่แบน ไม่ดังตลอด |
| Hook | เปิดช่องให้อยากฟังต่อ แล้วมีการเฉลย/ปิดประเด็น |
| Pause | มีจังหวะหายใจตอนเฉลย (เว้นบรรทัด / …) ไม่อัดแน่นเป็นพรืด |
Cheat sheet
ตารางสรุป: ช่องไหนส่งให้ AI ตอนไหน#
ภาพรวมว่าแต่ละช่องส่งให้ AI เมื่อไร คุมอะไร และ Auto หมายถึงอะไร
| ช่อง | ส่งให้ AI เสมอ? | คุมอะไร | Auto = |
|---|---|---|---|
| Content type | ใช่ | โครง scene + จำนวนผู้พูดที่เหมาะ | ให้ AI เดาหมวด |
| Narrator | เฉพาะตอนเลือก | บุคลิก / น้ำเสียง / Director's note | ข้าม → AI เดาเอง |
| Target model | ใช่ | โมเดล TTS ปลายทาง | — |
| Speakers | เฉพาะตอนเลือก | จำนวนผู้พูด + render mode | AI ตัดสินเอง |
| Voice gender | เฉพาะตอนเลือก | เพศเสียง + สรรพนาม | AI เลือกเอง |
| Pace | เฉพาะตอนเลือก | จังหวะพูดทุกคน | AI เลือกเอง |
| Deep review | เมื่อเปิดสวิตช์ | เกลาบทอีก 1 รอบ (2 รอบ) + อัปเดต Producer QA | ปิด = รอบเดียว |
In practice
คำแนะนำการใช้จริง#
ห้าสถานการณ์ที่เจอบ่อย และตั้งค่าแบบไหนได้ผลดีที่สุด
เนื้อหาหมวดชัดอยู่แล้ว
ปล่อย Auto ทั้งหมดได้เลย AI เดาแม่น ประหยัดเวลา
อยากบังคับทิศทาง
เช่นเนื้อหากลาง ๆ แต่อยากให้ออกมาเป็นสารคดีเสียงสุขุม → ล็อก Content type + Narrator เป็นค่าที่ต้องการ — สองตัวนี้คือปุ่ม override ที่ทรงพลังที่สุด
บทสนทนาหลายคน
ตั้ง Speakers + Voice gender = ผสม
คลิปสั้น / โฆษณา
Content type หมวด Social Media / Marketing + Pace = Rapid Fire + Narrator = Energetic Promoter
งานสำคัญ / เอาไปขาย
เปิด Deep review ให้เกลาบทอีกรอบก่อนทำเสียง — แลกกับเวลาเพิ่มอีกนิด แต่บทลื่นกว่าชัด