สารบัญ +

ภาพรวม ลำดับการใช้งาน ช่องตั้งค่าทั้งหมด 1 · Content type 2 · Narrator 3 · Target model 4 · Speakers 5 · Voice gender 6 · Pace 7 · Access code 8 · Deep review Producer QA (ผลตรวจ) ตารางสรุป: ส่งให้ AI ตอนไหน คำแนะนำการใช้จริง

คู่มือการใช้งาน · Guide

TTS Director
คู่มือการใช้งาน

วางเนื้อหาดิบ ตั้งค่า แล้วกด Generate — ได้ Studio Fields (Scene, Speaker, Director's Note) พร้อม JSON ที่เอาไปต่อกับ Gemini TTS ได้ทันที เปิดแอปได้ที่ tts-director.pages.dev

หลักการสำคัญ

ทุกช่องตั้งค่าฝั่งซ้าย ไม่ใช่ของประดับ — มันถูกยัดเข้าไปใน prompt ที่ส่งให้ AI จริง แล้วเปลี่ยนผลลัพธ์ที่ออกมา

ค่า Auto ทุกช่องแปลว่า "ให้ AI เดาเองจากเนื้อหา" ส่วนการเลือกค่าจริงคือ "บังคับทิศทาง" (override)

Workflow

ลำดับการใช้งาน#

ห้าขั้น จากข้อความดิบไปจนถึงค่าที่พร้อมวางใน Google AI Studio

วางเรื่องดิบ / บทความ / ข้อความ ลงช่องใหญ่ด้านบน
(ถ้าต้องการ) ปรับ Content type / Narrator / ตัวเลือกเสียง — หรือปล่อย Auto ทั้งหมด · เปิด Deep review ถ้าอยากให้เกลาบทเป็นพิเศษ
ใส่ Access code
กด Generate
คัดลอกค่าจาก Studio Fields ฝั่งขวาไปวางใน Google AI Studio "Generate speech" หรือใช้ JSON ต่อกับ synth app

Reference

ช่องตั้งค่าทั้งหมด#

เจ็ดช่อง แต่ละช่องคุมมิติของผลลัพธ์คนละด้าน บางช่องส่งให้ AI ทุกครั้ง บางช่องส่งเฉพาะตอนเลือกค่าจริง ดูป้ายกำกับใต้แต่ละหัวข้อ

01 Content type — โครงเรื่อง (structure) #

ส่งให้ AI ทุกครั้ง คุมโครงสร้างบท

คุมอะไร: โครงสร้างบท — จำนวน scene, ลำดับ objective, จำนวนผู้พูดที่เหมาะกับหมวดนั้น

ส่งให้ AI ทุกครั้ง สั่งให้ตั้ง meta.content_type + เดา content_category จาก taxonomy 12 หมวด แล้วใช้ scene blueprint ของหมวดนั้น

12 หมวดที่เลือกได้ (แต่ละหมวดมีหัวข้อย่อย):

หมวด	เหมาะกับ
Documentary	สารคดี — Nature / History / Investigative / Science / Cultural
Educational	สอน — Explainer / Tutorial / Course Lesson / Knowledge Summary
Business	ธุรกิจ — Startup Story / Case Study / Strategy / Leadership
News	ข่าว — Breaking / Daily / Analysis / Economic / Tech Update
Storytelling	เล่าเรื่อง — Personal / Life Lesson / Inspirational / Founder
Podcast	พอดแคสต์ — Solo / Commentary / Deep Dive / Interview Recap
Marketing	การตลาด — Ad / Product Launch / Review / Sales Letter / Brand
Spiritual	จิตวิญญาณ — Dharma Talk / Meditation / Philosophy / Stoicism
Entertainment	บันเทิง — Fun Facts / Trivia / Pop Culture / Countdown
Social Media	คลิปสั้น — YouTube Shorts / TikTok / Reel / Viral Fact
Corporate	องค์กร — Training / Onboarding / Demo / Investor
Fiction	นิยาย — Audiobook / Fantasy / Sci-Fi / Horror / Children's

ตัวอย่างผล เลือก "Nature Documentary" → ได้ scene แบบสารคดี (เปิดด้วยบรรยากาศ → ดำเนินเรื่อง → ปิดแบบสะท้อน) ส่วน "TikTok Story" → scene สั้น hook ไว กระชับ

Auto · detect ส่งคำว่า auto ให้ AI เดาหมวดเองจากเนื้อหา (ยังทำงานปกติ)

02 Narrator — บุคลิกเสียง (persona) #

เฉพาะตอนเลือกค่าจริง คุมน้ำเสียง / persona

คุมอะไร: น้ำเสียง / วิธีพูด / Audio Profile / Director's Note

ส่งให้ AI เฉพาะตอนเลือกค่าจริง (ไม่ใช่ Auto) สั่งให้ใช้ persona Level-3 ตัวนั้น + ตั้ง meta.narrator_archetype + ปั้น Audio Profile + Director's note รอบ persona นี้

persona ที่เลือกได้:

Narrator	บุคลิก
Documentary Narrator	บรรยายสารคดี สุขุม น่าเชื่อถือ
Trusted Expert	ผู้เชี่ยวชาญที่ไว้ใจได้
Friendly Teacher	ครูที่เป็นกันเอง
Curious Friend	เพื่อนช่างสงสัย ชวนคุย
Investigative Journalist	นักข่าวสืบสวน
Wise Mentor	ที่ปรึกษาผู้รู้ จังหวะช้า สุขุม
Podcast Host	พิธีกรพอดแคสต์
Newscaster	ผู้ประกาศข่าว
Energetic Promoter	คนโปรโมตเร้าใจ จังหวะเร็ว
Immersive Storyteller	นักเล่าเรื่องดึงเข้าโลกของเรื่อง

ตัวอย่างผล "Wise Mentor" → เสียงสุขุม จังหวะช้า; "Energetic Promoter" → เสียงเร้าใจ เร็ว

Auto ข้ามบรรทัดนี้ทั้งหมด → AI เลือก narrator ที่เหมาะเองจากเนื้อหา

03 Target model — โมเดล TTS ปลายทาง #

ส่งให้ AI ทุกครั้ง

โมเดล Gemini ที่จะเอา plan ไปสังเคราะห์เสียง (ใส่ใน meta.target_model)

ตัวเลือก	หมายเหตุ
3.1 Flash TTS	ค่าเริ่มต้น เร็ว
2.5 Flash TTS	รุ่นก่อน
2.5 Pro TTS	คุณภาพสูง

04 Speakers — จำนวนผู้พูด #

เฉพาะตอนเลือกค่าจริง คุมจำนวน + render mode

ค่า	ผล
Auto	AI ตัดสินเองจากเนื้อหา (สูงสุด 2)
1 / 2	บังคับให้แบ่งบทเป็นผู้พูดตามจำนวนนี้พอดี

ข้อจำกัด Gemini คำขอแบบ multi-speaker ของ Gemini รับได้สูงสุด 2 เสียง — แอปนี้จึงจำกัดที่ 2 คน: เลือก 2 ใช้ multi-speaker ตรง ๆ; เลือก 1 เป็นผู้พูดเดี่ยว

05 Voice gender — เพศของเสียง #

เฉพาะตอนเลือกค่าจริง คุมเพศเสียง + สรรพนาม

ค่า	ผล
Auto	AI เลือกเอง
ชาย / หญิง	บังคับเพศเสียง + เลือกสรรพนามให้สอดคล้อง
ผสม	คละเพศข้ามผู้พูด (เหมาะกับบทสนทนาหลายคน)

06 Pace — จังหวะการพูด #

เฉพาะตอนเลือกค่าจริง คุมจังหวะพูดทุกคน

ตั้ง directors_note.pace ให้ผู้พูดทุกคน

ค่า	ผล
Auto	AI เลือกจังหวะเอง
Natural	จังหวะธรรมชาติ
Rapid Fire	เร็ว กระชับ
The Drift	ช้า ค่อย ๆ
Staccato	สั้น หนักแน่นเป็นจังหวะ

07 Access code — รหัสเข้าใช้งาน #

ยืนยันสิทธิ์

รหัสสำหรับยืนยันสิทธิ์ก่อน Generate (ระบบจำไว้ในเบราว์เซอร์ครั้งถัดไป) บางรหัสมีโควต้าต่อวัน

08 Deep review — เกลาบทอีกรอบ (2 รอบ) #

สวิตช์ · ปิดเป็นค่าเริ่มต้น เช็กว่าเป็นภาษาพูดจริง

คุมอะไร: ทำให้บท "ฟังเป็นคนพูดจริง ไม่ใช่คนอ่านบทความ" — เปิดแล้วระบบจะเอาบทมาตรวจซ้ำอีกหนึ่งรอบว่าเป็นภาษาที่คนใช้พูดจริงไหม (เกณฑ์หลักคือ Human Speech Test: "ถ้าพูดประโยคนี้กับเพื่อน จะพูดแบบนี้จริงไหม") แล้วเกลาถ้อยคำให้เป็นธรรมชาติขึ้น พร้อมเช็กจังหวะ/hook/การหายใจประกอบ

ปกติ (สวิตช์ปิด) ระบบสร้างบท + เกลาในตัวรอบเดียว พอเปิด Deep review จะทำงาน 2 รอบ:

รอบ 1 — สร้างบท: แปลงเนื้อหาดิบเป็น plan โครงเรื่อง + เสียง
รอบ 2 — Script Reviewer: เอาบทรอบ 1 มาตรวจ 7 เกณฑ์ (ภาษาพูดจริง · ตัดประโยคยาว · hook · ช่องว่างความอยากรู้ · จังหวะหายใจ · emotional arc · Human Speech Test) แล้วเกลาเฉพาะถ้อยคำ หนึ่งรอบ — ไม่แตะเสียง/scene/dropdown

ได้อะไรเพิ่ม บทลื่นขึ้น เป็นธรรมชาติขึ้น + ช่อง Producer QA ท้าย Studio Fields จะอัปเดตเป็นผลตรวจของบทที่เกลาแล้ว

ข้อแลกเปลี่ยน ช้าขึ้น เพราะรัน 2 รอบ (ปกติ ~40–60s · เปิด Deep ~60–90s) — เลยตั้งเป็น ปิด ไว้ก่อน เปิดเมื่ออยากได้บทที่ขัดเกลาเป็นพิเศษ

ระบบทำงานแบบ async — กด Generate แล้วผลจะเด้งขึ้นเองเมื่อเสร็จ ไม่ต้องรอค้างหน้าจอ และไม่หลุด timeout แม้บทจะยาว

Output

Producer QA — ผลตรวจคุณภาพบท#

ท้าย Studio Fields ฝั่งขวาจะมีการ์ด Producer QA 5 ใบ — เป็นผลตรวจคุณภาพบทที่ AI ประเมินตัวเอง (จุดเขียว = ผ่าน) ใช้ดูเร็ว ๆ ว่าบทพร้อมเอาไปทำเสียงหรือยัง

เกณฑ์	ตรวจอะไร
Human	ฟังแล้วเหมือนคนพูดจริงไหม ไม่ใช่คนอ่านบทความ
Conversation	มีจังหวะสนทนาจริง (พูด→ถาม→ตอบ) ถอดเสียงออกแล้วไม่ใช่บทความ
Energy	พลังเสียงเปลี่ยนอย่างมีเหตุผล ส่วนใหญ่ ≤7 ไม่แบน ไม่ดังตลอด
Hook	เปิดช่องให้อยากฟังต่อ แล้วมีการเฉลย/ปิดประเด็น
Pause	มีจังหวะหายใจตอนเฉลย (เว้นบรรทัด / …) ไม่อัดแน่นเป็นพรืด

เปิด vs ปิด Deep review ทั้งสองโหมดมี Producer QA ให้ดู — ต่างกันที่ เปิด Deep review ผลตรวจจะมาจากบทที่ผ่านการเกลารอบ 2 แล้ว

Cheat sheet

ตารางสรุป: ช่องไหนส่งให้ AI ตอนไหน#

ภาพรวมว่าแต่ละช่องส่งให้ AI เมื่อไร คุมอะไร และ Auto หมายถึงอะไร

ช่อง	ส่งให้ AI เสมอ?	คุมอะไร	Auto =
Content type	ใช่	โครง scene + จำนวนผู้พูดที่เหมาะ	ให้ AI เดาหมวด
Narrator	เฉพาะตอนเลือก	บุคลิก / น้ำเสียง / Director's note	ข้าม → AI เดาเอง
Target model	ใช่	โมเดล TTS ปลายทาง	—
Speakers	เฉพาะตอนเลือก	จำนวนผู้พูด + render mode	AI ตัดสินเอง
Voice gender	เฉพาะตอนเลือก	เพศเสียง + สรรพนาม	AI เลือกเอง
Pace	เฉพาะตอนเลือก	จังหวะพูดทุกคน	AI เลือกเอง
Deep review	เมื่อเปิดสวิตช์	เกลาบทอีก 1 รอบ (2 รอบ) + อัปเดต Producer QA	ปิด = รอบเดียว

ความต่างเล็กน้อยที่ควรรู้ Content type เลือก "Auto" ยังส่งคำว่า auto ไปให้ AI (สั่งให้เดา) ส่วน Narrator เลือก "Auto" คือไม่ส่งอะไรเลย — แต่ผลลัพธ์เหมือนกันคือ AI เดาเอง

In practice

คำแนะนำการใช้จริง#

ห้าสถานการณ์ที่เจอบ่อย และตั้งค่าแบบไหนได้ผลดีที่สุด

เนื้อหาหมวดชัดอยู่แล้ว

ปล่อย Auto ทั้งหมดได้เลย AI เดาแม่น ประหยัดเวลา

Auto ทุกช่อง

อยากบังคับทิศทาง

เช่นเนื้อหากลาง ๆ แต่อยากให้ออกมาเป็นสารคดีเสียงสุขุม → ล็อก Content type + Narrator เป็นค่าที่ต้องการ — สองตัวนี้คือปุ่ม override ที่ทรงพลังที่สุด

Content typeNarrator

บทสนทนาหลายคน

ตั้ง Speakers + Voice gender = ผสม

Speakers ≥ 2Voice gender · ผสม

คลิปสั้น / โฆษณา

Content type หมวด Social Media / Marketing + Pace = Rapid Fire + Narrator = Energetic Promoter

Social / MarketingRapid FireEnergetic Promoter

งานสำคัญ / เอาไปขาย

เปิด Deep review ให้เกลาบทอีกรอบก่อนทำเสียง — แลกกับเวลาเพิ่มอีกนิด แต่บทลื่นกว่าชัด

Deep review · ON2 รอบ