С помощью SSML удобно расставлять паузы, менять скорость речи и настраивать произношение.
SSML (Speech Synthesis Markup Language) — язык разметки синтеза речи. Позволяет гибко настраивать речь, делать ее естественной и выразительной.
SSML-теги
Чтобы задавать правила произношения, управлять скоростью и добавлять паузы, используют SSML-теги.
Тег | Описание |
---|---|
<break> | Пауза |
<p> | Пауза между параграфами |
<s> | Пауза между предложениями |
<speed> | Скорость |
<say-as> | Сказать как |
<phoneme> | Произношение |
Теги бывают парные и одиночные.
Парные теги
У парных тегов есть открывающий <...> и закрывающий тег </....>. Например, для настройки скорости озвучивания используются теги <prosody....> и </prosody>.
Настроим быструю и медленную скорость
- <prosody rate="50%">Можно говорить медленно</prosody>
- <prosody rate="125%">Можно говорить быстро</prosody>
Одиночные теги
У одиночных тегов нет закрывающего тега. Например, добавим паузы с помощью тега <break time="..."/>.
Привет. <break time="1s"/>Меня зовут Анна. Я студентка.
Количество символов
- Каждому автору доступно по 1 000 000 символов на 30 дней. Теги считаются за символы.
Например, пара тегов <speak> и </speak> засчитается как 15 символов. - При предпрослушивании расходуются символы. При повторном прослушивании того же текста символы не тратятся.
- Подсчет символов меняется в зависимости от языка. Символы считаются в байтах.
В английском языке: 1 символ — 1 байт.
В русском языке: 1 символ — 2 байта. - Нельзя озвучить больше 4000 байтов за раз. Это значит, что если пользователь вставит 4000 латинских символов, текст озвучится. Если 4000 кириллицы, то увидит, что лимит превышен, нужно удалить лишние символы.