Convert Dialogue Scripts to Natural Speech with Replicate Moss-TTSD

Created by

Yaron Been

Last update

Last update a day ago

Description

MOSS-TTSD (text to spoken dialogue) is an open-source bilingual spoken dialogue synthesis model that supports both Chinese and English. It can transform dialogue scripts between two speakers into natural, expressive conversational speech.

Overview

This n8n workflow integrates with the Replicate API to use the dessix/moss-ttsd model. This powerful AI model can generate high-quality text content based on your inputs.

Features

Easy integration with Replicate API
Automated status checking and result retrieval
Support for all model parameters
Error handling and retry logic
Clean output formatting

Parameters

Optional Parameters

seed (integer, default: 42): Random seed for reproducibility
text (string, default: [S1]你好[S2]你好，最近怎么样[S1]还不错，你呢[S2]我也挺好的，谢谢关心): Dialogue text, format: [S1]Speaker 1 content[S2]Speaker 2 content[S1]...
use_normalize (boolean, default: True): Whether to use text normalization (recommended for better handling of numbers, punctuation, etc.)
reference_text_speaker1 (string, default: 周一到周五每天早晨七点半到九点半的直播片段,言下之意呢就是废话有点多,大家也别嫌弃,因为这都是直播间最真实的状态了): Reference text for speaker 1 (corresponding to reference audio)
reference_text_speaker2 (string, default: 如果大家想听到更丰富更及时的直播内容,记得在周一到周五准时进入直播间,和大家一起畅聊新消费新科技新趋势): Reference text for speaker 2 (corresponding to reference audio)
reference_audio_speaker1 (string, default: None): Reference audio file for speaker 1 (optional, for voice cloning)
reference_audio_speaker2 (string, default: None): 说话者2的参考音频文件（可选，用于声音克隆）/ Reference audio file for speaker 2 (optional, for voice cloning)

How to Use

Set up your Replicate API key in the workflow
Configure the required parameters for your use case
Run the workflow to generate text content
Access the generated output from the final node

API Reference

Model: dessix/moss-ttsd
API Endpoint: https://api.replicate.com/v1/predictions

Requirements

Replicate API key
n8n instance
Basic understanding of text generation parameters