Docs/Audio TTS API

TTS

Audio TTS API

Access ElevenLabs and Minimax text-to-speech through a unified API -- multilingual, expressive, and high-quality audio synthesis.

Quick Start

Get your API key from Console

Choose an audio provider below

POST to create a TTS task

Poll GET to retrieve the audio URL

Authentication

Add Authorization header to all requests:

Authorization: Bearer YOUR_API_KEY

Endpoints

POST/api/v1/audio/tts

Create a TTS task

GET/api/v1/audio/tts?task_id=xxx

Query task status and get audio URL

API Reference

Select a provider to see its parameters and examples

11labs

ElevenLabs

Industry-leading text-to-speech from ElevenLabs. Ultra-low latency, 70+ languages, and highly expressive voice synthesis.

Models

ElevenLabs TTS Flash

eleven-tts-flash

$0.0295/1K chars

Ultra-fast, 32 languages

ElevenLabs TTS Turbo

eleven-tts-turbo

$0.0295/1K chars

Low latency, 32 languages

ElevenLabs TTS Multilingual

eleven-tts-multilingual

$0.0589/1K chars

High quality, 29 languages

ElevenLabs TTS v3

eleven-tts-v3

$0.0736/1K chars

Most expressive, 70+ languages

Parameters

modelrequired

stringeleven-tts-flash / eleven-tts-turbo / eleven-tts-multilingual / eleven-tts-v3

textrequired

stringThe text content to convert to speech

voice_idrequired

stringVoice ID to use for synthesis. See popular voices below.

language_code

stringLanguage hint, e.g. "en", "zh", "ja". Improves accuracy for multilingual models.

callback_url

stringWebhook URL called when task completes

Popular Voice IDs

Rachel

Conversational female

21m00Tcm4TlvDq8ikWAM

Adam

Deep male

pNInz6obpgDQGcFmaJgB

Bella

Warm female

EXAVITQu4vr4xnSDxMaL

Notes

-eleven-tts-flash is recommended for real-time applications
-eleven-tts-v3 supports audio tags for emotional control
-Voice IDs are stable -- save them once, reuse across requests

Code Example

# Step 1: Create TTS task
curl -X POST https://apimodels.app/api/v1/audio/tts \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "eleven-tts-v3",
    "text": "Hello, this is a test of ElevenLabs text-to-speech.",
    "voice_id": "21m00Tcm4TlvDq8ikWAM",
    "language_code": "en"
  }'

# Step 2: Poll status
curl "https://apimodels.app/api/v1/audio/tts?task_id=TASK_ID" \
  -H "Authorization: Bearer YOUR_API_KEY"

Response Format

Create Task Response

{
  "code": 200,
  "msg": "success",
  "data": {
    "taskId": "clxxx...",
    "state": "pending"
  }
}

Success Response

{
  "code": 200,
  "msg": "success",
  "data": {
    "taskId": "clxxx...",
    "state": "completed",
    "result": "https://cdn.example.com/audio.mp3",
    "createTime": 1705123450000,
    "completeTime": 1705123460000
  }
}

Failed Response

{
  "code": 200,
  "msg": "success",
  "data": {
    "taskId": "clxxx...",
    "state": "failed",
    "failMsg": "Invalid voice_id"
  }
}

Task States

pendingQueued, waiting to start

processingAudio is being synthesized

completedDone -- audio URL available in result field

failedSynthesis failed

Error Codes

400Bad Request -- invalid or missing parameters

401Unauthorized -- invalid API key

402Payment Required -- insufficient credits

404Not Found -- task ID not found

500Internal Server Error

Important Notes

-Audio files are stored for 7 days -- download promptly
-Poll every 3-5 seconds for status updates
-Use callback_url for production workloads
-Keep your API key secure

Try in Playground Get API Key

API Reference

Select a provider to see its parameters and examples

11labs

ElevenLabs

Industry-leading text-to-speech from ElevenLabs. Ultra-low latency, 70+ languages, and highly expressive voice synthesis.

Models

ElevenLabs TTS Flash

eleven-tts-flash

$0.0295/1K chars

Ultra-fast, 32 languages

ElevenLabs TTS Turbo

eleven-tts-turbo

$0.0295/1K chars

Low latency, 32 languages

ElevenLabs TTS Multilingual

eleven-tts-multilingual

$0.0589/1K chars

High quality, 29 languages

ElevenLabs TTS v3

eleven-tts-v3

$0.0736/1K chars

Most expressive, 70+ languages

Parameters

modelrequired

stringeleven-tts-flash / eleven-tts-turbo / eleven-tts-multilingual / eleven-tts-v3

textrequired

stringThe text content to convert to speech

voice_idrequired

stringVoice ID to use for synthesis. See popular voices below.

language_code

stringLanguage hint, e.g. "en", "zh", "ja". Improves accuracy for multilingual models.

callback_url

stringWebhook URL called when task completes

Popular Voice IDs

Rachel

Conversational female

21m00Tcm4TlvDq8ikWAM

Adam

Deep male

pNInz6obpgDQGcFmaJgB

Bella

Warm female

EXAVITQu4vr4xnSDxMaL

Notes

-eleven-tts-flash is recommended for real-time applications
-eleven-tts-v3 supports audio tags for emotional control
-Voice IDs are stable -- save them once, reuse across requests

Code Example

# Step 1: Create TTS task
curl -X POST https://apimodels.app/api/v1/audio/tts \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "eleven-tts-v3",
    "text": "Hello, this is a test of ElevenLabs text-to-speech.",
    "voice_id": "21m00Tcm4TlvDq8ikWAM",
    "language_code": "en"
  }'

# Step 2: Poll status
curl "https://apimodels.app/api/v1/audio/tts?task_id=TASK_ID" \
  -H "Authorization: Bearer YOUR_API_KEY"

Response Format

Create Task Response

{ "code": 200, "msg": "success", "data": { "taskId": "clxxx...", "state": "pending" } }

Success Response

{ "code": 200, "msg": "success", "data": { "taskId": "clxxx...", "state": "completed", "result": "https://cdn.example.com/audio.mp3", "createTime": 1705123450000, "completeTime": 1705123460000 } }

Failed Response

{ "code": 200, "msg": "success", "data": { "taskId": "clxxx...", "state": "failed", "failMsg": "Invalid voice_id" } }