TTS Extension Marketplace

Discover TTS WebUI Extensions

Enhance your Text-to-Speech WebUI with powerful extensions from the community

Hide built-in extensions60 extensions found

Featured Extensions

Omnivoice (uv)

State-of-the-art massive multilingual zero-shot text-to-speech model supporting 600+ languages with voice cloning and voice design.

by rsxdalv

Text-to-Speech

ACE-Step 1.5

The most powerful local music generation model that outperforms most commercial alternatives, supporting Mac, AMD, Intel, and CUDA devices.

by rsxdalv

Audio & Music

Foundation-1 (uv)

Foundation-1 music generation model by RoyalCities, built on stable-audio-tools

by rsxdalv

Audio & Music

Parakeet

Speech transcription via Nvidia Parakeet model

by mefi

Tools

Bark Legacy

This is the legacy UI of Bark from TTS-WebUI

by rsxdalv

Text-to-Speech

PyVideoTrans TTS API

PyVideoTrans text-to-speech API with WebUI integration.

by rsxdalv

Tools

SRT Tools

Import and parse multiple SRT files into JSON segments for later TTS batching.

by rsxdalv

Tools

Pip Install UI

Install and uninstall Python packages from the web UI. Disable when not in use for security.

by rsxdalv

Tools

Omnivoice (uv)

State-of-the-art massive multilingual zero-shot text-to-speech model supporting 600+ languages with voice cloning and voice design.

by rsxdalv

Text-to-Speech

ACE-Step 1.5

The most powerful local music generation model that outperforms most commercial alternatives, supporting Mac, AMD, Intel, and CUDA devices.

by rsxdalv

Audio & Music

Foundation-1 (uv)

Foundation-1 music generation model by RoyalCities, built on stable-audio-tools

by rsxdalv

Audio & Music

DramaBox

DramaBox speech synthesis extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

Log Viewer

View, search, and manage log files from the TTS Generation WebUI. Browse installation logs, filter by keywords, and clean up old logs.

by rsxdalv

Settings

Vall-E-X

Multilingual text-to-speech model supporting English, Chinese, and Japanese

by rsxdalv

Text-to-Speech

StyleTTS2

StyleTTS2 is a text-to-speech model that generates high-quality speech with controllable style

by rsxdalv

Text-to-Speech

Seamless M4T

SeamlessM4T is a multilingual and multimodal translation model supporting text and speech

by rsxdalv

Text-to-Speech

MMS

MMS (Massively Multilingual Speech) is a text-to-speech model supporting over 1000 languages

by rsxdalv

Text-to-Speech

Tortoise TTS

Tortoise TTS is a high-quality text-to-speech model with voice cloning capabilities

by rsxdalv

Text-to-Speech

F5-TTS

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching.

by rsxdalv

Text-to-Speech

Chatterbox

Chatterbox, Resemble AI's first production-grade open source TTS model

by rsxdalv

Text-to-Speech

Kokoro

Kokoro: A small, fast, and high-quality TTS model

by rsxdalv

Text-to-Speech

Bark

Bark: A text-to-speech model

by rsxdalv

Text-to-Speech

XTTS

XTTS-Simple is a Gradio UI for XTTSv2

by rsxdalv

Text-to-Speech

Parler-TTS

Parler-TTS is a training and inference library for high-fidelity text-to-speech (TTS) models.

by rsxdalv

Text-to-Speech

CosyVoice [Unstable]

CosyVoice: High-quality text-to-speech synthesis.

by rsxdalv

Text-to-Speech

MARS5

MARS5: A novel speech model for insane prosody

by rsxdalv

Text-to-Speech

DIA

DIA: A text-to-dialogue model

by rsxdalv

Text-to-Speech

GPT-SoVITS (uv)

GPT-SoVITS: A TTS solution powered by GPT and SoftVC VITS Singing Voice Conversion.

by rsxdalv

Text-to-Speech

Maha TTS

Maha TTS allows generating speech from text using the MahaTTS model.

by rsxdalv

Text-to-Speech

OpenVoice (uv)

OpenVoice: A versatile instant voice cloning approach

by rsxdalv

Text-to-Speech

OpenVoice V2

OpenVoice: A versatile instant voice cloning approach

by rsxdalv

Text-to-Speech

Piper TTS

Piper TTS is a text-to-speech model by rsxdalv

by rsxdalv

Text-to-Speech

Higgs V2 (Early Access)

Higgs V2

by rsxdalv

Text-to-Speech

VibeVoice (Early Access)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

Kitten TTS

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

Index TTS (uv)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

VoxCPM (Beta)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

FireRedTTS2 (Beta)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

MegaTTS3 (Alpha)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

ACE-Step

ACE-Step: A Step Towards Music Generation Foundation Model

by rsxdalv

Audio & Music

Stable Audio

Stable Audio is a text-to-audio model for generating high-quality music and sound effects

by rsxdalv

Audio & Music

Audiocraft

Audiocraft provides MusicGen and MAGNeT models for high-quality music and audio generation

by rsxdalv

Audio & Music

AudioCraft Plus

AudioCraft Plus is an all-in-one WebUI for the original AudioCraft, adding many quality features on top.

by rsxdalv

Audio & Music

Riffusion

Riffusion allows generating music from text.

by rsxdalv

Audio & Music

MusicGen (Mac)

MusicGen allows generating music from text

by rsxdalv

Audio & Music

Songbloom (Beta)

A template extension for TTS Generation WebUI

by rsxdalv

Audio & Music

Vocos

Vocos is a neural audio codec for high-quality audio compression and reconstruction

by rsxdalv

Audio Conversion

RVC

RVC: Retrieval-based Voice Conversion

by rsxdalv

Audio Conversion

Demucs

Demucs is a music source separation model that can separate drums, bass, vocals, and other instruments

by rsxdalv

Audio Conversion

Audio Separator

Audio Separator allows separating audio files into multiple audio files.

by rsxdalv

Audio Conversion

Resemble Enhance

Resemble Enhance allows enhancing audio files.

by rsxdalv

Audio Conversion

AP-BWE Bandwidth Extension

AP-BWE: An audio bandwidth extension solution using Amplitude-Phase Bandwidth Extension models.

by rsxdalv

Audio Conversion

PyRNNoise

A template extension for TTS Generation WebUI

by rsxdalv

Audio Conversion

OpenAI TTS API

OpenAI compatible TTS API with support for multiple TTS models

by rsxdalv

Tools

XTTS Fine-tuning Demo

XTTS fine-tuning demo

by rsxdalv

Tools

RVC Training (Not available yet)

RVC Training

by rsxdalv

Tools

Bark Voice Clone

Bark Voice Clone allows cloning voices for use with Bark TTS

by rsxdalv

Tools

Ebook2Audiobook (Not available yet)

Ebook2Audiobook allows converting ebooks to audiobooks

by rsxdalv

Tools

EPub2TTS (Not available yet)

EPub2TTS allows converting ebooks to audiobooks

by rsxdalv

Tools

Audiobook Generator (Not available yet)

Audiobook Generator allows converting ebooks to audiobooks

by rsxdalv

Tools

CUDA Toolkit

by rsxdalv

Tools

Kimi Audio

Kimi Audio is a powerful text-to-speech and speech-to-text model by Moonshot AI

by rsxdalv

Conversational AI

MiMo-Audio

A template extension for TTS Generation WebUI

by rsxdalv

Conversational AI

Discover TTS WebUI Extensions

Enhance your Text-to-Speech WebUI with powerful extensions from the community

Hide built-in extensions60 extensions found

Featured Extensions

Omnivoice (uv)

State-of-the-art massive multilingual zero-shot text-to-speech model supporting 600+ languages with voice cloning and voice design.

by rsxdalv

Text-to-Speech

ACE-Step 1.5

The most powerful local music generation model that outperforms most commercial alternatives, supporting Mac, AMD, Intel, and CUDA devices.

by rsxdalv

Audio & Music

Foundation-1 (uv)

Foundation-1 music generation model by RoyalCities, built on stable-audio-tools

by rsxdalv

Audio & Music

Parakeet

Speech transcription via Nvidia Parakeet model

by mefi

Tools

Bark Legacy

This is the legacy UI of Bark from TTS-WebUI

by rsxdalv

Text-to-Speech

PyVideoTrans TTS API

PyVideoTrans text-to-speech API with WebUI integration.

by rsxdalv

Tools

SRT Tools

Import and parse multiple SRT files into JSON segments for later TTS batching.

by rsxdalv

Tools

Pip Install UI

Install and uninstall Python packages from the web UI. Disable when not in use for security.

by rsxdalv

Tools

Omnivoice (uv)

State-of-the-art massive multilingual zero-shot text-to-speech model supporting 600+ languages with voice cloning and voice design.

by rsxdalv

Text-to-Speech

ACE-Step 1.5

The most powerful local music generation model that outperforms most commercial alternatives, supporting Mac, AMD, Intel, and CUDA devices.

by rsxdalv

Audio & Music

Foundation-1 (uv)

Foundation-1 music generation model by RoyalCities, built on stable-audio-tools

by rsxdalv

Audio & Music

DramaBox

DramaBox speech synthesis extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

Log Viewer

View, search, and manage log files from the TTS Generation WebUI. Browse installation logs, filter by keywords, and clean up old logs.

by rsxdalv

Settings

Vall-E-X

Multilingual text-to-speech model supporting English, Chinese, and Japanese

by rsxdalv

Text-to-Speech

StyleTTS2

StyleTTS2 is a text-to-speech model that generates high-quality speech with controllable style

by rsxdalv

Text-to-Speech

Seamless M4T

SeamlessM4T is a multilingual and multimodal translation model supporting text and speech

by rsxdalv

Text-to-Speech

MMS

MMS (Massively Multilingual Speech) is a text-to-speech model supporting over 1000 languages

by rsxdalv

Text-to-Speech

Tortoise TTS

Tortoise TTS is a high-quality text-to-speech model with voice cloning capabilities

by rsxdalv

Text-to-Speech

F5-TTS

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching.

by rsxdalv

Text-to-Speech

Chatterbox

Chatterbox, Resemble AI's first production-grade open source TTS model

by rsxdalv

Text-to-Speech

Kokoro

Kokoro: A small, fast, and high-quality TTS model

by rsxdalv

Text-to-Speech

Bark

Bark: A text-to-speech model

by rsxdalv

Text-to-Speech

XTTS

XTTS-Simple is a Gradio UI for XTTSv2

by rsxdalv

Text-to-Speech

Parler-TTS

Parler-TTS is a training and inference library for high-fidelity text-to-speech (TTS) models.

by rsxdalv

Text-to-Speech

CosyVoice [Unstable]

CosyVoice: High-quality text-to-speech synthesis.

by rsxdalv

Text-to-Speech

MARS5

MARS5: A novel speech model for insane prosody

by rsxdalv

Text-to-Speech

DIA

DIA: A text-to-dialogue model

by rsxdalv

Text-to-Speech

GPT-SoVITS (uv)

GPT-SoVITS: A TTS solution powered by GPT and SoftVC VITS Singing Voice Conversion.

by rsxdalv

Text-to-Speech

Maha TTS

Maha TTS allows generating speech from text using the MahaTTS model.

by rsxdalv

Text-to-Speech

OpenVoice (uv)

OpenVoice: A versatile instant voice cloning approach

by rsxdalv

Text-to-Speech

OpenVoice V2

OpenVoice: A versatile instant voice cloning approach

by rsxdalv

Text-to-Speech

Piper TTS

Piper TTS is a text-to-speech model by rsxdalv

by rsxdalv

Text-to-Speech

Higgs V2 (Early Access)

Higgs V2

by rsxdalv

Text-to-Speech

VibeVoice (Early Access)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

Kitten TTS

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

Index TTS (uv)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

VoxCPM (Beta)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

FireRedTTS2 (Beta)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

MegaTTS3 (Alpha)

A template extension for TTS Generation WebUI

by rsxdalv

Text-to-Speech

ACE-Step

ACE-Step: A Step Towards Music Generation Foundation Model

by rsxdalv

Audio & Music

Stable Audio

Stable Audio is a text-to-audio model for generating high-quality music and sound effects

by rsxdalv

Audio & Music

Audiocraft

Audiocraft provides MusicGen and MAGNeT models for high-quality music and audio generation

by rsxdalv

Audio & Music

AudioCraft Plus

AudioCraft Plus is an all-in-one WebUI for the original AudioCraft, adding many quality features on top.

by rsxdalv

Audio & Music

Riffusion

Riffusion allows generating music from text.

by rsxdalv

Audio & Music

MusicGen (Mac)

MusicGen allows generating music from text

by rsxdalv

Audio & Music

Songbloom (Beta)

A template extension for TTS Generation WebUI

by rsxdalv

Audio & Music

Vocos

Vocos is a neural audio codec for high-quality audio compression and reconstruction

by rsxdalv

Audio Conversion

RVC

RVC: Retrieval-based Voice Conversion

by rsxdalv

Audio Conversion

Demucs

Demucs is a music source separation model that can separate drums, bass, vocals, and other instruments

by rsxdalv

Audio Conversion

Audio Separator

Audio Separator allows separating audio files into multiple audio files.

by rsxdalv

Audio Conversion

Resemble Enhance

Resemble Enhance allows enhancing audio files.

by rsxdalv

Audio Conversion

AP-BWE Bandwidth Extension

AP-BWE: An audio bandwidth extension solution using Amplitude-Phase Bandwidth Extension models.

by rsxdalv

Audio Conversion

PyRNNoise

A template extension for TTS Generation WebUI

by rsxdalv

Audio Conversion

OpenAI TTS API

OpenAI compatible TTS API with support for multiple TTS models

by rsxdalv

Tools

XTTS Fine-tuning Demo

XTTS fine-tuning demo

by rsxdalv

Tools

RVC Training (Not available yet)

RVC Training

by rsxdalv

Tools

Bark Voice Clone

Bark Voice Clone allows cloning voices for use with Bark TTS

by rsxdalv

Tools

Ebook2Audiobook (Not available yet)

Ebook2Audiobook allows converting ebooks to audiobooks

by rsxdalv

Tools

EPub2TTS (Not available yet)

EPub2TTS allows converting ebooks to audiobooks

by rsxdalv

Tools

Audiobook Generator (Not available yet)

Audiobook Generator allows converting ebooks to audiobooks

by rsxdalv

Tools

CUDA Toolkit

by rsxdalv

Tools

Kimi Audio

Kimi Audio is a powerful text-to-speech and speech-to-text model by Moonshot AI

by rsxdalv

Conversational AI

MiMo-Audio

A template extension for TTS Generation WebUI

by rsxdalv

Conversational AI

WebUI Extension Marketplace

Discover TTS WebUI Extensions

Featured Extensions

WebUI Extension Marketplace

Discover TTS WebUI Extensions

Featured Extensions