본문 바로가기

IT일반

MimikaStudio — 맥에서 돌리는 로컬 음성 합성·복제 스튜디오

개요

클라우드 API 없이, 내 맥북 한 대로 음성 합성부터 보이스 클로닝, 오디오북 제작까지 전부 처리할 수 있다면? MimikaStudio는 Apple Silicon Mac 전용으로 설계된 로컬 음성 합성 데스크톱 앱이다. 5개의 TTS 엔진을 통합하고, 3초짜리 음성 샘플만으로 목소리를 복제하며, PDF·EPUB 같은 문서를 오디오북으로 변환하는 기능까지 갖추고 있다. 모든 처리가 Metal 가속으로 로컬에서 이루어지기 때문에 클라우드 업로드나 구독료 걱정이 없다.

AI로 생성된 이미지: MimikaStudio의 로컬 음성 합성 개념도


MimikaStudio가 뭔가

MimikaStudio는 GitHub에 공개된 오픈소스 프로젝트로, macOS(Apple Silicon) 환경에서 동작하는 음성 합성 스튜디오다. FastAPI 기반 파이썬 백엔드와 Flutter 데스크톱 프론트엔드로 구성되어 있으며, Apple의 MLX 프레임워크를 활용해 M1~M4 칩의 Metal GPU를 직접 사용한다.
단순한 TTS 도구가 아니라, 보이스 클로닝 서버로도 동작한다. REST API 60개 이상, MCP(Model Context Protocol) 도구 50개 이상을 제공해서 Claude Code나 Codex 같은 에이전틱 시스템과 연동할 수 있다.
현재 알파 버전(v2026.03.6)으로, 무료 7일 체험 후 Pro 라이선스($39.99, 평생)로 전환하는 구조다.


왜 만들었나

기존 TTS 서비스들은 대부분 클라우드 기반이다. 텍스트를 서버에 보내고, 생성된 음성을 받아오는 방식이라 개인정보 노출 우려가 있고, API 호출 비용이 쌓인다. MimikaStudio는 이런 문제를 정면으로 해결한다.

  • 프라이버시: 음성 데이터가 내 맥을 떠나지 않는다
  • 비용: 구독료나 API 호출 제한이 없다
  • 성능: Apple Silicon의 Metal 가속으로 200ms 이내 지연시간 달성
  • 통합: 여러 TTS 엔진을 하나의 앱에서 비교하고 전환할 수 있다

주요 기능

1. 보이스 클로닝 — 3초면 충분하다

Qwen3-TTS 엔진은 3초짜리 음성 샘플 하나로 화자의 음색, 피치, 리듬을 학습한다. 스타일 프롬프트로 감정, 속도, 톤까지 조절할 수 있다. YouTube에서 음성 레퍼런스를 가져오는 기능도 있다.
Chatterbox 엔진을 쓰면 23개 언어로 다국어 클로닝이 가능하다. 영어뿐 아니라 한국어, 일본어, 아랍어 등 폭넓은 언어를 지원한다.

2. 5개의 TTS 엔진

MimikaStudio는 용도에 따라 엔진을 선택할 수 있다.

  • Kokoro (82M 파라미터): 21개 음성, 200ms 미만 지연시간. 빠른 나레이션에 적합
  • Qwen3-TTS (0.6B/1.7B): 10개 언어, 3초 음성 클로닝. 고품질 음성 합성
  • Chatterbox: 23개 언어, 감정 표현 제어. 다국어 콘텐츠 제작용
  • Supertonic-2: ONNX 런타임 기반, 5개 언어. 빠른 합성 속도
  • CosyVoice3: ONNX 기반, 10개 언어. 감정·스타일 표현에 강점

0.6B 모델은 속도 우선, 1.7B 모델은 품질 우선이다. 앱 내 모델 매니저에서 원클릭으로 다운로드할 수 있다.

3. 프리셋 스피커

별도 음성 샘플 없이도 사용할 수 있는 9개의 프리미엄 프리셋 스피커가 있다. 4개 언어를 지원하며, Qwen3-TTS CustomVoice 엔진으로 구동된다.

4. 문서 리더 & 오디오북 생성

PDF, DOCX, EPUB, Markdown, TXT 파일을 음성으로 읽어준다. 문장 단위 하이라이팅과 동기화된 진행 표시가 있어서, 읽고 있는 부분을 눈으로 따라갈 수 있다.
전체 문서를 오디오북으로 변환하는 기능도 있다. 챕터 마커를 자동으로 생성하고, WAV·MP3·M4B 포맷으로 내보낼 수 있다. 작업 큐 시스템이 있어서 여러 챕터를 순서대로 처리한다.

AI로 생성된 이미지: 문서에서 오디오북으로의 변환 파이프라인

5. MCP 서버 & API

MimikaStudio는 포트 8010에서 MCP 서버를 실행한다. Claude Code나 Codex와 연동해서 음성 관련 작업을 자동화할 수 있다. 예를 들어 "PDF에서 텍스트 추출 → Kokoro TTS로 큐잉 → 오디오북 생성"을 에이전트 워크플로우로 구성할 수 있다.
REST API도 60개 이상 제공되며, Swagger 문서가 내장되어 있어서 커스텀 스크립트나 앱과 연동하기 쉽다.


설치 방법

방법 1: DMG 다운로드 (간편)

GitHub Releases 페이지에서 Apple Silicon용 DMG 파일을 다운로드한다. Applications 폴더에 드래그하고, 서명되지 않은 앱이므로 터미널에서 격리 속성을 제거해야 한다.

xattr -d com.apple.quarantine /Applications/MimikaStudio.app

이후 우클릭 → 열기로 실행한다.

방법 2: 소스에서 빌드

git clone https://github.com/BoltzmannEntropy/MimikaStudio.git
cd MimikaStudio
./install.sh

설치 스크립트가 Homebrew, Python, espeak-ng, ffmpeg, 가상환경, 의존성, DB 초기화를 전부 처리한다. Dicta ONNX 히브리어 모델(약 1.1GB)은 선택 사항이다.

시스템 요구사항

  • macOS 13(Ventura) 이상
  • Apple Silicon (M1/M2/M3/M4) — Intel Mac 미지원
  • RAM 8GB 이상 (16GB 권장)
  • 저장공간 5~10GB (모델 파일)

사용 방법

앱 실행

source venv/bin/activate
./bin/mimikactl up              # 백엔드 + MCP + 데스크톱 UI 모두 실행
./bin/mimikactl up --no-flutter # 백엔드 + MCP만 실행 (UI 없이)
./bin/mimikactl status          # 서비스 상태 확인
./bin/mimikactl logs backend    # 백엔드 로그 확인

첫 실행 시 앱 내 프롬프트에서 필요한 모델을 다운로드한다. 전체 약 3GB 정도다.

CLI 도구

mimika CLI로 터미널에서 직접 음성을 생성할 수 있다.

mimika kokoro "Hello, world" -v emma        # Kokoro 엔진으로 TTS
mimika qwen3 "안녕하세요" --voice sample.wav  # 음성 클로닝
mimika voices                                # 사용 가능한 음성 목록

MP3, WAV, FLAC, OGG, M4A, OPUS 포맷을 지원한다.

GUI 사용

Flutter 데스크톱 앱에서는 더 직관적으로 작업할 수 있다.

  • TTS 탭: 텍스트 입력 → 엔진·음성 선택 → 생성
  • 클로닝 탭: 음성 샘플 업로드 → 텍스트 입력 → 복제 음성 생성
  • 문서 리더 탭: 파일 불러오기 → 음성 선택 → 하이라이팅과 함께 재생
  • 오디오북 탭: 문서 불러오기 → 챕터 설정 → 큐에 추가 → 일괄 생성
  • 모델 매니저: 필요한 모델 원클릭 다운로드·삭제

활용 사례

  • 오디오북 제작: 긴 문서를 챕터별로 나눠서 자연스러운 나레이션으로 변환
  • 콘텐츠 크리에이터: 영상 나레이션이나 팟캐스트에 특정 음색의 음성을 사용
  • 접근성: 시각 장애인을 위한 문서 음성 변환
  • 다국어 콘텐츠: 23개 언어 지원으로 다국어 음성 콘텐츠 제작
  • 개발자 연동: MCP/REST API로 음성 파이프라인 자동화

AI로 생성된 이미지: MimikaStudio의 다양한 활용 사례


알아두면 좋은 점

  • 현재 알파 버전이라 불안정할 수 있다
  • Windows/Linux 지원은 아직 준비 중이다 (코드 자체는 크로스플랫폼)
  • 라이선스는 BSL-1.1(소스코드)과 별도 바이너리 배포 라이선스가 적용된다
  • M2 MacBook Pro 기준 약 60자/초 생성 속도를 보인다
  • DMG는 서명되지 않았으므로 Gatekeeper 수동 승인이 필요하다

마무리

MimikaStudio는 "로컬에서 완결되는 음성 스튜디오"라는 확실한 방향성을 가진 프로젝트다. 여러 TTS 엔진을 한 곳에서 비교하면서 쓸 수 있고, 보이스 클로닝부터 오디오북 생성까지 하나의 앱에서 처리할 수 있다는 것이 강점이다. Apple Silicon의 Metal 가속을 제대로 활용하기 때문에 클라우드 API 대비 비용 걱정 없이 실험할 수 있다. 아직 알파 단계지만, 로컬 TTS에 관심이 있다면 한번 살펴볼 가치가 있다.


참고 자료

이 글은 Claude Code를 활용하여 작성되었습니다.