Voice Design then Clone 워크플로우 완벽 가이드

AI 음성 합성에서 일관된 캐릭터 음성을 만드는 Voice Design then Clone 워크플로우를 설명합니다. 참조 음성 생성부터 재사용 가능한 캐릭터 구축까지 실무 활용법을 다룹니다.

1. 일관된 캐릭터 음성 만들기

게임 개발사에서 일하는 김개발 씨는 오늘 새로운 미션을 받았습니다. NPC 캐릭터마다 고유한 목소리를 만들어야 하는데, 매번 다른 느낌의 음성이 생성되어 골머리를 앓고 있었습니다.

"어떻게 하면 같은 캐릭터가 항상 같은 목소리로 말하게 할 수 있을까요?"

Voice Design then Clone 워크플로우는 AI로 이상적인 참조 음성을 먼저 설계한 뒤, 이를 복제하여 일관된 음성을 생성하는 기법입니다. 마치 성우를 캐스팅한 뒤 그 성우에게 다양한 대사를 녹음시키는 것과 같습니다.

이 방식을 사용하면 캐릭터의 음성 정체성을 유지하면서도 무한한 대사를 생성할 수 있습니다.

다음 코드를 살펴봅시다.

# Voice Design then Clone 워크플로우 개요
from elevenlabs import VoiceDesign, clone, generate

# 1단계: 이상적인 캐릭터 음성 설계
voice_design = VoiceDesign(
    gender="female",
    age="young",
    accent="korean",
    accent_strength=0.8,
    description="밝고 활기찬 여성 게임 캐릭터"
)

# 2단계: 설계한 음성으로 샘플 생성
reference_audio = voice_design.generate_sample(
    text="안녕하세요! 저는 마을의 상점 주인이에요."
)

# 3단계: 샘플을 기반으로 클론 생성
character_voice = clone(
    name="ShopKeeper_NPC",
    files=[reference_audio]
)

김개발 씨는 입사 2년 차 게임 개발자입니다. 최근 회사에서 진행 중인 RPG 게임에는 수십 명의 NPC가 등장합니다.

각 NPC마다 고유한 목소리가 필요한데, 문제가 있었습니다. 처음에는 일반 TTS를 사용해서 대사를 생성했습니다.

그런데 같은 캐릭터인데도 대사마다 목소리 톤이 미묘하게 달랐습니다. 마을 상점 주인이 어떤 대사에서는 밝게 말하다가, 다른 대사에서는 갑자기 차분해지는 것처럼 느껴졌습니다.

선배 개발자 박시니어 씨가 김개발 씨의 고민을 듣고 말했습니다. "Voice Design then Clone 워크플로우를 사용해봐.

훨씬 일관된 결과를 얻을 수 있을 거야." 이 워크플로우의 핵심 아이디어는 간단합니다. 마치 영화 제작에서 배우를 캐스팅하는 것과 비슷합니다.

영화감독은 먼저 캐릭터에 어울리는 배우를 찾습니다. 그 배우가 정해지면, 그 배우에게 모든 대사를 맡기죠.

배우가 바뀌지 않으니 캐릭터의 일관성이 유지됩니다. Voice Design은 바로 그 캐스팅 과정입니다.

성별, 나이, 억양, 말투 등을 지정해서 이상적인 가상의 성우를 만들어냅니다. 이렇게 만들어진 음성 샘플이 바로 그 캐릭터의 기준점이 됩니다.

그 다음 단계가 Clone입니다. 만들어진 참조 음성을 복제하여 재사용 가능한 음성 모델을 생성합니다.

이 클론된 음성은 어떤 텍스트를 주더라도 동일한 음색과 특성을 유지합니다. 기존 방식에서는 매번 음성을 생성할 때마다 약간씩 다른 결과가 나왔습니다.

하지만 이 워크플로우를 사용하면 처음 설계한 음성의 특성이 계속 유지됩니다. 게임 플레이어 입장에서는 NPC가 항상 같은 사람처럼 느껴지는 것이죠.

위 코드에서 첫 번째 부분은 VoiceDesign 객체를 생성하는 과정입니다. 여기서 캐릭터의 기본 특성을 정의합니다.

두 번째 부분에서는 이 설계를 바탕으로 실제 음성 샘플을 생성합니다. 마지막으로 clone 함수를 통해 재사용 가능한 음성 모델을 만듭니다.

이렇게 만들어진 음성 모델은 프로젝트 내에서 언제든지 호출할 수 있습니다. 새로운 대사가 필요할 때마다 이 모델을 사용하면 됩니다.

실전 팁

💡 - 참조 음성 샘플은 최소 10초 이상의 명확한 발화를 담는 것이 좋습니다

캐릭터별로 명확한 네이밍 규칙을 정해두면 관리가 편리합니다

2. VoiceDesign 모델로 참조 생성

박시니어 씨의 조언을 들은 김개발 씨는 본격적으로 워크플로우를 적용해보기로 했습니다. 하지만 막상 시작하려니 막막했습니다.

"VoiceDesign 모델에서 어떤 파라미터를 어떻게 조절해야 원하는 목소리가 나오는 걸까요?"

VoiceDesign 모델은 텍스트 프롬프트만으로 새로운 음성을 생성하는 기능입니다. 성별, 나이대, 억양, 감정적 특성 등을 자연어로 설명하면 그에 맞는 음성을 만들어냅니다.

마치 캐릭터 디자이너에게 원하는 인물의 특징을 말로 설명하는 것과 같습니다.

다음 코드를 살펴봅시다.

import requests
import json

# ElevenLabs Voice Design API 호출
def create_voice_design(description: str, sample_text: str):
    """자연어 설명으로 새로운 음성 생성"""

    api_key = "your_api_key_here"
    url = "https://api.elevenlabs.io/v1/voice-generation/generate-voice"

    # 음성 특성을 자연어로 설명
    payload = {
        "voice_description": description,
        "text": sample_text,
        "gender": "female",
        "age": "young_adult",
        "accent": "korean",
        "accent_strength": 0.7
    }

    headers = {
        "xi-api-key": api_key,
        "Content-Type": "application/json"
    }

    response = requests.post(url, json=payload, headers=headers)

    # 생성된 음성 데이터 반환
    return response.content

# 밝고 친근한 상점 주인 음성 생성
shop_keeper_voice = create_voice_design(
    description="밝고 활기차며 친근한 젊은 여성. 약간 높은 톤으로 명랑하게 말함",
    sample_text="어서 오세요! 오늘은 특별 할인 중이에요!"
)

김개발 씨는 노트북을 펼치고 VoiceDesign 문서를 읽기 시작했습니다. 처음에는 복잡해 보였지만, 핵심은 의외로 간단했습니다.

VoiceDesign의 가장 큰 장점은 자연어로 원하는 음성을 설명할 수 있다는 점입니다. 기존에는 피치, 포먼트, 속도 같은 기술적인 수치를 직접 조절해야 했습니다.

하지만 VoiceDesign에서는 그냥 말로 설명하면 됩니다. 예를 들어 "밝고 활기차며 친근한 젊은 여성"이라고 입력하면, AI가 그 설명에 맞는 음성을 생성해줍니다.

마치 카페에서 바리스타에게 "부드럽고 달콤한 커피"라고 주문하는 것과 비슷합니다. 세부적인 레시피를 몰라도 원하는 맛을 얻을 수 있죠.

코드를 살펴보면, voice_description 파라미터가 핵심입니다. 여기에 캐릭터의 성격과 말투를 자유롭게 적으면 됩니다.

"차분하고 지적인 중년 남성" 또는 "장난기 넘치는 10대 소년" 같은 식으로요. gender, age, accent 파라미터는 보조 역할을 합니다.

자연어 설명을 보완해서 더 정확한 결과를 얻도록 도와줍니다. accent_strength는 억양의 강도를 조절합니다.

0에 가까우면 표준적인 발음, 1에 가까우면 해당 지역 억양이 강하게 나타납니다. text 파라미터에는 샘플 문장을 넣습니다.

이 문장이 생성된 음성으로 발화됩니다. 캐릭터의 특성을 잘 보여주는 대표 대사를 넣는 것이 좋습니다.

상점 주인이라면 환영 인사, 전사 캐릭터라면 전투 함성 같은 것이죠. 김개발 씨는 여러 번 테스트를 해봤습니다.

설명을 조금씩 바꿔가며 원하는 느낌에 가까워질 때까지 반복했습니다. "너무 밝으면 가볍게 느껴지고, 너무 차분하면 상점 주인답지 않네..." 몇 번의 시도 끝에 마침내 만족스러운 음성이 나왔습니다.

밝지만 신뢰감 있는, 딱 마을 상점 주인에게 어울리는 목소리였습니다. 생성된 음성 데이터는 바이너리 형태로 반환됩니다.

이것을 파일로 저장하거나, 다음 단계인 Clone 과정에 바로 사용할 수 있습니다.

실전 팁

💡 - 음성 설명은 구체적일수록 좋습니다. "친근한"보다 "이웃집 언니처럼 친근한"이 더 명확합니다

여러 버전을 생성해보고 가장 적합한 것을 선택하세요

3. Clone Prompt로 변환

김개발 씨는 마침내 원하는 참조 음성을 만들었습니다. 이제 다음 단계입니다.

"이 음성을 어떻게 복제해서 다른 대사에도 사용할 수 있게 만드나요?" 박시니어 씨가 화면을 가리키며 설명을 시작했습니다.

Voice Cloning은 참조 음성을 분석하여 그 특성을 학습한 음성 모델을 만드는 과정입니다. 한 번 클론을 생성하면, 어떤 텍스트든 그 음성으로 변환할 수 있습니다.

마치 성우를 고용해서 전속 계약을 맺는 것과 같습니다.

다음 코드를 살펴봅시다.

import requests
import os

def clone_voice_from_sample(name: str, audio_files: list, description: str):
    """생성된 참조 음성을 클론하여 재사용 가능한 모델 생성"""

    api_key = os.getenv("ELEVENLABS_API_KEY")
    url = "https://api.elevenlabs.io/v1/voices/add"

    headers = {
        "xi-api-key": api_key
    }

    # 음성 파일들을 멀티파트 폼으로 전송
    files = [
        ("files", (f"sample_{i}.mp3", audio, "audio/mpeg"))
        for i, audio in enumerate(audio_files)
    ]

    data = {
        "name": name,
        "description": description,
        "labels": json.dumps({
            "character_type": "npc",
            "game": "fantasy_rpg",
            "emotion": "friendly"
        })
    }

    response = requests.post(url, headers=headers, data=data, files=files)
    result = response.json()

    # 생성된 voice_id 반환
    return result["voice_id"]

# 상점 주인 음성 클론 생성
voice_id = clone_voice_from_sample(
    name="ShopKeeper_Mira",
    audio_files=[shop_keeper_voice],
    description="밝고 친근한 마을 상점 주인 미라의 음성"
)

print(f"생성된 Voice ID: {voice_id}")

박시니어 씨가 화이트보드에 그림을 그리며 설명했습니다. "VoiceDesign으로 만든 건 일회성 샘플이야.

이걸 Clone하면 영구적으로 사용할 수 있는 모델이 되는 거지." Voice Cloning의 원리는 이렇습니다. AI가 제공된 음성 샘플을 분석합니다.

음색, 발화 패턴, 억양의 특징 등을 추출합니다. 이 정보를 바탕으로 해당 음성을 재현할 수 있는 모델을 생성합니다.

코드에서 가장 중요한 부분은 audio_files 파라미터입니다. 여기에 앞서 VoiceDesign으로 생성한 참조 음성을 전달합니다.

여러 개의 샘플을 제공할수록 더 정확한 클론이 만들어집니다. name은 이 음성 모델의 식별자입니다.

나중에 이 이름으로 음성을 호출하게 됩니다. 김개발 씨는 캐릭터 이름과 역할을 조합해서 "ShopKeeper_Mira"라고 지었습니다.

labels는 선택적이지만 유용한 기능입니다. 메타데이터를 저장해서 나중에 음성을 검색하거나 분류할 때 사용할 수 있습니다.

게임 내 캐릭터 유형, 감정 상태 등을 태그로 달아두면 관리가 편해집니다. 클론 생성이 완료되면 voice_id가 반환됩니다.

이 ID는 해당 음성 모델의 고유 식별자입니다. 앞으로 이 캐릭터의 모든 대사를 생성할 때 이 ID를 사용하게 됩니다.

김개발 씨가 물었습니다. "클론을 만들 때 샘플이 하나만 있어도 되나요?" 박시니어 씨가 답했습니다.

"가능하긴 한데, 여러 개가 있으면 더 좋아. 다양한 문장, 다양한 감정이 담긴 샘플이 있으면 AI가 음성의 특성을 더 정확하게 파악할 수 있거든." 실무에서는 보통 3-5개의 샘플을 사용합니다.

각각 다른 감정이나 상황의 대사를 담는 것이 좋습니다. 평상시 대화, 기쁠 때, 놀랐을 때 등 다양한 뉘앙스를 포함시키면 더 자연스러운 클론이 만들어집니다.

실전 팁

💡 - 샘플 음성의 품질이 클론의 품질을 결정합니다. 깨끗하고 명확한 음성을 사용하세요

labels를 활용해서 캐릭터 메타데이터를 체계적으로 관리하세요

4. 재사용 가능한 캐릭터 구축

클론 생성까지 성공한 김개발 씨는 뿌듯했습니다. 하지만 게임에는 수십 명의 캐릭터가 있습니다.

"이걸 매번 수동으로 하면 시간이 너무 오래 걸릴 텐데... 체계적으로 관리할 방법이 없을까요?"

재사용 가능한 캐릭터 음성 시스템은 캐릭터별 음성 설정을 구조화하여 관리하는 방식입니다. 설정 파일에 캐릭터 정보를 정의하고, 필요할 때 해당 음성을 즉시 호출할 수 있도록 만듭니다.

마치 회사의 연락처 목록처럼 필요한 사람에게 바로 연락할 수 있게 되는 것입니다.

다음 코드를 살펴봅시다.

import json
from dataclasses import dataclass
from typing import Optional

@dataclass
class CharacterVoice:
    """캐릭터 음성 설정 클래스"""
    name: str
    voice_id: str
    description: str
    default_emotion: str = "neutral"
    speed: float = 1.0
    pitch_shift: float = 0.0

class VoiceManager:
    """캐릭터 음성 관리자"""

    def __init__(self, config_path: str):
        self.characters = {}
        self._load_config(config_path)

    def _load_config(self, path: str):
        """설정 파일에서 캐릭터 음성 정보 로드"""
        with open(path, 'r', encoding='utf-8') as f:
            config = json.load(f)

        for char_data in config["characters"]:
            voice = CharacterVoice(**char_data)
            self.characters[voice.name] = voice

    def get_voice(self, character_name: str) -> Optional[CharacterVoice]:
        """캐릭터 이름으로 음성 설정 조회"""
        return self.characters.get(character_name)

    def generate_dialogue(self, character_name: str, text: str):
        """캐릭터 음성으로 대사 생성"""
        voice = self.get_voice(character_name)
        if not voice:
            raise ValueError(f"Unknown character: {character_name}")

        # ElevenLabs API로 음성 생성
        return self._call_tts_api(voice.voice_id, text, voice.speed)

# 사용 예시
manager = VoiceManager("characters.json")
audio = manager.generate_dialogue("ShopKeeper_Mira", "좋은 물건 많이 있어요!")

김개발 씨는 첫 번째 캐릭터 음성을 성공적으로 만들었습니다. 하지만 앞으로 만들어야 할 캐릭터가 50개나 남아있었습니다.

하나하나 수동으로 관리하다가는 끝이 없을 것 같았습니다. 박시니어 씨가 조언했습니다.

"처음부터 체계를 잡아놓으면 나중에 편해져. VoiceManager 같은 관리 클래스를 만들어봐." 이 접근법의 핵심은 캐릭터 음성 정보를 설정 파일로 분리하는 것입니다.

characters.json 같은 파일에 모든 캐릭터의 정보를 저장합니다. 코드에서는 이 파일을 읽어서 사용합니다.

CharacterVoice 데이터클래스는 각 캐릭터의 음성 속성을 담습니다. voice_id는 앞서 Clone으로 생성한 고유 식별자입니다.

default_emotion, speed, pitch_shift 같은 추가 파라미터로 세부 조정도 가능합니다. VoiceManager 클래스는 모든 캐릭터 음성을 총괄합니다.

초기화할 때 설정 파일을 읽어서 딕셔너리에 저장합니다. 이후에는 캐릭터 이름만 알면 해당 음성을 바로 사용할 수 있습니다.

이런 구조의 장점은 명확합니다. 첫째, 새로운 캐릭터를 추가할 때 코드를 수정할 필요가 없습니다.

JSON 파일에 한 줄만 추가하면 됩니다. 둘째, 음성 설정을 변경할 때도 마찬가지입니다.

코드 배포 없이 설정 파일만 수정하면 됩니다. 실무에서는 이 설정 파일을 버전 관리 시스템에 포함시킵니다.

기획자가 캐릭터 정보를 수정하면, 개발자가 코드를 건드리지 않아도 반영됩니다. 협업이 훨씬 수월해지는 것이죠.

김개발 씨는 스프레드시트에 모든 캐릭터 정보를 정리하기 시작했습니다. 이름, 역할, 성격, 목소리 특징.

이것을 JSON으로 변환해서 사용할 계획입니다. "50개 캐릭터도 이 시스템이면 관리할 수 있겠네요!" 김개발 씨의 얼굴이 밝아졌습니다.

실전 팁

💡 - 설정 파일은 환경별로 분리하세요. 개발용과 프로덕션용을 따로 관리하면 안전합니다

캐릭터별 기본 감정이나 말하기 속도를 설정해두면 일관성 유지에 도움됩니다

5. 다양한 대사 생성 테스트

체계적인 관리 시스템까지 구축한 김개발 씨는 이제 본격적으로 대사를 생성해볼 차례입니다. "클론된 음성이 정말 다양한 상황에서도 일관성을 유지할까요?" 직접 테스트해보기로 했습니다.

클론된 음성의 품질을 검증하려면 다양한 유형의 대사로 테스트해야 합니다. 평상시 대화, 감정적인 대사, 긴 문장, 짧은 감탄사 등 여러 상황을 시뮬레이션합니다.

마치 신입 성우의 오디션처럼, 다양한 연기를 요청해서 실력을 확인하는 것과 같습니다.

다음 코드를 살펴봅시다.

import asyncio
from typing import List, Dict

class VoiceTestSuite:
    """음성 클론 품질 테스트 스위트"""

    def __init__(self, voice_manager: VoiceManager):
        self.manager = voice_manager
        self.test_cases = self._create_test_cases()

    def _create_test_cases(self) -> List[Dict]:
        """다양한 테스트 케이스 생성"""
        return [
            {"type": "greeting", "text": "어서 오세요, 손님!"},
            {"type": "long_sentence", "text": "이 검은 전설의 대장장이가 만든 것으로, 드래곤의 비늘도 뚫을 수 있다고 전해집니다."},
            {"type": "emotional", "text": "정말요? 그 소식을 들으니 너무 기뻐요!"},
            {"type": "question", "text": "혹시 무엇을 찾고 계신가요?"},
            {"type": "exclamation", "text": "어머나!"},
            {"type": "farewell", "text": "다음에 또 들러주세요. 좋은 하루 되세요!"}
        ]

    async def run_tests(self, character_name: str) -> Dict:
        """모든 테스트 케이스 실행"""
        results = {"character": character_name, "tests": []}

        for case in self.test_cases:
            audio = await self.manager.generate_dialogue_async(
                character_name, case["text"]
            )

            # 생성된 음성 분석
            analysis = self._analyze_audio(audio)

            results["tests"].append({
                "type": case["type"],
                "text": case["text"],
                "duration": analysis["duration"],
                "consistency_score": analysis["consistency"]
            })

        return results

    def _analyze_audio(self, audio_data) -> Dict:
        """음성 데이터 분석"""
        # 실제로는 음성 분석 라이브러리 사용
        return {"duration": 2.5, "consistency": 0.95}

# 테스트 실행
test_suite = VoiceTestSuite(manager)
results = asyncio.run(test_suite.run_tests("ShopKeeper_Mira"))

for test in results["tests"]:
    print(f"[{test['type']}] 일관성: {test['consistency_score']:.2f}")

김개발 씨는 테스트의 중요성을 잘 알고 있었습니다. 아무리 좋은 시스템을 만들어도, 실제로 잘 작동하는지 확인하지 않으면 의미가 없습니다.

음성 클론을 테스트할 때는 다양성이 핵심입니다. 한 가지 유형의 대사만 테스트하면 숨겨진 문제를 발견할 수 없습니다.

짧은 인사말에서는 괜찮았는데, 긴 문장에서 음질이 떨어지는 경우도 있습니다. VoiceTestSuite 클래스는 체계적인 테스트를 위해 설계되었습니다.

여섯 가지 유형의 테스트 케이스를 정의합니다. 인사말, 긴 문장, 감정적 표현, 질문, 짧은 감탄사, 작별 인사.

각각 다른 특성을 가진 대사들입니다. greeting 테스트는 기본적인 음색을 확인합니다.

가장 자주 사용될 유형의 대사입니다. long_sentence 테스트는 긴 문장에서도 음성이 자연스럽게 이어지는지 봅니다.

중간에 어색하게 끊기거나 톤이 변하지 않는지 확인합니다. emotional 테스트는 감정 표현 능력을 평가합니다.

기쁨, 슬픔, 놀람 같은 감정이 자연스럽게 전달되는지 봅니다. exclamation 테스트는 짧은 감탄사입니다.

"어머나!" 같은 짧은 발화에서도 캐릭터의 특성이 유지되어야 합니다. 비동기 처리를 사용한 이유가 있습니다.

음성 생성 API는 응답 시간이 길 수 있습니다. asyncio를 사용하면 여러 테스트를 효율적으로 실행할 수 있습니다.

실무에서 수백 개의 대사를 생성할 때 큰 차이가 납니다. consistency_score는 원본 참조 음성과 생성된 음성의 유사도입니다.

이 점수가 높을수록 클론의 품질이 좋다는 의미입니다. 일반적으로 0.9 이상이면 양호한 수준으로 봅니다.

김개발 씨는 테스트 결과를 꼼꼼히 살펴봤습니다. 대부분의 케이스에서 0.95 이상의 일관성 점수가 나왔습니다.

다만 감정적인 대사에서 점수가 약간 낮았습니다. 참조 음성에 감정적인 샘플을 더 추가해야 할 것 같았습니다.

실전 팁

💡 - 테스트 케이스는 실제 게임에서 사용될 대사 유형을 반영해야 합니다

일관성 점수가 낮은 유형이 있다면 해당 유형의 참조 샘플을 추가하세요

6. 실전 게임 캐릭터 음성 제작

모든 준비를 마친 김개발 씨는 드디어 실제 게임 캐릭터 음성 제작에 돌입했습니다. 기획팀에서 전달받은 캐릭터 시트와 대사 목록을 펼쳐놓고, 지금까지 배운 모든 것을 종합해서 적용해보기로 했습니다.

실전에서는 캐릭터 설정 문서를 바탕으로 음성을 설계하고, 대사 목록 전체를 일괄 생성합니다. 파이프라인을 구축하여 캐릭터 정의부터 최종 음성 파일 출력까지 자동화합니다.

마치 애니메이션 더빙 스튜디오에서 체계적으로 녹음하는 것과 같습니다.

다음 코드를 살펴봅시다.

import os
from pathlib import Path

class GameVoiceProducer:
    """게임 캐릭터 음성 제작 파이프라인"""

    def __init__(self, output_dir: str):
        self.output_dir = Path(output_dir)
        self.output_dir.mkdir(parents=True, exist_ok=True)
        self.voice_manager = VoiceManager("characters.json")

    async def produce_character_voices(self, character_sheet: Dict):
        """캐릭터 시트를 기반으로 전체 음성 제작"""

        character_name = character_sheet["name"]
        dialogues = character_sheet["dialogues"]

        # 1. 캐릭터 음성이 없으면 새로 생성
        if not self.voice_manager.get_voice(character_name):
            await self._create_character_voice(character_sheet)

        # 2. 모든 대사 음성 생성
        results = []
        for dialogue in dialogues:
            audio_path = await self._generate_and_save(
                character_name,
                dialogue["id"],
                dialogue["text"]
            )
            results.append({
                "dialogue_id": dialogue["id"],
                "file_path": str(audio_path)
            })

        return results

    async def _create_character_voice(self, sheet: Dict):
        """캐릭터 음성 클론 생성"""
        # Voice Design으로 참조 음성 생성
        reference = await create_voice_design_async(
            description=sheet["voice_description"],
            sample_text=sheet["sample_dialogue"]
        )

        # Clone 생성
        voice_id = await clone_voice_async(
            name=sheet["name"],
            audio_files=[reference],
            description=sheet["description"]
        )

        # 설정에 추가
        self.voice_manager.add_character(sheet["name"], voice_id)

    async def _generate_and_save(self, char: str, id: str, text: str):
        """음성 생성 및 파일 저장"""
        audio = await self.voice_manager.generate_dialogue_async(char, text)

        file_path = self.output_dir / char / f"{id}.mp3"
        file_path.parent.mkdir(exist_ok=True)

        with open(file_path, 'wb') as f:
            f.write(audio)

        return file_path

# 실전 사용
producer = GameVoiceProducer("./game_voices")

mira_sheet = {
    "name": "ShopKeeper_Mira",
    "description": "밝고 친근한 마을 상점 주인",
    "voice_description": "젊고 활기찬 여성, 명랑하고 친근한 톤",
    "sample_dialogue": "어서 오세요! 좋은 물건 많아요!",
    "dialogues": [
        {"id": "greeting_01", "text": "어서 오세요, 모험가님!"},
        {"id": "item_desc_01", "text": "이 포션은 체력을 50 회복시켜드려요."},
        {"id": "bargain_01", "text": "에이, 그건 너무 깎는 거 아니에요?"},
        {"id": "farewell_01", "text": "조심히 가세요! 다음에 또 와주세요!"}
    ]
}

results = asyncio.run(producer.produce_character_voices(mira_sheet))
print(f"생성된 음성 파일: {len(results)}개")

프로젝트 마감이 다가오고 있었습니다. 김개발 씨는 50개 캐릭터, 각각 20개 이상의 대사를 처리해야 했습니다.

총 1000개가 넘는 음성 파일이 필요한 상황이었습니다. 수동으로는 불가능한 양입니다.

GameVoiceProducer 클래스는 이 문제를 해결하기 위해 설계되었습니다. 캐릭터 시트만 입력하면 나머지는 자동으로 처리됩니다.

파이프라인의 흐름은 이렇습니다. 먼저 캐릭터의 음성 클론이 있는지 확인합니다.

없다면 _create_character_voice 메서드가 Voice Design과 Clone 과정을 수행합니다. 클론이 준비되면 대사 목록을 순회하며 음성을 생성합니다.

character_sheet의 구조가 중요합니다. 기획팀에서 제공하는 캐릭터 설정 문서와 동일한 형식으로 만들면 협업이 편해집니다.

voice_description에는 음성 특성을, dialogues에는 실제 대사 목록을 넣습니다. 각 대사에는 고유한 id가 있습니다.

"greeting_01", "item_desc_01" 같은 식별자입니다. 이 ID가 파일명이 되어 나중에 게임 엔진에서 쉽게 연결할 수 있습니다.

출력 디렉토리 구조도 체계적입니다. 캐릭터별로 폴더가 생성되고, 그 안에 대사 파일들이 저장됩니다.

./game_voices/ShopKeeper_Mira/greeting_01.mp3 같은 형태입니다. 비동기 처리 덕분에 여러 음성을 병렬로 생성할 수 있습니다.

API 호출 대기 시간을 최소화하여 전체 처리 시간을 크게 단축합니다. 1000개 대사도 합리적인 시간 안에 처리할 수 있습니다.

김개발 씨는 50개 캐릭터 시트를 JSON 파일로 정리했습니다. 루프를 돌며 produce_character_voices를 호출했습니다.

터미널에 진행 상황이 출력되었습니다. 다음 날 아침, 모든 음성 파일이 준비되어 있었습니다.

김개발 씨는 게임 엔진에 파일들을 연결하고 테스트 플레이를 시작했습니다. NPC들이 각자의 목소리로 말하기 시작했습니다.

"상점 주인 미라의 목소리가 정말 생동감 있네요!" 기획팀에서 호평이 이어졌습니다. Voice Design then Clone 워크플로우가 성공적으로 적용된 순간이었습니다.

실전 팁

💡 - 대규모 제작 시 에러 핸들링과 재시도 로직을 반드시 추가하세요

생성된 파일들은 정기적으로 백업하고, 버전 관리하는 것이 좋습니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#TTS#VoiceDesign#VoiceClone#ElevenLabs#CharacterVoice#TTS,Advanced

Voice Design then Clone 워크플로우 완벽 가이드

# Voice Design then Clone 워크플로우 완벽 가이드 AI 음성 합성에서 일관된 캐릭터 음성을 만드는 Voice Design then Clone 워크플로우를 설명합니다. 참조 음성 생성부터 재사용 가능한 캐릭터 구축까지 실무 활용법을 다룹니다. --- ## 목차 1. [일관된_캐릭터_음성_만들기](#일관된-캐릭터-음성-만들기) 2. [VoiceDesign_모델로_참조_생성](#voicedesign-모델로-참조-생성) 3. [Clone_Prompt로_변환](#clone-prompt로-변환) 4. [재사용_가능한_캐릭터_구축](#재사용-가능한-캐릭터-구축) 5. [다양한_대사_생성_테스트](#다양한-대사-생성-테스트) 6. [실전_게임_캐릭터_음성_제작](#실전-게임-캐릭터-음성-제작) --- ## 1. 일관된_캐릭터_음성_만들기 게임 개발사에서 일하는 김개발 씨는 오늘 새로운 미션을 받았습니다. NPC 캐릭터마다 고유한 목소리를 만들어야 하는데, 매번 다른 느낌의 음성이 생성되어 골머리를 앓고 있었습니다. "어떻게 하면 같은 캐릭터가 항상 같은 목소리로 말하게 할 수 있을까요?" **Voice Design then Clone 워크플로우**는 AI로 이상적인 참조 음성을 먼저 설계한 뒤, 이를 복제하여 일관된 음성을 생성하는 기법입니다. 마치 성우를 캐스팅한 뒤 그 성우에게 다양한 대사를 녹음시키는 것과 같습니다. 이 방식을 사용하면 캐릭터의 음성 정체성을 유지하면서도 무한한 대사를 생성할 수 있습니다. 다음 코드를 살펴봅시다. ```python # Voice Design then Clone 워크플로우 개요 from elevenlabs import VoiceDesign, clone, generate # 1단계: 이상적인 캐릭터 음성 설계 voice_design = VoiceDesign( gender="female", age="young", accent="korean", accent_strength=0.8, description="밝고 활기찬 여성 게임 캐릭터" ) # 2단계: 설계한 음성으로 샘플 생성 reference_audio = voice_design.generate_sample( text="안녕하세요! 저는 마을의 상점 주인이에요." ) # 3단계: 샘플을 기반으로 클론 생성 character_voice = clone( name="ShopKeeper_NPC", files=[reference_audio] ) ``` 김개발 씨는 입사 2년 차 게임 개발자입니다. 최근 회사에서 진행 중인 RPG 게임에는 수십 명의 NPC가 등장합니다. 각 NPC마다 고유한 목소리가 필요한데, 문제가 있었습니다. 처음에는 일반 TTS를 사용해서 대사를 생성했습니다. 그런데 같은 캐릭터인데도 대사마다 목소리 톤이 미묘하게 달랐습니다. 마을 상점 주인이 어떤 대사에서는 밝게 말하다가, 다른 대사에서는 갑자기 차분해지는 것처럼 느껴졌습니다. 선배 개발자 박시니어 씨가 김개발 씨의 고민을 듣고 말했습니다. "**Voice Design then Clone** 워크플로우를 사용해봐. 훨씬 일관된 결과를 얻을 수 있을 거야." 이 워크플로우의 핵심 아이디어는 간단합니다. 마치 영화 제작에서 배우를 캐스팅하는 것과 비슷합니다. 영화감독은 먼저 캐릭터에 어울리는 배우를 찾습니다. 그 배우가 정해지면, 그 배우에게 모든 대사를 맡기죠. 배우가 바뀌지 않으니 캐릭터의 일관성이 유지됩니다. **Voice Design**은 바로 그 캐스팅 과정입니다. 성별, 나이, 억양, 말투 등을 지정해서 이상적인 가상의 성우를 만들어냅니다. 이렇게 만들어진 음성 샘플이 바로 그 캐릭터의 기준점이 됩니다. 그 다음 단계가 **Clone**입니다. 만들어진 참조 음성을 복제하여 재사용 가능한 음성 모델을 생성합니다. 이 클론된 음성은 어떤 텍스트를 주더라도 동일한 음색과 특성을 유지합니다. 기존 방식에서는 매번 음성을 생성할 때마다 약간씩 다른 결과가 나왔습니다. 하지만 이 워크플로우를 사용하면 처음 설계한 음성의 특성이 계속 유지됩니다. 게임 플레이어 입장에서는 NPC가 항상 같은 사람처럼 느껴지는 것이죠. 위 코드에서 첫 번째 부분은 **VoiceDesign** 객체를 생성하는 과정입니다. 여기서 캐릭터의 기본 특성을 정의합니다. 두 번째 부분에서는 이 설계를 바탕으로 실제 음성 샘플을 생성합니다. 마지막으로 **clone** 함수를 통해 재사용 가능한 음성 모델을 만듭니다. 이렇게 만들어진 음성 모델은 프로젝트 내에서 언제든지 호출할 수 있습니다. 새로운 대사가 필요할 때마다 이 모델을 사용하면 됩니다. **실전 팁** 💡 - 참조 음성 샘플은 최소 10초 이상의 명확한 발화를 담는 것이 좋습니다 - 캐릭터별로 명확한 네이밍 규칙을 정해두면 관리가 편리합니다 --- ## 2. VoiceDesign_모델로_참조_생성 박시니어 씨의 조언을 들은 김개발 씨는 본격적으로 워크플로우를 적용해보기로 했습니다. 하지만 막상 시작하려니 막막했습니다. "VoiceDesign 모델에서 어떤 파라미터를 어떻게 조절해야 원하는 목소리가 나오는 걸까요?" **VoiceDesign** 모델은 텍스트 프롬프트만으로 새로운 음성을 생성하는 기능입니다. 성별, 나이대, 억양, 감정적 특성 등을 자연어로 설명하면 그에 맞는 음성을 만들어냅니다. 마치 캐릭터 디자이너에게 원하는 인물의 특징을 말로 설명하는 것과 같습니다. 다음 코드를 살펴봅시다. ```python import requests import json # ElevenLabs Voice Design API 호출 def create_voice_design(description: str, sample_text: str): """자연어 설명으로 새로운 음성 생성""" api_key = "your_api_key_here" url = "https://api.elevenlabs.io/v1/voice-generation/generate-voice" # 음성 특성을 자연어로 설명 payload = { "voice_description": description, "text": sample_text, "gender": "female", "age": "young_adult", "accent": "korean", "accent_strength": 0.7 } headers = { "xi-api-key": api_key, "Content-Type": "application/json" } response = requests.post(url, json=payload, headers=headers) # 생성된 음성 데이터 반환 return response.content # 밝고 친근한 상점 주인 음성 생성 shop_keeper_voice = create_voice_design( description="밝고 활기차며 친근한 젊은 여성. 약간 높은 톤으로 명랑하게 말함", sample_text="어서 오세요! 오늘은 특별 할인 중이에요!" ) ``` 김개발 씨는 노트북을 펼치고 VoiceDesign 문서를 읽기 시작했습니다. 처음에는 복잡해 보였지만, 핵심은 의외로 간단했습니다. **VoiceDesign**의 가장 큰 장점은 자연어로 원하는 음성을 설명할 수 있다는 점입니다. 기존에는 피치, 포먼트, 속도 같은 기술적인 수치를 직접 조절해야 했습니다. 하지만 VoiceDesign에서는 그냥 말로 설명하면 됩니다. 예를 들어 "밝고 활기차며 친근한 젊은 여성"이라고 입력하면, AI가 그 설명에 맞는 음성을 생성해줍니다. 마치 카페에서 바리스타에게 "부드럽고 달콤한 커피"라고 주문하는 것과 비슷합니다. 세부적인 레시피를 몰라도 원하는 맛을 얻을 수 있죠. 코드를 살펴보면, **voice_description** 파라미터가 핵심입니다. 여기에 캐릭터의 성격과 말투를 자유롭게 적으면 됩니다. "차분하고 지적인 중년 남성" 또는 "장난기 넘치는 10대 소년" 같은 식으로요. **gender**, **age**, **accent** 파라미터는 보조 역할을 합니다. 자연어 설명을 보완해서 더 정확한 결과를 얻도록 도와줍니다. accent_strength는 억양의 강도를 조절합니다. 0에 가까우면 표준적인 발음, 1에 가까우면 해당 지역 억양이 강하게 나타납니다. **text** 파라미터에는 샘플 문장을 넣습니다. 이 문장이 생성된 음성으로 발화됩니다. 캐릭터의 특성을 잘 보여주는 대표 대사를 넣는 것이 좋습니다. 상점 주인이라면 환영 인사, 전사 캐릭터라면 전투 함성 같은 것이죠. 김개발 씨는 여러 번 테스트를 해봤습니다. 설명을 조금씩 바꿔가며 원하는 느낌에 가까워질 때까지 반복했습니다. "너무 밝으면 가볍게 느껴지고, 너무 차분하면 상점 주인답지 않네..." 몇 번의 시도 끝에 마침내 만족스러운 음성이 나왔습니다. 밝지만 신뢰감 있는, 딱 마을 상점 주인에게 어울리는 목소리였습니다. 생성된 음성 데이터는 바이너리 형태로 반환됩니다. 이것을 파일로 저장하거나, 다음 단계인 Clone 과정에 바로 사용할 수 있습니다. **실전 팁** 💡 - 음성 설명은 구체적일수록 좋습니다. "친근한"보다 "이웃집 언니처럼 친근한"이 더 명확합니다 - 여러 버전을 생성해보고 가장 적합한 것을 선택하세요 --- ## 3. Clone_Prompt로_변환 김개발 씨는 마침내 원하는 참조 음성을 만들었습니다. 이제 다음 단계입니다. "이 음성을 어떻게 복제해서 다른 대사에도 사용할 수 있게 만드나요?" 박시니어 씨가 화면을 가리키며 설명을 시작했습니다. **Voice Cloning**은 참조 음성을 분석하여 그 특성을 학습한 음성 모델을 만드는 과정입니다. 한 번 클론을 생성하면, 어떤 텍스트든 그 음성으로 변환할 수 있습니다. 마치 성우를 고용해서 전속 계약을 맺는 것과 같습니다. 다음 코드를 살펴봅시다. ```python import requests import os def clone_voice_from_sample(name: str, audio_files: list, description: str): """생성된 참조 음성을 클론하여 재사용 가능한 모델 생성""" api_key = os.getenv("ELEVENLABS_API_KEY") url = "https://api.elevenlabs.io/v1/voices/add" headers = { "xi-api-key": api_key } # 음성 파일들을 멀티파트 폼으로 전송 files = [ ("files", (f"sample_{i}.mp3", audio, "audio/mpeg")) for i, audio in enumerate(audio_files) ] data = { "name": name, "description": description, "labels": json.dumps({ "character_type": "npc", "game": "fantasy_rpg", "emotion": "friendly" }) } response = requests.post(url, headers=headers, data=data, files=files) result = response.json() # 생성된 voice_id 반환 return result["voice_id"] # 상점 주인 음성 클론 생성 voice_id = clone_voice_from_sample( name="ShopKeeper_Mira", audio_files=[shop_keeper_voice], description="밝고 친근한 마을 상점 주인 미라의 음성" ) print(f"생성된 Voice ID: {voice_id}") ``` 박시니어 씨가 화이트보드에 그림을 그리며 설명했습니다. "VoiceDesign으로 만든 건 일회성 샘플이야. 이걸 Clone하면 영구적으로 사용할 수 있는 모델이 되는 거지." **Voice Cloning**의 원리는 이렇습니다. AI가 제공된 음성 샘플을 분석합니다. 음색, 발화 패턴, 억양의 특징 등을 추출합니다. 이 정보를 바탕으로 해당 음성을 재현할 수 있는 모델을 생성합니다. 코드에서 가장 중요한 부분은 **audio_files** 파라미터입니다. 여기에 앞서 VoiceDesign으로 생성한 참조 음성을 전달합니다. 여러 개의 샘플을 제공할수록 더 정확한 클론이 만들어집니다. **name**은 이 음성 모델의 식별자입니다. 나중에 이 이름으로 음성을 호출하게 됩니다. 김개발 씨는 캐릭터 이름과 역할을 조합해서 "ShopKeeper_Mira"라고 지었습니다. **labels**는 선택적이지만 유용한 기능입니다. 메타데이터를 저장해서 나중에 음성을 검색하거나 분류할 때 사용할 수 있습니다. 게임 내 캐릭터 유형, 감정 상태 등을 태그로 달아두면 관리가 편해집니다. 클론 생성이 완료되면 **voice_id**가 반환됩니다. 이 ID는 해당 음성 모델의 고유 식별자입니다. 앞으로 이 캐릭터의 모든 대사를 생성할 때 이 ID를 사용하게 됩니다. 김개발 씨가 물었습니다. "클론을 만들 때 샘플이 하나만 있어도 되나요?" 박시니어 씨가 답했습니다. "가능하긴 한데, 여러 개가 있으면 더 좋아. 다양한 문장, 다양한 감정이 담긴 샘플이 있으면 AI가 음성의 특성을 더 정확하게 파악할 수 있거든." 실무에서는 보통 3-5개의 샘플을 사용합니다. 각각 다른 감정이나 상황의 대사를 담는 것이 좋습니다. 평상시 대화, 기쁠 때, 놀랐을 때 등 다양한 뉘앙스를 포함시키면 더 자연스러운 클론이 만들어집니다. **실전 팁** 💡 - 샘플 음성의 품질이 클론의 품질을 결정합니다. 깨끗하고 명확한 음성을 사용하세요 - labels를 활용해서 캐릭터 메타데이터를 체계적으로 관리하세요 --- ## 4. 재사용_가능한_캐릭터_구축 클론 생성까지 성공한 김개발 씨는 뿌듯했습니다. 하지만 게임에는 수십 명의 캐릭터가 있습니다. "이걸 매번 수동으로 하면 시간이 너무 오래 걸릴 텐데... 체계적으로 관리할 방법이 없을까요?" 재사용 가능한 캐릭터 음성 시스템은 캐릭터별 음성 설정을 구조화하여 관리하는 방식입니다. 설정 파일에 캐릭터 정보를 정의하고, 필요할 때 해당 음성을 즉시 호출할 수 있도록 만듭니다. 마치 회사의 연락처 목록처럼 필요한 사람에게 바로 연락할 수 있게 되는 것입니다. 다음 코드를 살펴봅시다. ```python import json from dataclasses import dataclass from typing import Optional @dataclass class CharacterVoice: """캐릭터 음성 설정 클래스""" name: str voice_id: str description: str default_emotion: str = "neutral" speed: float = 1.0 pitch_shift: float = 0.0 class VoiceManager: """캐릭터 음성 관리자""" def __init__(self, config_path: str): self.characters = {} self._load_config(config_path) def _load_config(self, path: str): """설정 파일에서 캐릭터 음성 정보 로드""" with open(path, 'r', encoding='utf-8') as f: config = json.load(f) for char_data in config["characters"]: voice = CharacterVoice(**char_data) self.characters[voice.name] = voice def get_voice(self, character_name: str) -> Optional[CharacterVoice]: """캐릭터 이름으로 음성 설정 조회""" return self.characters.get(character_name) def generate_dialogue(self, character_name: str, text: str): """캐릭터 음성으로 대사 생성""" voice = self.get_voice(character_name) if not voice: raise ValueError(f"Unknown character: {character_name}") # ElevenLabs API로 음성 생성 return self._call_tts_api(voice.voice_id, text, voice.speed) # 사용 예시 manager = VoiceManager("characters.json") audio = manager.generate_dialogue("ShopKeeper_Mira", "좋은 물건 많이 있어요!") ``` 김개발 씨는 첫 번째 캐릭터 음성을 성공적으로 만들었습니다. 하지만 앞으로 만들어야 할 캐릭터가 50개나 남아있었습니다. 하나하나 수동으로 관리하다가는 끝이 없을 것 같았습니다. 박시니어 씨가 조언했습니다. "처음부터 체계를 잡아놓으면 나중에 편해져. **VoiceManager** 같은 관리 클래스를 만들어봐." 이 접근법의 핵심은 캐릭터 음성 정보를 **설정 파일**로 분리하는 것입니다. characters.json 같은 파일에 모든 캐릭터의 정보를 저장합니다. 코드에서는 이 파일을 읽어서 사용합니다. **CharacterVoice** 데이터클래스는 각 캐릭터의 음성 속성을 담습니다. voice_id는 앞서 Clone으로 생성한 고유 식별자입니다. default_emotion, speed, pitch_shift 같은 추가 파라미터로 세부 조정도 가능합니다. **VoiceManager** 클래스는 모든 캐릭터 음성을 총괄합니다. 초기화할 때 설정 파일을 읽어서 딕셔너리에 저장합니다. 이후에는 캐릭터 이름만 알면 해당 음성을 바로 사용할 수 있습니다. 이런 구조의 장점은 명확합니다. 첫째, 새로운 캐릭터를 추가할 때 코드를 수정할 필요가 없습니다. JSON 파일에 한 줄만 추가하면 됩니다. 둘째, 음성 설정을 변경할 때도 마찬가지입니다. 코드 배포 없이 설정 파일만 수정하면 됩니다. 실무에서는 이 설정 파일을 버전 관리 시스템에 포함시킵니다. 기획자가 캐릭터 정보를 수정하면, 개발자가 코드를 건드리지 않아도 반영됩니다. 협업이 훨씬 수월해지는 것이죠. 김개발 씨는 스프레드시트에 모든 캐릭터 정보를 정리하기 시작했습니다. 이름, 역할, 성격, 목소리 특징. 이것을 JSON으로 변환해서 사용할 계획입니다. "50개 캐릭터도 이 시스템이면 관리할 수 있겠네요!" 김개발 씨의 얼굴이 밝아졌습니다. **실전 팁** 💡 - 설정 파일은 환경별로 분리하세요. 개발용과 프로덕션용을 따로 관리하면 안전합니다 - 캐릭터별 기본 감정이나 말하기 속도를 설정해두면 일관성 유지에 도움됩니다 --- ## 5. 다양한_대사_생성_테스트 체계적인 관리 시스템까지 구축한 김개발 씨는 이제 본격적으로 대사를 생성해볼 차례입니다. "클론된 음성이 정말 다양한 상황에서도 일관성을 유지할까요?" 직접 테스트해보기로 했습니다. 클론된 음성의 품질을 검증하려면 다양한 유형의 대사로 테스트해야 합니다. 평상시 대화, 감정적인 대사, 긴 문장, 짧은 감탄사 등 여러 상황을 시뮬레이션합니다. 마치 신입 성우의 오디션처럼, 다양한 연기를 요청해서 실력을 확인하는 것과 같습니다. 다음 코드를 살펴봅시다. ```python import asyncio from typing import List, Dict class VoiceTestSuite: """음성 클론 품질 테스트 스위트""" def __init__(self, voice_manager: VoiceManager): self.manager = voice_manager self.test_cases = self._create_test_cases() def _create_test_cases(self) -> List[Dict]: """다양한 테스트 케이스 생성""" return [ {"type": "greeting", "text": "어서 오세요, 손님!"}, {"type": "long_sentence", "text": "이 검은 전설의 대장장이가 만든 것으로, 드래곤의 비늘도 뚫을 수 있다고 전해집니다."}, {"type": "emotional", "text": "정말요? 그 소식을 들으니 너무 기뻐요!"}, {"type": "question", "text": "혹시 무엇을 찾고 계신가요?"}, {"type": "exclamation", "text": "어머나!"}, {"type": "farewell", "text": "다음에 또 들러주세요. 좋은 하루 되세요!"} ] async def run_tests(self, character_name: str) -> Dict: """모든 테스트 케이스 실행""" results = {"character": character_name, "tests": []} for case in self.test_cases: audio = await self.manager.generate_dialogue_async( character_name, case["text"] ) # 생성된 음성 분석 analysis = self._analyze_audio(audio) results["tests"].append({ "type": case["type"], "text": case["text"], "duration": analysis["duration"], "consistency_score": analysis["consistency"] }) return results def _analyze_audio(self, audio_data) -> Dict: """음성 데이터 분석""" # 실제로는 음성 분석 라이브러리 사용 return {"duration": 2.5, "consistency": 0.95} # 테스트 실행 test_suite = VoiceTestSuite(manager) results = asyncio.run(test_suite.run_tests("ShopKeeper_Mira")) for test in results["tests"]: print(f"[{test['type']}] 일관성: {test['consistency_score']:.2f}") ``` 김개발 씨는 테스트의 중요성을 잘 알고 있었습니다. 아무리 좋은 시스템을 만들어도, 실제로 잘 작동하는지 확인하지 않으면 의미가 없습니다. 음성 클론을 테스트할 때는 **다양성**이 핵심입니다. 한 가지 유형의 대사만 테스트하면 숨겨진 문제를 발견할 수 없습니다. 짧은 인사말에서는 괜찮았는데, 긴 문장에서 음질이 떨어지는 경우도 있습니다. **VoiceTestSuite** 클래스는 체계적인 테스트를 위해 설계되었습니다. 여섯 가지 유형의 테스트 케이스를 정의합니다. 인사말, 긴 문장, 감정적 표현, 질문, 짧은 감탄사, 작별 인사. 각각 다른 특성을 가진 대사들입니다. **greeting** 테스트는 기본적인 음색을 확인합니다. 가장 자주 사용될 유형의 대사입니다. **long_sentence** 테스트는 긴 문장에서도 음성이 자연스럽게 이어지는지 봅니다. 중간에 어색하게 끊기거나 톤이 변하지 않는지 확인합니다. **emotional** 테스트는 감정 표현 능력을 평가합니다. 기쁨, 슬픔, 놀람 같은 감정이 자연스럽게 전달되는지 봅니다. **exclamation** 테스트는 짧은 감탄사입니다. "어머나!" 같은 짧은 발화에서도 캐릭터의 특성이 유지되어야 합니다. 비동기 처리를 사용한 이유가 있습니다. 음성 생성 API는 응답 시간이 길 수 있습니다. **asyncio**를 사용하면 여러 테스트를 효율적으로 실행할 수 있습니다. 실무에서 수백 개의 대사를 생성할 때 큰 차이가 납니다. **consistency_score**는 원본 참조 음성과 생성된 음성의 유사도입니다. 이 점수가 높을수록 클론의 품질이 좋다는 의미입니다. 일반적으로 0.9 이상이면 양호한 수준으로 봅니다. 김개발 씨는 테스트 결과를 꼼꼼히 살펴봤습니다. 대부분의 케이스에서 0.95 이상의 일관성 점수가 나왔습니다. 다만 감정적인 대사에서 점수가 약간 낮았습니다. 참조 음성에 감정적인 샘플을 더 추가해야 할 것 같았습니다. **실전 팁** 💡 - 테스트 케이스는 실제 게임에서 사용될 대사 유형을 반영해야 합니다 - 일관성 점수가 낮은 유형이 있다면 해당 유형의 참조 샘플을 추가하세요 --- ## 6. 실전_게임_캐릭터_음성_제작 모든 준비를 마친 김개발 씨는 드디어 실제 게임 캐릭터 음성 제작에 돌입했습니다. 기획팀에서 전달받은 캐릭터 시트와 대사 목록을 펼쳐놓고, 지금까지 배운 모든 것을 종합해서 적용해보기로 했습니다. 실전에서는 캐릭터 설정 문서를 바탕으로 음성을 설계하고, 대사 목록 전체를 일괄 생성합니다. 파이프라인을 구축하여 캐릭터 정의부터 최종 음성 파일 출력까지 자동화합니다. 마치 애니메이션 더빙 스튜디오에서 체계적으로 녹음하는 것과 같습니다. 다음 코드를 살펴봅시다. ```python import os from pathlib import Path class GameVoiceProducer: """게임 캐릭터 음성 제작 파이프라인""" def __init__(self, output_dir: str): self.output_dir = Path(output_dir) self.output_dir.mkdir(parents=True, exist_ok=True) self.voice_manager = VoiceManager("characters.json") async def produce_character_voices(self, character_sheet: Dict): """캐릭터 시트를 기반으로 전체 음성 제작""" character_name = character_sheet["name"] dialogues = character_sheet["dialogues"] # 1. 캐릭터 음성이 없으면 새로 생성 if not self.voice_manager.get_voice(character_name): await self._create_character_voice(character_sheet) # 2. 모든 대사 음성 생성 results = [] for dialogue in dialogues: audio_path = await self._generate_and_save( character_name, dialogue["id"], dialogue["text"] ) results.append({ "dialogue_id": dialogue["id"], "file_path": str(audio_path) }) return results async def _create_character_voice(self, sheet: Dict): """캐릭터 음성 클론 생성""" # Voice Design으로 참조 음성 생성 reference = await create_voice_design_async( description=sheet["voice_description"], sample_text=sheet["sample_dialogue"] ) # Clone 생성 voice_id = await clone_voice_async( name=sheet["name"], audio_files=[reference], description=sheet["description"] ) # 설정에 추가 self.voice_manager.add_character(sheet["name"], voice_id) async def _generate_and_save(self, char: str, id: str, text: str): """음성 생성 및 파일 저장""" audio = await self.voice_manager.generate_dialogue_async(char, text) file_path = self.output_dir / char / f"{id}.mp3" file_path.parent.mkdir(exist_ok=True) with open(file_path, 'wb') as f: f.write(audio) return file_path # 실전 사용 producer = GameVoiceProducer("./game_voices") mira_sheet = { "name": "ShopKeeper_Mira", "description": "밝고 친근한 마을 상점 주인", "voice_description": "젊고 활기찬 여성, 명랑하고 친근한 톤", "sample_dialogue": "어서 오세요! 좋은 물건 많아요!", "dialogues": [ {"id": "greeting_01", "text": "어서 오세요, 모험가님!"}, {"id": "item_desc_01", "text": "이 포션은 체력을 50 회복시켜드려요."}, {"id": "bargain_01", "text": "에이, 그건 너무 깎는 거 아니에요?"}, {"id": "farewell_01", "text": "조심히 가세요! 다음에 또 와주세요!"} ] } results = asyncio.run(producer.produce_character_voices(mira_sheet)) print(f"생성된 음성 파일: {len(results)}개") ``` 프로젝트 마감이 다가오고 있었습니다. 김개발 씨는 50개 캐릭터, 각각 20개 이상의 대사를 처리해야 했습니다. 총 1000개가 넘는 음성 파일이 필요한 상황이었습니다. 수동으로는 불가능한 양입니다. **GameVoiceProducer** 클래스는 이 문제를 해결하기 위해 설계되었습니다. 캐릭터 시트만 입력하면 나머지는 자동으로 처리됩니다. 파이프라인의 흐름은 이렇습니다. 먼저 캐릭터의 음성 클론이 있는지 확인합니다. 없다면 **_create_character_voice** 메서드가 Voice Design과 Clone 과정을 수행합니다. 클론이 준비되면 대사 목록을 순회하며 음성을 생성합니다. **character_sheet**의 구조가 중요합니다. 기획팀에서 제공하는 캐릭터 설정 문서와 동일한 형식으로 만들면 협업이 편해집니다. voice_description에는 음성 특성을, dialogues에는 실제 대사 목록을 넣습니다. 각 대사에는 고유한 **id**가 있습니다. "greeting_01", "item_desc_01" 같은 식별자입니다. 이 ID가 파일명이 되어 나중에 게임 엔진에서 쉽게 연결할 수 있습니다. 출력 디렉토리 구조도 체계적입니다. 캐릭터별로 폴더가 생성되고, 그 안에 대사 파일들이 저장됩니다. ./game_voices/ShopKeeper_Mira/greeting_01.mp3 같은 형태입니다. 비동기 처리 덕분에 여러 음성을 병렬로 생성할 수 있습니다. API 호출 대기 시간을 최소화하여 전체 처리 시간을 크게 단축합니다. 1000개 대사도 합리적인 시간 안에 처리할 수 있습니다. 김개발 씨는 50개 캐릭터 시트를 JSON 파일로 정리했습니다. 루프를 돌며 **produce_character_voices**를 호출했습니다. 터미널에 진행 상황이 출력되었습니다. 다음 날 아침, 모든 음성 파일이 준비되어 있었습니다. 김개발 씨는 게임 엔진에 파일들을 연결하고 테스트 플레이를 시작했습니다. NPC들이 각자의 목소리로 말하기 시작했습니다. "상점 주인 미라의 목소리가 정말 생동감 있네요!" 기획팀에서 호평이 이어졌습니다. Voice Design then Clone 워크플로우가 성공적으로 적용된 순간이었습니다. **실전 팁** 💡 - 대규모 제작 시 에러 핸들링과 재시도 로직을 반드시 추가하세요 - 생성된 파일들은 정기적으로 백업하고, 버전 관리하는 것이 좋습니다 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: TTS,Advanced

언어: Python

태그: TTS, VoiceDesign, VoiceClone, ElevenLabs, CharacterVoice, TTS,Advanced

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

Voice Design then Clone 워크플로우 완벽 가이드

목차

1. 일관된 캐릭터 음성 만들기

2. VoiceDesign 모델로 참조 생성

3. Clone Prompt로 변환

4. 재사용 가능한 캐릭터 구축

5. 다양한 대사 생성 테스트

6. 실전 게임 캐릭터 음성 제작

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용

실전 인프라 자동화 프로젝트 완벽 가이드