최근, 문장에서 병렬적으로 Mel-spectrogram을 생성할 수 있는, FastSpeech, ParaNet과 같은 TTS 모델이 제안된 바 있다. 여러 장점을 선보였지만, 앞서 언급한 병렬적 TTS 모델들은 외부 정렬기의 역할을 담당하는 자기 회귀 TTS 모델의 지도 없이는 학습을 진행할 수 없다는 한계점을 지니고 있다. 이 연구에서는 외부 정렬기 없이도 병렬적 TTS를 가능케 하는 Flow 기반 생성 모델, Glow-TTS를 제안하고, Glow-TTS의 학습을 위한 자체적 정렬 탐색 알고리즘, Monotonic Alignment Search(MAS)를 소개한다. MAS는 Flow의 성질을 활용하여 주어진 문장과 음성의 잠재 표현 간의 가장 적합한 단조적 정렬 상태를 탐색한다. Glow-TTS는 자기 회귀 TTS 모델인 Tacotron2보다 훨씬 빠른 속도로 음성을 합성하면서도, 비슷한 수준의 음질을 보여준다. End-to-end로 1분 길이의 음성을 합성하는 데에는 단 1.5초가 소요된다. 또한 이 모델은 큰 어려움 없이 복수의 발화자를 학습할 수 있도록 확장될 수 있다.
GT
GT(Multi-band MelGAN)
Glow-TTS (T=0.333)
Glow-TTS (T=0.500)
Glow-TTS (T=0.667)
GT
GT(Multi-band MelGAN)
Glow-TTS (T=0.333)
Glow-TTS (T=0.500)
Glow-TTS (T=0.667)
GT
GT(Multi-band MelGAN)
Glow-TTS (T=0.333)
Glow-TTS (T=0.500)
Glow-TTS (T=0.667)
GT
GT(Multi-band MelGAN)
Glow-TTS (T=0.333)
Glow-TTS (T=0.500)
Glow-TTS (T=0.667)
Same gaussian noise ε, different temperature T=0.100
Same gaussian noise ε, different temperature T=0.333
Same gaussian noise ε, different temperature T=0.667
Same gaussian noise ε, different temperature T=1.000
Different gaussian noise ε1, same temperature T=0.333
Different gaussian noise ε2, same temperature T=0.333
Different gaussian noise ε3, same temperature T=0.333
Different gaussian noise ε1, same temperature T=0.667
Different gaussian noise ε2, same temperature T=0.667
Different gaussian noise ε3, same temperature T=0.667
Predicted Duration x 0.50
Predicted Duration x 0.75
Predicted Duration x 1.00
Predicted Duration x 1.25
Predicted Duration x 1.50
Predicted Duration x 0.50
Predicted Duration x 0.75
Predicted Duration x 1.00
Predicted Duration x 1.25
Predicted Duration x 1.50
Predicted Duration x 0.50
Predicted Duration x 0.75
Predicted Duration x 1.00
Predicted Duration x 1.25
Predicted Duration x 1.50