Synteza mowy II: Akcent i zabawa dźwiękiem

08.03.2010 - Krzysztof Kercz

Kontynuujemy nasze zmagania na drodze ku stworzeniu syntezatora mowy. Poprzednio opowiedzieliśmy o zamianie tekstu pisanego na ciąg fonemów i skończyliśmy na zaprojektowaniu algorytmu, który takiej zamiany dokonywał. Dziś osiągniemy kolejny stopień wtajemniczenia.

Gdy wiemy już co chcemy mówić, powinniśmy uświadomić sobie jak mówić. W tym artykule nauczymy się obsługiwać pliki dźwiękowe i dowiemy się, jak dokonywać podstawowych przekształceń nagranych głosek (np. zwiększenie głośności). Jednak, by naszą nowo nabytą wiedzę odpowiednio wykorzystać, pogawędzimy też chwilę o akcentach (ich znaczeniu i miejscu występowania), sylabach (co to jest sylaba? jak dzielić słowa na sylaby?) i ogólnie o tym, jak to się dzieje, że ludzka mowa nie jest usypiająca.

Wydawałoby się, że - mając ciągi głosek - nic prostszego teraz jak wziąć nagrania każdej z nich i sklejać je, by otrzymać prosty syntezator. Wybiegając trochę do przodu powiem od razu: tak właśnie będziemy robić (i to już w najbliższej - trzeciej - części!). Jednak zanim zaczniemy, powinniśmy sobie uświadomić, że język mówiony posiada jedną ważną cechę, którą musimy uwzględnić w naszym programie: akcent.

Akcent to - najprościej mówiąc - podkreślenie pewnych sylab w słowie poprzez wymówienie ich w specjalny sposób. W języku polskim przy wymowie sylaby akcentowanej intensywniej wydychamy powietrze, co sprawia, że sylaba jest głośniejsza, dłuższa i ma trochę wyższy ton. Spróbujmy powiedzieć jakiś rozbudowany tekst nie akcentując żadnej z sylab: mowa nasza zabrzmi monotonnie, sztucznie (jak głosy robotów z dawnych filmów Sci-Fi) a co najgorsze - po prostu ciężko będzie nas zrozumieć! Nie chcemy, by nasz syntezator dukał w ten sposób. Nauczymy się zatem, jak zrealizować akcent!