Najdłuższy wspólny podciąg

02.10.2010 - Marcin Oczeretko

Algorytm, który wyznacza najdłuższy wspólny podciąg (z ang. LCS - Longest Common Subsequence) dwóch wyrazów, jest eleganckim przykładem potęgi programowania dynamicznego. Rozwiązanie konstruowane jest stopniowo - zaczynamy od mniejszych (zatem łatwiejszych) podproblemów. Wyniki dla nich pozwolą nam na zgrabne utworzenie odpowiedzi dla pierwotnego zadania.

Jeśli jakieś pojęcia w tym tekście wydadzą ci się niejasne, zawsze możesz zajrzeć do artykułu o podstawach algorytmów tekstowych [1].

Definicja problemu

Przez większość tego tekstu będziemy starali się rozwiązać jeden problem, wypada zatem opisać go w ścisły i jednoznaczny sposób. Aby to uczynić wprowadźmy najpierw następujące pojęcie:

Niech $A$ i $B$ będą dwoma wyrazami (czyli ciągami liter, zakładamy to dla wygody - w rzeczywistości mogą to być dowolne ciągi). Mówimy, że $A$ jest podciągiem $B$ wtedy i tylko wtedy, gdy istnieje taki rosnący ciąg liczb naturalnych $x_i$ , że zachodzi:

$A[i] = B[x_i]$ dla wszystkich $i = 1 \ldots n$ , gdzie $n$ to długość wyrazu $A$ , a $A[i]$ oznacza i-tą literkę z $A$ .

Czyli, w prostszych słowach, $A$ jest podciągiem $B$ , jeśli potrafimy tak wybierać z $B$ kolejne literki, aby utworzyć wyraz $A$ .

Wyraz "mister" jest podciągiem wyrazu "marcinjestsuper"

Teraz możemy w końcu zdefiniować problem przewodni tego artykułu:

Dla danych dwóch wyrazów $W_1$ i $W_2$ należy znaleźć najdłuższy taki wyraz $P$ , aby $P$ był podciągiem $W_1$ i podciągiem $W_2$ .

Wyraz "KREA" jest najdłuższym wspólnym podciągiem "KARUZELA" i "KURIERA".

Rozwiązanie

Zdefiniujmy najpierw jeszcze jedno pomocnicze pojęcie:

Niech $A_i$ będzie wyrazem złożonym z pierwszych $i$ liter $A$ . $A_i$ nazywamy prefiksem słowa $A$ . $A_0$ uznawać będziemy za wyraz złożony z zera liter (czyli słowo puste).

Przykładowe prefiksy wyrazu "makarony".

Optymalny algorytm będzie wprost wynikał z dwóch prostych obserwacji.

Obserwacja pierwsza

Załóżmy, że znamy długość najdłuższego wspólnego podciągu dla par prefiksów:

$A_i$ i $B_j$ ,
$A_{i+1}$ i $B_j$ ,
$A_i$ i $B_{j+1}$ .

Na podstawie powyższych informacji spróbujemy teraz wyliczyć długość LCS dla $A_{i+1}$ i $B_{j+1}$ . Rozpatrzymy dwa przypadki:

a) Jeśli $A[i+1]=x$ i $B[j+1]=x$ to LCS dla tych dwóch wyrazów może zostać utworzony poprzez dodanie literki $x$ na koniec LCS dla wyrazów $A_i$ i $B_j$ . Dlaczego? Gdyby w najdłuższym wspólnym podciągu $A_{i+1}$ i $B_{j+1}$ nie było literki $x$ na końcu, moglibyśmy go przedłużyć, dokładając doń ostatnią literkę $A_{i+1}$ i $B_{j+1}$ (czyli właśnie tego $x$ ). Ale wtedy powstałby podciąg dłuższy od najdłuższego! Literka $x$ musi być więc ostatnią literką każdego poprawnie wyliczonego LCS. Najmniej "utracimy" zatem jeśli źródłem literki $x$ będą końce $A_{i+1}$ i $B_{j+1}$ - pozostanie wtenczas jeszcze $i$ literek prefiksu $A$ i $j$ literek prefiksu $B$ i z nich tworzyć będziemy resztę najdłuższego wspólnego podciągu.

Znaleziony LCS (kolor zielony) można przedłużyć o wspólną literkę 'r'

b) Jeśli $A[i+1]=x$ a $B[j+1]=y$ i $x\neq y$ , to LCS dla $A_{i+1}$ i $B_{j+1}$ jest też LCS dla co najmniej jednej z dwóch par: $A_{i}$ i $B_{j+1}$ lub $A_{i+1}$ i $B_{j}$ . Skąd taki wniosek? Ostatnią literką najdłuższego wspólnego podciągu dla $A_{i+1}$ i $B_{j+1}$ nie mogą być jednocześnie $x$ i $y$ (bo to dwie różne literki). Zatem jeden z wyrazów $A_{i+1}$ i $B_{j+1}$ możemy bez żadnej straty pozbawić jego ostatniej literki. Nie wiemy jednak który z nich, zatem zwyczajnie sprawdzimy obie możliwości i wybierzemy tę, która daje lepszy wynik.

Najdłuższy wspólny podciąg dla "dolinie" i "jogini" jest jednocześnie najdłużym wspólnym podciągiem "dolini" oraz "jogini"

Czyli możemy z pewnością stwierdzić, że $LCS(i+1,j+1)$ (tak będziemy od teraz oznaczać długość LCS dla pary $A_{i+1}$ , $B_{j+1}$ ) to:

$1 + LCS(i,j)$ , jeśli $A[i+1]=B[j+1]$ (przypadek a),
$max\{ LCS(i+1,j) , LCS(i,j+1) \}$ , jeśli $A[i+1] \neq B[j+1]$ (przypadek b).

Obserwacja druga

LCS dla $A_0$ i $B_j$ zawsze składa się z zera literek. Jest to dość oczywiste - w $A_0$ nie ma żadnej literki, więc nic dłuższego niż słowo puste nie może być podciągiem $A_0$ . Analogicznie: LCS dla $A_i$ i $B_0$ też ma zawsze zero literek. Prawdziwe są zatem następujące równości:

$LCS(i,0) = 0$ dla każdego naturalnego $i$
$LCS(0,j) = 0$ dla każdego naturalnego $j$

Algorytm

Jeśli poniższy opis wyda ci się niejasny, możesz spojrzeć na szóstą stronę tego tekstu, gdzie znajduje się przykład działania algorytmu na dwóch konkretnych wyrazach.

Jeśli liczby $n$ i $m$ są długościami odpowiednio $A$ i $B$ , to z pewnością $A_n = A$ i $B_m = B$ . Wtedy $LCS(n,m)$ oznacza długość najdłuższego wspólnego podciągu dla całych wyrazów $A$ i $B$ . Aby wyliczyć tę wartość, utworzymy tablicę o wymiarach $n+1$ na $m+1$ komórek, bowiem w komórce $(i,j)$ chcemy przechowywać liczbę $LCS(i,j)$ (dla $i \in \{0,1, \ldots, n\}$ oraz $j \in \{0,1, \ldots, m\}$ ). Druga obserwacja pozwoli nam na wpisanie do tej tablicy pewnej liczby początkowych wartości, wzór z obserwacji pierwszej posłuży do dalszego wypełniania komórek.

Przykładowa tablica, która może posłużyć do wyznaczenia LCS dla dwóch słów o długości $8$ .

Skoro prawdą jest, że $LCS(i,0) = 0$ i $LCS(0,j) = 0$ , to zerowy wiersz i zerową kolumnę tabeli wypełnić należy zerami.

Wpisujemy zera.

Teraz zajmiemy się dalszym uzupełnianiem tabeli. Będziemy wyliczać wartości w kolejnych wierszach, idąc od lewej do prawej. Dzięki temu w chwili, gdy przyjdzie nam ustalać wartość w komórce $(i,j)$ , wszystkie potrzebne nam do tego komórki będą już poprawnie wypełnione. Z obserwacji pierwszej wynika bowiem, że wartość w $(i,j)$ zależeć może jedynie od trzech komórek: $(i-1,j-1)$ , $(i,j-1)$ , $(i-1,j)$ .

W takiej kolejności będziemy wypełniać komórki tablicy.

Jak wyliczamy wartość w polu $(i,j)$ ? Jeśli $A[i]=B[j]$ , to zgodnie ze wzorem z obserwacji pierszej musimy dodać jeden do $(i-1,j-1)$ . Jeśli jednak $A[i] \neq B[j]$ , to w $(i,j)$ wpisujemy większą z liczb znajdujących się w komórkach $(i-1,j)$ i $(i,j-1)$ .

Jeśli piąta literka jednego słowa zgadza się z czwartą literką drugiego, to dodajemy jeden do wartości z pola na skos.

Jeśli są to różne literki, to w polu ze znakiem zapytania wpisujemy większą z liczb $k$ i $m$ , czyli większą z wartości z pól sąsiadujących z danym polem z lewej strony i z góry.

Wypełniamy w ten sposób całą tablicę i w polu $(n,m)$ otrzymujemy długość najdłuższego wspólnego podciągu dla wyrazów $A$ i $B$ . Jeśli interesowała nas jedynie ta wartość, to możemy zakończyć pracę. Coż jednak mamy zrobić, jeśli nie chcemy znać tylko długości LCS dla tych wyrazów, ale także i to, jaką ten podciąg ma postać? Na szczęście z łatwością możemy odtworzyć jego wygląd, wszystko dzięki wypełnionej już tablicy!

Odtwarzamy wygląd LCS

Wyobraźmy sobie, że w każdej komórce $(i,j)$ tablicy poza liczbą znajduje się też i strzałka, która wskazuje na pole zawierające tę wartość, która była nam potrzebna przy wyliczaniu liczby w $(i,j)$ . Zauważmy, że jeśli $A[i]=B[j]$ to strzałka w $(i,j)$ będzie skierowana na skos, a jeśli $A[i] \neq B[j]$ , to w górę lub w lewo - zależnie od tego, gdzie będzie większa wartość (w przypadku remisu kierunek strzałki jest dowolny).

Strzałka skośna odpowiada "przedłużaniu" LCS o ostatnią literkę obu rozpatrywanych prefiksów (przypadek "a" z obserwacji pierwszej).

Strzałki w lewo i w górę odpowiadają następującej decyzji: czy dłuższym podciągiem $A_{i+1}$ i $B_{j+1}$ będzie LCS $A_i$ i $B_{j+1}$ , czy może LCS $A_{i+1}$ i $B_{j}$ ?

Przykładowe rozmieszczenie strzałek.

Aby odtworzyć LCS musimy przejść zgodnie ze strzałkami z pola $(n,m)$ do lewej bądź górnej krawędzi tablicy. Za każdym razem, gdy pójdziemy na skos, znajdujemy kolejną literkę z LCS. W związku z tym, że cała tablica jest już wypełniona wartościami $LCS(i,j)$ , strzałki wskazują zawsze ten wybór, który prowadzi do najdłuższego podciągu. Jeśli więc natrafimy na strzałkę skośną w polu $(k,l)$ , oznacza to, że najlepiej będzie jako kolejną literkę odtwarzanego LCS wybrać $A[k] = x$ (zachodzi też $x = B[l]$ , bo tylko w takiej sytuacji mogliśmy natrafić na strzałkę na skos). Pamiętajmy jednak, że odtwarzamy LCS od końca!

Na czerwono zaznaczona jest droga do krawędzi wyznaczona przez strzałki.

Oczywiście nie musimy uwzględniać żadnych strzałek w naszym kodzie. Wystarczy bowiem kilka porównań, aby sprawdzić w którą stroną skierowana by była strzałka w danym polu. Jeśli $A[i]=B[j]$ , to w polu $(i,j)$ znajdowałaby się strzałka na skos. W przeciwnym wypadku musimy sprawdzić w którym z pól $(i-1,j)$ czy $(i,j-1)$ wpisana jest większa wartość - na to pole wskazywałaby strzałka z komórki $(i,j)$ .

Przykład działania algorytmu

Aby przekonać się o tym, że algorytm jest naprawdę bardzo prosty, wyznaczmy za jego pomocą LCS dla wyrazów "markotny" i "romantyk".

Krok 1

Najpierw tworzymy tablicę 9x9 (długość pierwszego słowa + 1 na długość drugiego słowa + 1) i wypełniamy zerowy wiersz i zerową kolumnę zerami.

Rozpoczynamy z tak wypełnioną tablicą.

Krok 2

Wypełniamy resztę pól tablicy. Wyliczamy wartości dla kolejnych wierszy, idąc od lewej do prawej. Jeśli jakiemuś polu odpowiadają różne literki w obu wyrazach, to wpisujemy weń większą z liczb z pól nad nim i po lewej. Jeśli zaś rozpatrywane pole odpowiada tym samym literkom, to wpisujemy do niego zwiększoną o jeden liczbę z pola "na skos" (w lewo i do góry).

Częściowo wypełniona tablica. Czy potrafisz powiedzieć dlaczego właśnie takie liczby wpisaliśmy w pola?

Krok 3

Teraz będziemy odtwarzać wyznaczony podciąg. Zaczynamy od pola (9,9) i "cofamy" się aż do lewej lub górnej krawędzi. Jeśli pole odpowiada różnym literkom, to "idziemy" do pola po lewej lub w górę - decyzja zależy od tego, w którym znajduje się większa liczba. W przypadku gdy polu odpowiadają te same literki w obu słowach idziemy na skos (znów w lewo i do góry) i zapisujemy sobie gdzieś, że znaleźliśmy następną literkę wyznaczonego LCS. Gdy dotrzemy do lewej/górnej krawędzi, znamy już cały najdłuższy wspólny podciąg wyrazów "markotny" i "romantyk" - jest to wyraz "rony".

Po wypełnieniu tablicy wyznaczamy postać LCS, idąc po "strzałkach".

Zmniejszamy zużycie pamięci

Jeśli przyjrzymy się powyższemy przykładowi, to zauważymy, że jeśli zależy nam jedynie na wyliczeniu długości LCS, to o dużej ilości wierszy wypełnianej tablicy możemy "zapominać". Do wyliczenia wartości w dowolnej komórce z i-tego wiersza potrzebujemy bowiem jedynie informacji o liczbach z komórek leżących bezpośrednio na lewo, w górę i na skos od niego. Wszystkie one znajdują się w wierszach o numerach i-1 oraz i. Zatem to, jakie wartości znajdują się w wierszach od 0 do i-2 jest już kompletnie bezużyteczną informacją! Możemy więc ograniczyć się do przechowywania jedynie poprzedniego wiersza i tego, który aktualnie wypełniamy. Dzięki temu zmniejszamy zużycie pamięci - nie potrzebujemy już $n \cdot m$ komórek tablicy, wystarczy ich nam $2 \cdot m$ . Gdy wypełnimy jakiś wiersz, to on staje się nowym "poprzednim wierszem", a my na jego podstawie wyliczamy wartości w kolejnym. Gdy skończymy, w pamięci znajdować się będą dwa wiersze - ostatni i przedostatni. Na końcu ostatniego wiersza odnajdziemy liczbę będącą długością LCS. Oczywiście nie ma nic za darmo, teraz nie uda się nam już odtworzyć postaci LCS poprzez wędrowanie po tablicy.

Możliwe jest jeszcze bardziej oszczędne wyliczanie LCS - wystarczy bowiem jeden wiersz. Czy widzisz jak należałoby nadpisywać w nim wartości z poprzedniego wiesza liczbami wyliczonymi dla następnego? Przeanalizuj ponownie działanie algorytmu i zwróć uwagę na to, jak długo potrzebujemy kolejnych wartości z początkowych komórek poprzedniego wiersza.

Na następnej stronie znajdują się dwa zadania programistyczne, które pomogą w sprawdzeniu zrozumienia powyższego algorytmu. Z całego serca polecam rozwiązanie choć jednego z nich.

Zadanie A

Czy potrafisz szybko odpowiadać na wiele pytań o najdłuższy wspólny podciąg pary dowolnych prefiksów wyrazów $A$ i $B$ ?

Wejście

Pierwszy wiersz wejścia zawiera ciąg znaków (małe i duże litery alfabetu łacińskiego oraz cyfry $0-9$ ) będący wyrazem $A$ , o którym wiemy, że jego długość nie przekracza $2010$ .

W wierszu drugim znajduje się ciąg liter będący słowem $B$ , który również spełnia wszystkie powyższe ograniczenia.

Trzeci wiersz zawiera jedną liczbę naturalną $n$ .

W każdej z kolejnych $n$ linijek znajdują się takie dwie nieujemne liczby całkowite $a_i$ i $b_i$ , że długość $A$ jest nie większa niż $a_i$ , a długość $B$ nie większa niż $b_i$ .

Wyjście

Dla każdej pary liczb $a_i$ i $b_i$ należy wypisać najdłuższy podciąg wyrazów $A_{a_i}$ i $B_{b_i}$ (gdzie $K_i$ to wyraz będący $i$ pierwszymi literkami wyrazu $K$ ). Jeśli istnieje wiele podciągów o największej długości, to wypisz dowolny z nich. Jeśli LCS będzie miał długość 0 (czyli będzie słowem pustym), to zamiast niego wypisz znak !.

Przykład

Dla wejścia:

cdcddbdadbcdbdbddada
ddcdddaaccd
10
5 5
18 7
3 8
10 5
1 4
14 7
9 1
12 6
12 9
1 1

Poprawnym wyjściem będzie:

dcdd
ddcddda
dc
dddd
c
dcddda
d
ddddd
dcdddac
!

Nie możesz wysyłać i oglądać rozwiązań tego zadania ponieważ nie jesteś zalogowany. Zaloguj się [2] lub załóż konto [3].

Zadanie B

W tym zadaniu należy jedynie znaleźć długość LCS dla dwóch podanych na wejściu wyrazów. Limit pamięci jest jednakże niewielki, dlatego postaraj się ograniczyć jej zużycie.

Wejście

Wejście składa się z dwóch wierszy. W każdym znajduje się niepusty ciąg znaków (małe litery alfabetu łacińskiego) o długości mniejszej niż $4001$ . Pierwszy wiersz zawiera wyraz $A$ , drugi - $B$ .

Wyjście

Należy wypisać jedną nieujemną liczbę całkowitą równą długości najdłuższego wspólnego podciągu wyrazów $A$ i $B$ .

Przykład

Dla wejścia:

dcbbaacbda
dacddaadaabbcbb

Poprawnym wyjściem będzie:

Nie możesz wysyłać i oglądać rozwiązań tego zadania ponieważ nie jesteś zalogowany. Zaloguj się [2] lub załóż konto [3].