Analiza wzorców
Analiza wzorców to gałąź rozpoznawania wzorców . Analiza wzorców oznacza automatyczne generowanie opisu na podstawie sygnału , wzorca . Przykładami wzorców są obrazy lub sekwencje obrazów i sygnały mowy. W analizie wzorców badane są algorytmy i podejścia systemowe do tego problemu.
W przeciwieństwie do metod klasyfikacji w klasyfikacji wzorca , który jeden z ostatnich przydziela wiele klas, to wzór jako całość cięcia wzorzec do analizy wzorca na mniejsze wzory i tych sub-wzorów i relacji między nimi przypisanych symbolicznego opisu. Odpowiada to odwzorowaniu z zestawu pod-wzorców na nieskończony zbiór wszystkich możliwych opisów symbolicznych.
Typowe systemy analizy wzorców
W przeciwieństwie do często jednorodnej struktury systemów klasyfikacji wzorców, aparatów do rozpoznawania mowy lub rozpoznawania obrazów, systemy analizy wzorców mają strukturę heterogeniczną . Niemniej jednak istnieją pewne podstawowe komponenty; większość systemów różni się tylko interakcją.
Metody
Komponent metody obejmuje metody specjalnie dostosowane do przetwarzania np. Sygnałów mowy lub obrazów, np. B. Filtry Kalmana lub węże w obrazach, podsumowanie.
Jakościowa reprezentacja wiedzy
Aby w efektywny i jednocześnie adekwatny sposób przedstawić wiedzę o domenie aplikacji w systemie automatycznej analizy wzorców, często wykorzystuje się techniki ze sztucznej inteligencji , np. B. sieci semantyczne , ramki , PL1 itp. Ta wiedza jest często niejednoznaczna, dlatego metody są podatne na błędy.
Część wyjaśniająca
Przykład z medycyny: Jeśli medyczne dane wejściowe, takie jak Jeśli na przykład zdjęcia rentgenowskie z systemu analizy wzorców generują symboliczny wynik w postaci „Pacjent X pilnie potrzebuje operacji Y”, lekarz (i pacjent) zastanawiają się, dlaczego ta operacja jest konieczna i jak system analizy wzorców znalazł tę odpowiedź. Dlatego wymagane są tutaj kroki pośrednie. Te etapy pośrednie i niezbędne wyjaśnienia, dlaczego doszło do tego, który etap pośredni miał miejsce, zawiera komponent wyjaśniający.
Uczyć się
Większość baz wiedzy jest tworzona w wyniku żmudnej i kosztownej pracy ręcznej przez ekspertów i dlatego jest podatna na błędy. Różni eksperci tworzą różne bazy wiedzy. Uczenie maszynowe jest zatem całkowicie odpowiednie, ale w rzeczywistości często nie jest możliwe.
Element sterujący
Komponent kontrolny dostarcza strategię kontroli, za pomocą której reprezentowana wiedza jest przetwarzana w bazie wiedzy. Do przetwarzania wykorzystywane są specjalne metody z komponentu metody. Strategia często ma postać przeszukiwania w grafach, drzewach lub innych typach przestrzeni poszukiwań, na przykład za pomocą algorytmu A *.
Przykłady systemów analizy wzorców
Kompletny system analizy obrazu
Oto przykładowa, kompletna struktura systemu przetwarzania i analizy obrazu. Jest to z grubsza podzielone na trzy części: przetwarzanie obrazu, klasyfikację obrazu i analizę obrazu.
-
Przetwarzanie obrazu
- Źródło: aparat (aparat cyfrowy, kamera), skaner itp.
- obraz zdigitalizowany : zeskanowany , skwantyzowany obraz (np. obraz z wartością szarości 1024 × 768, kwantyzacja: 8 bitów, tj. wartość szarości 0 = czarny i 255 = biały)
- Przetwarzanie wstępne: normalizacja obrazu, zastosowanie filtrów do redukcji szumów lub podobnych ( przywrócenie obrazu ).
- Segmentacja w celu podzielenia obrazu na jednorodne obszary (ten sam kolor, ta sama tekstura itp.).
- Wyodrębnianie cech : łączenie ważnych cech obrazu w wektory cech .
- Klasyfikacja wzorców
- Analiza obrazu: w oparciu o klasyfikację wzorców, rozpoznawanie obrazu (istotne jest tylko to, co widać, relacje między obiektami na obrazie są nieistotne) lub interpretacja obrazu (nie tylko „samochód” i „człowiek” na obrazie, ale interpretacja, że samochód przejeżdża po ludziach).
System przetwarzania obrazu Optoluchs z 1988 roku był jednym z pierwszych systemów w dziedzinie widzenia maszynowego .
Zastosowania analizy obrazu
- Procedury obrazowania w medycynie
- mikroskopia
- Teledetekcja
- Astrofotografia
- Technologia obronna
- Inżynieria materiałowa
- Mechaniczna wizja
- Rozpoznawanie notatek
- Technologia bezpieczeństwa , systemy dostępu itp.
- robotyka
- Rozpoznawanie tekstu
- Informacje dla konsumentów / porównanie cen
- Metalografia
Kompletny system analizy mowy
Oto przykładowa, kompletna struktura systemu przetwarzania i analizy języka. Jest to z grubsza podzielone na dwie części: rozpoznawanie mowy i przetwarzanie mowy / analiza mowy / rozumienie mowy.
-
Rozpoznawanie głosu:
- Próbkowanie analogowego sygnału głosowego głównie z 8 lub 16 kHz, kwantyzacja 12-16 bitów na próbkę.
- Przetwarzanie wstępne: filtr szumów, usuwanie fragmentów czystej ciszy lub szumu tła itp.
- Obliczanie właściwości: Tworzenie okna (za pomocą funkcji okna ): Na przykład okno o długości 16 ms jest tworzone co 10 ms (wymagane jest nakładanie się). B. metodą analizy cepstralnej lub predykcji liniowej (LPC, liniowe współczynniki predykcyjne, patrz Predykcja liniowa ) cechy można obliczyć i połączyć w wektory cech. Podczas obliczania funkcji, często słuchowo dokładne zniekształceń sygnału (patrz psychoakustyka , MFCC , skala Mel , skala Barka i ucha ).
- Klasyfikacja i wyszukiwanie : przypisanie sekwencji wektorów cech do polifonów lub słów przy użyciu ukrytych modeli Markowa (HMM). Tworzony jest wykres słów lub lista n najlepszych ciągów słów.
- Rozpoznawanie mowy: rzeczywisty rozpoznawania mowy, czyli tekstowa reprezentacja jako rekonstrukcji tego, co rzeczywiście powiedział, odbywa się za pomocą kombinacji modelu akustycznego (HMM) i modelu języka (często n-gramów )
-
Przetwarzanie mowy / analiza mowy:
- Rozpoznawanie prozodii : wskazuje na cechy prozodyczne języka, takie jak intonacja , akcent lub rytm . Informacje te są przydatne w dalszych, konstruktywnych analizach w celu rozwiązania niejednoznaczności.
- analiza syntaktyczna : dostarcza przeanalizowaną wypowiedź (np. przy użyciu parsera LR ).
- analiza semantyczna : oparta na składniowej strukturze procesu parsowania, np. B. w postaci drzewa składniowego następuje analiza znaczenia
- Pragmatyka : czasami znaczenie zdania można naprawdę zrozumieć tylko po uwzględnieniu kontekstu.
- System dialogowy: zinterpretowana wypowiedź może teraz zostać przekazana do systemu dialogowego (np. Robota), który jest następnie w stanie wygenerować odpowiednią odpowiedź za pomocą syntezy mowy .
Możliwości reprezentowania wiedzy
Niezbędnym wymaganiem dla systemów analizy wzorców jest wyraźne przedstawienie wiedzy . W przeciwieństwie do sztucznej inteligencji pojawiają się jednak problemy związane z niepewnymi danymi wejściowymi i konkurencyjnymi hipotezami, przez co kontrola działań systemu ma ogromne znaczenie. Oprócz metod sztucznej inteligencji rozważane są również systemy baz danych do organizowania wiedzy i przechowywania wyników pośrednich. Do oceny hipotez stosuje się różne rachunki, takie jak logika rozmyta lub sieci bayesowskie .
Jakościowe opcje reprezentacji relacyjnej
Ogólne formalizmy reprezentacji
Ogólnie rzecz biorąc, sieci semantyczne są często używane, ponieważ można ich używać do intuicyjnego i przejrzystego budowania baz wiedzy . Ponadto często używane są języki reprezentacji wiedzy, takie jak KL-ONE , ramki lub logika predykatów .
Analiza danych mowy
W dziedzinie analizy danych mowy często stosuje się gramatyki formalne i automaty . Na przykład strukturę składniową języka reprezentowanego tekstowo można skutecznie sprawdzić pod kątem poprawności gramatyki LR za pomocą parsera LR , w połączeniu ze strukturami cechowymi, przy jednoczesnej zgodności fragmentów zdań w odniesieniu do przypadku, rodzaju i liczby przez unifikację .
Analiza danych obrazu
Język sieci semantycznej oferuje specjalną (język) i metodę analizy danych obrazowych.
W przetwarzaniu obrazu przypisane wykresy są używane do przedstawiania obiektów 2D lub 3D. Czy pracujesz z. B. w przypadku segmentacji opartej na regionach segmentowane regiony można przedstawić jako węzły, a relacje między regionami jako krawędzie na wykresie. Atrybut węzła mógłby np. B. wartość koloru regionu i jako atrybut krawędzi relacja pozycji, np. „Poniżej-od” itp. Wykresy znanych obiektów nazywane są wykresami modelowymi, w zależności od scenariusza istnieje mniej lub bardziej duża liczba wykresów modelowych. Celem rozpoznawania obiektów jest znalezienie jednego lub więcej z tych wykresów modelowych na podzielonym obrazie. Jeśli podzielony na segmenty obraz jest reprezentowany jako wykres, zadanie przekształca się w porównanie wszystkich wykresów modelu z wykresem wejściowym. Jeśli wykres wejściowy zawiera wykres modelowy jako podgraf, wyszukiwanie powiodło się. Mówiąc matematycznie, jest to poszukiwanie izomorfizmu podgrafu z korekcją błędów.
Ilościowe przedstawienie wiedzy
Wykorzystywane są tutaj klasyfikatory numeryczne , pola losowe Markowa i sieci bayesowskie.
Strategie kontroli
- Wyszukiwanie heurystyczne w drzewie i-lub
- Przeszukiwanie heurystyczne w grafie stanu
- A *
Zobacz też
literatura
- G. Sagerer: Automatyczne rozumienie języka mówionego. (= Computer Science Series. Tom 74). BI-Verlag, Mannheim 1990, ISBN 3-411-14391-6 .
- H. Niemann: Analiza i zrozumienie wzorców. (= Seria Springera w naukach informacyjnych. Tom 4). Berlin 1990, ISBN 3-540-51378-7 .
- PC Lockemann, JW Schmidt (red.): Podręcznik bazy danych. Springer, 1987, ISBN 3-540-10741-X .
- A. Pinz: Zrozumienie obrazów. (= Podręczniki informatyki ). Springer, Wiedeń 1994, ISBN 3-211-82571-1 .