Analiza wzorców

Analiza wzorców to gałąź rozpoznawania wzorców . Analiza wzorców oznacza automatyczne generowanie opisu na podstawie sygnału , wzorca . Przykładami wzorców są obrazy lub sekwencje obrazów i sygnały mowy. W analizie wzorców badane są algorytmy i podejścia systemowe do tego problemu.

W przeciwieństwie do metod klasyfikacji w klasyfikacji wzorca , który jeden z ostatnich przydziela wiele klas, to wzór jako całość cięcia wzorzec do analizy wzorca na mniejsze wzory i tych sub-wzorów i relacji między nimi przypisanych symbolicznego opisu. Odpowiada to odwzorowaniu z zestawu pod-wzorców na nieskończony zbiór wszystkich możliwych opisów symbolicznych.

Typowe systemy analizy wzorców

W przeciwieństwie do często jednorodnej struktury systemów klasyfikacji wzorców, aparatów do rozpoznawania mowy lub rozpoznawania obrazów, systemy analizy wzorców mają strukturę heterogeniczną . Niemniej jednak istnieją pewne podstawowe komponenty; większość systemów różni się tylko interakcją.

Metody

Komponent metody obejmuje metody specjalnie dostosowane do przetwarzania np. Sygnałów mowy lub obrazów, np. B. Filtry Kalmana lub węże w obrazach, podsumowanie.

Jakościowa reprezentacja wiedzy

Aby w efektywny i jednocześnie adekwatny sposób przedstawić wiedzę o domenie aplikacji w systemie automatycznej analizy wzorców, często wykorzystuje się techniki ze sztucznej inteligencji , np. B. sieci semantyczne , ramki , PL1 itp. Ta wiedza jest często niejednoznaczna, dlatego metody są podatne na błędy.

Część wyjaśniająca

Przykład z medycyny: Jeśli medyczne dane wejściowe, takie jak Jeśli na przykład zdjęcia rentgenowskie z systemu analizy wzorców generują symboliczny wynik w postaci „Pacjent X pilnie potrzebuje operacji Y”, lekarz (i pacjent) zastanawiają się, dlaczego ta operacja jest konieczna i jak system analizy wzorców znalazł tę odpowiedź. Dlatego wymagane są tutaj kroki pośrednie. Te etapy pośrednie i niezbędne wyjaśnienia, dlaczego doszło do tego, który etap pośredni miał miejsce, zawiera komponent wyjaśniający.

Uczyć się

Większość baz wiedzy jest tworzona w wyniku żmudnej i kosztownej pracy ręcznej przez ekspertów i dlatego jest podatna na błędy. Różni eksperci tworzą różne bazy wiedzy. Uczenie maszynowe jest zatem całkowicie odpowiednie, ale w rzeczywistości często nie jest możliwe.

Element sterujący

Komponent kontrolny dostarcza strategię kontroli, za pomocą której reprezentowana wiedza jest przetwarzana w bazie wiedzy. Do przetwarzania wykorzystywane są specjalne metody z komponentu metody. Strategia często ma postać przeszukiwania w grafach, drzewach lub innych typach przestrzeni poszukiwań, na przykład za pomocą algorytmu A *.

Przykłady systemów analizy wzorców

Kompletny system analizy obrazu

Oto przykładowa, kompletna struktura systemu przetwarzania i analizy obrazu. Jest to z grubsza podzielone na trzy części: przetwarzanie obrazu, klasyfikację obrazu i analizę obrazu.

  1. Przetwarzanie obrazu
    1. Źródło: aparat (aparat cyfrowy, kamera), skaner itp.
    2. obraz zdigitalizowany : zeskanowany , skwantyzowany obraz (np. obraz z wartością szarości 1024 × 768, kwantyzacja: 8 bitów, tj. wartość szarości 0 = czarny i 255 = biały)
    3. Przetwarzanie wstępne: normalizacja obrazu, zastosowanie filtrów do redukcji szumów lub podobnych ( przywrócenie obrazu ).
    4. Segmentacja w celu podzielenia obrazu na jednorodne obszary (ten sam kolor, ta sama tekstura itp.).
    5. Wyodrębnianie cech : łączenie ważnych cech obrazu w wektory cech .
  2. Klasyfikacja wzorców
  3. Analiza obrazu: w oparciu o klasyfikację wzorców, rozpoznawanie obrazu (istotne jest tylko to, co widać, relacje między obiektami na obrazie są nieistotne) lub interpretacja obrazu (nie tylko „samochód” i „człowiek” na obrazie, ale interpretacja, że samochód przejeżdża po ludziach).

System przetwarzania obrazu Optoluchs z 1988 roku był jednym z pierwszych systemów w dziedzinie widzenia maszynowego .

Zastosowania analizy obrazu

Kompletny system analizy mowy

Oto przykładowa, kompletna struktura systemu przetwarzania i analizy języka. Jest to z grubsza podzielone na dwie części: rozpoznawanie mowy i przetwarzanie mowy / analiza mowy / rozumienie mowy.

  1. Rozpoznawanie głosu:
    1. Próbkowanie analogowego sygnału głosowego głównie z 8 lub 16 kHz, kwantyzacja 12-16 bitów na próbkę.
    2. Przetwarzanie wstępne: filtr szumów, usuwanie fragmentów czystej ciszy lub szumu tła itp.
    3. Obliczanie właściwości: Tworzenie okna (za pomocą funkcji okna ): Na przykład okno o długości 16 ms jest tworzone co 10 ms (wymagane jest nakładanie się). B. metodą analizy cepstralnej lub predykcji liniowej (LPC, liniowe współczynniki predykcyjne, patrz Predykcja liniowa ) cechy można obliczyć i połączyć w wektory cech. Podczas obliczania funkcji, często słuchowo dokładne zniekształceń sygnału (patrz psychoakustyka , MFCC , skala Mel , skala Barka i ucha ).
    4. Klasyfikacja i wyszukiwanie : przypisanie sekwencji wektorów cech do polifonów lub słów przy użyciu ukrytych modeli Markowa (HMM). Tworzony jest wykres słów lub lista n najlepszych ciągów słów.
    5. Rozpoznawanie mowy: rzeczywisty rozpoznawania mowy, czyli tekstowa reprezentacja jako rekonstrukcji tego, co rzeczywiście powiedział, odbywa się za pomocą kombinacji modelu akustycznego (HMM) i modelu języka (często n-gramów )
  2. Przetwarzanie mowy / analiza mowy:
    1. Rozpoznawanie prozodii : wskazuje na cechy prozodyczne języka, takie jak intonacja , akcent lub rytm . Informacje te są przydatne w dalszych, konstruktywnych analizach w celu rozwiązania niejednoznaczności.
    2. analiza syntaktyczna : dostarcza przeanalizowaną wypowiedź (np. przy użyciu parsera LR ).
    3. analiza semantyczna : oparta na składniowej strukturze procesu parsowania, np. B. w postaci drzewa składniowego następuje analiza znaczenia
    4. Pragmatyka : czasami znaczenie zdania można naprawdę zrozumieć tylko po uwzględnieniu kontekstu.
    5. System dialogowy: zinterpretowana wypowiedź może teraz zostać przekazana do systemu dialogowego (np. Robota), który jest następnie w stanie wygenerować odpowiednią odpowiedź za pomocą syntezy mowy .

Możliwości reprezentowania wiedzy

Niezbędnym wymaganiem dla systemów analizy wzorców jest wyraźne przedstawienie wiedzy . W przeciwieństwie do sztucznej inteligencji pojawiają się jednak problemy związane z niepewnymi danymi wejściowymi i konkurencyjnymi hipotezami, przez co kontrola działań systemu ma ogromne znaczenie. Oprócz metod sztucznej inteligencji rozważane są również systemy baz danych do organizowania wiedzy i przechowywania wyników pośrednich. Do oceny hipotez stosuje się różne rachunki, takie jak logika rozmyta lub sieci bayesowskie .

Jakościowe opcje reprezentacji relacyjnej

Ogólne formalizmy reprezentacji

Ogólnie rzecz biorąc, sieci semantyczne są często używane, ponieważ można ich używać do intuicyjnego i przejrzystego budowania baz wiedzy . Ponadto często używane są języki reprezentacji wiedzy, takie jak KL-ONE , ramki lub logika predykatów .

Analiza danych mowy

W dziedzinie analizy danych mowy często stosuje się gramatyki formalne i automaty . Na przykład strukturę składniową języka reprezentowanego tekstowo można skutecznie sprawdzić pod kątem poprawności gramatyki LR za pomocą parsera LR , w połączeniu ze strukturami cechowymi, przy jednoczesnej zgodności fragmentów zdań w odniesieniu do przypadku, rodzaju i liczby przez unifikację .

Analiza danych obrazu

Język sieci semantycznej oferuje specjalną (język) i metodę analizy danych obrazowych.

W przetwarzaniu obrazu przypisane wykresy są używane do przedstawiania obiektów 2D lub 3D. Czy pracujesz z. B. w przypadku segmentacji opartej na regionach segmentowane regiony można przedstawić jako węzły, a relacje między regionami jako krawędzie na wykresie. Atrybut węzła mógłby np. B. wartość koloru regionu i jako atrybut krawędzi relacja pozycji, np. „Poniżej-od” itp. Wykresy znanych obiektów nazywane są wykresami modelowymi, w zależności od scenariusza istnieje mniej lub bardziej duża liczba wykresów modelowych. Celem rozpoznawania obiektów jest znalezienie jednego lub więcej z tych wykresów modelowych na podzielonym obrazie. Jeśli podzielony na segmenty obraz jest reprezentowany jako wykres, zadanie przekształca się w porównanie wszystkich wykresów modelu z wykresem wejściowym. Jeśli wykres wejściowy zawiera wykres modelowy jako podgraf, wyszukiwanie powiodło się. Mówiąc matematycznie, jest to poszukiwanie izomorfizmu podgrafu z korekcją błędów.

Ilościowe przedstawienie wiedzy

Wykorzystywane są tutaj klasyfikatory numeryczne , pola losowe Markowa i sieci bayesowskie.

Strategie kontroli

Zobacz też

literatura

  • G. Sagerer: Automatyczne rozumienie języka mówionego. (= Computer Science Series. Tom 74). BI-Verlag, Mannheim 1990, ISBN 3-411-14391-6 .
  • H. Niemann: Analiza i zrozumienie wzorców. (= Seria Springera w naukach informacyjnych. Tom 4). Berlin 1990, ISBN 3-540-51378-7 .
  • PC Lockemann, JW Schmidt (red.): Podręcznik bazy danych. Springer, 1987, ISBN 3-540-10741-X .
  • A. Pinz: Zrozumienie obrazów. (= Podręczniki informatyki ). Springer, Wiedeń 1994, ISBN 3-211-82571-1 .

Indywidualne dowody

  1. Porównanie cen telefonów komórkowych z rozpoznawaniem obrazu / czytnikiem kodów kreskowych