Mediana

W statystykach The mediana - zwany również centralny wartość - jest to wartość średnia , a parametr położenie . Mediana zmierzonych wartości na oryginalnej liście to zmierzona wartość, która znajduje się dokładnie „w środku”, gdy zmierzone wartości są sortowane według rozmiaru. Na przykład dla nieuporządkowanej oryginalnej listy 4, 1, 37, 2, 1, zmierzona wartość 2 jest medianą, a środkowa wartość w uporządkowanej oryginalnej liście to 1, 1,  2 , 4, 37.

Ogólnie rzecz biorąc, mediana dzieli zbiór danych, próbkę lub dystrybucję na dwie równe części, tak aby wartości w jednej połowie nie były większe niż wartość mediany, a druga połowa nie była mniejsza.

opis

Mediana dzieli listę wartości na dwie części. Można to określić w następujący sposób:

  • Wszystkie wartości są uporządkowane (w porządku rosnącym).
  • Jeśli liczba wartości jest nieparzysta, środkowa liczba jest medianą.
  • Jeśli liczba wartości jest parzysta, mediana jest zwykle definiowana jako średnia arytmetyczna dwóch środkowych liczb, które nazywane są wówczas medianą dolną i medianą górną .

Ważną właściwością mediany jest odporność na wartości odstające .

  • Przykład: Siedem nieposortowanych wartości pomiarowych 4, 1, 15, 2, 4, 5, 4 jest posortowanych według rozmiaru: 1, 2, 4, 4 , 4, 5, 15; Mediana (łącznie z medianą górną i dolną) to wartość w środku, czyli 4. Jeśli 4 w przykładzie zastąpiono 46 z powodu błędu, mediana się nie zmienia: 1, 2, 4, 4 , 5 , 15, 46. Natomiast średnia arytmetyczna skacze z 5 do 11.

Porównanie z innymi miarami tendencji centralnej

Porównanie mody, mediany i „średniej” (właściwie: wartość oczekiwana ) dwóch rozkładów logarytmiczno-normalnych z medianą 1

Mediana to specjalny kwantyl , a mianowicie 12 -kwantyl. Inne ważne miary pozycji to średnia arytmetyczna i mod .

W porównaniu ze średnią arytmetyczną, często nazywaną średnią, mediana jest bardziej odporna na wartości odstające ( wartości skrajnie odbiegające) i może być również stosowana do zmiennych skalowanych porządkowo . Termin mediana (z łac. medianus , ,, w środku'', ,, środkowa '') pochodzi z geometrii , gdzie oznacza również granicę między dwiema połówkami tej samej wielkości.

Obszary zastosowań

Mediana tej tabeli ocen wynosi 3−. Nieco mniej niż połowa wyników jest gorsza; dodając sam stopień 3− połowa z niego jest właśnie przekroczona.

W przeciwieństwie do średniej arytmetycznej, mediana może być również stosowana do zmiennych skalowanych porządkowo, takich jak poziomy ocen, dla których nie ma różnicy ilościowej. Ale mediana może być również używana do danych skalowanych interwałowo i proporcjonalnie, a następnie ma wady i zalety w stosunku do średniej arytmetycznej jako miary pozycji. Mediana nie może być stosowana tylko dla zmiennych skalowanych nominalnie, których cechy nie mają naturalnego rankingu, takich jak zmienna kraj urodzenia . W tym przypadku wartość trybu jest jedyną miarą pozycji, którą można określić.

Mediana jest używana w statystyce i teorii prawdopodobieństwa w trzech różnych znaczeniach:

  1. jako miara tej pozycji od statystyk opisowych dla opisujący listę betonie wartości próbek .
  2. w teorii prawdopodobieństwa jako mediana rozkładu prawdopodobieństwa lub zmienna losowa . W tym przypadku mediana jest alternatywą dla wartości oczekiwanej przy określaniu „wartości średniej”.
  3. w statystyce matematycznej jako mediana losowej próby dla solidnego oszacowania nieznanych rozkładów.

Mediana próby

Wartość jest medianą próbki, jeśli przynajmniej połowa elementów próbki jest nie większa niż i przynajmniej połowa nie jest mniejsza niż .

Jeśli posortujesz wartości obserwacji według rozmiaru, to znaczy przejdziesz do próby losowej uporządkowanej według rank , mediana dla nieparzystej liczby obserwacji jest wartością obserwacji w środku tej sekwencji . Przy parzystej liczbie obserwacji nie ma jednego elementu środkowego, lecz dwa. Tutaj wartości dwóch obserwacji środkowych i wszystkie wartości pośrednie (choć mogły nie wystąpić w żadnej z obserwacji) są medianami próby, ponieważ powyższy warunek dotyczy wszystkich tych wartości.

W przypadku mierzonych wartości skalowanych kardynalnie (o ile ma sens obliczanie różnicy między mierzonymi wartościami), zwykle stosuje się średnią arytmetyczną z dwóch średnich obserwowanych wartości w przypadku parzystej liczby obserwacji. Mediana uporządkowanej próbki od wartości mierzonych następnie

Definicja ta ma tę zaletę, że w przypadku próbek z rozkładów symetrycznych średnia arytmetyczna i mediana wartości oczekiwanej są identyczne.

Mediana górna i dolna

Często chcemy się upewnić, że mediana jest częścią próby. W tym przypadku, jako alternatywa dla powyższej definicji, jeśli istnieje jeszcze szereg elementów, albo niższą medianę lub górna środkowa jest wybrany jako mediany . W przypadku nieparzystej liczby obserwacji oczywiście obowiązuje to samo, co powyżej .

Za pomocą nawiasów Gaussa indeksy można również wyrazić same w sobie stosunkowo zwięźle :

To określenie mediany odgrywa ważną rolę w systemach baz danych , na przykład takich jak: B. w zapytaniach SELECT z wykorzystaniem mediany median.

nieruchomości

Mediana oraz w przypadku liczby wartości pomiarowych nawet wszystkie wartości z , minimalizuje sumę bezwzględnych odchyleń, a więc w odniesieniu do jednego zastosowanie

Mediana jest podstawą metody najmniejszych odchyleń bezwzględnych oraz metody regresji odpornej . Z drugiej strony średnia arytmetyczna minimalizuje sumę kwadratów odchyleń , jest podstawą metody najmniejszych kwadratów i analizy regresji i jest matematycznie łatwiejsza w obsłudze, ale nie jest odporna na wartości odstające.

Jak opisano powyżej, medianę można określić algorytmicznie, sortując zmierzone wartości. Wiąże się to ogólnie z nakładem pracy , jest możliwe tylko dla specjalnych klas danych wejściowych (patrz algorytm sortowania ). Istnieją jednak również algorytmy wyznaczania kwantyli z liniowym nakładem najgorszego przypadku oraz algorytmy estymacji, na przykład metoda Cornisha-Fisher'a .

Mediana zgrupowanych danych

Piramida ludności Tanzania 2016, mediana szacowana jest na 18 lat

W szczególności w naukach społecznych mediana jest często szacowana w statystyce, ponieważ nie wszystkie dane są podawane w sposób jednoznaczny i precyzyjny, ale są dostępne tylko pogrupowane w przedziały . Na przykład ankiety rzadko pytają o dokładną pensję, a jedynie o klasę dochodową, czyli przedział, w którym mieści się pensja. Jeżeli znane są tylko częstotliwości każdej klasy, to medianę takiej próbki można ogólnie określić tylko w przybliżeniu. Niech będzie to liczba wszystkich danych, odpowiednia liczba danych -tej grupy i /lub odpowiednie górne lub dolne granice przedziału. Najpierw określa się klasę mediany (lub grupę mediany ), tj. czyli ta grupa, do której należy mediana (zgodnie z powyższą, konwencjonalną definicją), np. B. grupa -ta. Liczba zależy od tego, że , ale trzyma. Jeżeli nie podano dalszych informacji na temat dystrybucji danych, z. B. Postulowany rozkład równomierny, tak aby interpolację liniową można było wykorzystać jako pomoc w oszacowaniu mediany zgrupowanych danych:

Jeśli nie podano dalszych informacji o rozkładzie danych, może istnieć dowolny inny rozkład oprócz rozkładu równomiernego, a zatem każda inna wartość w -tym przedziale może być również medianą.

W przeciwieństwie do tradycyjnej definicji mediany, to nie koniecznie musi być elementem od rzeczywistej ilości danych, która jest zwykle nawet nie wiadomo.

przykład

Dochód :

Klasa ( ) Zakres ( do ) Wielkość grupy ( )
1 co najmniej 0, mniej niż 1500 160
2 co najmniej 1500, mniej niż 2500 320
3 co najmniej 2500, mniej niż 3500 212

Oblicz

Mediana jest więc w drugiej klasie (tj. ), ponieważ pierwsza klasa ma tylko 160 elementów. Daje to oszacowanie mediany

Ponieważ konkretny rozkład danych w przedziałach jest nieznany, medianą może być również każda inna wartość w 2. przedziale. Wartość 2081,25 obliczona jako przykład może zatem być do 581,25 za duża i do 418,75 za mała, więc błąd szacunku może wynosić do 28%.

Ilustracją tej procedury wyznaczania mediany dla zgrupowanych danych jest określenie graficzne za pomocą krzywej skumulowanej . Odcięta wartość, która należy do wartości rzędnych jest szukał tutaj . Jeśli wartość jest mniejsza i równa, zamiast tego można również wybrać wartość rzędnej .

Inne warianty

  • Funkcja dobrobytu jest alternatywą dla mediany przy określaniu dochodu masowego z danego rozkładu dochodu.
  • Innym sposobem radzenia sobie z wartościami ekstremalnymi innymi niż mediana jest użycie średniej obciętej , którą uzyskuje się usuwając najmniejsze i największe wartości przed obliczeniem (zwykle pomija się 5% wartości).
  • Butler ma również ściślejszą definicję mediany (która jest mniej powszechna), która mówi, że mediana to wartość, dla której liczba mniejszych wartości w szeregu jest równa liczbie większych wartości w szeregu . W szczególnych przypadkach, takich jak 3, 3, 3, 3, 4 lub 1, 2, 3, 3, 3, istnieje procedura, za pomocą której można obliczyć wyraźną medianę przy zachowaniu ściślejszej definicji.

Mediana i średnia arytmetyczna: bardzo prosty przykład

W grupie dziesięciu osób wszyscy ludzie mają różne miesięczne dochody. Jedna osoba otrzymuje 1.000.000 €, pozostałe dziewięć otrzymuje 1.000 €, 2.000 €, 3.000 € itd. do 9000 €.

Średnia arytmetyczna, „średnia” – miesięczny dochód każdej z dziesięciu osób z sumą wszystkich dochodów równo podzieloną między nimi – wynosi w tym przypadku 104 500 euro. Jednak tylko jedna z dziesięciu osób zarabia więcej, a pozostałe dziewięć znacznie mniej.

Z drugiej strony mediana wynosi 5500 euro. Pięć osób zarabia więcej, pięć osób mniej. Mediana wyznacza granicę między połową lepiej zarabiającą a połową zarabiającą mniej.

linki internetowe

Wikisłownik: Mediana  - wyjaśnienia znaczeń, pochodzenie słów, synonimy, tłumaczenia

Indywidualne dowody

  1. Hans Lohninger: Podstawy statystyki. Średnia .
  2. Christopher Butler: Statystyki w językoznawstwie . 1985.
  3. Tendencja centralna. (Nie jest już dostępny w Internecie.) Zarchiwizowanych z oryginałem na 16 stycznia 2013 roku ; udostępniono 9 maja 2016 r .