# Statystyka opisowa

In [3]:
import numpy as np
from scipy import stats

x=np.array([2, 4, 4, 4, 5, 5, 7, 9])

Jeżeli cecha $X$ przyjmuje wartości $x_{1},x_{2}, \ldots ,x_{n}$, wówczas jej średnią arytmetyczną, lub krótko średnią, nazywamy:
$$
\bar X = \frac{1}{n} \sum_{i=1}^{n} x.
$$

In [4]:
np.mean(x)

5.0

In [5]:
x=np.array([2, 4, 4, 4, 5, 5, 7, 9, np.nan])

In [6]:
x

array([ 2.,  4.,  4.,  4.,  5.,  5.,  7.,  9., nan])

In [7]:
np.mean(x)

nan

In [8]:
np.nanmean(x)

5.0

W niektórych sytuacjach średnia geometryczna może być użyteczna do opisania rozmieszczenia rozkładu. Można ją obliczyć za pomocą średniej arytmetycznej logarytmów wartości wartości

$$
mean_{geometric}=\left( \prod_{i=1}^{N} x_i \right)^{1/n} = exp\left( \frac{\sum_i ln(x_i)}{n} \right).
$$

Zauważ, że wartości wejściowe dla średniej geometrycznej muszą być dodatnie.


In [10]:
x=np.array([2, 4, 4, 4, 5, 5, 7, 9])
stats.gmean(x)

4.603215596046736

Dla danego ciągu liczb $x_1, \dots, x_n$, określamy ciąg $x_{(1)}, \dots, x_{(n)}$, który powstaje przez jego niemalejące uporządkowanie, czyli:

$$
x_{(1)} \le x_{(2)} \le  \dots \le x_{(n)}.
$$

Medianą cechy $X$, przyjmującej wartości $x_1, \dots, x_n$, nazywamy środkowy wyraz ciągu $x_{(1)}, \dots, x_{(n)}$, gdy $n$ jest liczbą nieparzystą, lub średnią arytmetyczną dwóch wyrazów środkowych, gdy $n$ jest liczbą parzystą. Zatem:
$$
me =  \left\{\begin{array} {lll} x_{(k+1)} &  \hbox{ dla } & n=2k+1 \\[1mm] \frac{x_{(k)}+x_{(k+1)}}{2} & \hbox{ dla } & n=2k. \end{array} \right.
$$

In [11]:
len(x)

8

In [12]:
np.median(x)

4.5

Załóżmy, że rozważaną populacją jest zbiór samochodów znajdujących się w określonym czasie na pewnym parkingu, zaś cechą - nazwa producenta samochodu.

In [16]:
data = np.array(['Fiat', 'BMW', 'Ford', 'Ford', 'Fiat', 'Skoda', 'Fiat', 'Polonez', 
                 'Toyota','Toyota', 'Toyota', 'Renault', 'Opel', 'Fiat', 'Opel', 'Opel', 'Toyota'])


In [18]:
stats.mode(data)

ModeResult(mode=array(['Toyota'], dtype='<U7'), count=array([4]))

Zakres (rang) jest po prostu różnicą między najwyższą i najniższą wartością w danych.

In [19]:
x

array([2, 4, 4, 4, 5, 5, 7, 9])

In [20]:
np.ptp(x)

7

Używa się dwóch estymatorów wariancji próbki:

$$ S^2=var(X) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar x)^2$$

In [21]:
np.sqrt(np.sum((x-np.mean(x))**2)/len(x))

2.0

In [22]:
np.std(x)

2.0

In [23]:
np.std(x, ddof=0)

2.0

$$
S^{*2}=var(X) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar x)^2
$$

In [24]:
np.sqrt(np.sum((x-np.mean(x))**2)/(x.size-1))

2.138089935299395

In [25]:
np.std(x, ddof=1)

2.138089935299395

$$
SEM = \frac{s}{\sqrt{n}} = \sqrt{ \frac{\sum_{i=1}^{n} (x_i - \bar x)^2}{n} } \cdot \frac{1}{\sqrt{n}} = \sqrt{ \frac{\sum_{i=1}^{n} (x_i - \bar x)^2}{n^2} }, 
$$

In [26]:
stats.sem(x, ddof=0)

0.7071067811865475

In [27]:
np.std(x, ddof=0)/np.sqrt(len(x))

0.7071067811865475

# Korelacja Pearsona

Współczynnik korelacji r Pearsona służy do sprawdzenia czy dwie zmienne ilościowe są powiązane ze sobą związkiem liniowym. Przybliżyliśmy problematykę tego rodzaju analizy statystycznej w niniejszym słowniczku pod ogólnym pojęciem korelacje.

Podobnie jak inne współczynniki korelacji również wynik r Pearsona może wahać się od -1 do 1. Wartości skrajne czyli -1 i 1 oznaczają idealną, totalną korelację między zmienną A i zmienną B. Wynik równy “zero” oznacza brak współwystępowania wartości tych dwóch zmiennych w naturze (brak korelacji).



$$
r=\frac{\sum\limits_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum\limits_{i=1}^{n}(x_i-\overline{x})^2\sum\limits_{i=1}^{n}(y_i-\overline{y})^2}} 
$$

In [28]:
Y = np.array([0,0,0,0,0,0,1,1,1,1,1,1])

In [32]:
Y1 = np.array([0,1,1,1,1,1,1,1,1,1,1,1])
stats.pearsonr(Y, Y1)[0]

0.3015113445777637

In [35]:
Y2 = np.array([0,0,0,0,0,0,2,2,2,2,2,2])
stats.pearsonr(Y, Y2)[0]

1.0

In [36]:
stats.pearsonr(Y, Y2[::-1])[0]

-1.0

In [37]:
Y3 = np.array([0,0,0,0,0,0,0,0,0,0,0,1])
stats.pearsonr(Y, Y3)[0]

0.30151134457776363