# Statystyka opisowa

In [1]:
import numpy as np
from scipy import stats
#x = np.arange(2,10)
x=np.array([2, 4, 4, 4, 5, 5, 7, 9])

Jeżeli cecha $X$ przyjmuje wartości $x_{1},x_{2}, \ldots ,x_{n}$, wówczas jej średnią arytmetyczną, lub krótko średnią, nazywamy:
$$
\bar X = \frac{1}{n} \sum_{i=1}^{n} x.
$$

In [2]:
np.mean(x)

5.0

In [6]:
xWithNan = np.hstack( (x, np.nan) ) # append nan
print(x)
print(xWithNan)
print(np.mean(xWithNan))
print(np.nanmean(xWithNan))

[2 4 4 4 5 5 7 9]
[ 2.  4.  4.  4.  5.  5.  7.  9. nan]
nan
5.0


W niektórych sytuacjach średnia geometryczna może być użyteczna do opisania rozmieszczenia rozkładu. Można ją obliczyć za pomocą średniej arytmetycznej logarytmów wartości wartości

$$
mean_{geometric}=\left( \prod_{i=1}^{N} x_i \right)^{1/n} = exp\left( \frac{\sum_i ln(x_i)}{n} \right).
$$

Zauważ, że wartości wejściowe dla średniej geometrycznej muszą być dodatnie.


In [117]:
stats.gmean(x)

4.603215596046736

In [7]:
stats.gmean(xWithNan)

nan

Dla danego ciągu liczb $x_1, \dots, x_n$, określamy ciąg $x_{(1)}, \dots, x_{(n)}$, który powstaje przez jego niemalejące uporządkowanie, czyli:

$$
x_{(1)} \le x_{(2)} \le  \dots \le x_{(n)}.
$$

Medianą cechy $X$, przyjmującej wartości $x_1, \dots, x_n$, nazywamy środkowy wyraz ciągu $x_{(1)}, \dots, x_{(n)}$, gdy $n$ jest liczbą nieparzystą, lub średnią arytmetyczną dwóch wyrazów środkowych, gdy $n$ jest liczbą parzystą. Zatem:
$$
me =  \left\{\begin{array} {lll} x_{(k+1)} &  \hbox{ dla } & n=2k+1 \\[1mm] \frac{x_{(k)}+x_{(k+1)}}{2} & \hbox{ dla } & n=2k. \end{array} \right.
$$

In [9]:
np.median(x)

4.5

Załóżmy, że rozważaną populacją jest zbiór samochodów znajdujących się w określonym czasie na pewnym parkingu, zaś cechą - nazwa producenta samochodu.

In [13]:
data = np.array(['Fiat', 'BMW', 'Ford', 'Ford', 'Fiat', 'Skoda', 'Fiat', 'Polonez', 
                 'Toyota','Toyota', 'Toyota', 'Renault', 'Opel', 'Fiat', 'Opel', 'Opel', 'Toyota'])
(modaDominanta,ileRazy)=stats.mode(data)
print(modaDominanta[0])
print(ileRazy[0])

Fiat
4




Zakres (rang) jest po prostu różnicą między najwyższą i najniższą wartością w danych.

In [14]:
# ptp = maximum - minimum
range = np.ptp(x)
range

7

Używa się dwóch estymatorów wariancji próbki:

$$ S^2=var(X) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar x)^2$$

In [15]:
x=np.array([2, 4, 4, 4, 5, 5, 7, 9])
np.sqrt(np.sum((x-np.mean(x))**2)/x.size)

2.0

In [20]:
# wariancja - estymator obciążony
np.std(x, ddof=0)

2.0

In [125]:
np.std(x)

2.0

$$
S^{*2}=var(X) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar x)^2
$$

In [18]:
np.sqrt(np.sum((x-np.mean(x))**2)/(x.size-1))

2.138089935299395

In [22]:
# wariancja - estymator nieobciążony
np.std(x, ddof=1)

2.138089935299395

$$
SEM = \frac{s}{\sqrt{n}} = \sqrt{ \frac{\sum_{i=1}^{n} (x_i - \bar x)^2}{n} } \cdot \frac{1}{\sqrt{n}} = \sqrt{ \frac{\sum_{i=1}^{n} (x_i - \bar x)^2}{n^2} }, 
$$

In [23]:
# SEM = standardowy błąd średniej arytm.
stats.sem(x)

0.7559289460184544

In [24]:
stats.sem(x, ddof=1)

0.7559289460184544

In [25]:
np.std(x,ddof=1) / np.sqrt(x.size)

0.7559289460184544

In [26]:
(np.sqrt(np.sum((x-np.mean(x))**2)/(x.size-1)))/ np.sqrt(x.size)

0.7559289460184544

$$
SEM^{*} = \frac{s}{\sqrt{n}} = \sqrt{ \frac{\sum_{i=1}^{n} (x_i - \bar x)^2}{n-1} } \cdot \frac{1}{\sqrt{n}}.
$$

In [27]:
stats.sem(x, ddof=0)

0.7071067811865475

In [28]:
np.std(x,ddof=0) / np.sqrt(x.size)

0.7071067811865475

In [29]:
(np.sqrt(np.sum((x-np.mean(x))**2)/(x.size)))/ np.sqrt(x.size)

0.7071067811865475

# Zadanie
Co wypisze
<ul>
<li> <tt>np.std(x) / np.sqrt(x.size)</tt></li>
<li> <tt>stats.sem(x)</tt></li>
<ul>

In [30]:
np.std(x) / np.sqrt(x.size)

0.7071067811865475

In [31]:
stats.sem(x)

0.7559289460184544