# Porównanie statystyk opisowych dla rozkładów normalnych
Analizujemy dwa zbiory danych wygenerowane z rozkładu normalnego o średniej 3 i odchyleniu standardowym 1:

- Zbiór 1: 100 obserwacji
- Zbiór 2: 10 000 obserwacji

Celem analizy jest porównanie statystyk opisowych i zbadanie, jak rozmiar próbki wpływa na stabilność statystyk.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(42)
data_100 = np.random.normal(loc=3, scale=1, size=100)
data_10000 = np.random.normal(loc=3, scale=1, size=10000)

## Statystyki opisowe – zbiór 100 elementów

In [None]:
pd.Series(data_100).describe()

## Statystyki opisowe – zbiór 10 000 elementów

In [None]:
pd.Series(data_10000).describe()

## Porównanie wykresów pudełkowych

In [None]:
plt.figure(figsize=(10, 4))
sns.boxplot(data=[data_100, data_10000])
plt.xticks([0, 1], ['n=100', 'n=10 000'])
plt.title('Boxplot dla dwóch rozkładów')
plt.show()

## Histogramy

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 4))
sns.histplot(data_100, bins=20, kde=True, ax=axes[0])
axes[0].set_title('Histogram – 100 elementów')
sns.histplot(data_10000, bins=50, kde=True, ax=axes[1])
axes[1].set_title('Histogram – 10 000 elementów')
plt.show()

## Wnioski
- Statystyki w małym zbiorze (n=100) są bardziej podatne na losowe odchylenia.
- Większy zbiór (n=10 000) lepiej odwzorowuje parametry rozkładu (średnia ~3, std ~1).
- Histogram i boxplot zbioru 10 000 są gładsze i bardziej symetryczne.
- Pokazuje to, że większe próby dostarczają bardziej stabilnych estymacji.