In [32]:
import numpy as np
import pandas as pd
from scipy import stats

# 1. Generowanie próby losowej dla rozkładu normalnego i zbadanie hipotezy
mean_normal = 2
std_dev_normal = 30
sample_size_normal = 200
random_sample_normal = np.random.normal(loc=mean_normal, scale=std_dev_normal, size=sample_size_normal)

hypothesized_mean_normal = 2.5
t_statistic_normal, p_value_normal = stats.ttest_1samp(random_sample_normal, hypothesized_mean_normal)

print(f"T-statistic dla próby losowej: {t_statistic_normal}")
print(f"P-value dla próby losowej: {p_value_normal}\n")

# 2. Wczytanie pliku napoje.csv do pandas DataFrame
napoje_df = pd.read_csv("napoje.csv", delimiter=';')

# 3. Zweryfikuj hipotezy dotyczące średnich spożycia piwa
lech_mean = 60500
coli_mean = 222000
regionalne_mean = 43500

t_statistic_lech, p_value_lech = stats.ttest_1samp(napoje_df['lech'], lech_mean)
t_statistic_cola, p_value_cola = stats.ttest_1samp(napoje_df['cola'], coli_mean)
t_statistic_regionalne, p_value_regionalne = stats.ttest_1samp(napoje_df['regionalne'], regionalne_mean)

print(f"T-statistic i P-value dla piwa Lech: {t_statistic_lech}, {p_value_lech}")
print(f"T-statistic i P-value dla coli: {t_statistic_cola}, {p_value_cola}")
print(f"T-statistic i P-value dla piw regionalnych: {t_statistic_regionalne}, {p_value_regionalne}\n")

# 4. Sprawdzenie normalności zmiennych w pliku napoje.csv
normality_results = {}
for column in napoje_df.columns[1:]:
    _, p_value_normality = stats.normaltest(napoje_df[column])
    normality_results[column] = p_value_normality

print("P-value dla testu normalności:")
print(normality_results)
print("\n")

# 5. Zbadanie równości średnich dla różnych par
t_statistic_okocim_lech, p_value_okocim_lech = stats.ttest_rel(napoje_df['okocim'], napoje_df['lech'])
t_statistic_fanta_regionalne, p_value_fanta_regionalne = stats.ttest_rel(napoje_df['fanta '], napoje_df['regionalne'])
t_statistic_cola_pepsi, p_value_cola_pepsi = stats.ttest_rel(napoje_df['cola'], napoje_df['pepsi'])

print(f"T-statistic i P-value dla okocim – lech: {t_statistic_okocim_lech}, {p_value_okocim_lech}")
print(f"T-statistic i P-value dla fanta – regionalne: {t_statistic_fanta_regionalne}, {p_value_fanta_regionalne}")
print(f"T-statistic i P-value dla cola – pepsi: {t_statistic_cola_pepsi}, {p_value_cola_pepsi}\n")

# 6. Zbadanie równości wariancji
_, p_value_var_okocim_lech = stats.levene(napoje_df['okocim'], napoje_df['lech'])
_, p_value_var_zywiec_fanta = stats.levene(napoje_df['żywiec'], napoje_df['fanta '])
_, p_value_var_regionalne_cola = stats.levene(napoje_df['regionalne'], napoje_df['cola'])

print(f"P-value dla równości wariancji okocim – lech: {p_value_var_okocim_lech}")
print(f"P-value dla równości wariancji żywiec – fanta: {p_value_var_zywiec_fanta}")
print(f"P-value dla równości wariancji regionalne – cola: {p_value_var_regionalne_cola}\n")

# 7. Zbadanie równości średnich pomiędzy latami 2001 i 2015 dla piw regionalnych
regionalne_2001 = napoje_df.loc[napoje_df['rok'] == 2001, 'regionalne']
regionalne_2015 = napoje_df.loc[napoje_df['rok'] == 2015, 'regionalne']

t_statistic_regionalne_years, p_value_regionalne_years = stats.ttest_ind(regionalne_2001, regionalne_2015, equal_var=False)

print(f"T-statistic i P-value dla piw regionalnych (lata 2001 vs 2015): {t_statistic_regionalne_years}, {p_value_regionalne_years}\n")

# 8. Zbadanie równości średnich dla wartości z roku 2016 oraz z pliku napoje_po_reklamie.csv

napoje_po_reklamie_df = pd.read_csv("napoje_po_reklamie.csv", delimiter=';')

# usuwam wiersze zawierające brakujące wartości w kolumnie 'cola'
napoje_df = napoje_df.dropna(subset=['cola'])
napoje_po_reklamie_df = napoje_po_reklamie_df.dropna(subset=['cola'])

# badam równość średnich dla coli
t_statistic_cola, p_value_cola = stats.ttest_ind(napoje_df['cola'], napoje_po_reklamie_df['cola'], equal_var=False)
print(f"T-statistic i P-value dla coli: {t_statistic_cola}, {p_value_cola}")




T-statistic dla próby losowej: -1.4463444386830826
P-value dla próby losowej: 0.1496538110902351

T-statistic i P-value dla piwa Lech: 1.646503944538866, 0.10130442686854728
T-statistic i P-value dla coli: 6.391908975571081, 1.2249714535216756e-09
T-statistic i P-value dla piw regionalnych: 17.440927488514944, 2.2572528828603765e-41

P-value dla testu normalności:
{'rok': 6.71326167207233e-21, 'pepsi': 0.7200062116206445, 'fanta ': 0.1826792656115071, 'żywiec': 0.34024553142391856, 'okocim': 0.12645798710253497, 'regionalne': 2.721214025437686e-07, 'cola': 0.5358705042542622, 'lech': 0.4732014584808095}


T-statistic i P-value dla okocim – lech: -0.8438785972612856, 0.3997929132766135
T-statistic i P-value dla fanta – regionalne: -10.987696643270045, 4.428395701287979e-22
T-statistic i P-value dla cola – pepsi: 144.127738334813, 7.963660733688787e-197

P-value dla równości wariancji okocim – lech: 0.2757791126546958
P-value dla równości wariancji żywiec – fanta: 0.22513624629834209
P-v