# Cvičení

## Kvalita betonu

V souboru [Concrete_Data_Yeh.csv](Concrete_Data_Yeh.csv) najdeš informace o kvalitě betonu. 

Sloupce 1-7 udávají množství jednotlivých složek v kg, které byly přimíchány do krychlového metru betonu (např. cement, voda, kamenivo, písek atd.). 

Ve sloupci 8 je stáří betonu a ve sloupci 9 kompresní síla betonu v megapascalech. 

In [16]:
import pandas
import statsmodels.api as sm
import statsmodels.formula.api as smf

data = pandas.read_csv("Concrete_Data_Yeh.csv")
data.head()

Unnamed: 0,cement,slag,flyash,water,superplasticizer,coarseaggregate,fineaggregate,age,csMPa
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,79.99
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,61.89
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,40.27
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,41.05
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,44.3


Složky jsou blíže popsány [zde](https://www.ebeton.cz/pojmy/cement-a-jeho-slozky/).

- Cement (cement), kg na m3
- Blast Furnace Slag (cgranulovaná vysokopecní struska), kg na m3
- Fly Ash (popílek), kg na m3
- Water (voda), kg na m3
- Superplasticizer (superplastifikátor), kg na m3, bližší info např. [zde](https://www.chemieprostavbu.cz/sika--superplastifikator-1l/)
- Coarse Aggregate (hrubé kamenivo), kg na m3
- Fine Aggregate (jemné kamenivo), kg na m3
- Age (stáří) ve dnech
- Concrete compressive strength -- quantitative -- MPa -- Output Variable

Vytvoř regresní model, který bude predikovat kompresní sílu betonu na základě všech množství jednotlivých složek a jeho stáří. Zhodnoť kvalitu modelu.

Která ze složek betonu ovlivňuje sílu betonu negativně (tj. má záporný regresní koeficient)?

Řešení příkladu je [zde](reseni.ipynb). Video s řešením příkladu je [zde](https://youtu.be/iGXlEpf0yb4).


In [17]:
formula = "csMPa ~ cement + slag  + flyash + water + superplasticizer + coarseaggregate + fineaggregate + age"
mod = smf.ols(formula=formula, data=data)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,csMPa,R-squared:,0.616
Model:,OLS,Adj. R-squared:,0.613
Method:,Least Squares,F-statistic:,204.3
Date:,"Sun, 20 Oct 2024",Prob (F-statistic):,6.29e-206
Time:,16:53:08,Log-Likelihood:,-3869.0
No. Observations:,1030,AIC:,7756.0
Df Residuals:,1021,BIC:,7800.0
Df Model:,8,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-23.3312,26.586,-0.878,0.380,-75.500,28.837
cement,0.1198,0.008,14.113,0.000,0.103,0.136
slag,0.1039,0.010,10.247,0.000,0.084,0.124
flyash,0.0879,0.013,6.988,0.000,0.063,0.113
water,-0.1499,0.040,-3.731,0.000,-0.229,-0.071
superplasticizer,0.2922,0.093,3.128,0.002,0.109,0.476
coarseaggregate,0.0181,0.009,1.926,0.054,-0.000,0.037
fineaggregate,0.0202,0.011,1.887,0.059,-0.001,0.041
age,0.1142,0.005,21.046,0.000,0.104,0.125

0,1,2,3
Omnibus:,5.378,Durbin-Watson:,1.282
Prob(Omnibus):,0.068,Jarque-Bera (JB):,5.304
Skew:,-0.174,Prob(JB):,0.0705
Kurtosis:,3.045,Cond. No.,106000.0


In [18]:
# Kvalita modelu OLS (Ordinary Least Squares) pro predikci pevnosti betonu v MPa lze hodnotit na základě několika klíčových statistik, které byly poskytnuty ve výstupu modelu.

# R-squared (R²) = 0.616 a Adjusted R-squared = 0.613: Tyto hodnoty ukazují, že model vysvětluje zhruba 61.6% variability pevnosti betonu, což je slušný výsledek pro real-world data v oblasti stavebnictví. Přestože model je užitečný, existují pravděpodobně i další faktory nezahrnuté v modelu, které mohou pevnost betonu ovlivňovat.
# F-statistika: Hodnota 204.3 s extrémně nízkou p-hodnotou (6.29e-206) ukazuje, že model je jako celek statisticky významný. To znamená, že alespoň některé z vysvětlujících proměnných mají signifikantní vliv na pevnost betonu.
# Koeficienty: Většina koeficientů má pozitivní hodnoty, což ukazuje, že zvyšují pevnost betonu. Výjimkou je voda, jejíž koeficient je záporný.
# Durbin-Watson: Hodnota 1.282 naznačuje možnou mírnou pozitivní autokorelaci mezi rezidui, což může být znepokojivé a může naznačovat, že model by mohl být vylepšen, například přidáním dalších proměnných nebo upravením stávajících prediktorů.
# P-hodnoty koeficientů: Zatímco většina koeficientů je statisticky významná, koeficienty pro coarseaggregate a fineaggregate jsou hraniční (p-hodnoty 0.054 a 0.059). Toto může naznačovat, že jejich přesný vliv na pevnost betonu není tak jednoznačný.


# Složka betonu, která ovlivňuje sílu betonu negativně:
# Voda (water): Koeficient pro vodu je -0.1499, což znamená, že s každým přidaným litrem vody na kubický metr betonu se pevnost betonu snižuje o 0.1499 MPa.
# Tento negativní vliv vody je logický, neboť nadměrné množství vody může snížit pevnost betonu tím, že zvyšuje pórovitost a snižuje celkovou hustotu betonové směsi.
# Závěrem, model má dobrou prediktivní schopnost a je statisticky významný, ale je možné, že by mohl být dále vylepšen pro dosažení lepších predikcí, zejména co se týče modelování vlivu vody a kameniva na pevnost betonu.

# Koeficienty:
# Intercept (konstanta): -23.3312, p-hodnota je 0.380, což naznačuje, že konstanta není statisticky významná.
# - cement: Za každý kilogram cementu na kubický metr betonu se pevnost zvyšuje o 0.1198 MPa, p < 0.001.
# - slag (struska): Za každý kilogram strusky na kubický metr betonu se pevnost zvyšuje o 0.1039 MPa, p < 0.001.
# - flyash (letový popílek): Za každý kilogram letového popílku na kubický metr betonu se pevnost zvyšuje o 0.0879 MPa, p < 0.001.
# - water (voda): Za každý litr vody na kubický metr betonu se pevnost snižuje o 0.1499 MPa, p < 0.001.
# - superplasticizer: Za každý kilogram superplastifikátoru na kubický metr betonu se pevnost zvyšuje o 0.2922 MPa, p = 0.002.
# - coarseaggregate (hrubý kámen): Za každý kilogram hrubého kameniva na kubický metr betonu se pevnost zvyšuje o 0.0181 MPa, p = 0.054 (hraničně statisticky významný).
# - fineaggregate (jemné kamenivo): Za každý kilogram jemného kameniva na kubický metr betonu se pevnost zvyšuje o 0.0202 MPa, p = 0.059 (hraničně statisticky významný).
# - age (stáří): Za každý den stárnutí betonu se pevnost zvyšuje o 0.1142 MPa, p < 0.001.

# Model je statisticky významný a některé proměnné mají silný vliv na pevnost betonu, jako je stáří betonu, cement, struska a letový popílek.
# Voda a superplastifikátory mají také značný vliv, ale opačným směrem (voda snižuje pevnost).

---

## Bonus: Pojišťovna

Řešení bonusu je [zde](reseni.ipynb). Video s řešením příkladu je [zde](https://youtu.be/oJPz7Ui4ZkE).

V souboru [expenses.csv](expenses.csv) najdeš informace o platbách za pojištěnce jedné pojišťovny: věk, pohlaví, BMI (index počítaný jako hmotnost dělená výškou), počet dětí, kuřák/nekuřák, region a platby za pojištěnce. 

Vytvoř regresní model, který odhadne platby za pojištěnce na základě jeho věku a indexu BMI.

In [19]:
data = pandas.read_csv("expenses.csv")
data.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [20]:
formula = "charges ~ age + bmi"
mod = smf.ols(formula=formula, data=data)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.117
Model:,OLS,Adj. R-squared:,0.116
Method:,Least Squares,F-statistic:,88.6
Date:,"Sun, 20 Oct 2024",Prob (F-statistic):,7.390000000000001e-37
Time:,16:53:08,Log-Likelihood:,-14394.0
No. Observations:,1338,AIC:,28790.0
Df Residuals:,1335,BIC:,28810.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-6424.8046,1744.091,-3.684,0.000,-9846.262,-3003.347
age,241.9308,22.298,10.850,0.000,198.187,285.674
bmi,332.9651,51.374,6.481,0.000,232.182,433.748

0,1,2,3
Omnibus:,321.874,Durbin-Watson:,2.01
Prob(Omnibus):,0.0,Jarque-Bera (JB):,592.574
Skew:,1.511,Prob(JB):,2.11e-129
Kurtosis:,4.223,Cond. No.,287.0


In [21]:
# Výsledky regresní analýzy pomocí metody nejmenších čtverců (OLS) pro závislou proměnnou "charges" (platby za pojištění) ukazují, jak věk a BMI (body mass index) ovlivňují výši plateb za pojištěnce.
# Model využívá pouze tyto dvě nezávislé proměnné a jeho charakteristiky jsou následující:

# R-squared (R²) = 0.117: Tato hodnota indikuje, že model dokáže vysvětlit pouze 11.7% variability v platbách za pojištěnce na základě věku a BMI. Toto je relativně nízké číslo, což naznačuje, že model nepokrývá mnoho faktorů ovlivňujících platby za pojištění.
# Adjusted R-squared (Adj. R²) = 0.116: Upravený koeficient determinace je velmi blízký R², což ukazuje, že model není zatížen nadbytečným počtem proměnných. I tak jeho prediktivní schopnost zůstává nízká.
# F-statistika = 88.60 s p-hodnota = 7.39e-37: Tato statistika a velmi nízká p-hodnota ukazují, že model jako celek je statisticky významný. To znamená, že alespoň jeden z koeficientů (věk nebo BMI) má statisticky významný vliv na platby za pojištěnce.

# Koeficienty:
# Intercept (konstanta): -6424.8046 s p-hodnotou < 0.001. Intercept je statisticky významný, ale jeho negativní hodnota není prakticky interpretabilní bez dalších kontextových informací.
# Věk (age): Koeficient 241.9308 znamená, že s každým rokem se očekávané platby za pojištěnce zvyšují o přibližně 241.93 dolarů, p-hodnota < 0.001.
# BMI (bmi): Koeficient 332.9651 naznačuje, že s každým bodem BMI se platby za pojištěnce zvyšují o 332.97 dolarů, p-hodnota < 0.001.

# Diagnostika reziduí:
# Omnibus test: Výsledek testu je statisticky významný (p < 0.001), což naznačuje, že rezidua nejsou normálně distribuovaná.
# Durbin-Watson: Hodnota 2.010 naznačuje, že mezi rezidui není žádná autokorelace.
# Skew (šikmost) a Kurtosis (špičatost): Hodnoty ukazují, že distribuce reziduí má vyšší špičatost a je více šikmá než normální distribuce.

# Zhodnocení modelu
# I přesto, že F-statistika ukazuje, že model je celkově statisticky významný, jeho nízké R-squared hodnoty naznačují, že model je relativně slabý v predikci plateb za pojištěnce. To může být způsobeno vyloučením jiných významných proměnných, jako jsou kuřák/nekuřák, pohlaví, počet dětí nebo region, které mohou mít zásadní vliv na platby za pojištění. Zlepšení modelu by mohlo zahrnovat zahrnutí těchto dalších proměnných a testování interakcí mezi nimi, aby bylo dosaženo vyšší prediktivní schopnosti.

V regresi se často využívá metoda označovaná jako One Hot Encoding, která slouží ke zpracování nečíselných (kategoriálních) dat. Metodu aplikuješ tak, že vytvoříme sloupec pro každou hodnotu, které kategoriálních hodnota může nabýt. Pro každý řádek je pak hodnota příslušného sloupce 1 a ostatních sloupců 0. 

Vytvoř tedy sloupec `smoker_number` (takovému sloupci se říká *dummy* proměnná), který bude obsahovat hodnotu 1, pokud je ve sloupci `smoker` hodnota `yes`, a v opačném případě 0. Můžeš využít metodu `apply()` nebo funkci `numpy.where()`. Dále přidej nově vytvořený sloupec do regresního modelu. O kolik se zvýšil koeficient determinace?



In [22]:
formula = "charges ~  age + bmi + C(smoker) + C(sex)"
mod = smf.ols(formula=formula, data=data)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.747
Model:,OLS,Adj. R-squared:,0.747
Method:,Least Squares,F-statistic:,986.5
Date:,"Sun, 20 Oct 2024",Prob (F-statistic):,0.0
Time:,16:53:08,Log-Likelihood:,-13557.0
No. Observations:,1338,AIC:,27120.0
Df Residuals:,1333,BIC:,27150.0
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.163e+04,947.267,-12.281,0.000,-1.35e+04,-9775.198
C(smoker)[T.yes],2.383e+04,414.186,57.544,0.000,2.3e+04,2.46e+04
C(sex)[T.male],-109.0411,334.665,-0.326,0.745,-765.568,547.486
age,259.4532,11.942,21.727,0.000,236.027,282.880
bmi,323.0511,27.529,11.735,0.000,269.046,377.056

0,1,2,3
Omnibus:,299.394,Durbin-Watson:,2.076
Prob(Omnibus):,0.0,Jarque-Bera (JB):,708.639
Skew:,1.212,Prob(JB):,1.32e-154
Kurtosis:,5.614,Cond. No.,292.0


Takový postup vytváření je poměrně pracný, hlavně v případě, že proměnná nabývá více různých hodnot. `pandas` k tomu nabízí funkci `get_dummies()`. Vyzkoušej si funkci použitím příkazu níže.

```py
smoker = pandas.get_dummies(data["smoker"])
smoker
```

In [23]:
smoker = pandas.get_dummies(data["smoker"])
smoker

Unnamed: 0,no,yes
0,False,True
1,True,False
2,True,False
3,True,False
4,True,False
...,...,...
1333,True,False
1334,True,False
1335,True,False
1336,True,False


Dále připoj data do původní tabulky. Připojení je nutné provést s využitím indexů, protože tabulky nemají společný sloupec. Proto využij funkci `merge()` s parametry `left_index=True` a `right_index=True`.

```py
data = pandas.merge(data, smoker, left_index=True, right_index=True)
data
```

In [24]:
data = pandas.merge(data, smoker, left_index=True, right_index=True)
data.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,no,yes
0,19,female,27.9,0,yes,southwest,16884.924,False,True
1,18,male,33.77,1,no,southeast,1725.5523,True,False
2,28,male,33.0,3,no,southeast,4449.462,True,False
3,33,male,22.705,0,no,northwest,21984.47061,True,False
4,32,male,28.88,0,no,northwest,3866.8552,True,False


Nyní využij tento sloupec ve svém regresním modelu. Stačí využít jeden sloupec, například `yes`. Oba sloupce totiž poskytují stejnou informaci, pouze jako obrácenou hodnotu.

In [25]:
formula = "charges ~  age + bmi + yes"
mod = smf.ols(formula=formula, data=data)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.747
Model:,OLS,Adj. R-squared:,0.747
Method:,Least Squares,F-statistic:,1316.0
Date:,"Sun, 20 Oct 2024",Prob (F-statistic):,0.0
Time:,16:53:08,Log-Likelihood:,-13557.0
No. Observations:,1338,AIC:,27120.0
Df Residuals:,1334,BIC:,27140.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.168e+04,937.569,-12.454,0.000,-1.35e+04,-9837.561
yes[T.True],2.382e+04,412.867,57.703,0.000,2.3e+04,2.46e+04
age,259.5475,11.934,21.748,0.000,236.136,282.959
bmi,322.6151,27.487,11.737,0.000,268.692,376.538

0,1,2,3
Omnibus:,299.709,Durbin-Watson:,2.077
Prob(Omnibus):,0.0,Jarque-Bera (JB):,710.137
Skew:,1.213,Prob(JB):,6.25e-155
Kurtosis:,5.618,Cond. No.,289.0


In [26]:
# V tomto modelu OLS (Ordinary Least Squares) bylo k prediktorům věk a BMI přidáno binární kódování (One Hot Encoding) pro proměnnou "kuřák" (yes). Výsledky regrese ukazují výrazné zlepšení v predikční schopnosti modelu v porovnání s předchozím modelem, který zahrnoval pouze věk a BMI.

# Výsledky modelu
# R-squared (R²) = 0.747 a Adjusted R-squared = 0.747: Tento model vysvětluje 74.7% variability v platbách za pojištěnce, což je výrazné zlepšení oproti předchozímu modelu. Tato hodnota naznačuje, že model je velmi efektivní v popisu vztahů mezi závislou proměnnou a vysvětlujícími proměnnými.
# F-statistika = 1316 s p-hodnota = 0.00: Extrémně nízká p-hodnota ukazuje, že model jako celek je statisticky významný a poskytuje silnou evidenci, že alespoň jeden z prediktorů má významný vliv na výši plateb za pojištění.

# Koeficienty:
# Intercept (konstanta): -11680, indikuje základní platby za pojištěnce pro nekuřáky s danými hodnotami BMI a věku rovnými nule.
# - yes[T.True] (kuřák): Koeficient 23820 znamená, že kuřáci platí průměrně o 23820 dolarů více než nekuřáci, což je velmi výrazný rozdíl, p-hodnota < 0.001.
# - Věk (age): Každý rok navíc zvyšuje platby za pojištění o přibližně 259.55 dolarů.
# - BMI (bmi): Každý bod BMI zvyšuje platby o 322.62 dolarů.

# Diagnostika reziduí:
# Omnibus test a Jarque-Bera (JB) test: Oba testy jsou statisticky významné a naznačují, že rezidua nejsou normálně distribuovaná.
# Durbin-Watson: Hodnota 2.077 naznačuje, že autokorelace mezi rezidui je minimální.

# Zhodnocení modelu
# Přidání proměnné "kuřák" významně zlepšilo prediktivní schopnosti modelu, což ukazuje, že fakt, zda je osoba kuřákem, má významný dopad na výši plateb za zdravotní pojištění.
# Vysoké R-squared hodnoty a výrazné koeficienty naznačují, že model je velmi účinný v odhadu plateb.
# Avšak nízká normalita reziduí by mohla být znepokojivá pro některé typy dalších analýz a může znamenat, že modelování rozdělení plateb může vyžadovat pokročilejší metody, jako je transformace proměnných nebo použití jiných typů regresních modelů.