# 7. lekce: Cvičení

## Kvalita betonu

V souboru `Concrete_Data_Yeh.csv` najdeš informace o kvalitě betonu. Sloupce 1-7 udávají množství jednotlivých složek v kg, které byly přimíchány do krychlového metru betonu (např. cement, voda, kamenivo, písek atd.). Ve sloupci 8 je stáří betonu a ve sloupci 9 kompresní síla betonu v megapascalech. Vytvoř regresní model, který bude predikovat kompresní sílu betonu na základě všech množství jednotlivých složek a jeho stáří. Zhodnoť kvalitu modelu.

Která ze složek betonu ovlivňuje sílu betonu negativně (tj. má záporný regresní koeficient)?

`formula = "csMPa ~ slag + flyash + ..."`

In [5]:
import pandas
import seaborn
import numpy
import statsmodels.formula.api as smf

data = pandas.read_csv("data/Concrete_Data_Yeh.csv")
data

Unnamed: 0,cement,slag,flyash,water,superplasticizer,coarseaggregate,fineaggregate,age,csMPa
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,79.99
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,61.89
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,40.27
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,41.05
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,44.30
...,...,...,...,...,...,...,...,...,...
1025,276.4,116.0,90.3,179.6,8.9,870.1,768.3,28,44.28
1026,322.2,0.0,115.6,196.0,10.4,817.9,813.4,28,31.18
1027,148.5,139.4,108.6,192.7,6.1,892.4,780.0,28,23.70
1028,159.1,186.7,0.0,175.6,11.3,989.6,788.9,28,32.77


Popis dat:

| Col.| Variable                         | Type          | Unit               | Description                     |
| --- | -------------------------------- | ------------- | ------------------ | ------------------------------- |
| 1   | Cement (component 1)             | quantitative  | kg in a m3 mixture | Input Variable                  |
| 2   | Blast Furnace Slag (component 2) | quantitative  | kg in a m3 mixture | Input Variable                  |
| 3   | Fly Ash (component 3)            | quantitative  | kg in a m3 mixture | Input Variable                  |
| 4   | Water (component 4)              | quantitative  | kg in a m3 mixture | Input Variable                  |
| 5   | Superplasticizer (component 5)   | quantitative  | kg in a m3 mixture | Input Variable                  |
| 6   | Coarse Aggregate (component 6)   | quantitative  | kg in a m3 mixture | Input Variable                  |
| 7   | Fine Aggregate (component 7)     | quantitative  | kg in a m3 mixture | Input Variable                  |
| 8   | Age                              | quantitative  | Day (1~365)        | Input Variable                  |
| 9   | Concrete compressive strength    | quantitative  | MPa                | Output Variable                 |

In [6]:
# Vytvoříme model
# - Závislá (vysvětlovaná) proměnná: pevnost betonu v tlaku, csMPa
# - Nezávislé (vysvětlující) proměnné: složky betonu
# - Model: Ordinary Least Squares (OLS)
formula = "csMPa ~ cement + slag + flyash + water + superplasticizer + coarseaggregate + fineaggregate + age"
mod = smf.ols(formula=formula, data=data)

# "Fitujeme" model na data, zobrazíme výsledky
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,csMPa,R-squared:,0.616
Model:,OLS,Adj. R-squared:,0.613
Method:,Least Squares,F-statistic:,204.3
Date:,"Thu, 18 May 2023",Prob (F-statistic):,6.29e-206
Time:,20:37:05,Log-Likelihood:,-3869.0
No. Observations:,1030,AIC:,7756.0
Df Residuals:,1021,BIC:,7800.0
Df Model:,8,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-23.3312,26.586,-0.878,0.380,-75.500,28.837
cement,0.1198,0.008,14.113,0.000,0.103,0.136
slag,0.1039,0.010,10.247,0.000,0.084,0.124
flyash,0.0879,0.013,6.988,0.000,0.063,0.113
water,-0.1499,0.040,-3.731,0.000,-0.229,-0.071
superplasticizer,0.2922,0.093,3.128,0.002,0.109,0.476
coarseaggregate,0.0181,0.009,1.926,0.054,-0.000,0.037
fineaggregate,0.0202,0.011,1.887,0.059,-0.001,0.041
age,0.1142,0.005,21.046,0.000,0.104,0.125

0,1,2,3
Omnibus:,5.378,Durbin-Watson:,1.282
Prob(Omnibus):,0.068,Jarque-Bera (JB):,5.304
Skew:,-0.174,Prob(JB):,0.0705
Kurtosis:,3.045,Cond. No.,106000.0


### Výsledky

Znaménko koeficientu:

- Záporné: čím více vody, tím menší pevnost betonu. (nepřímá úměra)

- Kladné: čím více ostatních složek, tím větší pevnost betonu. (přímá úměra)

Hodnota koeficientu:
- Čím větší (v absolutní hodnotě), tím výraznější vliv na pevnost betonu (větší rychlost změny).

Kvalita a parametry modelu:
- Prob(Omnibus) = 0.068 ... Prob(JB) = 0.0705 --> Nezamítáme hypotézu normálního rozdělení reziduí (>0.05).
- Prob(F-statistic) = 6.29e-206 --> Model jako celek je statisticky významný (<0.05).
- R-squared = 0.616 --> Model na základě nezávislých proměných vysvětluje 62 % rozptylu závislé proměnné (zbytek vzniká neznámými faktory nebo náhodně).
- P>|t|: Konkrétní koeficient je statisticky významný, pokud je hodnota <0.05.

Bonus: Jak vypadá model? Kde se využijí koeficienty? Jak se z modelu počítá predikovaná hodnota?

In [7]:
# Sestavíme si rovnici z vypočítaných koeficientů modelu jako string:
equation = "csMPa_prediction ≈ "
equation += f"{res.params[0]:.2f}"
for i in range(1, len(res.params)):
    equation += f" + {res.params[i]:.2f}*{data.columns[i-1]}"
# ...":.2f" v f-stringu zajišťuje zobrazení pouze dvou desetinných míst

equation

'csMPa_prediction ≈ -23.33 + 0.12*cement + 0.10*slag + 0.09*flyash + -0.15*water + 0.29*superplasticizer + 0.02*coarseaggregate + 0.02*fineaggregate + 0.11*age'

## Bonus: Pojišťovna

V souboru `expenses.csv` najdeš informace o platbách za pojištěnce jedné pojišťovny: věk, pohlaví, BMI (index počítaný jako hmotnost dělená výškou), počet dětí, kuřák/nekuřák, region a platby za pojištěnce. ...

In [8]:
data2 = pandas.read_csv("expenses.csv")
data2

FileNotFoundError: [Errno 2] No such file or directory: 'expenses.csv'

Vytvoř regresní model, který odhadne platby za pojištěnce na základě jeho věku a indexu BMI.

In [None]:
formula = "charges ~ age + bmi"
mod = smf.ols(formula=formula, data=data2)

res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.117
Model:,OLS,Adj. R-squared:,0.116
Method:,Least Squares,F-statistic:,88.6
Date:,"Thu, 18 May 2023",Prob (F-statistic):,7.390000000000001e-37
Time:,20:32:56,Log-Likelihood:,-14394.0
No. Observations:,1338,AIC:,28790.0
Df Residuals:,1335,BIC:,28810.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-6424.8046,1744.091,-3.684,0.000,-9846.262,-3003.347
age,241.9308,22.298,10.850,0.000,198.187,285.674
bmi,332.9651,51.374,6.481,0.000,232.182,433.748

0,1,2,3
Omnibus:,321.874,Durbin-Watson:,2.01
Prob(Omnibus):,0.0,Jarque-Bera (JB):,592.574
Skew:,1.511,Prob(JB):,2.11e-129
Kurtosis:,4.223,Cond. No.,287.0


V regresi se často využívá metoda označovaná jako One Hot Encoding, která slouží ke zpracování nečíselných (kategoriálních) dat. Metodu aplikuješ tak, že vytvoříme sloupec pro každou hodnotu, které kategoriálních hodnota může nabýt. Pro každý řádek je pak hodnota příslušného sloupce 1 a ostatních sloupců 0. **Vytvoř tedy sloupec smoker_number (takovému sloupci se říká *dummy* proměnná), který bude obsahovat hodnotu 1, pokud je ve sloupci `smoker` hodnota `yes`, a v opačném případě 0**. Můžeš využít metodu `apply()` nebo funkci `numpy.where()`. Dále přidej nově vytvořený sloupec do regresního modelu. O kolik se zvýšil koeficient determinace?

In [None]:
# Vytvoření sloupce s dummy proměnnými

# Pomocí numpy.where()
data2["smoker_number"] = numpy.where(data2["smoker"] == "yes", 1, 0)
data2["sex_number"] = numpy.where(data2["sex"] == "male", 1, 0)


# Alternativa: Pomocí vlastních funkcí a apply()
# def smoker(row):
#     if row["smoker"] == "yes":
#         return 1
#     else:
#         return 0
    
# def sex(row):
#     if row["sex"] == "male":
#         return 1
#     else:
#         return 0
    
# data2["smoker_number"] = data2.apply(smoker, axis=1)
# data2["sex_number"] = data2.apply(sex, axis=1)

data2.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,smoker_number,sex_number
0,19,female,27.9,0,yes,southwest,16884.924,1,0
1,18,male,33.77,1,no,southeast,1725.5523,0,1
2,28,male,33.0,3,no,southeast,4449.462,0,1
3,33,male,22.705,0,no,northwest,21984.47061,0,1
4,32,male,28.88,0,no,northwest,3866.8552,0,1


In [None]:
# Vytvoření modelu
formula = "charges ~  age + bmi + smoker_number"
mod = smf.ols(formula=formula, data=data2)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.747
Model:,OLS,Adj. R-squared:,0.747
Method:,Least Squares,F-statistic:,1316.0
Date:,"Thu, 18 May 2023",Prob (F-statistic):,0.0
Time:,20:32:57,Log-Likelihood:,-13557.0
No. Observations:,1338,AIC:,27120.0
Df Residuals:,1334,BIC:,27140.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.168e+04,937.569,-12.454,0.000,-1.35e+04,-9837.561
age,259.5475,11.934,21.748,0.000,236.136,282.959
bmi,322.6151,27.487,11.737,0.000,268.692,376.538
smoker_number,2.382e+04,412.867,57.703,0.000,2.3e+04,2.46e+04

0,1,2,3
Omnibus:,299.709,Durbin-Watson:,2.077
Prob(Omnibus):,0.0,Jarque-Bera (JB):,710.137
Skew:,1.213,Prob(JB):,6.25e-155
Kurtosis:,5.618,Cond. No.,289.0


### Výsledky

Přidáním informace o kuřáctví se výrazně zvýšil koeficient determinace (R-squared 0.117 -> 0.747)

### Lepší alternativa pro vytváření dummy proměnných:

Takový postup vytváření je poměrně pracný, hlavně v případě, že proměnná nabývá více různých hodnot. pandas k tomu nabízí funkci `get_dummies()`. Vyzkoušej si funkci použitím příkazu níže.

In [None]:
smoker = pandas.get_dummies(data2["smoker"], prefix="smoker")
smoker

Unnamed: 0,smoker_no,smoker_yes
0,False,True
1,True,False
2,True,False
3,True,False
4,True,False
...,...,...
1333,True,False
1334,True,False
1335,True,False
1336,True,False


Dále připoj data do původní tabulky. Připojení je nutné provést s využitím indexů, protože tabulky nemají společný sloupec. Proto využij funkci `merge()` s parametry `left_index=True` a `right_index=True`.

In [None]:
data2 = pandas.merge(data2, smoker, left_index=True, right_index=True)
# ... spojujeme přes indexy v obou tabulkách, proto parametry left/right_index=True

data2.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,smoker_number,sex_number,smoker_no,smoker_yes
0,19,female,27.9,0,yes,southwest,16884.924,1,0,False,True
1,18,male,33.77,1,no,southeast,1725.5523,0,1,True,False
2,28,male,33.0,3,no,southeast,4449.462,0,1,True,False
3,33,male,22.705,0,no,northwest,21984.47061,0,1,True,False
4,32,male,28.88,0,no,northwest,3866.8552,0,1,True,False


### Ještě lepší alternativa pro vytváření dummies

Vytvoření dummies přímo v původním DataFramu (ušetříme si `merge()`)

In [None]:
data2 = pandas.get_dummies(data2, columns=["smoker"], prefix="smoker")
# ...parametr columns určuje, které sloupce převést na dummy
# ...parametr prefix přidá k názvům vytvořených sloupců ("yes"/"no") zvolený string

data2.head()

Unnamed: 0,age,sex,bmi,children,region,charges,smoker_number,sex_number,smoker_no,smoker_yes,smoker_no.1,smoker_yes.1
0,19,female,27.9,0,southwest,16884.924,1,0,False,True,False,True
1,18,male,33.77,1,southeast,1725.5523,0,1,True,False,True,False
2,28,male,33.0,3,southeast,4449.462,0,1,True,False,True,False
3,33,male,22.705,0,northwest,21984.47061,0,1,True,False,True,False
4,32,male,28.88,0,northwest,3866.8552,0,1,True,False,True,False


Nyní využij tento sloupec ve svém regresním modelu.

In [None]:
formula = "charges ~  age + bmi + smoker_number"
# formula = "charges ~  age + bmi + smoker_yes"
# ...lze použít oba sloupce (mají rovnocenný obsah)

mod = smf.ols(formula=formula, data=data2)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.747
Model:,OLS,Adj. R-squared:,0.747
Method:,Least Squares,F-statistic:,1316.0
Date:,"Thu, 18 May 2023",Prob (F-statistic):,0.0
Time:,20:32:57,Log-Likelihood:,-13557.0
No. Observations:,1338,AIC:,27120.0
Df Residuals:,1334,BIC:,27140.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.168e+04,937.569,-12.454,0.000,-1.35e+04,-9837.561
age,259.5475,11.934,21.748,0.000,236.136,282.959
bmi,322.6151,27.487,11.737,0.000,268.692,376.538
smoker_number,2.382e+04,412.867,57.703,0.000,2.3e+04,2.46e+04

0,1,2,3
Omnibus:,299.709,Durbin-Watson:,2.077
Prob(Omnibus):,0.0,Jarque-Bera (JB):,710.137
Skew:,1.213,Prob(JB):,6.25e-155
Kurtosis:,5.618,Cond. No.,289.0
