# Cvičení

## Pojišťovna

V souboru `expenses.csv` najdeš informace o platbách za pojištěnce jedné pojišťovny: věk, pohlaví, BMI (index počítaný jako hmotnost dělená výškou), počet dětí, kuřák/nekuřák, region a platby za pojištěnce. 



In [1]:
import pandas
import statsmodels.formula.api as smf

data = pandas.read_csv("expenses.csv")
data

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.900,0,yes,southwest,16884.92400
1,18,male,33.770,1,no,southeast,1725.55230
2,28,male,33.000,3,no,southeast,4449.46200
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
...,...,...,...,...,...,...,...
1333,50,male,30.970,3,no,northwest,10600.54830
1334,18,female,31.920,0,no,northeast,2205.98080
1335,18,female,36.850,0,no,southeast,1629.83350
1336,21,female,25.800,0,no,southwest,2007.94500


Vytvoř regresní model, který odhadne platby za pojištěnce na základě jeho věku a indexu BMI.

In [None]:
formula = "charges ~ age + bmi"
mod = smf.ols(formula=formula, data=data)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.117
Model:,OLS,Adj. R-squared:,0.116
Method:,Least Squares,F-statistic:,88.6
Date:,"Sun, 14 May 2023",Prob (F-statistic):,7.390000000000001e-37
Time:,20:08:40,Log-Likelihood:,-14394.0
No. Observations:,1338,AIC:,28790.0
Df Residuals:,1335,BIC:,28810.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-6424.8046,1744.091,-3.684,0.000,-9846.262,-3003.347
age,241.9308,22.298,10.850,0.000,198.187,285.674
bmi,332.9651,51.374,6.481,0.000,232.182,433.748

0,1,2,3
Omnibus:,321.874,Durbin-Watson:,2.01
Prob(Omnibus):,0.0,Jarque-Bera (JB):,592.574
Skew:,1.511,Prob(JB):,2.11e-129
Kurtosis:,4.223,Cond. No.,287.0


V regresi se často využívá metoda označovaná jako One Hot Encoding, která slouží ke zpracování nečíselných (kategoriálních) dat. Metodu aplikuješ tak, že vytvoříme sloupec pro každou hodnotu, které kategoriálních hodnota může nabýt. Pro každý řádek je pak hodnota příslušného sloupce 1 a ostatních sloupců 0. 

Vytvoř tedy sloupec `smoker_number` (takovému sloupci se říká *dummy* proměnná), který bude obsahovat hodnotu 1, pokud je ve sloupci `smoker` hodnota `yes`, a v opačném případě 0. 

Můžeš využít metodu `apply()` nebo funkci `numpy.where()`. Dále přidej nově vytvořený sloupec do regresního modelu. O kolik se zvýšil koeficient determinace?

In [None]:
def smoker(row):
    if row["smoker"] == "yes":
        return 1
    else:
        return 0


def sex(row):
    if row["sex"] == "male":
        return 1
    else:
        return 0


data["smoker_number"] = data.apply(smoker, axis=1)
data["sex"] = data.apply(sex, axis=1)

formula = "charges ~  age + bmi + smoker_number"
mod = smf.ols(formula=formula, data=data)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.747
Model:,OLS,Adj. R-squared:,0.747
Method:,Least Squares,F-statistic:,1316.0
Date:,"Sun, 14 May 2023",Prob (F-statistic):,0.0
Time:,20:08:40,Log-Likelihood:,-13557.0
No. Observations:,1338,AIC:,27120.0
Df Residuals:,1334,BIC:,27140.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.168e+04,937.569,-12.454,0.000,-1.35e+04,-9837.561
age,259.5475,11.934,21.748,0.000,236.136,282.959
bmi,322.6151,27.487,11.737,0.000,268.692,376.538
smoker_number,2.382e+04,412.867,57.703,0.000,2.3e+04,2.46e+04

0,1,2,3
Omnibus:,299.709,Durbin-Watson:,2.077
Prob(Omnibus):,0.0,Jarque-Bera (JB):,710.137
Skew:,1.213,Prob(JB):,6.25e-155
Kurtosis:,5.618,Cond. No.,289.0


Takový postup vytváření je poměrně pracný, hlavně v případě, že proměnná nabývá více různých hodnot. `pandas` k tomu nabízí funkci `get_dummies()`. Vyzkoušej si funkci použitím příkazu níže.

```py
smoker = pandas.get_dummies(data["smoker"])
smoker
```


In [None]:
smoker = pandas.get_dummies(data["smoker"])
smoker

Unnamed: 0,no,yes
0,False,True
1,True,False
2,True,False
3,True,False
4,True,False
...,...,...
1333,True,False
1334,True,False
1335,True,False
1336,True,False


Dále připoj data do původní tabulky. Připojení je nutné provést s využitím indexů, protože tabulky nemají společný sloupec. Proto využij funkci `merge()` s parametry `left_index=True` a `right_index=True`.

```py
data = pandas.merge(data, smoker, left_index=True, right_index=True)
data
```



In [None]:
data = pandas.merge(data, smoker, left_index=True, right_index=True)
data

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,smoker_number,no,yes
0,19,0,27.900,0,yes,southwest,16884.92400,1,False,True
1,18,1,33.770,1,no,southeast,1725.55230,0,True,False
2,28,1,33.000,3,no,southeast,4449.46200,0,True,False
3,33,1,22.705,0,no,northwest,21984.47061,0,True,False
4,32,1,28.880,0,no,northwest,3866.85520,0,True,False
...,...,...,...,...,...,...,...,...,...,...
1333,50,1,30.970,3,no,northwest,10600.54830,0,True,False
1334,18,0,31.920,0,no,northeast,2205.98080,0,True,False
1335,18,0,36.850,0,no,southeast,1629.83350,0,True,False
1336,21,0,25.800,0,no,southwest,2007.94500,0,True,False


Nyní využij tento sloupec ve svém regresním modelu.

In [None]:
formula = "charges ~  age + bmi + yes"
mod = smf.ols(formula=formula, data=data)
res = mod.fit()
res.summary()

0,1,2,3
Dep. Variable:,charges,R-squared:,0.747
Model:,OLS,Adj. R-squared:,0.747
Method:,Least Squares,F-statistic:,1316.0
Date:,"Sun, 14 May 2023",Prob (F-statistic):,0.0
Time:,20:08:40,Log-Likelihood:,-13557.0
No. Observations:,1338,AIC:,27120.0
Df Residuals:,1334,BIC:,27140.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.168e+04,937.569,-12.454,0.000,-1.35e+04,-9837.561
yes[T.True],2.382e+04,412.867,57.703,0.000,2.3e+04,2.46e+04
age,259.5475,11.934,21.748,0.000,236.136,282.959
bmi,322.6151,27.487,11.737,0.000,268.692,376.538

0,1,2,3
Omnibus:,299.709,Durbin-Watson:,2.077
Prob(Omnibus):,0.0,Jarque-Bera (JB):,710.137
Skew:,1.213,Prob(JB):,6.25e-155
Kurtosis:,5.618,Cond. No.,289.0
