# Capítulo 13 - Modelos lineares generalizados

## Seção 13.2 - Regressão logística

Regressão logística é usada quando a variável de saída é binária. O resultado desse modelo é a probabilidade do evento ocorrer.

Vamos começar com os dados da American Community Survey e criar uma variável binária indicando se a renda da família é maior ou menor que 150k:

In [1]:
import pandas as pd

acs = pd.read_csv('../data/acs_ny.csv')
print('Nome das variáveis:')
print(acs.columns)
print(acs.head())

print('-'*80)
print('Criando uma variável binária para indicar se a renda é maior ou menor que 150k')
acs['ge150k'] = pd.cut(acs['FamilyIncome'], [0, 150000, acs['FamilyIncome'].max()], labels=[0, 1])
print('-'*80)
print('O método cut vai retornar variáveis categorizadas. Vamos converter para int:')
acs['ge150k_i'] = acs['ge150k'].astype(int)
print(acs['ge150k_i'].value_counts())

Nome das variáveis:
Index(['Acres', 'FamilyIncome', 'FamilyType', 'NumBedrooms', 'NumChildren',
       'NumPeople', 'NumRooms', 'NumUnits', 'NumVehicles', 'NumWorkers',
       'OwnRent', 'YearBuilt', 'HouseCosts', 'ElectricBill', 'FoodStamp',
       'HeatingFuel', 'Insurance', 'Language'],
      dtype='object')
  Acres  FamilyIncome   FamilyType  NumBedrooms  NumChildren  NumPeople  \
0  1-10           150      Married            4            1          3   
1  1-10           180  Female Head            3            2          4   
2  1-10           280  Female Head            4            0          2   
3  1-10           330  Female Head            2            1          2   
4  1-10           330    Male Head            3            1          2   

   NumRooms         NumUnits  NumVehicles  NumWorkers   OwnRent    YearBuilt  \
0         9  Single detached            1           0  Mortgage    1950-1959   
1         6  Single detached            2           0    Rented  Before 1939

E agora vamos criar um modelo de regressão logística usando a statsmodels e a biblioteca sklearn.

Primeiro com a statsmodels:

In [2]:
import statsmodels.formula.api as smf

model = smf.logit('ge150k_i ~ HouseCosts + NumWorkers + OwnRent + NumBedrooms + FamilyType', data=acs)
results = model.fit()

print(results.summary())

Optimization terminated successfully.
         Current function value: 0.391651
         Iterations 7
                           Logit Regression Results                           
Dep. Variable:               ge150k_i   No. Observations:                22745
Model:                          Logit   Df Residuals:                    22737
Method:                           MLE   Df Model:                            7
Date:                Mon, 09 May 2022   Pseudo R-squ.:                  0.2078
Time:                        11:18:10   Log-Likelihood:                -8908.1
converged:                       True   LL-Null:                       -11244.
Covariance Type:            nonrobust   LLR p-value:                     0.000
                              coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------------------
Intercept                  -5.8081      0.120    -48.456      0.000      -6.043   

Veja que a variável OwnRent e FamilyType são variáveis categorizadas, coisa que a statsmodels já trata automaticamente. No caso de fazer o mesmo a sklearn é necessário criar as variáveis dummy na mão:

In [3]:
from sklearn import linear_model
import numpy as np

predictors = pd.get_dummies(acs[['HouseCosts', 'NumWorkers', 'OwnRent', 'NumBedrooms', 'FamilyType']], drop_first=True)

lr = linear_model.LogisticRegression()

# Inicialmente isso não estava funcionando com todos os preditores. Tive que atualizar o sklearn pra rodar.
# Note que o algoritmo é diferente (ou usa uma seed diferente), visto que o resultado é diferente da statsmodels.

results = lr.fit(X=predictors, y=acs['ge150k_i'])

values = np.append(results.intercept_, results.coef_)
names = np.append('intercept', predictors.columns)

results = pd.DataFrame(values, index = names, columns=['coef'])

print(results)

                          coef
intercept            -4.833374
HouseCosts            0.000585
NumWorkers            0.730671
NumBedrooms           0.283785
OwnRent_Outright      0.070740
OwnRent_Rented       -2.122382
FamilyType_Male Head -1.032699
FamilyType_Married    0.253848


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## Seção 13.3 Regressão de Poisson

A regressão de Poisson é adequada na modelagem de variáveis que envolvam taxas ou contagem. Na nossa base de dados, uma variável desse tipo é a NumChildren.

O livro não dá detalhes de como cada coisa funciona, só joga os códigos. É necessário depois estudar cada modelo pra entender direito o que ele faz.

In [4]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

model = smf.glm('NumChildren ~ FamilyIncome + FamilyType + OwnRent',
               data=acs,
               family=sm.families.Poisson())
results = model.fit()

print(results.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:            NumChildren   No. Observations:                22745
Model:                            GLM   Df Residuals:                    22739
Model Family:                 Poisson   Df Model:                            5
Link Function:                    Log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -30679.
Date:                Mon, 09 May 2022   Deviance:                       34643.
Time:                        11:18:10   Pearson chi2:                 3.34e+04
No. Iterations:                     6   Pseudo R-squ. (CS):            0.02588
Covariance Type:            nonrobust                                         
                              coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------------------
Intercept                 