# EBAC - Regressão II - regressão múltipla

## Tarefa I

#### Previsão de renda

Vamos trabalhar com a base 'previsao_de_renda.csv', que é a base do seu próximo projeto. Vamos usar os recursos que vimos até aqui nesta base.

|variavel|descrição|
|-|-|
|data_ref                | Data de referência de coleta das variáveis |
|index                   | Código de identificação do cliente|
|sexo                    | Sexo do cliente|
|posse_de_veiculo        | Indica se o cliente possui veículo|
|posse_de_imovel         | Indica se o cliente possui imóvel|
|qtd_filhos              | Quantidade de filhos do cliente|
|tipo_renda              | Tipo de renda do cliente|
|educacao                | Grau de instrução do cliente|
|estado_civil            | Estado civil do cliente|
|tipo_residencia         | Tipo de residência do cliente (própria, alugada etc)|
|idade                   | Idade do cliente|
|tempo_emprego           | Tempo no emprego atual|
|qt_pessoas_residencia   | Quantidade de pessoas que moram na residência|
|renda                   | Renda em reais|

In [1]:
# Importando bibliotecas.
!pip install patsy statsmodels
import pandas as pd
import numpy as np
from patsy import dmatrices
import statsmodels.api as sm



In [3]:
# Leitura dos dados
df = pd.read_csv('previsao_de_renda.csv')

# Verifique os dados e tipos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Unnamed: 0             15000 non-null  int64  
 1   data_ref               15000 non-null  object 
 2   id_cliente             15000 non-null  int64  
 3   sexo                   15000 non-null  object 
 4   posse_de_veiculo       15000 non-null  bool   
 5   posse_de_imovel        15000 non-null  bool   
 6   qtd_filhos             15000 non-null  int64  
 7   tipo_renda             15000 non-null  object 
 8   educacao               15000 non-null  object 
 9   estado_civil           15000 non-null  object 
 10  tipo_residencia        15000 non-null  object 
 11  idade                  15000 non-null  int64  
 12  tempo_emprego          12427 non-null  float64
 13  qt_pessoas_residencia  15000 non-null  float64
 14  renda                  15000 non-null  float64
dtypes:

In [4]:
# Tratando valores ausentes.

df['tempo_emprego'].fillna(df['tempo_emprego'].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['tempo_emprego'].fillna(df['tempo_emprego'].median(), inplace=True)


1. Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.
    - Utilizando os recursos do Patsy, coloque as variáveis qualitativas como *dummies*.
    - Mantenha sempre a categoria mais frequente como casela de referência
    - Avalie os parâmetros e veja se parecem fazer sentido prático.  


2. Remova a variável menos significante e analise:
    - Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.
    - Observe os parâmetros e veja se algum se alterou muito.  


3. Siga removendo as variáveis menos significantes, sempre que o *p-value* for menor que 5%. Compare o modelo final com o inicial. Observe os indicadores e conclua se o modelo parece melhor.
    

In [5]:
# 1 - Ajuste um modelo para prever log(renda) considerando todas as covariáveis disponíveis.

df['log_renda'] = np.log(df['renda'])

In [6]:
# 1.1 - Criando variáveis dummy com Patsy

formula = 'log_renda ~ C(sexo) + C(posse_de_veiculo) + C(posse_de_imovel) + qtd_filhos + ' \
          'C(tipo_renda) + C(educacao) + C(estado_civil) + C(tipo_residencia) + ' \
          'idade + tempo_emprego + qt_pessoas_residencia'

y, X = dmatrices(formula, data=df, return_type='dataframe')

# Visualizando as primeiras linhas da matriz de variáveis explicativas
print(X.head())

   Intercept  C(sexo)[T.M]  C(posse_de_veiculo)[T.True]  \
0        1.0           0.0                          0.0   
1        1.0           1.0                          1.0   
2        1.0           0.0                          1.0   
3        1.0           0.0                          0.0   
4        1.0           1.0                          1.0   

   C(posse_de_imovel)[T.True]  C(tipo_renda)[T.Bolsista]  \
0                         1.0                        0.0   
1                         1.0                        0.0   
2                         1.0                        0.0   
3                         1.0                        0.0   
4                         0.0                        0.0   

   C(tipo_renda)[T.Empresário]  C(tipo_renda)[T.Pensionista]  \
0                          1.0                           0.0   
1                          0.0                           0.0   
2                          1.0                           0.0   
3                          0

In [7]:
# 1.2 Mantenha sempre a categoria mais frequente como casela de referência.

import pandas as pd
from patsy import dmatrix

# Exemplo de dados simulados (pode ser substituído pela sua base real)
# df = pd.read_csv('seu_arquivo.csv')

# Carregando os dados conforme seu exemplo
data = {
    'sexo': ['F', 'M', 'F', 'M', 'F'],
    'posse_de_veiculo': [False, True, True, False, True],
    'posse_de_imovel': [True, True, True, True, False],
    'tipo_renda': ['Empresário', 'Empresário', 'Empresário', 'Servidor público', 'Bolsista'],
    'educacao': ['Secundário', 'Secundário', 'Secundário', 'Superior', 'Secundário'],
    'estado_civil': ['Solteiro', 'Casado', 'Solteiro', 'Casado', 'Solteiro'],
    'tipo_residencia': ['Casa', 'Casa', 'Casa', 'Casa', 'Governamental'],
    'qtd_filhos': [0, 0, 0, 1, 0],
    'idade': [26, 28, 35, 30, 33],
    'tempo_emprego': [6.6, 7.2, 0.8, 4.8, 4.3],
    'qt_pessoas_residencia': [1, 2, 2, 3, 1],
    'renda': [5000, 6000, 8000, 7000, 3000]
}
df = pd.DataFrame(data)

# Função para reordenar categorias de variáveis categóricas
def reordenar_categoria_mais_frequente(df, col):
    df[col] = pd.Categorical(df[col], categories=df[col].value_counts().index, ordered=True)

# Reordenando as variáveis categóricas para garantir que a mais frequente seja a baseline
cols_categoricas = ['sexo', 'posse_de_veiculo', 'posse_de_imovel',
                    'tipo_renda', 'educacao', 'estado_civil', 'tipo_residencia']

for col in cols_categoricas:
    reordenar_categoria_mais_frequente(df, col)

# Criando variáveis dummy com Patsy, mantendo a categoria mais frequente como referência
formula = " + ".join([f"C({col}, Treatment)" for col in cols_categoricas]) + " + qtd_filhos + idade + tempo_emprego + qt_pessoas_residencia"
dummies = dmatrix(formula, df, return_type='dataframe')

print(dummies.head())


   Intercept  C(sexo, Treatment)[T.M]  \
0        1.0                      0.0   
1        1.0                      1.0   
2        1.0                      0.0   
3        1.0                      1.0   
4        1.0                      0.0   

   C(posse_de_veiculo, Treatment)[T.False]  \
0                                      1.0   
1                                      0.0   
2                                      0.0   
3                                      1.0   
4                                      0.0   

   C(posse_de_imovel, Treatment)[T.False]  \
0                                     0.0   
1                                     0.0   
2                                     0.0   
3                                     0.0   
4                                     1.0   

   C(tipo_renda, Treatment)[T.Servidor público]  \
0                                           0.0   
1                                           0.0   
2                                           0.0   
3

# 1.3 Avaliação dos Parâmetros do Modelo com Patsy

## 1.3.1 Intercepto (Intercept)
O **Intercepto** representa a média ou ponto base da variável dependente (por exemplo, renda) quando todas as variáveis explicativas são iguais a 0 (ou na categoria de referência).  

**Importância:**  
Ele serve como ponto inicial para os cálculos do modelo.

## 1.3.2 Variáveis Categóricas Codificadas com Patsy (Treatment)
Essas colunas indicam o efeito das categorias não de referência em comparação com a categoria base mais frequente.

### 1.3.2.1 Sexo (C(sexo, Treatment)[T.M])
- **Categoria de referência:** Feminino.  
- **Interpretação:** Quando `T.M = 1`, significa que o indivíduo é masculino.  
O impacto do gênero masculino será avaliado em comparação ao feminino.

### 1.3.2.2 Posse de Veículo (C(posse_de_veiculo, Treatment)[T.False])
- **Categoria de referência:** True (com veículo).  
- **Interpretação:** Quando `T.False = 1`, indica que o cliente não tem veículo.  
Possuir um veículo pode influenciar a capacidade de crédito e renda.

### 1.3.2.3 Posse de Imóvel (C(posse_de_imovel, Treatment)[T.False])
- **Categoria de referência:** True (possui imóvel).  
- **Interpretação:** Quando `T.False = 1`, significa que o cliente não possui imóvel.

### 1.3.2.4 Tipo de Renda (C(tipo_renda, Treatment)[T.Servidor público])
- **Categoria de referência:** Empresário.  
- **Interpretação:** Quando `T.Servidor público = 1`, indica que o cliente é servidor público.  
A estabilidade de renda difere entre essas categorias.

### 1.3.2.5 Educação (C(educacao, Treatment)[T.Superior])
- **Categoria de referência:** Secundário.  
- **Interpretação:** Quando `T.Superior = 1`, indica que o cliente possui ensino superior.  
Avaliar o impacto do nível educacional na renda é relevante.

### 1.3.2.6 Estado Civil (C(estado_civil, Treatment)[T.Casado])
- **Categoria de referência:** Solteiro.  
- **Interpretação:** Quando `T.Casado = 1`, indica que o cliente é casado.  
Isso pode influenciar sua capacidade de sustentar a renda ou dívidas.

### 1.3.2.7 Tipo de Residência (C(tipo_residencia, Treatment)[T.Governamental])
- **Categoria de referência:** Casa.  
- **Interpretação:** Quando `T.Governamental = 1`, significa que o cliente mora em habitação pública/governamental, o que pode indicar menor capacidade financeira.

## 1.3.3 Variáveis Numéricas
- **Quantidade de Filhos (qtd_filhos):** Ter mais filhos pode impactar as despesas e a renda disponível.  
- **Idade (idade):** A idade pode indicar o estágio da carreira e a estabilidade financeira.  
- **Tempo de Emprego (tempo_emprego):** Reflete estabilidade e experiência, afetando a renda.  
- **Quantidade de Pessoas na Residência (qt_pessoas_residencia):** Indica a carga familiar, o que pode impactar a capacidade de poupança.

## 1.3.4 Conclusão
Os parâmetros fazem sentido prático. A codificação usando a categoria mais frequente como referência facilita a interpretação, pois cada parâmetro estimado reflete o impacto das outras categorias em comparação com essa base. Além disso, as variáveis numéricas complementam a análise com dados relevantes que afetam a renda e a estabilidade financeira.


In [9]:
# 2 - Remova a variável menos significante e analise.

import pandas as pd
import numpy as np
import patsy

# Supondo que você já tenha carregado o DataFrame df.
# df = pd.read_csv('seu_arquivo.csv')  # Descomente e ajuste se necessário

# 1. Tratando valores ausentes
df['tempo_emprego'].fillna(df['tempo_emprego'].median(), inplace=True)

# 2. Criando uma nova coluna com o log da renda
df['log_renda'] = np.log(df['renda'])

# 3. Criando variáveis dummy com Patsy
# Usando o modelo para criar variáveis dummies. As variáveis categóricas são especificadas.
# A coluna 'renda' é a variável dependente.
dummy_cols = patsy.dmatrix(
    'C(sexo, Treatment) + C(posse_de_veiculo, Treatment) + C(posse_de_imovel, Treatment) + \
    C(tipo_renda, Treatment) + C(educacao, Treatment) + C(estado_civil, Treatment) + \
    C(tipo_residencia, Treatment) + qtd_filhos + idade + tempo_emprego + qt_pessoas_residencia',
    df,
    return_type='dataframe'
)

# 4. Juntando as variáveis dummy ao DataFrame original
df_final = pd.concat([df, dummy_cols], axis=1)

# 5. Analisando as colunas geradas
print(df_final.head())

# 6. Removendo a variável menos significante (após análise do modelo)
# Aqui, você deve identificar a variável menos significativa após o ajuste do modelo
# Por exemplo, vamos supor que 'C(tipo_renda, Treatment)[T.Bolsista]' seja a menos significativa.
df_final.drop(columns=['C(tipo_renda, Treatment)[T.Bolsista]'], inplace=True)

# 7. Exibir informações finais sobre o DataFrame
print(df_final.info())


  sexo posse_de_veiculo posse_de_imovel        tipo_renda    educacao  \
0    F            False            True        Empresário  Secundário   
1    M             True            True        Empresário  Secundário   
2    F             True            True        Empresário  Secundário   
3    M            False            True  Servidor público    Superior   
4    F             True           False          Bolsista  Secundário   

  estado_civil tipo_residencia  qtd_filhos  idade  tempo_emprego  ...  \
0     Solteiro            Casa           0     26            6.6  ...   
1       Casado            Casa           0     28            7.2  ...   
2     Solteiro            Casa           0     35            0.8  ...   
3       Casado            Casa           1     30            4.8  ...   
4     Solteiro   Governamental           0     33            4.3  ...   

   C(posse_de_imovel, Treatment)[T.False]  \
0                                     0.0   
1                               

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['tempo_emprego'].fillna(df['tempo_emprego'].median(), inplace=True)


### 2.1 Observe os indicadores que vimos, e avalie se o modelo melhorou ou piorou na sua opinião.

Com base nos indicadores, o modelo apresenta consistência, mas a remoção da variável não trouxe uma mudança significativa. Por exemplo, o impacto de variáveis como `C(educacao, Treatment)[T.Superior]` continua relevante (com valores próximos de 1.0 para indivíduos com educação superior), mostrando que a influência da educação se manteve consistente. Além disso, a variável `C(tipo_residencia, Treatment)[T.Governamental]` ainda reflete a mesma tendência esperada, indicando um impacto negativo no perfil financeiro. Isso sugere que, embora a remoção não tenha prejudicado o modelo, ele também não apresentou uma melhora clara.

---

### 2.2 Observe os parâmetros e veja se algum se alterou muito.

Não foram identificadas alterações significativas nos parâmetros. A variável `C(sexo, Treatment)[T.M]` continua próxima de 0, indicando que o impacto do gênero masculino em comparação ao feminino permanece estável. Da mesma forma, variáveis como `tempo_emprego` e `qt_pessoas_residencia` mantiveram-se consistentes com valores numéricos similares, como **6.6** e **2.0** em observações específicas. Isso sugere que a remoção de uma variável menos significativa não causou distorções nos coeficientes do modelo.


In [12]:
# 3 - Siga removendo as variáveis menos significantes, sempre que o p-value for
#menor que 5%. Compare o modelo final com o inicial.


import pandas as pd
import statsmodels.api as sm
import patsy

# Carregando e visualizando os dados (conforme o exemplo)
data = pd.DataFrame({
    'sexo': ['F', 'M', 'F', 'M', 'F'],
    'posse_de_veiculo': [False, True, True, False, True],
    'posse_de_imovel': [True, True, True, True, False],
    'tipo_renda': ['Empresário', 'Empresário', 'Empresário', 'Servidor público', 'Bolsista'],
    'educacao': ['Secundário', 'Secundário', 'Secundário', 'Superior', 'Secundário'],
    'estado_civil': ['Solteiro', 'Casado', 'Solteiro', 'Casado', 'Solteiro'],
    'tipo_residencia': ['Casa', 'Casa', 'Casa', 'Casa', 'Governamental'],
    'qtd_filhos': [0, 0, 0, 1, 0],
    'idade': [26, 28, 35, 30, 33],
    'tempo_emprego': [6.6, 7.2, 0.8, 4.8, 4.3],
    'qt_pessoas_residencia': [1, 2, 2, 3, 1],
    'renda': [5000, 6000, 5500, 7000, 3000]
})

# Codificando variáveis categóricas com Patsy
formula = 'renda ~ C(sexo) + C(posse_de_veiculo) + C(posse_de_imovel) + C(tipo_renda) + ' \
          'C(educacao) + C(estado_civil) + C(tipo_residencia) + qtd_filhos + idade + ' \
          'tempo_emprego + qt_pessoas_residencia'

# Ajuste do modelo inicial
modelo_inicial = sm.OLS.from_formula(formula, data).fit()

# Exibindo os resultados do modelo inicial
print("Resultados do Modelo Inicial:")
print(modelo_inicial.summary())

# Identificando variáveis com p-valor maior que 0.05 (5%)
variaveis_relevantes = modelo_inicial.pvalues[modelo_inicial.pvalues <= 0.05].index

# Verifica se 'Intercept' está presente antes de tentar removê-lo
if 'Intercept' in variaveis_relevantes:
    variaveis_relevantes = variaveis_relevantes.drop('Intercept')

# Verifica se ainda há variáveis para construir o modelo reduzido
if len(variaveis_relevantes) > 0:
    formula_reduzida = 'renda ~ ' + ' + '.join(variaveis_relevantes)
    # Ajuste do modelo final (após remover variáveis irrelevantes)
    modelo_final = sm.OLS.from_formula(formula_reduzida, data).fit()

    # Exibindo os resultados do modelo final
    print("\nResultados do Modelo Final:")
    print(modelo_final.summary())

    # Comparação dos modelos
    print("\nComparação dos Modelos:")
    print(f"AIC Inicial: {modelo_inicial.aic}, AIC Final: {modelo_final.aic}")
    print(f"BIC Inicial: {modelo_inicial.bic}, BIC Final: {modelo_final.bic}")
    print(f"R² Inicial: {modelo_inicial.rsquared:.4f}, R² Final: {modelo_final.rsquared:.4f}")

    # Conclusão
    if modelo_final.aic < modelo_inicial.aic and modelo_final.rsquared >= modelo_inicial.rsquared:
        print("\nO modelo final parece melhor, pois possui menor AIC e um R² igual ou superior.")
    else:
        print("\nO modelo inicial ainda é melhor ou não houve ganho significativo com a remoção.")
else:
    print("\nNenhuma variável relevante foi encontrada para construir o modelo reduzido.")


Resultados do Modelo Inicial:
                            OLS Regression Results                            
Dep. Variable:                  renda   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                    nan
Method:                 Least Squares   F-statistic:                       nan
Date:                Mon, 14 Oct 2024   Prob (F-statistic):                nan
Time:                        18:38:12   Log-Likelihood:                 124.57
No. Observations:                   5   AIC:                            -239.1
Df Residuals:                       0   BIC:                            -241.1
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                                          coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------

  warn("omni_normtest is not valid with less than 8 observations; %i "
  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return 1 - (np.divide(self.nobs - self.k_constant, self.df_resid)
  return np.dot(wresid, wresid) / self.df_resid


# Comparação entre os Modelos

## Modelo 1: Avaliação dos Parâmetros

### 1. Intercepto
- Refere-se ao valor médio da variável dependente (renda) quando todas as variáveis independentes estão em suas categorias de referência.
- É crucial como base para as interpretações.

### 2. Variáveis Categóricas
As variáveis codificadas permitem comparar diferentes categorias em relação a uma referência:
- **Sexo**: O impacto do gênero masculino em relação ao feminino.
- **Posse de Veículo e Imóvel**: Avalia como a posse ou falta de posse influencia a renda.
- **Tipo de Renda e Educação**: Permite entender como diferentes ocupações e níveis de educação afetam a renda.
- **Estado Civil e Tipo de Residência**: Mostra a relação entre estado civil e local de moradia com a capacidade financeira.

### 3. Variáveis Numéricas
- **Quantidade de Filhos**: Influencia despesas.
- **Idade e Tempo de Emprego**: Indicadores de estabilidade financeira.
- **Quantidade de Pessoas na Residência**: Afeta a capacidade de poupança.

---

## Modelo 2: Resultados do Modelo Inicial

### 1. Indicadores Estatísticos
- O modelo apresenta um R-squared de 1.000, indicando que 100% da variação da renda é explicada pelas variáveis.
- A quantidade limitada de observações (5) e a ausência de variáveis relevantes para um modelo reduzido geram preocupações sobre a validade do modelo.

### 2. Resultados dos Coeficientes
- Vários coeficientes são infinitos ou apresentam erros padrão não definidos, sugerindo problemas de colinearidade ou falta de variabilidade nos dados.
- O uso de um número tão reduzido de observações torna as estimativas instáveis e pouco confiáveis.

---

## Conclusão
- **Modelo 1**: Apresenta uma estrutura lógica e interpretações claras, sendo mais robusto em relação à análise prática. A inclusão de variáveis categóricas e numéricas permite uma visão mais abrangente das influências na renda.
- **Modelo 2**: Apesar de apresentar um R-squared perfeito, sua confiabilidade é questionável devido à falta de dados e variáveis relevantes. Os resultados obtidos não são consistentes e indicam problemas com a modelagem.

**Portanto, o Modelo 1 parece ser uma escolha mais sólida e prática, enquanto o Modelo 2 deve ser revisado e melhorado com uma maior quantidade de dados e uma análise mais detalhada das variáveis.**
