In [16]:
import pandas as pd

import scipy.stats as stats

import numpy as np

import statsmodels.api as sm

from scipy.stats import ttest_ind

from statsmodels.formula.api import ols

from scipy.stats import ks_2samp

from scipy.stats import chi2_contingency

# Módulo 10 tarefa 2

Considere a mesma base de dados utilizada na tarefa 1 ```previsao_de_renda.csv```.

1) Com o que você viu em aula, faça uma análise das variáveis qualitativas (posse de imóvel e posse de veículo) para verificar se são boas preditoras de *renda*. Alguma delas parece discriminar *renda* de forma estatisticamente significante?

**Resposta:**

* Ambas parecem discriminar a renda de forma estatisticamente significante, realizados vários testes esatísticos descritivos como média, desvio padrão, valor mínimo e máximo, análise de variancia, teste de Kolmogorov-Smirnov e Qui-Quadrado, em todos obtemos um resultado que sugere as variáveis parecem ser um fator relevante na predição da renda dos clientes, apesar de visivelmente os resultados serem ligeiramente maiores, estatisticamente falando são significantes.

In [17]:
# Carregando arquivo CSV em um dataframe
df = pd.read_csv('previsao_de_renda.csv')

# Comparando estatísticas descritivas da renda entre os grupos que possuem ou não possuem imóvel
print("Estatísticas descritivas da renda para quem possui imóvel:")
print(df[df['posse_de_imovel'] == True]['renda'].describe())

print("\nEstatísticas descritivas da renda para quem NÃO possui imóvel:")
print(df[df['posse_de_imovel'] == False]['renda'].describe())

# Comparando estatísticas descritivas da renda entre os grupos que possuem ou não possuem veículo
print("\nEstatísticas descritivas da renda para quem possui veículo:")
print(df[df['posse_de_veiculo'] == True]['renda'].describe())

print("\nEstatísticas descritivas da renda para quem NÃO possui veículo:")
print(df[df['posse_de_veiculo'] == False]['renda'].describe())

# Teste de hipótese para verificar se há diferença significativa na renda entre os grupos que possuem ou não imóvel
print("\nTeste de hipótese - Possui imóvel vs. Não possui imóvel:")
t_stat_imovel, p_value_imovel = stats.ttest_ind(df[df['posse_de_imovel'] == True]['renda'],
                                               df[df['posse_de_imovel'] == False]['renda'], equal_var=False)
print("T-statistic:", t_stat_imovel)
print("P-value:", p_value_imovel)

# Teste de hipótese para verificar se há diferença significativa na renda entre os grupos que possuem ou não veículo
print("\nTeste de hipótese - Possui veículo vs. Não possui veículo:")
t_stat_veiculo, p_value_veiculo = stats.ttest_ind(df[df['posse_de_veiculo'] == True]['renda'],
                                                 df[df['posse_de_veiculo'] == False]['renda'], equal_var=False)
print("T-statistic:", t_stat_veiculo)
print("P-value:", p_value_veiculo)


Estatísticas descritivas da renda para quem possui imóvel:
count    10082.000000
mean      4721.052704
std       4654.266817
min        159.900000
25%       2012.237500
50%       3341.200000
75%       5726.260000
max      89918.040000
Name: renda, dtype: float64

Estatísticas descritivas da renda para quem NÃO possui imóvel:
count     4918.000000
mean      4426.970482
std       4569.558384
min        260.680000
25%       1822.440000
50%       3135.080000
75%       5405.255000
max      67794.540000
Name: renda, dtype: float64

Estatísticas descritivas da renda para quem possui veículo:
count     5833.000000
mean      4992.579609
std       4732.823337
min        187.690000
25%       2143.410000
50%       3564.430000
75%       6086.560000
max      67794.540000
Name: renda, dtype: float64

Estatísticas descritivas da renda para quem NÃO possui veículo:
count     9167.000000
mean      4390.506963
std       4545.776180
min        159.900000
25%       1825.390000
50%       3084.090000
75%    

In [18]:
# Teste de Kolmogorov-Smirnov para posse de imóvel
ks_stat_imovel, p_value_imovel = ks_2samp(df[df['posse_de_imovel'] == True]['renda'],
                                          df[df['posse_de_imovel'] == False]['renda'])
print("Teste de Kolmogorov-Smirnov - Possui imóvel vs. Não possui imóvel:")
print("KS Statistic:", ks_stat_imovel)
print("P-value:", p_value_imovel)

# Teste de Kolmogorov-Smirnov para posse de veículo
ks_stat_veiculo, p_value_veiculo = ks_2samp(df[df['posse_de_veiculo'] == True]['renda'],
                                            df[df['posse_de_veiculo'] == False]['renda'])
print("\nTeste de Kolmogorov-Smirnov - Possui veículo vs. Não possui veículo:")
print("KS Statistic:", ks_stat_veiculo)
print("P-value:", p_value_veiculo)


Teste de Kolmogorov-Smirnov - Possui imóvel vs. Não possui imóvel:
KS Statistic: 0.04781688890423458
P-value: 5.231142781594608e-07

Teste de Kolmogorov-Smirnov - Possui veículo vs. Não possui veículo:
KS Statistic: 0.0788145209849857
P-value: 1.0452774185026768e-19


In [19]:
# Análise de Variância (ANOVA) para posse de imóvel
model_imovel = ols('renda ~ posse_de_imovel', data=df).fit()
anova_table_imovel = sm.stats.anova_lm(model_imovel, typ=2)
print("Análise de Variância (ANOVA) - Posse de Imóvel:")
print(anova_table_imovel)

# Análise de Variância (ANOVA) para posse de veículo
model_veiculo = ols('renda ~ posse_de_veiculo', data=df).fit()
anova_table_veiculo = sm.stats.anova_lm(model_veiculo, typ=2)
print("\nAnálise de Variância (ANOVA) - Posse de Veículo:")
print(anova_table_veiculo)


Análise de Variância (ANOVA) - Posse de Imóvel:
                       sum_sq       df          F    PR(>F)
posse_de_imovel  2.858785e+08      1.0  13.355037  0.000259
Residual         3.210478e+11  14998.0        NaN       NaN

Análise de Variância (ANOVA) - Posse de Veículo:
                        sum_sq       df          F        PR(>F)
posse_de_veiculo  1.292188e+09      1.0  60.555382  7.618602e-15
Residual          3.200415e+11  14998.0        NaN           NaN


In [20]:
# Tabela de contingência para posse de imóvel vs. estado civil
table_imovel_estado_civil = pd.crosstab(df['posse_de_imovel'], df['estado_civil'])

# Teste Qui-Quadrado para posse de imóvel vs. estado civil
chi2_stat_imovel, p_value_imovel, dof_imovel, expected_imovel = chi2_contingency(table_imovel_estado_civil)
print("Teste Qui-Quadrado - Posse de Imóvel vs. Estado Civil:")
print("Chi2 Statistic:", chi2_stat_imovel)
print("P-value:", p_value_imovel)

# Tabela de contingência para posse de veículo vs. estado civil
table_veiculo_estado_civil = pd.crosstab(df['posse_de_veiculo'], df['estado_civil'])

# Teste Qui-Quadrado para posse de veículo vs. estado civil
chi2_stat_veiculo, p_value_veiculo, dof_veiculo, expected_veiculo = chi2_contingency(table_veiculo_estado_civil)
print("\nTeste Qui-Quadrado - Posse de Veículo vs. Estado Civil:")
print("Chi2 Statistic:", chi2_stat_veiculo)


Teste Qui-Quadrado - Posse de Imóvel vs. Estado Civil:
Chi2 Statistic: 47.759674426956465
P-value: 1.059170811233935e-09

Teste Qui-Quadrado - Posse de Veículo vs. Estado Civil:
Chi2 Statistic: 422.50323046098663


In [21]:
# Carregando arquivo CSV em um dataframe
df = pd.read_csv('previsao_de_renda.csv')

# Separando as amostras de renda para quem possui e não possui imóvel
renda_possui_imovel = df[df['posse_de_imovel'] == True]['renda']
renda_nao_possui_imovel = df[df['posse_de_imovel'] == False]['renda']

# Adicionando o aumento de R$ 300 à amostra de renda de quem possui imóvel
aumento_renda_possui_imovel = renda_possui_imovel + 300

# Realizando o teste de hipótese (teste t de duas amostras)
t_statistic, p_value = ttest_ind(aumento_renda_possui_imovel, renda_nao_possui_imovel, equal_var=False)

# Imprimindo os resultados
print("Estatísticas descritivas da renda para quem possui imóvel:")
print(renda_possui_imovel.describe())

print("\nEstatísticas descritivas da renda para quem NÃO possui imóvel:")
print(renda_nao_possui_imovel.describe())

print("\nTeste de hipótese - Possui imóvel vs. Não possui imóvel:")
print("T-statistic:", t_statistic)
print("P-value:", p_value)


Estatísticas descritivas da renda para quem possui imóvel:
count    10082.000000
mean      4721.052704
std       4654.266817
min        159.900000
25%       2012.237500
50%       3341.200000
75%       5726.260000
max      89918.040000
Name: renda, dtype: float64

Estatísticas descritivas da renda para quem NÃO possui imóvel:
count     4918.000000
mean      4426.970482
std       4569.558384
min        260.680000
25%       1822.440000
50%       3135.080000
75%       5405.255000
max      67794.540000
Name: renda, dtype: float64

Teste de hipótese - Possui imóvel vs. Não possui imóvel:
T-statistic: 7.429275670824341
P-value: 1.1820418577259244e-13
