## Análise de variáveis
Aqui serão explorados três técnicas de análises estatísticas importantes: a correlação de Pearson, o Information Value (IV) e o Coeficiente de Determinação (R²) com python e jupyter

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import pearsonr
import statsmodels.api as sm

In [2]:
# Criando o DataFrame
df = {
    'Idade': [25, 30, 22, 35, 28, 42, 35, 31, 27, 40,
              33, 29, 36, 34, 26, 39, 37, 30, 28, 41,
              35, 32, 29, 38, 33, 27, 36, 31, 25, 40],
    'Salário': [3000, 4000, 2500, 5500, 4500, 6500, 6000, 4200, 3500, 5800,
                4900, 3700, 5200, 4600, 3000, 5900, 5500, 4300, 3400, 6200,
                5300, 4400, 3600, 5700, 4800, 3100, 5400, 4500, 2900, 6000],
    'Gênero': ['M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F',
               'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F',
               'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F'],
    'Comprou': ['Sim', 'Não', 'Sim', 'Sim', 'Não', 'Sim', 'Não', 'Sim', 'Sim', 'Sim',
                'Não', 'Sim', 'Sim', 'Não', 'Sim', 'Sim', 'Não', 'Sim', 'Sim', 'Sim',
                'Não', 'Sim', 'Sim', 'Sim', 'Não', 'Sim', 'Sim', 'Não', 'Sim', 'Sim']
}

df = pd.DataFrame(df)

#### 1. Correlação de Pearson entre Idade e Salário
A função pearsonr da biblioteca scipy.stats retorna dois valores:
- Coeficiente de Correlação (correlation): Este é o valor que representa a força e a direção da relação linear entre as duas variáveis. No seu caso, é a correlação entre "Idade" e "Salário".
- Valor P (p-value): Este valor indica a significância estatística da correlação. Um valor P baixo (geralmente menor que 0,05) sugere que a correlação observada é estatisticamente significativa.

Na situação atual, só estamos interessandos no coeficiene de correlação, dessa forma usamos o '_' (sublinhado) para que não retorne o segundo valor

In [3]:
correlation, _ = pearsonr(df['Idade'], df['Salário'])
print(f'Correlação de Pearson entre Idade e Salário: {correlation:.2f}')

Correlação de Pearson entre Idade e Salário: 0.97


#### 2. Information Value (IV) para Gênero e Comprou

In [4]:
#Cálculo das proporções
tot_sim = df['Comprou'].value_counts()['Sim']
tot_nao = df['Comprou'].value_counts()['Não']

In [5]:
# Proporções por gênero
gender_counts = df.groupby('Gênero')['Comprou'].value_counts(normalize=True).unstack().fillna(0)

gender_counts['IV'] = (gender_counts['Sim'] - (tot_sim / (tot_sim + tot_nao))) * \
                      np.log(gender_counts['Sim'] / (gender_counts['Não']))

total_iv = gender_counts['IV'].sum()
print(f'Information Value (IV) para Gênero e Comprou: {total_iv:.2f}')

Information Value (IV) para Gênero e Comprou: 0.10


#### 3. Coeficiente de Determinação (R²) entre Gênero e Salário

In [6]:
# Convertendo Gênero (qualitativa) para variável dummy (quantitativa)
df['Gênero_Dummy'] = df['Gênero'].map({'M': 1, 'F': 0})

In [7]:
df.head(3)

Unnamed: 0,Idade,Salário,Gênero,Comprou,Gênero_Dummy
0,25,3000,M,Sim,1
1,30,4000,F,Não,0
2,22,2500,M,Sim,1


In [8]:
# Regressão linear
X = df[['Gênero_Dummy']]
y = df['Salário']
X = sm.add_constant(X)  # Adiciona o intercepto
model = sm.OLS(y, X).fit()
r_squared = model.rsquared


In [9]:
print(f'Coeficiente de Determinação (R²) entre Gênero e Salário: {r_squared:.2f}')

Coeficiente de Determinação (R²) entre Gênero e Salário: 0.11
