# PNAD 2015 (IBGE)

In [None]:
import pandas as pd
import numpy as np

#Gráfico
import seaborn as sns
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')

# ML
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import  DecisionTreeRegressor
from sklearn.metrics import r2_score #método para o cálculo do R2
from sklearn.metrics import mean_squared_error #erro absoluto



# 1. Carga da base de dados da PNAD

PNAD: Pesquisa Nacional por Amostra de Domicílios 2015 - IBGE (Instituto Brasileiro de Geografia e Estatística)

Dataset available in https://www.kaggle.com/upadorprofzs/testes



In [None]:
#/kaggle/input/igm-indice-governancao-municipal/dados_inpe.xlsx
#/kaggle/input/igm-indice-governancao-municipal/exemplo_2.xls
#/kaggle/input/igm-indice-governancao-municipal/anexo-V.csv
#/kaggle/input/igm-indice-governancao-municipal/igm_modificado.csv
#/kaggle/input/igm-indice-governancao-municipal/exemplo_1.xls

In [None]:
#igm=pd.read_csv('/kaggle/input/igm-indice-governancao-municipal/igm_modificado.csv')

In [None]:
df = pd.read_csv('../input/testes/dados.csv')
df.head()

# 2. Análise da base

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.describe()

Verificando se há valores ausentes 

In [None]:
df.isnull().sum()

In [None]:
df.isnull().values.any()

In [None]:
# Se houvesse valores nulos, poderíamos imputar a média nos valores nulos da variável

#df['x'].fillna(df['x'].mean(), inplace=True)

In [None]:
df.dtypes


# 3. Tratamento e manipulação dos dados

In [None]:
# Quantas categorias existem em cada coluna?

for col in df.columns:
  print(col, " :", len(df[col].unique()))

# Tratamento da variável categórica UF

In [None]:
# Atribuindo labels para as categorias da variável UF

Dict_UF = {
    11 : 'Rondônia',
    12 : 'Acre',
    13 : 'Amazonas',
    14 : 'Roraima',
    15 : 'Pará',
    16 : 'Amapá',
    17 : 'Tocantins',
    21 : 'Maranhão',
    22 : 'Piauí',
    23 : 'Ceará',
    24 : 'Rio Grande do Norte',
    25 : 'Paraíba',
    26 : 'Pernambuco',
    27 : 'Alagoas',
    28 : 'Sergipe',
    29 : 'Bahia',
    31 : 'Minas Gerais',
    32 : 'Espírito Santo',
    33 : 'Rio de Janeiro',
    35 : 'São Paulo',
    41 : 'Paraná',
    42 : 'Santa Catarina',
    43 : 'Rio Grande do Sul',
    50 : 'Mato Grosso do Sul',
    51 : 'Mato Grosso',
    52 : 'Goiás',
    53 : 'Distrito Federal'
}

In [None]:
df["UF"] = df["UF"].map(Dict_UF)

In [None]:
# Verificando se os labels foram atribuídos às categorias de UF
df.loc[2000:2005]

# Tratamento da variável Sexo

A variável sexo precisa de alterações.

Valor 0 é atribuído ao 'masculino'.

Valor 1 é atribuído ao 'feminino'.

In [None]:
# Atribuindo labels para as categorias da variável UF

Dict_Sexo = {
    0 : 'masculino',
    1 : 'feminino'
    }

In [None]:
df["Sexo"] = df["Sexo"].map(Dict_Sexo)

# Tratamento da variável Idade

A variável Idade também não exige alterações

In [None]:
df.info()

# Tratamento da variável Cor

In [None]:
Dict_Cor = {
    0 : 'Indígena',
    2 : 'Branca',
    4 : 'Preta',
    6 : 'Amarela',
    8 : 'Parda',
    9 : 'Sem declaração'
    }

In [None]:
df["Cor"] = df["Cor"].map(Dict_Cor)

In [None]:
# verificando se as alterações foram feitas
df.loc[45000:45005]

In [None]:
df.groupby('Cor').mean()

# Tratamento da variável Anos de Estudo

In [None]:
df['Anos de Estudo'].value_counts()

In [None]:
   #Dict_Anos = {
    #1 : 0,
   # 2 : 1,
   # 3 : 2,
   # 4 : 3,
   # 5 : 4,
  #  6 : 5,
  #  7 : 6,
  #  8 : 7,
  #  9 : 8,
  #  10 : 9,
  #  11 : 10,
  #  12 : 11,
 #   13 : 12,
  #  14 : 13,
 #   15 : 14,
 #   16 : 15,
#    17 : 0
#    }#

In [None]:
#df["Anos de Estudo"] = df["Anos de Estudo"].map(Dict_Anos)

In [None]:
# verificando se as mudanças foram feitas
df.info()

# Tratamento da variável Altura

In [None]:
df['Altura'] = round(df['Altura'], 2)

In [None]:
df.loc[900:905]

# Tratamento da variável Renda

A variável renda está ok.

# Verificar os tipos de variáveis após os devidos tratamentos

In [None]:
df.dtypes

# 3. Análise Exploratória dos Dados

## Análise Descritiva das variáveis do banco de dados

In [None]:
# Resumo das variáveis

df.columns

# Análise da variável UF

In [None]:
df["UF"].value_counts()

In [None]:
df["UF"].value_counts().plot(kind = 'bar', figsize=(12,5))
plt.title("Frequência de pessoas por UF")

# Análise da variável SEXO

In [None]:
df["Sexo"].value_counts()

In [None]:
df["Sexo"].value_counts().plot(kind = 'bar')
plt.title("Frequência de pessoas por Sexo")
# 0 para masculino;
# 1 para feminino.

# Análise da variável IDADE

In [None]:
plt.title("Total de pessoas por Idade")
df["Idade"].plot(kind = 'hist')

In [None]:
# from 76840 observations, there are 423 that have Age less than 20
len(df["Idade"][df["Idade"]<20])

In [None]:
print("Idade máxima", df["Idade"].max())
print("Idade mínima", df["Idade"].min())

# Análise da variável COR

In [None]:
df["Cor"].value_counts()

In [None]:
plt.figure(figsize = (5,5))
plt.title("Number of observations by Cor")
df["Cor"].value_counts().plot(kind = 'bar')

# Análise da variável ANOS DE ESTUDO

In [None]:
df["Anos de Estudo"].value_counts()

In [None]:
plt.title("Frequência de pessoas por anos de estudo")
df["Anos de Estudo"].value_counts().plot(kind = 'bar')

In [None]:
# Anos de estudo por Cor
sns.boxplot(x = df['Cor'], y = df['Anos de Estudo'], data = df)
plt.title("Anos de Estudo x Cor")

In [None]:
# Anos de estudo por Sexo
sns.boxplot(x = df['Sexo'], y = df['Anos de Estudo'], data = df)
plt.title("Anos de Estudo x Sexo")

In [None]:
plt.figure(figsize = (10,10))
df.groupby('UF').mean()[['Anos de Estudo']].plot(kind='bar')
plt.title("Média dos anos de estudos por UF")

# Análise da variável RENDA 

In [None]:
plt.title("Distribuição de frequência das rendas")
df["Renda"].value_counts().plot(kind = 'hist')

In [None]:
df.boxplot(['Renda'])

In [None]:
df['Renda'].value_counts().sort_index().plot.line()

In [None]:
df['Log_Renda'] = np.log(df['Renda']) 

In [None]:
df['Log_Renda'].value_counts().sort_index().plot.line()

In [None]:
df.head()


In [None]:
# Some insights
print("Pessoas com Renda < 20 k :", len(df["Renda"][df["Renda"] < 20000]))
print("Pessoas com Renda > 20 k :", len(df["Renda"][df["Renda"] > 20000]))
print("Pessoas com Renda > 40 k :", len(df["Renda"][df["Renda"] > 40000]))
print("\nRenda Média:", round(df['Renda'].mean(), 2))
print("Renda Máxima :", df["Renda"].max())
print("Renda Mínima:", df["Renda"].min())

In [None]:
# histograma plot com zoom
plt.style.use('seaborn-talk')
fig, ax = plt.subplots(1, 4, figsize = (14, 5))
ax[0].hist(df["Renda"][df["Renda"] < 40000], bins = 100)
ax[0].set_title('Frequência de Rendas (<40k)')
ax[1].hist(df["Renda"][df["Renda"] < 15000], bins = 100)
ax[1].set_title('Frequência de Rendas (<15k)')
ax[2].hist(df["Renda"][df["Renda"] < 10000], bins = 100)
ax[2].set_title('Frequência de Rendas (<10k)')
ax[3].hist(df["Renda"][df["Renda"] < 5000], bins = 100)
ax[3].set_title('Frequência de Rendas (<5k)')

In [None]:
df["Renda"][df["Renda"] > 40000].plot(kind = 'hist', bins = 100)
plt.title('Frequência de Rendas (>40k)')

In [None]:
df["Renda"][df["Renda"] <5000].plot(kind = 'hist', bins = 100)
plt.title('Frequência de Rendas (<5k)')

A renda do brasileiro será analisada a partir da variáveis Idade e Anos de Estudo. O objetivo é mensurar o grau de correlação entre essas variáveis e a renda

# 4. Análise bidimensional

# Renda x Cor

In [None]:
# Renda (<5000) by cor
sns.boxplot(x = df['Cor'], y = df['Renda'][df['Renda'] < 5000], data = df[df['Renda'] < 5000])
plt.title('Renda (<5k) x Cor')

In [None]:
df['Renda'][df['Renda'] < 5000].sum()

In [None]:
df['Renda'][df['Renda'] < 5000].count

In [None]:
renda_media=95201172/70576
round(renda_media, 2)

In [None]:
print("A renda média da população com renda inferior a R$5.000,00 é:",renda_media)

In [None]:
# Renda (>5000) by cor
sns.boxplot(x = df['Cor'], y = df['Renda'][df['Renda'] > 25000], data = df[df['Renda'] > 25000])
plt.title('Renda (>25k)  x Cor')

In [None]:
df['Renda'][df['Renda'] > 25000].sum()

In [None]:
df['Renda'][df['Renda'] > 25000].count

In [None]:
renda_media=7050800/169
round(renda_media, 2)

In [None]:
print("A renda média da população com renda superior a R$ 25.000,00 é:",round(renda_media, 2))


# Renda X Sexo

In [None]:
sns.boxplot(x = df['Sexo'], y = df['Renda'][df['Renda'] > 25000], data = df[df['Renda'] > 25000])
plt.title('Renda (>25k) x Sexo')

In [None]:
sns.boxplot(x = df['Sexo'], y = df['Renda'][df['Renda'] < 10000], data = df[df['Renda'] < 10000])
plt.title('Renda (<10k) x Sexo')

In [None]:
sns.boxplot(x = df['Sexo'], y = df['Renda'][df['Renda'] < 5000], data = df[df['Renda'] < 5000])
plt.title('Renda (<5k) x Sexo')

Parece que o sexo apresenta comportamento de rendas distintas para os grupos com Renda superior a 25k (mulheres têm renda superior aos homens) e com renda inferior a 5k (homens têm renda superior ás mulheres).

Vale fazer uma análise bidimensional

In [None]:
df.groupby(['Sexo'])['Renda'].mean()

In [None]:
df.groupby(['Cor'])['Renda'].mean()

In [None]:
# Associação entre as variáveis grupo de renda, sexo e cor
# Amostra total


df.groupby(['Sexo', 'Cor'])['Renda'].mean()

In [None]:
# Análise bidimensional de faixas de renda por sexo (quali x quali)

In [None]:
df[df['Renda'] < 5000].groupby(['Sexo'])['Renda'].mean()


In [None]:
df[df['Renda'] >25000].groupby(['Sexo'])['Renda'].mean()

In [None]:
##pressupostos
## variáveis categóricas

# Para as pessoaA cor/raça das rendas inferiores a 5k está associada ao sexo das rendas inferiores a 5k?
# H0: as variáveis não tem associação (independentes)
# H1: as variáveis são dependentes

from scipy.stats import chi2_contingency

fem = [1126.58,42700.00]
masc = [1451.18,41424.4]


data=[fem, masc]
chi2_contingency(data)

In [None]:
#H0: A faixa de renda média não está associada ao sexo (são independentes)

#H1: A faixa de renda média está associada ao sexo são dependentes)

print("A estatística Qui-quadrado =", 49.51, ",e pvalor =", 1.9736226708726932e-12)

#Regra: p valor < alpha (5%) rejeito H0

#pvalor=0 < alpha=0,05 então rejeito H0

#Há evidências de associação entre as variáveis. Portanto, sexo e faixa de renda são variáveis dependentes.

In [None]:
# Análise bidimensional de faixas de renda por cor (quali x quali)

In [None]:
df[df['Renda'] < 5000].groupby(['Cor'])['Renda'].mean()


In [None]:
df[df['Renda'] >25000].groupby(['Cor'])['Renda'].mean()


In [None]:
##pressupostos
## variáveis categóricas

# A cor/raça está associada às faixas de renda?
# H0: as variáveis não tem associação (independentes)
# H1: as variáveis são dependentes

from scipy.stats import chi2_contingency

Branca = [1587.194874, 42449.230769]
Indigena = [966.245665, 120000.000000]
Parda = [1191.650561, 36856.250000]
Amarela = [1871.431907, 36000.000000]
Preta = [1204.856772, 41666.666667]


data=[Branca,Indigena,Parda,Amarela, Preta]
chi2_contingency(data)

In [None]:
#H0: A faixa de renda média não está associada ao sexo (são independentes)

#H1: A faixa de renda média está associada ao sexo são dependentes)

print("A estatística Qui-quadrado = 2754.81, e pvalor = 0" )

# Regra: p valor < alpha (5%) rejeito H0

print("pvalor=0 < alpha=0,05 então rejeito H0")

print ('Há evidências de associação entre as variáveis. Portanto, Cor e faixa de renda são variáveis dependentes.')

In [None]:
# Associação entre as variáveis grupo de renda, sexo e cor
# Amostra das rendas inferiores â 5 mil reais


df[df['Renda'] < 5000].groupby(['Sexo', 'Cor'])['Renda'].mean()

In [None]:
# Associação entre as variáveis grupo de renda, sexo e cor
# Amostra das rendas acima de 25 mil reais


df[df['Renda'] >25000].groupby(['Sexo', 'Cor'])['Renda'].mean()

In [None]:
##pressupostos
## variáveis categóricas

# Para as pessoaA cor/raça das rendas inferiores a 5k está associada ao sexo das rendas inferiores a 5k?
# H0: as variáveis não tem associação (independentes)
# H1: as variáveis são dependentes

from scipy.stats import chi2_contingency

Branca = [1361.893561,41744.44]
Indigena = [941.08,120000.00]
Parda = [971.05,30000.00]
Amarela = [1536.831579,0]
Preta = [976.103974,0]
Branco = [1690.870501,42562.500000]
Indigeno = [975.768924,0]
Pardo = [1289.441927,37565.517241]
Amarelo = [2067.648148,36000.000000]
Preto = [1327.083807,41666.666667]

data=[Branca,Indigena,Parda,Amarela, Preta, Branco, Indigeno, Pardo, Amarelo, Preto]
chi2_contingency(data)

In [None]:
#H0: A faixa de renda média, o sexo e a cor são independentes.

#H1: A faixa de renda média, o sexo e a cor são dependentes.

print("A estatística Qui-quadrado =", 96076.81, ",e pvalor =", 0)

#Regra: p valor < alpha (5%) rejeito H0

#pvalor=0 < alpha=0,05 então rejeito H0

# Há evidências de associação entre as variáveis. Portanto, Cor , Sexo e faixa de renda são variáveis dependentes.

# Renda x Idade

In [None]:
plt.bar( df['Idade'], df['Renda'])
plt.xlabel('Idade')
plt.ylabel('Renda')
plt.title('Idade x Renda')
plt.show()

In [None]:
sns.scatterplot(df['Idade'], df['Renda'], data = df, hue = df['Cor'])
plt.xticks([0, 10, 20, 30, 40, 50, 60, 70, 80], labels = [0, 10, 20, 30, 40, 50, 60, 70, 80])
plt.title("Renda x Idade x Cor")

# Renda x Anos de Estudos

In [None]:
plt.bar( df['Anos de Estudo'], df['Renda'])
plt.xlabel('Anos de Estudo')
plt.ylabel('Renda')
plt.title('Anos de Estudo x Renda')
plt.show()

In [None]:
ate_5anos = df[df["Anos de Estudo"] <= 5]
entre6_9anos = df[(df["Anos de Estudo"] > 5) &  (df["Anos de Estudo"] < 10)]
entre10_14anos = df[(df["Anos de Estudo"] >= 10) & (df["Anos de Estudo"] < 15)]
mais_15anos = df[df["Anos de Estudo"] >= 15]

In [None]:
print("Renda média das pessoas com até 5 anos de estudo:", round(ate_5anos['Renda'].mean(), 2))
print("Renda média das pessoas com 6 a 9 anos de estudo:", round(entre6_9anos['Renda'].mean(), 2))
print("Renda média das pessoas com 10 a 14 anos de estudo:", round(entre10_14anos['Renda'].mean(), 2))
print("Renda média das pessoas com 15 anos de estudo ou mais:", round(mais_15anos['Renda'].mean(), 2))

In [None]:
# plot averages
year_avgs = np.array([
    round(ate_5anos['Renda'].mean(), 2),
    round(entre6_9anos['Renda'].mean(), 2),
    round(entre10_14anos['Renda'].mean(), 2),
    round(mais_15anos['Renda'].mean(), 2)
    ])

categories = np.array(['<=5', '6-9', '10-14', '15+'])

In [None]:
# plt.figure(figsize=(5,3))
sns.barplot(x=categories, y=year_avgs)
plt.title("Renda x Anos de Estudo")

# Renda x UF

In [None]:
df.groupby('UF').mean()[['Renda']].plot(kind='bar')

# Anos de Estudos x Idade

In [None]:
plt.bar( df['Anos de Estudo'], df['Renda'])
plt.xlabel('Anos de Estudo')
plt.ylabel('Renda')
plt.title('Anos de Estudo x Renda')
plt.show()

In [None]:
# Anos de estudo by Cor
sns.boxplot(x = df['Cor'], y = df['Anos de Estudo'], data = df)
plt.title("Anos de Estudo x Cor")

fig = plt.gcf()
plt.show()
fig.savefig('teste.png', format='png')

# Anos de Estudo x Sexo

In [None]:
# Anos de estudo by Sexo
sns.boxplot(x = df['Sexo'], y = df['Anos de Estudo'], data = df)
plt.title("Anos de Estudo x Sexo")
plt.savefig('teste1.png', format='png')
plt.show()

# Anos de Estudo x UF

In [None]:
df.groupby('UF').mean()[['Anos de Estudo']].plot(kind='bar')
plt.title("Anos de Estudo (Average) x UF")

# Altura x Sexo

In [None]:
# Altura by Sexo
plt.title("Altura x Sexo")
sns.boxplot(x = df['Sexo'], y = df['Altura'])

In [None]:
print("Altura média dos homens ", round(df[df['Sexo'] == "masculino"].Altura.mean(), 3))
print("Altura média dos mulheres:", round(df[df['Sexo'] == "feminino"].Altura.mean(), 3))

# Análise de correlação entre as variáveis

In [None]:
# heatmap for correlations
corr = df.corr()
sns.heatmap(corr, annot = True, vmin = 0, vmax = 1, cmap = 'Purples')

In [None]:
corr = df.corr()
corr.style.background_gradient()

Analise a correlação entre as variáveis

In [None]:
sns.pairplot(df, hue = 'Cor')

In [None]:
sns.pairplot(df, hue = 'Sexo')

In [None]:
# Recortando o banco de dados mantendo apenas as variáveis Idade, Anos de Estudo e Renda
# df.drop(columns= ['UF', 'Sexo', 'Cor', 'Altura'], inplace= True)
# df.head()

# 5. Teste de Hipóteses

In [None]:
# H0: Não existe diferença da renda média entre homens e mulheres das faixas de renda inferior a 5 mil. 
# O comportamento da diferença das médias das rendas entre homens e mulheres é igual  para as pessoas com renda inferior a 5 mil


In [None]:
# Grupo 1: Diferença da média de salários de homens e mulheres com rendimento inferior a 5 mil

In [None]:
df[df['Renda'] < 5000].groupby(['Sexo'])['Renda'].mean()

In [None]:
bx=df[df['Renda'] < 5000]
masc=bx[bx['Sexo']=="masculino"]

In [None]:
bx=df[df['Renda'] < 5000]
fem=bx[bx['Sexo']=="feminino"]

In [None]:
# H0: A média de renda dos homens é diferente da renda das mulheres quando a faixa salarial é inferior â 5 mil

In [None]:
from scipy.stats import norm
import matplotlib.pyplot as plt
import seaborn as sns


fig, ax1 = plt.subplots(1, 1, figsize=(10, 5))
sns.distplot(masc['Renda'], bins=10, ax=ax1, fit=norm, kde=True)
ax.set(xlabel=' Renda', ylabel='Densidade')
ax.set_title('Distribuição dos rendimentos masculinos para faixas de renda inferior â 5 mil')

Teste de normalidade da distribuição dos rendimentos dos homens

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda dos homens em 2015 com faixa de rendimento inferior â 5 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(masc['Renda'])

print("A estatística de teste de normalidade do rendimento masculino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento masculino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

In [None]:
import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt
import seaborn as sns


fig, ax1 = plt.subplots(1, 1, figsize=(10, 5))
sns.distplot(fem['Renda'], bins=10, ax=ax1, fit=norm, kde=True)
ax.set(xlabel='Logarítimo da Renda', ylabel='Densidade')
ax.set_title('Distribuição dos rendimentos femininos para faixas de renda inferior â 5 mil')

Teste de normalidade das distribuições de renda das mulheres

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda das mulheres em 2015 com faixa de rendimento inferior â 5 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(fem['Renda'])

print("A estatística de teste de normalidade do rendimento feminino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento feminino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

Teste de médias dos rendimentos de homens e mulheres (sem obedecer os pressupostos de independência e normalidade da variável Renda)

In [None]:
from scipy import stats

print("H0: A média dos rendimentos de homens é igual a média de rendimento das mulheres quando a faixa salarial é inferior â 5 mil")

alpha=0.05

stat_test, p_valor= stats.ttest_ind(masc['Renda'], fem['Renda'], equal_var=False)
print("A estatística t de teste de médias dos rendimentos entre os homens e mulheres:", stat_test)
print("O p-valor de teste de médias dos rendimentos entre os homens e mulheres:", p_valor)

if p_valor<= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que as médias de rendimentos entre homens e mulheres são iguais quando a faixa de renda é inferior à 5 mil")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a  H0 de que as médias de rendimentos entre homens e mulheres são iguais quando a faixa de renda é inferior à 5 mil")

In [None]:
Normalização da distribuição dos rendimentos dos homens

In [None]:
# Normalização da distribuição de renda dos homens

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data = pd.DataFrame(np.array(masc['Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_data = scaler.fit_transform(data)

scaler.inverse_transform(scaled_data)



In [None]:
# Normalização da distribuição de renda das mulheres

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data1 = pd.DataFrame(np.array(fem['Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_data1 = scaler.fit_transform(data1)

scaler.inverse_transform(scaled_data1)


Teste de médias dos rendimentos de homens e mulheres normalizados

In [None]:
alpha=0.05


print("H0: A média de rendimnetos dos homens é diferente da renda das mulheres, quando a faixa de renda é inferior â 5 mil")
stat_test, p_valor= stats.ttest_ind(scaled_data, scaled_data1, equal_var=False)

print("A estatística t de teste de médias dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", stat_test)
print("O p-valor de teste de médias dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", p_valor)

if p_valor<= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que os rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil são iguais")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que os rendimentos entre homens e mulheres são iguais quando a faixa de renda é inferior â 5 mil. Portanto, não há diferneça entre os rendimentos de homens e mulheres nesta faixa salarial até 5 mil reais")

E se fosse a variável Log da Renda?

In [None]:
import math
math.log(5000)

In [None]:
import math
math.exp(8.517193191416238)

In [None]:
bx1=df[df['Log_Renda'] < 8.517193191416238]
masc1=bx1[bx1['Sexo']=="masculino"]
fem1=bx1[bx1['Sexo']=="feminino"]

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda dos homens em 2015 com faixa de rendimento inferior â 5 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(masc1['Log_Renda'])

print("A estatística de teste de normalidade do rendimento masculino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento masculino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda dos homens em 2015 com faixa de rendimento inferior â 5 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(fem1['Log_Renda'])

print("A estatística de teste de normalidade do rendimento masculino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento masculino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

In [None]:
alpha=0.05


print("H0: A média de rendimentos dos homens é igual da renda das mulheres, quando a faixa de renda é inferior â 5 mil")
stat_test, p_valor= stats.ttest_ind(masc1['Log_Renda'], fem1['Log_Renda'], equal_var=False)

print("A estatística de teste de médias dos logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", stat_test)
print("O p-valor de teste de médias dos logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", p_valor)

if p_valor<= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que os logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil são iguais")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que os logarítimos dos rendimentos entre homens e mulheres são iguais quando a faixa de renda é inferior â 5 mil. Portanto, não há diferneça entre os rendimentos de homens e mulheres nesta faixa salarial até 5 mil reais")

In [None]:
# Normalização da distribuição de renda dos homens

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

dt = pd.DataFrame(np.array(masc1['Log_Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_dt = scaler.fit_transform(dt)

scaler.inverse_transform(scaled_dt)


In [None]:
# Normalização da distribuição de renda das mulheres

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

dt1 = pd.DataFrame(np.array(fem1['Log_Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_dt1 = scaler.fit_transform(dt1)

scaler.inverse_transform(scaled_dt1)


In [None]:
alpha=0.05


print("H0: A média de rendimentos dos homens é igual da renda das mulheres, quando a faixa de renda é inferior â 5 mil")
stat_test, p_valor= stats.ttest_ind(scaled_dt, scaled_dt1, equal_var=False)

print("A estatística de teste de médias dos logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", stat_test)
print("O p-valor de teste de médias dos logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", p_valor)

if p_valor<= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que os logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil são iguais")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que os logarítimos dos rendimentos entre homens e mulheres são iguais quando a faixa de renda é inferior â 5 mil. Portanto, não há diferneça entre os rendimentos de homens e mulheres nesta faixa salarial até 5 mil reais")

In [None]:
# Outras opções de códigos de normalização das variáveis

# Normalização da distribuição da renda dos homens com faixa inferior a 5 mil
#masc_norm= masc['Renda']
#print(f'{min(masc_norm)}, {max(masc_norm)}')

#def normalize(x):
#    return [(x[n] - min(x)) / (max(x) - min(x)) for n in range(len(x))]

#print(normalize(masc['Renda']))

In [None]:
#alpha=0.05

#def normalize(x):
#    return [(x[n] - min(x)) / (max(x) - 
#           min(x)) for n in range(len(x))]

#print("H0: A média de rendimnetos dos homens é diferente da renda das mulheres, quando a faixa de renda é inferior â 5 mil")
#stat_test, p_valor= stats.ttest_ind(normalize((masc['Renda'])), normalize(fem['Renda']), equal_var=False)

#print("A estatística t de teste de médias dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", stat_test)
#print("O p-valor de teste de médias dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", p_valor)

#if p_valor<= alpha:
#    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que os rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil são iguais")
#else: 
#    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que os rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil")

In [None]:
# Grupo 2: Diferença da média de salários de homens e mulheres com rendimento superior a 25 mil

In [None]:
df[df['Renda'] > 25000].groupby(['Sexo'])['Renda'].mean()

In [None]:
al=df[df['Renda'] > 25000]
masc=al[al['Sexo']=="masculino"]
fem=al[al['Sexo']=="feminino"]

In [None]:
from scipy.stats import norm
import matplotlib.pyplot as plt
import seaborn as sns


fig, ax1 = plt.subplots(1, 1, figsize=(10, 5))
sns.distplot(masc['Renda'], bins=10, ax=ax1, fit=norm, kde=True)
ax.set(xlabel=' Renda', ylabel='Densidade')
ax.set_title('Distribuição dos rendimentos masculinos para faixas de renda superior â 25 mil')

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda dos homens em 2015 com faixa de rendimento superior â 25 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(masc['Renda'])

print("A estatística de teste de normalidade do rendimento masculino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento masculino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

In [None]:
from scipy.stats import norm
import matplotlib.pyplot as plt
import seaborn as sns


fig, ax1 = plt.subplots(1, 1, figsize=(10, 5))
sns.distplot(fem['Renda'], bins=10, ax=ax1, fit=norm, kde=True)
ax.set(xlabel=' Renda', ylabel='Densidade')
ax.set_title('Distribuição dos rendimentos femininos para faixas de renda superior â 25 mil')

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda das mulheres em 2015 com faixa de rendimento superior â 25 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(fem['Renda'])

print("A estatística de teste de normalidade do rendimento feminino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento feminino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

In [None]:
from scipy import stats

print("H0: A média dos rendimentos de homens é igual a média de rendimento das mulheres quando a faixa salarial é supeior â 25 mil")

alpha=0.05

stat_test, p_valor= stats.ttest_ind(masc['Renda'], fem['Renda'], equal_var=False)
print("A estatística t de teste da diferença de médias dos rendimentos entre os homens e mulheres:", stat_test)
print("O p-valor de teste de diferença de médias dos rendimentos entre os homens e mulheres:", p_valor)

if p_valor<= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que as médias de rendimentos entre homens e mulheres são iguais quando a faixa de renda é superior à 25 mil")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a  H0 de que as médias de rendimentos entre homens e mulheres são iguais quando a faixa de renda é superior à 25 mil")

In [None]:
# Normalização da distribuição de renda dos homens

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data = pd.DataFrame(np.array(masc['Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_data = scaler.fit_transform(data)

scaler.inverse_transform(scaled_data)


In [None]:
# Normalização da distribuição de renda das mulheres

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data1 = pd.DataFrame(np.array(fem['Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_data1 = scaler.fit_transform(data1)

scaler.inverse_transform(scaled_data1)


In [None]:
alpha=0.05


print("H0: A média de rendimnetos dos homens é igual da renda das mulheres, quando a faixa de renda é supeiror à 25 mil")
stat_test, p_valor= stats.ttest_ind(scaled_data, scaled_data1, equal_var=False)

print("A estatística t de teste de diferneça de médias dos rendimentos entre homens e mulheres quando a faixa de renda é superior â 25 mil:", stat_test)
print("O p-valor de teste de diferença de médias dos rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil:", p_valor)

if p_valor<= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que os rendimentos entre homens e mulheres quando a faixa de renda é inferior â 5 mil são iguais")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que os rendimentos entre homens e mulheres são iguais quando a faixa de renda é superior â 25 mil. Portanto, não há diferneça entre os rendimentos de homens e mulheres nesta faixa salarial superior â 25 mil reais")

In [None]:
import math
math.log(25000)

In [None]:
import math
math.exp(10.126631103850338)

In [None]:
bx1=df[df['Log_Renda'] > 10.126631103850338]
masc1=bx1[bx1['Sexo']=="masculino"]
fem1=bx1[bx1['Sexo']=="feminino"]

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda dos homens em 2015 com faixa de rendimento superior â 25 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(masc1['Log_Renda'])

print("A estatística de teste de normalidade do rendimento masculino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento masculino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

In [None]:
from scipy.stats import normaltest

alpha=0.05
print("H0: A amostra da renda das mulheres em 2015 com faixa de rendimento superior â 25 mil apresenta uma distribuição normal")

stat_test1, p_valor1= normaltest(fem['Renda'])

print("A estatística de teste de normalidade do rendimento feminino:", stat_test1)
print("O p-valor de teste de normalidade do rendimento feminino:", p_valor1)

if p_valor1 <= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a amostra apresenta uma distribuição normal")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a amostra apresenta uma distribuição normal")

In [None]:
# Normalização da distribuição de renda dos homens

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data1 = pd.DataFrame(np.array(masc1['Log_Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_data1 = scaler.fit_transform(data1)

scaler.inverse_transform(scaled_data1)


In [None]:
# Normalização da distribuição de renda das mulheres

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data2 = pd.DataFrame(np.array(fem1['Renda']))

scaler = MinMaxScaler(feature_range =(0,1))

scaled_data2 = scaler.fit_transform(data2)

scaler.inverse_transform(scaled_data2)


In [None]:
alpha=0.05


print("H0: A média de rendimentos dos homens é igual da renda das mulheres, quando a faixa de renda é superior â 25 mil")
stat_test, p_valor= stats.ttest_ind(scaled_data1, scaled_data2, equal_var=False)

print("A estatística de teste de médias dos logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é superior â 25 mil:", stat_test)
print("O p-valor de teste de médias dos logarítimos dos rendimentos entre homens e mulheres quando a faixa de renda é superior â 25 mil:", p_valor)

if p_valor<= alpha:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que os logarítimos dos rendimentos entre homens e mulheres são iguais quando a faixa de renda é supeior â 25 mil são iguais")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que os logarítimos dos rendimentos entre homens e mulheres são iguais quando a faixa de renda é superior â 25 mil. Portanto, não há diferença entre os rendimentos de homens e mulheres nesta faixa salarial supeior â 25 mil reais")

In [None]:
# Teste a hipótese da diferença das médias de salários entre homens e mulheres do grupo 1 é diferente da difernça das médias de salários do grupo 2

In [None]:
normaltest(grupo1['Renda'])

In [None]:
normaltest(grupo2['Renda'])

In [None]:
# Teste de Hipóteses bicaudal para amostras independentes 

print("H0: A diferença de salário médio entre homens e mulheres do grupo 1 e 2 são iguais")
stat_test3, p_valor3= stats.ttest_ind(grupo1['Renda'].groupby(grupo1.sex).mean(), grupo2['Renda'].groupby(grupoo2.sex).mean(), equal_var=False)
print("A estatística t de teste de médias das diferenças dos salários entre homens e mulheres com faixas de renda distintas:", stat_test3)
print("O p-valor de teste de médias das diferenças de médias dos salários do grupo 1 e 2:", p_valor3)

if p_valor3<= significancia:
    print("Regra de decisão: p_valor ≤ 0,05 => Rejeito a H0 de que a diferença do salário médio entre homens e mulheres do grupo 1 e 2 são iguais")
else: 
    print("Regra de decisão: p_valor > 0,05 => Não rejeito a H0 de que a diferença do salário médio entre homens e mulheres do grupo 1 e 2 são iguais")

In [None]:
!=

# 6. ANOVA

In [None]:
# Teste de 3 ou mais médias populacionais/amostrais baseado nas variâncias amostrais

Pressupostos dos testes não paramétricos

a) A distribuições populacionais são normais (As observações em cada grupo devem possuir uma distribuição aproximadamente normal)

b) As amostras tem variàncias iguais (As variâncias em cada grupo devem ser aproximadamente iguais, homogeneidade)

c) As variáveis são independentes (Todas as observações devem ser independentes)

d) A variável dependente é contínua.

e) Os erros (resíduos) são distribuidos normalmente


Hipóteses: 

H0: Todas as médias de rendimentos de cada raça/cor são iguais


H1: Ao menos uma média de rendimento dos grupos de raça/cor difere


In [None]:
# Distribuição da Renda por Cor
sns.boxplot(x = df['Cor'], y = df['Renda'], data = df)
plt.title("Renda x Cor")

In [None]:
# Distribuição do Log da Renda por Cor
sns.boxplot(x = df['Cor'], y = df['Log_Renda'], data = df)
plt.title("Renda x Cor")

In [None]:
import math
math.log(200)

In [None]:
import math
math.exp(5.298317366548036)

In [None]:
# H0: Todas as médias de rendimentos de cada raça/cor são iguais
# H1: Ao menos uma média de rendimento dos grupos de raça/cor difere

In [None]:
parda=df['Renda'][df['Cor'] == 'Parda']
parda.mean()

In [None]:
branca=df['Renda'][df['Cor'] == 'Branca']
branca.mean()

In [None]:
preta= df['Renda'][df['Cor'] == 'Preta']
preta.mean()

In [None]:
amarela=df['Renda'][df['Cor'] == 'Amarela']
amarela.mean()

In [None]:
indig=df['Renda'][df['Cor'] == 'Indígena']
indig.count()

In [None]:
import scipy.stats as stats
stats.f_oneway(parda, branca, preta, amarela, indig)

In [None]:
print("Regra: p_valor <= alpha então rejeito a hipótese nula de que a média dos rendimentos dos grupos raciais são iguais")

In [None]:
# E se o teste aponta que ao menos uma das médias é diferente das demais, como saberei quais?

# Resposta: Deverão ser realizados os processos de comparação múltipla. A comparação por intervalos de confiança, teste de Scheffé, teste estendido de Turkey e o teste de Bonferroni. são alguns dos processos mais comuns e incluídos em textos mais avançados.


In [None]:
parda1=df['Log_Renda'][df['Cor'] == 'Parda']
branca1=df['Log_Renda'][df['Cor'] == 'Branca']
preta1= df['Log_Renda'][df['Cor'] == 'Preta']
amarela1=df['Log_Renda'][df['Cor'] == 'Amarela']
ind1=df['Log_Renda'][df['Cor'] == 'Indígena']


In [None]:
import scipy.stats as stats

stats.f_oneway(parda1, branca1, preta1, amarela1, ind1)

In [None]:
ind1.isnull

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
fig, ax1 = plt.subplots(1, 1, figsize=(10, 5))
sns.distplot(parda1['Log_Renda'], bins=10, ax=ax1, fit=norm, kde=True)
ax.set(xlabel='Logarítimo da Renda', ylabel='Densidade')
ax.set_title('Distribuição dos rendimentos dos pardos ')

# 7. Regressão

In [None]:
df = pd.read_csv('../input/testes/dados.csv')
df.head()

In [None]:
df.rename(columns={'Anos de Estudo': 'Anos_Estudo'}, inplace = True)

## Análise dos outliers

In [None]:
from statsmodels.compat import lzip
import statsmodels
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf
import statsmodels.stats.api as sms
import matplotlib.pyplot as plt

linreg = smf.ols(formula='Renda ~ Anos_Estudo', data=df).fit()

from statsmodels.stats.outliers_influence import OLSInfluence
test_class = OLSInfluence(linreg)
test_class.dfbetas[:5,:]

In [None]:
from statsmodels.graphics.regressionplots import plot_leverage_resid2
fig, ax = plt.subplots(figsize=(8,6))
fig = plot_leverage_resid2(linreg, ax = ax)

### Multicolinearidade

np.linalg.cond(linreg.model.exog)


## Análise do modelo de regressão linear simples

Modelo: Renda = -302.1337 + 243.1466 Anos_Estudo + Erro

Nota: O que nos interessa nesta análise são o R-squared, o F-statistic juntamente com Prob (F-statistic), a coluna coef (os coeficientes) e a coluna P > |t| , que são os p-values para cada coeficiente.

In [None]:
import pandas
from patsy import dmatrices

import statsmodels.api as sm
import statsmodels.formula.api as smf

linreg = smf.ols(formula='Renda ~ Anos_Estudo', data=df).fit()
print(linreg.summary())

### Teste de significância do coeficiente do modelo

#### 1) Teste de significância F do modelo global: analisa se ao menos uma variável do meu modelo está relacionada com a variável resposta. 

H0: O modelo não é estatisticamente válido (coeficientes = 0) // Regra de bolso: Teste F de Fisher: p-valor < alpha rejeita H0

A estatística de teste F e seu p-valor < 0.001 < alpha indica que esse modelo é estatisticamente válido.

p-valor (F-statistics: 9528.) = 0 então rejeita H0. O modelo não é bom. O modelo é estatisticamente válido

#### 2) R-Squared (R-Squared Ajustado) // Poder de explicação do modelo: Regra de bolso R-squared > 75%

R-squared: 0,11 A variação dos anos de estudo explicam 11% da variação da renda.


#### 3) H0: Beta = 0 // Regra de bolso: Teste t-Student: p-valor > alpha não rejeita H0

p-valor (T-statistics: 97.613) = P>|t|= 0 então rejeita H0. O coeficiente do modelo é diferente de 0, ou seja,é estatisticamente significativo.

### Suposiões do modelo em relação aos resíduos (erros):

#### 1) A relação de X e Y devem ser lineares //
Gráfico Q-Q plot dos erros (resíduos de Y)

#### 2) H0: Os erros têm média 0 // 
Regra de bolso: (Teste t: p-valor > alpha não rejeita H0)

#### 3) H0: Os erros não são correlacionados // 
Regra de bolso: (Durbin-Watson: menor que 1,5 correlação positiva, maior que 2,5 correlação positiva)

#### 4) H0: Os erros provém de uma distribuição normal //
Regra de bolso: (Teste normal - Shapiro Wilk: p-valor > alpha não rejeita H0)

#### 5) H0: Variância constante (Homocedasticidade) //
Regra de bolso: (Teste de 1º e 2º momento: p-valor > alpha não rejeita H0)

In [None]:
linreg.predict()

In [None]:
Renda_hat = linreg.predict()
res1 = df['Renda'] - Renda_hat

In [None]:
plt.hist(res1, color='orange', bins=15)
plt.title('Histograma dos resíduos da regressão')
plt.show()

In [None]:
res = linreg.resid # residuals


In [None]:
plt.hist(res, color='red', bins=15)
plt.title('Histograma dos resíduos da regressão')
plt.show()

In [None]:
plt.scatter(y=res, x=Renda_hat, color='green', s=50, alpha=.6)
plt.hlines(y=0, xmin=-10, xmax=15, color='orange')
plt.ylabel('$\epsilon = y - \hat{y}$ - Resíduos')
plt.xlabel('$\hat{y}$ ou $E(y)$ - Predito')
plt.show()

In [None]:
# Suposição 1: A relação de X e Y devem ser lineares 
# Gráfico Q-Q plot dos erros/resíduos de Y

fig = sm.qqplot(res)
plt.show()

In [None]:
# Suposição 2) H0: Os erros têm média 0 
# Regra de bolso: (Teste t: p-valor > alpha não rejeita H0)

from scipy import stats

# Two sided
stats.ttest_1samp(res,0)


In [None]:
# pvalor > alpha não rejeita H0. Os erros têm média 0

In [None]:
# Suposição 3) H0: Os erros não são correlacionados 
# Regra de bolso: (Durbin-Watson: menor que 1,5 correlação positiva, maior que 2,5 correlação positiva)

# Durbin-Watson Statistics = 1.580 => Os erros não são correlacionados

In [None]:
from scipy import stats
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.stattools import durbin_watson

durbin_watson(linreg.resid)


In [None]:
# O durbin_watson statistic é 1.580. 
# Encontra-se dentro do intervalo de 1.5 and 2.5, o que indica a autocorrelação não será  problematica no modelo de regressão.

In [None]:
# Suposição 4) H0: Os erros provém de uma distribuição normal 
# Regra de bolso: (Teste normal - Shapiro Wilk: p-valor > alpha não rejeita H0)

#import scipy.stats as stats
#scipy.stats.shapiro(res1)

from scipy.stats import shapiro
Shapiro_statistic_value, Shapiro_p_value = shapiro(res)
print(Shapiro_statistic_value, Shapiro_p_value)

In [None]:
# p-valor < alpha rejeita H0. Portato, os erros não apresentam uma distribuição normal

In [None]:
# Suposição 5) Teste de heterocedasticidade dos erros 
# H0: Variância constante (Homocedasticidade) 
# Regra de bolso: (Teste de Bresuch-Pagan: p-valor > alpha não rejeita H0)

#Renda_hat = linreg.predict()
#res1 = df['Renda'] - Renda_hat

from statsmodels.compat import lzip
import statsmodels.stats.api as sms

#perform Bresuch-Pagan test
names = ['Lagrange multiplier statistic', 'p-value',
        'f-value', 'f p-value']
test = sms.het_breuschpagan(linreg.resid, linreg.model.exog)

lzip(names, test)


In [None]:
# H0: A variância dos erros é constante/Homoscedástica (Não há heterocedasticidade)
# p-valor > alpha não rejeita H0

# A estatística de Lagrange multiplier é 100.5764417610312 e o p-valor correspondente é 1.139146165418844e-23. 
# Portanto, o p-valor < 0.05, rejeitamos H0. está presente no modelo de regressão.

# 8. Referências

In [None]:
# http://www.portalaction.com.br/inferencia/testes-de-hipoteses

# https://www.alura.com.br/conteudo/estatistica-testes-hipotestes

# https://www.alura.com.br/conteudo/estatistica-correlacao-regressao

# https://www.alura.com.br/quarentenadados/aula05-regressao-machine-learning

# https://matplotlib.org/tutorials/introductory/pyplot.html

# https://medium.com/data-hackers/normalizar-ou-padronizar-as-vari%C3%A1veis-3b619876ccc9#:~:text=J%C3%A1%20para%20padronizar%20as%20vari%C3%A1veis,a%20fun%C3%A7%C3%A3o%20est%C3%A1%20descrita%20abaixo.&text=O%20par%C3%A2metro%20feature_range%3D%20(0%2C,variando%20entre%200%20e%201.

# https://www.kaggle.com/hamelg/python-for-data-26-anova

# http://www.portalaction.com.br/inferencia/512-calculo-e-interpretacao-do-p-valor

# https://medium.com/data-hackers/normalizar-ou-padronizar-as-vari%C3%A1veis-3b619876ccc9

# https://www.pythonfordatascience.org/anova-python/#assumptions_hyptoheses

# https://reneshbedre.github.io/blog/anova.html

# https://blogdosdados.com/suposicoes-de-regressao-linear-como-conduzi-las-corretamente/

# https://songhuiming.github.io/pages/2016/11/27/linear-regression-in-python-outliers-leverage-detect/

# https://songhuiming.github.io/pages/2016/11/27/linear-regression-in-python-chapter-1/

# https://songhuiming.github.io/pages/2016/12/31/linear-regression-in-python-chapter-2/

# https://songhuiming.github.io/pages/2017/01/21/linear-regression-in-python-chapter-3-regression-with-categorical-predictors/

# https://biostatistics-uem.github.io/Bio/aula8/teste_normalidade_homocedasticidade.html

# https://www.kaggle.com/thevenkateshgandi/normality-tests

# https://nathaliatito.medium.com/scikit-learn-ou-statsmodels-avaliando-meu-modelo-de-regress%C3%A3o-f4c04b361fa7

# https://medium.com/@lauradamaceno/entendendo-regress%C3%A3o-linear-as-suposi%C3%A7%C3%B5es-por-tr%C3%A1s-de-tudo-d0e29004c7f8

# https://pt.coursera.org/lecture/econometria-basica-aplicada/aula-2-reespecificacao-heterocesdaticidade-ii-pxHqP (Paula)

# https://pt.coursera.org/lecture/econometria-basica-aplicada/aula-1-reespecificacao-heterocesdaticidade-i-DTH2A (Paula)

# https://neylsoncrepalde.github.io/2018-02-25-regressao-linear-python/

# https://www.statsmodels.org/stable/generated/statsmodels.graphics.gofplots.qqplot.html

# https://medium.com/data-hackers/implementando-regress%C3%A3o-linear-simples-em-python-91df53b920a8

# https://www.statsmodels.org/stable/generated/statsmodels.stats.diagnostic.het_breuschpagan.html

# https://www.statology.org/breusch-pagan-test-python/

# https://zhiyzuo.github.io/Linear-Regression-Diagnostic-in-Python/

#https://www.statsmodels.org/0.6.1/examples/notebooks/generated/regression_diagnostics.html

# https://blogdosdados.com/suposicoes-de-regressao-linear-como-conduzi-las-corretamente/


# 9. Junção de Base de Dados

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
df.head()

In [None]:
Dict_UF = {
  'Roraima': 11,
  'Acre': 12,
  'Amazonas': 13,
  'Roraima': 14,
  'Pará': 15,
  'Amazonas': 16,
  'Tocantins': 17,
  'Maranhão': 21,
  'Piauí': 22,
  'Ceará': 23,
  'Rio Grande do Norte': 24,
  'Paraíba': 25,
  'Pernambuco': 26,
  'Alagoas': 27,
  'Sergipe': 28,
  'Bahia': 29,
  'Minas Gerais': 31,
  'Espírito Santo': 32,
  'Rio de Janeiro': 33,
  'São Paulo': 35,
  'Paraná': 41,
  'Santa Catarina': 42,
  'Rio Grande do Sul': 43,
  'Mato Grosso do Sul': 50,
  'Mato Grosso': 51,
  'Goiás': 52,
  'Distrito Federal': 53
}

In [None]:
df["uf_code"] = df["UF"].map(Dict_UF)