In [None]:
import os
import sys

from pathlib import Path

PROJECT_PATH = os.path.abspath('..')
sys.path.append(PROJECT_PATH)


import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from scipy.stats import norm
import seaborn as sns
import statsmodels.formula.api as sm


pd.options.display.max_columns = 500

dataset_path = Path(PROJECT_PATH) / 'data' / 'AmesHousing.csv'

In [None]:
# dicionario para mapeamento das colunas
nome_colunas_ptbr = {
    'Order': 'Ordem',
    'PID': 'IDPropriedade',
    'MS SubClass': 'SubClasseMS',
    'MS Zoning': 'ZoneamentoMS',
    'Lot Frontage': 'FrenteLote',
    'Lot Area': 'AreaLote',
    'Street': 'Rua',
    'Alley': 'Beco',
    'Lot Shape': 'FormaLote',
    'Land Contour': 'ContornoTerreno',
    'Utilities': 'Utilidades',
    'Lot Config': 'ConfiguracaoLote',
    'Land Slope': 'DecliveTerreno',
    'Neighborhood': 'Bairro',
    'Condition 1': 'Condicao1',
    'Condition 2': 'Condicao2',
    'Bldg Type': 'TipoConstrucao',
    'House Style': 'EstiloCasa',
    'Overall Qual': 'QualidadeGeral',
    'Overall Cond': 'CondicaoGeral',
    'Year Built': 'AnoConstrucao',
    'Year Remod/Add': 'AnoRemodelacao',
    'Roof Style': 'EstiloTelhado',
    'Roof Matl': 'MaterialTelhado',
    'Exterior 1st': 'Exterior1',
    'Exterior 2nd': 'Exterior2',
    'Mas Vnr Type': 'TipoRevestimento',
    'Mas Vnr Area': 'AreaRevestimento',
    'Exter Qual': 'QualidadeExterior',
    'Exter Cond': 'CondicaoExterior',
    'Foundation': 'Fundacao',
    'Bsmt Qual': 'QualidadePorao',
    'Bsmt Cond': 'CondicaoPorao',
    'Bsmt Exposure': 'ExposicaoPorao',
    'BsmtFin Type 1': 'TipoAcabamentoPorao1',
    'BsmtFin SF 1': 'AreaAcabamentoPorao1',
    'BsmtFin Type 2': 'TipoAcabamentoPorao2',
    'BsmtFin SF 2': 'AreaAcabamentoPorao2',
    'Bsmt Unf SF': 'AreaNaoAcabamentoPorao',
    'Total Bsmt SF': 'AreaTotalPorao',
    'Heating': 'Aquecimento',
    'Heating QC': 'QualidadeAquecimento',
    'Central Air': 'ArCentral',
    'Electrical': 'Eletrica',
    '1st Flr SF': 'Area1Andar',
    '2nd Flr SF': 'Area2Andar',
    'Low Qual Fin SF': 'AreaAcabamentoBaixaQualidade',
    'Gr Liv Area': 'AreaHabitavel',
    'Bsmt Full Bath': 'BanheirosCompletosPorao',
    'Bsmt Half Bath': 'BanheirosMeiaPorao',
    'Full Bath': 'BanheirosCompletos',
    'Half Bath': 'BanheirosMeia',
    'Bedroom AbvGr': 'Quartos',
    'Kitchen AbvGr': 'Cozinhas',
    'Kitchen Qual': 'QualidadeCozinha',
    'TotRms AbvGrd': 'TotalComodos',
    'Functional': 'Funcionalidade',
    'Fireplaces': 'Lareiras',
    'Fireplace Qu': 'QualidadeLareira',
    'Garage Type': 'TipoGaragem',
    'Garage Yr Blt': 'AnoConstrucaoGaragem',
    'Garage Finish': 'AcabamentoGaragem',
    'Garage Cars': 'CarrosGaragem',
    'Garage Area': 'AreaGaragem',
    'Garage Qual': 'QualidadeGaragem',
    'Garage Cond': 'CondicaoGaragem',
    'Paved Drive': 'EntradaPavimentada',
    'Wood Deck SF': 'AreaDeckMadeira',
    'Open Porch SF': 'AreaVarandaAberta',
    'Enclosed Porch': 'AreaVarandaFechada',
    '3Ssn Porch': 'AreaVaranda3Estacoes',
    'Screen Porch': 'AreaVarandaTela',
    'Pool Area': 'AreaPiscina',
    'Pool QC': 'QualidadePiscina',
    'Fence': 'Cerca',
    'Misc Feature': 'CaracteristicaExtra',
    'Misc Val': 'ValorExtra',
    'Mo Sold': 'MesVenda',
    'Yr Sold': 'AnoVenda',
    'Sale Type': 'TipoVenda',
    'Sale Condition': 'CondicaoVenda',
    'SalePrice': 'PrecoVenda'
}

# Dicionário para armazenar a descrição das colunas
descricao_colunas = {}

# Itera pelas colunas do DataFrame
for coluna in nome_colunas_ptbr:

    # Criar uma descrição concisa e informativa da coluna
    if coluna == 'Ordem':
        descricao = 'Número da linha no arquivo de dados (numérico - inteiro).'
    elif coluna == 'IDPropriedade':
        descricao = 'Identificador único da propriedade (numérico - inteiro).'
    elif coluna == 'SubClasseMS':
        descricao = 'Código numérico para o tipo de moradia (numérico - inteiro).'
    elif coluna == 'ZoneamentoMS':
        descricao = 'Classificação geral de zoneamento da propriedade (categórico - nominal).'
    elif coluna == 'FrenteLote':
        descricao = 'Pés lineares da rua conectada à propriedade (numérico - inteiro).'
    elif coluna == 'AreaLote':
        descricao = 'Tamanho do lote em pés quadrados (numérico - inteiro).'
    elif coluna == 'Rua':
        descricao = 'Tipo de rua de acesso à propriedade (categórico - nominal).'
    elif coluna == 'Beco':
        descricao = 'Tipo de acesso ao beco (categórico - nominal).'
    elif coluna == 'FormaLote':
        descricao = 'Formato geral da propriedade (categórico - ordinal).'
    elif coluna == 'ContornoTerreno':
        descricao = 'Planicidade do terreno (categórico - ordinal).'
    elif coluna == 'Utilidades':
        descricao = 'Tipo de utilitários disponíveis (categórico - ordinal).'
    elif coluna == 'ConfiguracaoLote':
        descricao = 'Configuração do lote (categórico - nominal).'
    elif coluna == 'DecliveTerreno':
        descricao = 'Inclinação do terreno (categórico - ordinal).'
    elif coluna == 'Bairro':
        descricao = 'Bairro físico dentro dos limites da cidade de Ames (categórico - nominal).'
    elif coluna == 'Condicao1':
        descricao = 'Proximidade a várias condições (categórico - nominal).'
    elif coluna == 'Condicao2':
        descricao = 'Proximidade a várias condições (se houver mais de uma) (categórico - nominal).'
    elif coluna == 'TipoConstrucao':
        descricao = 'Tipo de moradia (categórico - nominal).'
    elif coluna == 'EstiloCasa':
        descricao = 'Estilo da moradia (categórico - nominal).'
    elif coluna == 'QualidadeGeral':
        descricao = 'Qualidade geral do material e do acabamento (categórico - ordinal).'
    elif coluna == 'CondicaoGeral':
        descricao = 'Avaliação geral da condição (categórico - ordinal).'
    elif coluna == 'AnoConstrucao':
        descricao = 'Ano original de construção (numérico - inteiro).'
    elif coluna == 'AnoRemodelacao':
        descricao = 'Ano de remodelação (igual à data de construção se não houver remodelação ou adições) (numérico - inteiro).'
    elif coluna == 'EstiloTelhado':
        descricao = 'Tipo de telhado (categórico - nominal).'
    elif coluna == 'MaterialTelhado':
        descricao = 'Tipo de cobertura do telhado (categórico - nominal).'
    elif coluna == 'Exterior1':
        descricao = 'Tipo de revestimento exterior (categórico - nominal).'
    elif coluna == 'Exterior2':
        descricao = 'Tipo de revestimento exterior (se houver mais de um material) (categórico - nominal).'
    elif coluna == 'TipoRevestimento':
        descricao = 'Tipo de revestimento de alvenaria (categórico - nominal).'
    elif coluna == 'AreaRevestimento':
        descricao = 'Área de revestimento de alvenaria em pés quadrados (numérico - inteiro).'
    elif coluna == 'QualidadeExterior':
        descricao = 'Qualidade do material exterior (categórico - ordinal).'
    elif coluna == 'CondicaoExterior':
        descricao = 'Condição atual do material no exterior (categórico - ordinal).'
    elif coluna == 'Fundacao':
        descricao = 'Tipo de fundação (categórico - nominal).'
    elif coluna == 'QualidadePorao':
        descricao = 'Altura do porão (categórico - ordinal).'
    elif coluna == 'CondicaoPorao':
        descricao = 'Condição geral do porão (categórico - ordinal).'
    elif coluna == 'ExposicaoPorao':
        descricao = 'Paredes de porão de nível de caminhada ou jardim (categórico - ordinal).'
    elif coluna == 'TipoAcabamentoPorao1':
        descricao = 'Qualidade do acabamento da área acabada do porão (categórico - ordinal).'
    elif coluna == 'AreaAcabamentoPorao1':
        descricao = 'Pés quadrados acabados do tipo 1 (numérico - inteiro).'
    elif coluna == 'TipoAcabamentoPorao2':
        descricao = 'Qualidade do acabamento da segunda área acabada (se houver) (categórico - ordinal).'
    elif coluna == 'AreaAcabamentoPorao2':
        descricao = 'Pés quadrados acabados do tipo 2 (numérico - inteiro).'
    elif coluna == 'AreaNaoAcabamentoPorao':
        descricao = 'Pés quadrados inacabados da área do porão (numérico - inteiro).'
    elif coluna == 'AreaTotalPorao':
        descricao = 'Pés quadrados totais da área do porão (numérico - inteiro).'
    elif coluna == 'Aquecimento':
        descricao = 'Tipo de sistema de aquecimento (categórico - nominal).'
    elif coluna == 'QualidadeAquecimento':
        descricao = 'Qualidade do sistema de aquecimento (categórico - ordinal).'
    elif coluna == 'ArCentral':
        descricao = 'Ar condicionado central (categórico - binário).'
    elif coluna == 'Eletrica':
        descricao = 'Sistema elétrico (categórico - ordinal).'
    elif coluna == 'Area1Andar':
        descricao = 'Pés quadrados do primeiro andar (numérico - inteiro).'
    elif coluna == 'Area2Andar':
        descricao = 'Pés quadrados do segundo andar (numérico - inteiro).'
    elif coluna == 'AreaAcabamentoBaixaQualidade':
        descricao = 'Pés quadrados acabados de baixa qualidade (todos os andares) (numérico - inteiro).'
    elif coluna == 'AreaHabitavel':
        descricao = 'Pés quadrados de área habitável acima do nível do solo (numérico - inteiro).'
    elif coluna == 'BanheirosCompletosPorao':
        descricao = 'Banheiros completos no porão (numérico - inteiro).'
    elif coluna == 'BanheirosMeiaPorao':
        descricao = 'Banheiros de meia no porão (numérico - inteiro).'
    elif coluna == 'BanheirosCompletos':
        descricao = 'Banheiros completos acima do nível do solo (numérico - inteiro).'
    elif coluna == 'BanheirosMeia':
        descricao = 'Banheiros de meia acima do nível do solo (numérico - inteiro).'
    elif coluna == 'Quartos':
        descricao = 'Número de quartos acima do nível do solo (numérico - inteiro).'
    elif coluna == 'Cozinhas':
        descricao = 'Número de cozinhas (numérico - inteiro).'
    elif coluna == 'QualidadeCozinha':
        descricao = 'Qualidade da cozinha (categórico - ordinal).'
    elif coluna == 'TotalComodos':
        descricao = 'Número total de cômodos acima do nível do solo (não inclui banheiros) (numérico - inteiro).'
    elif coluna == 'Funcionalidade':
        descricao = 'Classificação da funcionalidade da casa (categórico - ordinal).'
    elif coluna == 'Lareiras':
        descricao = 'Número de lareiras (numérico - inteiro).'
    elif coluna == 'QualidadeLareira':
        descricao = 'Qualidade da lareira (categórico - ordinal).'
    elif coluna == 'TipoGaragem':
        descricao = 'Localização da garagem (categórico - nominal).'
    elif coluna == 'AnoConstrucaoGaragem':
        descricao = 'Ano de construção da garagem (numérico - inteiro).'
    elif coluna == 'AcabamentoGaragem':
        descricao = 'Acabamento interior da garagem (categórico - ordinal).'
    elif coluna == 'CarrosGaragem':
        descricao = 'Tamanho da garagem em capacidade de carros (numérico - inteiro).'
    elif coluna == 'AreaGaragem':
        descricao = 'Tamanho da garagem em pés quadrados (numérico - inteiro).'
    elif coluna == 'QualidadeGaragem':
        descricao = 'Qualidade da garagem (categórico - ordinal).'
    elif coluna == 'CondicaoGaragem':
        descricao = 'Condição da garagem (categórico - ordinal).'
    elif coluna == 'EntradaPavimentada':
        descricao = 'Entrada pavimentada (categórico - ordinal).'
    elif coluna == 'AreaDeckMadeira':
        descricao = 'Área do deck de madeira em pés quadrados (numérico - inteiro).'
    elif coluna == 'AreaVarandaAberta':
        descricao = 'Área da varanda aberta em pés quadrados (numérico - inteiro).'
    elif coluna == 'AreaVarandaFechada':
        descricao = 'Área da varanda fechada em pés quadrados (numérico - inteiro).'
    elif coluna == 'AreaVaranda3Estacoes':
        descricao = 'Área da varanda de 3 estações em pés quadrados (numérico - inteiro).'
    elif coluna == 'AreaVarandaTela':
        descricao = 'Área da varanda de tela em pés quadrados (numérico - inteiro).'
    elif coluna == 'AreaPiscina':
        descricao = 'Área da piscina em pés quadrados (numérico - inteiro).'
    elif coluna == 'QualidadePiscina':
        descricao = 'Qualidade da piscina (categórico - ordinal).'
    elif coluna == 'Cerca':
        descricao = 'Qualidade da cerca (categórico - ordinal).'
    elif coluna == 'CaracteristicaExtra':
        descricao = 'Característica extra (categórico - nominal).'
    elif coluna == 'ValorExtra':
        descricao = 'Valor da característica extra (numérico - inteiro).'
    elif coluna == 'MesVenda':
        descricao = 'Mês em que a casa foi vendida (numérico - inteiro).'
    elif coluna == 'AnoVenda':
        descricao = 'Ano em que a casa foi vendida (numérico - inteiro).'
    elif coluna == 'TipoVenda':
        descricao = 'Tipo de venda (categórico - nominal).'
    elif coluna == 'CondicaoVenda':
        descricao = 'Condição da venda (categórico - nominal).'
    elif coluna == 'PrecoVenda':
        descricao = 'Preço de venda (numérico - inteiro).'
    else:
        descricao = 'Descrição não disponível.'

    # Adicionar a descrição ao dicionário
    descricao_colunas[coluna] = descricao

df = pd.read_csv(dataset_path)
df = df.rename(columns=nome_colunas_ptbr)
df.head()

columns

In [None]:
(mu, sigma) = norm.fit(df['PrecoVenda'])

plt.figure(figsize=(12, 6))

# Subplot 1: Distribuição original
plt.subplot(1, 2, 1)
sns.histplot(df['PrecoVenda'], kde=True)
plt.title(r'Distribuição do Preço de Venda', fontsize=13)
plt.xlabel(r"Preço de Venda (R$)")
plt.ylabel('Ocorrências')

# Subplot 2: Distribuição em logarítmo
plt.subplot(1, 2, 2)
sns.histplot(np.log(df['PrecoVenda']), kde=True)
plt.title(r'Distribuição do Preço de Venda (Log)', fontsize=13)
plt.xlabel(r"Log do Preço de Venda (R$)")
plt.ylabel('Ocorrências')

plt.tight_layout()
plt.show()

# fazer testes de normalidade para ambas as distribuições
from scipy.stats import shapiro, normaltest

# Teste de Shapiro-Wilk para a distribuição original, imprimir estatistica, pvalor e interpretação
stat, p = shapiro(df['PrecoVenda'])
print('Shapiro-Wilk para a distribuição original:')
print('Estatística=%.3f, p=%.3f' % (stat, p))
alpha = 0.05
if p > alpha:
    print('Amostra parece ser normalmente distribuída (falha em rejeitar H0)')
else:
    print('Amostra não parece ser normalmente distribuída (rejeita H0)')

# Teste de Shapiro-Wilk para a distribuição em logarítmo, imprimir estatistica, pvalor e interpretação
stat, p = shapiro(np.log(df['PrecoVenda']))
print('\nShapiro-Wilk para a distribuição em logarítmo:')
print('Estatística=%.3f, p=%.3f' % (stat, p))
alpha = 0.05
if p > alpha:
    print('Amostra parece ser normalmente distribuída (falha em rejeitar H0)')
else:
    print('Amostra não parece ser normalmente distribuída (rejeita H0)')




In [None]:
(mu, sigma) = norm.fit(df['PrecoVenda'])

plt.figure(figsize = (12,6))
sns.histplot(df['PrecoVenda'], kde = True)
sns.histplot(np.log(df['PrecoVenda']), kde = True)
plt.title(r'SalePrice distribution vs Normal Distribution', fontsize = 13)
plt.xlabel(r"Preço de Venda (R$)")
plt.ylabel('Ocorrências')
# plt.legend([r'Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)], loc='best')
plt.show()

In [None]:
f, ax = plt.subplots(figsize=(30, 25))
mat = df.corr('pearson')
mask = np.triu(np.ones_like(mat, dtype=bool))
cmap = sns.diverging_palette(230, 20, as_cmap=True)
sns.heatmap(mat, mask=mask, cmap=cmap, vmax=1, center=0, annot = True,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})
plt.show()

In [None]:
def analisar_coluna(coluna):
    print(f'\nAnalisando a coluna: {coluna}')

    # 1. Identificar o tipo de dado da coluna
    tipo_dado = df[coluna].dtype
    print(f'Tipo de dado: {tipo_dado}')

    if tipo_dado != 'object':  # Coluna numérica
        # Calcula estatísticas descritivas
        print(df[coluna].describe())

        # 2. Visualizar a distribuição dos dados
        plt.figure(figsize=(10, 4))
        plt.subplot(1, 2, 1)
        sns.histplot(df[coluna], kde=True)
        plt.title(f'Histograma de {coluna}')
        plt.subplot(1, 2, 2)
        sns.boxplot(y=df[coluna])
        plt.title(f'Boxplot de {coluna}')
        plt.show()

        # 3. Identificar e tratar valores ausentes
        num_ausentes = df[coluna].isnull().sum()
        print(f'Número de valores ausentes: {num_ausentes}')

        if num_ausentes > 0:
            # Calcula a média e a mediana da coluna
            media = df[coluna].mean()
            mediana = df[coluna].median()
            print(f'Média: {media}, Mediana: {mediana}')

            # Imputa os valores ausentes com a mediana
            df[coluna] = df[coluna].fillna(mediana)
            print(f'Valores ausentes imputados com a mediana: {mediana}')

    else:  # Coluna categórica
        # Calcula a frequência de cada valor único
        frequencia = df[coluna].value_counts()
        print(frequencia)

        # 2. Visualizar a distribuição dos dados
        plt.figure(figsize=(12, 6))
        sns.countplot(x=df[coluna], order=frequencia.index)
        plt.title(f'Gráfico de barras de {coluna}')
        plt.xticks(rotation=45, ha='right')
        plt.show()

        # 3. Identificar e tratar valores ausentes
        num_ausentes = df[coluna].isnull().sum()
        print(f'Número de valores ausentes: {num_ausentes}')

        if num_ausentes > 0:
            # Imputa os valores ausentes com a moda da coluna
            moda = df[coluna].mode()[0]
            df[coluna] = df[coluna].fillna(moda)
            print(f'Valores ausentes imputados com a moda: {moda}')

# Analisa cada coluna do DataFrame
for coluna in df.columns[:10]:
    analisar_coluna(coluna)

In [None]:

# Verifique os nomes das colunas
print(df.columns)

# Corrija os nomes das colunas, se necessário
df = df.rename(columns={
    'Garage Type': 'GarageType',
    'Overall Qual': 'OverallQual'
})

# Remova as linhas com valores nulos na coluna 'GarageType'
df = df.dropna(subset=['GarageType'])

# Imprima o tipo de dados de cada uma das colunas `Neighborhood`, `OverallQual` and `GarageType`.
print(df[['Neighborhood', 'OverallQual', 'GarageType']].dtypes)

# Imprima a contagem de cada valor único nas colunas `Neighborhood`, `OverallQual` and `GarageType`.
for col in ['Neighborhood', 'OverallQual', 'GarageType']:
    print(f'\nContagem de valores únicos para a coluna {col}:')
    print(df[col].value_counts())

# Crie o modelo ANOVA
model = sm.ols('SalePrice ~ C(Neighborhood) + C(OverallQual) + C(GarageType)', data=df).fit()

# Exiba os resultados da ANOVA
print(model.summary())