# EDA - California Housing Dataset

Autor: Gallileu Genesis 

###### Objetivos:
O objetivo da Análise Exploratória de Dados (EDA) é entender a estrutura e os relacionamentos dentro do conjunto de dados e identificar inconsistências, "sujeiras", padrões, outliers e outros recursos de interesse. É uma etapa inicial no processo de análise de dados e é uma etapa crucial antes de aplicar qualquer modelo estatístico ou de aprendizado de máquina aos dados.

Alguns objetivos específicos da EDA incluem:

- Familiarizar-se com os dados e sua estrutura
- Identificando dados ausentes ou incorretos
- Efetuar eventuais correções nos dados
- Detecção de outliers e anomalias
- Entendendo a distribuição de cada variável
- Identificando relações e padrões entre variáveis
- Gerando hipóteses para análise ou modelagem posterior

Em geral, o objetivo da EDA é usar métodos visuais e estatísticos para obter insights sobre os dados e identificar áreas para investigação posterior. É um processo iterativo que permite ao analista refinar e melhorar sua compreensão dos dados à medida que novos insights são obtidos.


## Parte I

O objetivo dessa etapa é realizar uma exploração mais visual, a fim de familiarizar-se com os dados e sua estrutura e identificar dados ausentes, duplicados ou incorretos e, por fim, realizar eventuais correções, se for o caso.

In [2]:
import pandas as pd
from pandas.api.types import is_string_dtype
from pandas.api.types import is_numeric_dtype
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', '{:.2f}'.format)

from sklearn.datasets import fetch_california_housing

### Banco de dados

O banco de dados de treinamento possui 37137 amostras (entradas/linhas), 8 colunas (features/recursos), além das colunas id e target.

In [3]:
train = pd.read_csv("Data/train.csv")
print(train.shape)
train.head()

(37137, 10)


Unnamed: 0,id,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,0,2.39,15.0,3.83,1.11,1280.0,2.49,34.6,-120.12,0.98
1,1,3.72,17.0,6.01,1.05,1504.0,3.81,38.69,-121.22,0.95
2,2,4.78,27.0,6.54,1.1,1061.0,2.46,34.71,-120.45,1.58
3,3,2.41,16.0,3.35,0.97,1255.0,2.09,32.66,-117.09,1.34
4,4,3.75,52.0,4.28,1.07,1793.0,1.6,37.8,-122.41,4.5


O banco de dados de teste possui 24759 amostras (entradas/linhas), 8 colunas (features/recursos), além da coluna id.

In [4]:
test = pd.read_csv("Data/test.csv")
print(test.shape)
test.head()

(24759, 9)


Unnamed: 0,id,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,37137,1.71,35.0,4.97,1.1,1318.0,2.84,39.75,-121.85
1,37138,1.39,22.0,4.19,1.1,2296.0,3.18,33.95,-118.29
2,37139,7.72,21.0,7.13,0.96,1535.0,2.89,33.61,-117.81
3,37140,4.68,49.0,4.77,1.05,707.0,1.74,34.17,-118.34
4,37141,3.13,25.0,3.77,1.08,4716.0,2.0,34.17,-118.29


#### Informação de dados ausentes:

Abaixo estão três métodos para analisar a existência de dados ausentes (você só precisa usar um, se quiser). Nenhum dado ausente foi encontrado (tão bom que parece mentira).

In [6]:
# vamos obter um resumo conciso do DataFrame.
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37137 entries, 0 to 37136
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           37137 non-null  int64  
 1   MedInc       37137 non-null  float64
 2   HouseAge     37137 non-null  float64
 3   AveRooms     37137 non-null  float64
 4   AveBedrms    37137 non-null  float64
 5   Population   37137 non-null  float64
 6   AveOccup     37137 non-null  float64
 7   Latitude     37137 non-null  float64
 8   Longitude    37137 non-null  float64
 9   MedHouseVal  37137 non-null  float64
dtypes: float64(9), int64(1)
memory usage: 2.8 MB


In [7]:
# vamos obter um resumo conciso do DataFrame.
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24759 entries, 0 to 24758
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          24759 non-null  int64  
 1   MedInc      24759 non-null  float64
 2   HouseAge    24759 non-null  float64
 3   AveRooms    24759 non-null  float64
 4   AveBedrms   24759 non-null  float64
 5   Population  24759 non-null  float64
 6   AveOccup    24759 non-null  float64
 7   Latitude    24759 non-null  float64
 8   Longitude   24759 non-null  float64
dtypes: float64(8), int64(1)
memory usage: 1.7 MB


Percebemos que a quantidade de valores não nulos é igual ao total de entradas do dataframe, o que indica que não há dados ausentes. Notamos também que todas as entradas são numéricas do tipo float64, com exceção do id que é do tipo int64, ocupando 2.8 e 1.4 MB de memória (treinamento e teste, respectivamente). 

In [8]:
# O método a seguir mostra de forma mais direta a quantidade de dados ausente em cada coluna
train.isnull().sum()

id             0
MedInc         0
HouseAge       0
AveRooms       0
AveBedrms      0
Population     0
AveOccup       0
Latitude       0
Longitude      0
MedHouseVal    0
dtype: int64

In [10]:
test.isnull().sum()

id            0
MedInc        0
HouseAge      0
AveRooms      0
AveBedrms     0
Population    0
AveOccup      0
Latitude      0
Longitude     0
dtype: int64

#### Avaliar dados duplicados

Não temos dados duplicados.

In [11]:
# Linhas inteiramente duplicadas
train_duplicated = train[train.duplicated(keep = False)]
print(train_duplicated.shape)
train_duplicated.head()

(0, 10)


Unnamed: 0,id,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal


In [12]:
test_duplicated = test[test.duplicated(keep = False)]
print(test_duplicated.shape)
test_duplicated.head()

(0, 9)


Unnamed: 0,id,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude


#### Descrição estatística básica

In [13]:
train.describe()

Unnamed: 0,id,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
count,37137.0,37137.0,37137.0,37137.0,37137.0,37137.0,37137.0,37137.0,37137.0,37137.0
mean,18568.0,3.85,26.06,5.16,1.06,1660.78,2.83,35.57,-119.55,2.08
std,10720.67,1.8,12.16,1.21,0.1,1302.47,2.7,2.08,1.97,1.16
min,0.0,0.5,2.0,0.85,0.5,3.0,0.95,32.55,-124.35,0.15
25%,9284.0,2.6,17.0,4.36,1.02,952.0,2.39,33.93,-121.8,1.21
50%,18568.0,3.52,25.0,5.07,1.05,1383.0,2.74,34.19,-118.45,1.81
75%,27852.0,4.7,35.0,5.86,1.09,1856.0,3.13,37.7,-118.02,2.66
max,37136.0,15.0,52.0,28.84,5.87,35682.0,502.99,41.95,-114.55,5.0


#### Comentários:
**MedInc (Renda Média):**
- A média da renda média é aproximadamente 3.85, com um desvio padrão de 1.80. Isso sugere que a maioria das áreas tem renda média próxima a esse valor médio.
- renda mínima é 0.50, enquanto a renda máxima é 15.00. Essa variação indica que existem áreas com renda consideravelmente baixa e alta.
- O percentil 25 (primeiro quartil) é 2.60, o percentil 50 (mediana) é 3.52 e o percentil 75 (terceiro quartil) é 4.70. Isso sugere que a maioria das áreas tem renda média entre 2.60 e 4.70.
 

**HouseAge (Idade das Casas):**
- A idade média das casas é cerca de 26.06 anos, com um desvio padrão de 12.16 anos. Isso sugere uma variabilidade nas idades das casas entre diferentes áreas.
- A idade mínima das casas é 2 anos, enquanto a idade máxima é 52 anos.
- O percentil 25 (primeiro quartil) é 17 anos, o percentil 50 (mediana) é 25 anos e o percentil 75 (terceiro quartil) é 35 anos. Isso sugere que a maioria das casas nas áreas tem idades entre 17 e 35 anos.

**AveRooms (Média de Quartos por Casa):**
- A média de quartos por casa é aproximadamente 5.16, com um desvio padrão de 1.21. Isso sugere uma relativa consistência na média de quartos entre diferentes áreas.
- O número mínimo médio de quartos por casa é 0.85, enquanto o número máximo é 28.84, que pode ser um valor atípico.
- O percentil 25 (primeiro quartil) é 4.36, o percentil 50 (mediana) é 5.07 e o percentil 75 (terceiro quartil) é 5.86. Isso indica que a maioria das casas nas áreas tem entre 4.36 e 5.86 quartos em média.

**AveBedrms (Média de Quartos de Dormir por Casa):**
- A média de quartos de dormir por casa é aproximadamente 1.06, com um desvio padrão de 0.10. Isso sugere uma consistência razoável nessa média entre diferentes áreas.
- O número mínimo médio de quartos de dormir por casa é 0.50, enquanto o número máximo é 5.87.
- O percentil 25 (primeiro quartil) é 1.02, o percentil 50 (mediana) é 1.05 e o percentil 75 (terceiro quartil) é 1.09. Isso indica que a maioria das casas nas áreas tem entre 1.02 e 1.09 quartos de dormir em média.

**Population (População):**
- A população média é cerca de 1660.78, com um desvio padrão de 1302.47. Isso sugere uma variação considerável nas populações entre diferentes áreas.
- A população mínima é 3, enquanto a população máxima é 35682.
- O percentil 25 (primeiro quartil) é 952, o percentil 50 (mediana) é 1383 e o percentil 75 (terceiro quartil) é 1856. Isso sugere que a maioria das áreas tem populações abaixo de 1856.

**AveOccup (Média de Ocupantes por Casa):**
- A média de ocupantes por casa é cerca de 2.83, com um desvio padrão de 2.70. Isso sugere uma variação razoável na média de ocupantes entre diferentes áreas.
- O número mínimo médio de ocupantes por casa é 0.95, enquanto o número máximo é 502.99, que parece ser um valor atípico.
- O percentil 25 (primeiro quartil) é 2.39, o percentil 50 (mediana) é 2.74 e o percentil 75 (terceiro quartil) é 3.13. Isso indica que a maioria das casas nas áreas tem entre 2.39 e 3.13 ocupantes em média.

**Latitude e Longitude:**
- As coordenadas de latitude têm média em torno de 35.57 e desvio padrão de 2.08. As coordenadas de longitude têm média próxima de -119.55 e desvio padrão de 1.97. Isso sugere alguma variação nas localizações das áreas.
- Os valores mínimos e máximos de latitude e longitude refletem a diversidade das áreas cobertas pelo conjunto de dados.

**MedHouseVal (Valor Médio das Casas):**
- A média do valor médio das casas é cerca de 2.08, com um desvio padrão de 1.16. Isso sugere que os valores do valor médio das casas estão em torno dessa média, com alguma variação.
- O valor mínimo do valor médio das casas é 0.15, enquanto o valor máximo é 5.00.
- O percentil 25 (primeiro quartil) é 1.21, o percentil 50 (mediana) é 1.81 e o percentil 75 (terceiro quartil) é 2.66. Isso sugere que a maioria das áreas tem valores do valor médio das casas entre 1.21 e 2.66.

## Parte II

Essa etapa tem, além dos mesmos objetivos da Parte I, apresentar agora uma exploração visual básica das variáveis. 

In [None]:
def plot_numerical(df):
    """
    Plota gráficos de dispersão para variáveis numéricas.
    
    Parâmetros:
    df (pd.DataFrame): O DataFrame contendo os dados.
    
    Retorna:
    None (exibe os gráficos)
    """
    numerical_cols = df.select_dtypes(include=[np.number]).columns
    for col in numerical_cols:
        print(30 * '-', f'{col}', 30 * '-')
        plt.scatter(df[col].index, df[col])
        plt.ylabel(col, fontsize=10)
        plt.yticks(fontsize=10, rotation=0)
        plt.xticks(fontsize=10, rotation=0)
        plt.show()

#### Alguns comentários:

 

In [None]:
plot_numerical(df)

## Parte III

Vamos, nessa etapa, fazer uma exploração mais aprofundada dos dados, buscando identificar padrões e insight, a partir do interrelacionamento das variáveis e suas distribuições. 


In [None]:

def plot_histogram(df, numerical_col, target):
    """
    Plota um histograma com ou sem estimativa de densidade de kernel para variáveis numéricas em relação a uma variável-alvo.
    
    Parâmetros:
    df (pd.DataFrame): O DataFrame contendo os dados.
    numerical_col (str): O nome da coluna numérica a ser plotada.
    target (str): O nome da coluna alvo (geralmente categórica) para distinguir as distribuições.
    
    Retorna:
    None (exibe o gráfico)
    """
    plt.figure(figsize=(8, 4))
    sns.histplot(data=df, x=numerical_col, hue=target, kde=True)
    plt.show()

def plot_boxplot(df, numerical_col='numerical_col', target='target'):
    """
    Plota um gráfico de boxplot para visualizar a distribuição de variáveis numéricas em relação a uma variável-alvo.
    
    Parâmetros:
    df (pd.DataFrame): O DataFrame contendo os dados.
    numerical_col (str): O nome da coluna numérica a ser plotada.
    target (str): O nome da coluna alvo (geralmente categórica) para distinguir as categorias.
    
    Retorna:
    None (exibe o gráfico)
    """
    plt.figure(figsize=(8, 4))
    sns.boxplot(data=df, x=target, y=numerical_col)
    plt.show()
    
def plot_violin(df, numerical_col, target):
    """
    Cria um gráfico de violino para visualizar a distribuição de uma variável numérica
    em diferentes categorias de uma variável categórica.

    Parâmetros:
    df (pandas DataFrame): O DataFrame contendo os dados.
    coluna_numerica (str): O nome da coluna numérica para plotar no eixo y.
    alvo (str): O nome da coluna categórica para plotar no eixo x.

    Retorna:
    None
    """
    import matplotlib.pyplot as plt
    import seaborn as sns

    plt.figure(figsize=(8, 4))
    sns.violinplot(x=target, y=numerical_col, data=df)
    plt.show()


def plot_grouped_boxplot(df, categorical_col, numerical_col, target):
    """
    Plota um gráfico de boxplot agrupado para comparar a distribuição de variáveis numéricas entre categorias de uma variável categórica.
    
    Parâmetros:
    df (pd.DataFrame): O DataFrame contendo os dados.
    categorical_feature (str): O nome da coluna categórica usada para agrupar os dados.
    numerical_feature (str): O nome da coluna numérica a ser plotada no eixo y.
    target (str): O nome da coluna alvo (geralmente categórica) para distinguir as categorias dentro de cada grupo categórico.
    
    Retorna:
    None (exibe o gráfico)
    """
    plt.figure(figsize=(8, 4))
    sns.boxplot(data=df, x=categorical_col, y=numerical_col, hue=target)
    plt.xticks(rotation=60)
    plt.show()
    
import seaborn as sns
import matplotlib.pyplot as plt

def plot_scatterplot(x, y, df, target, log=False, order=False):
    """
    Gera um gráfico de dispersão usando Seaborn.

    Parâmetros:
    x (str ou None): Nome da coluna para o eixo x. Se None, o índice do DataFrame será usado.
    y (str): Nome da coluna para o eixo y.
    df (DataFrame): O DataFrame de entrada contendo os dados.
    target (str): Nome da coluna para a variável de matiz (hue), usada para colorir os pontos.
    log (bool): Se True, usa escala logarítmica para ambos os eixos x e y.
    order (bool): Se True, ordena o DataFrame pela coluna y antes de plotar.

    Retorna:
    None (exibe o gráfico).
    """
    if order:
        df = df.sort_values(by=y)
        df.reset_index(inplace=True, drop=True)

    if x is None:
        x = df.index

    plt.figure(figsize=(8, 4))
    sns.scatterplot(x=x, y=y, data=df, hue=target)
    if log:
        plt.xscale('log')
        plt.yscale('log')
    plt.show()


#### Comentários:


In [None]:
numerical_features = df.select_dtypes(include='number').columns.tolist()
for col in numerical_features:
    plot_histogram(df, col, 'target')

**Comentários:**
 


In [None]:
for col in numerical_features:
    plot_boxplot(df, 'status_do_caso', col)

**Comentários:**

In [None]:
for col in numerical_features:
    plot_violin(df, col, 'status_do_caso')

In [None]:
for categorical_col in categorical_features:
    for numerical_col in numerical_features:
        plot_grouped_boxplot(df, categorical_col, numerical_col, 'status_do_caso')

In [None]:
plt.figure(figsize=(16, 4))

sns.pairplot(data=df[numerical_features + ['status_do_caso']], hue='status_do_caso')
plt.show()

In [None]:
sns.heatmap(df[numerical_features].corr(), annot=True, cmap='coolwarm')
plt.show()

**Testes de hipóteses:**
- Para determinar se a diferença na dispersão (variância) é estatisticamente significante, realize uma das seguintes ações:
 - Use um teste para [2 variâncias](https://support.minitab.com/pt-br/minitab/21/help-and-how-to/statistics/basic-statistics/how-to/2-variances/before-you-start/overview/) se você tiver apenas dois grupos.
 - Use um teste de [igualdade de variâncias](https://support.minitab.com/pt-br/minitab/21/help-and-how-to/statistical-modeling/anova/how-to/test-for-equal-variances/before-you-start/overview/) caso tenha três ou mais grupos.