<a href="https://colab.research.google.com/github/tiagopessoalima/TATI/blob/main/Aula_Semana_03_(TATI).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estatística Descritiva: Medidas de Tendência Central e Dispersão**

Este notebook explora conceitos fundamentais de **Estatística Descritiva**, incluindo:
- **Medidas de Tendência Central**: Média, Mediana, Moda.
- **Medidas de Dispersão**: Variância, Desvio Padrão, Amplitude, Percentis.

Usaremos a base de dados **California Housing** para ilustrar os conceitos com exemplos práticos.

## **Definição do Problema**

**Problema de Negócio:**

O mercado imobiliário é dinâmico e complexo, com os preços dos imóveis sendo influenciados por uma ampla variedade de fatores. A capacidade de estimar com precisão o valor de uma propriedade é essencial para subsidiar decisões estratégicas de compradores, vendedores, investidores e instituições financeiras. Modelos preditivos baseados em dados permitem compreender melhor essas variáveis e antecipar tendências, promovendo maior eficiência e assertividade nas transações imobiliárias.

**Descrição do Conjunto de Dados:**


Neste semana, utilizamos um conjunto de dados que reúne informações de diversos distritos da [Califórnia](https://pt.wikipedia.org/wiki/Calif%C3%B3rnia), com o objetivo de prever o valor mediano das residências em cada região. As variáveis (*features*) disponíveis abrangem diferentes dimensões:

* **Localização geográfica:** Informações sobre a localização dos distritos.
* **Características demográficas:** Número de habitantes, renda média, etc.
* **Características dos imóveis:** Número de quartos, idade média das casas, etc.

Este conjunto é muito utilizado em estudos de [regressão](https://pt.wikipedia.org/wiki/Regress%C3%A3o_(estat%C3%ADstica)) para modelar a relação entre essas variáveis e o preço mediano dos imóveis.

## **Coleta de Dados**


O conjunto de dados foi obtido diretamente do repositório GitHub de [Aurélien Géron](https://github.com/ageron), autor do livro [Mãos à Obra: Aprendizado de Máquina com Scikit-Learn, Keras & TensorFlow](https://github.com/ageron/handson-ml2). Alternativamente, o *dataset* também está disponível no [kaggle](https://www.kaggle.com/datasets/camnugent/california-housing-prices).

### **Baixar os Dados**

Antes de iniciar a manipulação e limpeza dos dados, precisamos obter e preparar o conjunto de dados *California Housing Prices*. O código abaixo verifica se os dados já foram previamente baixados. Se não houver o arquivo localmente, ele realiza o *download* do arquivo compactado e extrai seu conteúdo para o diretório designado.



In [1]:
import os
import tarfile
from urllib.request import urlretrieve
from pathlib import Path

# Definição das URLs e caminhos
URL_RAIZ_DOWNLOAD = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
CAMINHO_DADOS_IMOVEIS = Path("datasets/housing")
URL_DADOS_IMOVEIS = URL_RAIZ_DOWNLOAD + "datasets/housing/housing.tgz"

# Criação do diretório, se ainda não existir
CAMINHO_DADOS_IMOVEIS.mkdir(parents=True, exist_ok=True)

# Caminhos dos arquivos
caminho_arquivo_tgz = CAMINHO_DADOS_IMOVEIS / "housing.tgz"
caminho_arquivo_csv = CAMINHO_DADOS_IMOVEIS / "housing.csv"

def baixar_dados():
    """Baixa o arquivo compactado de dados, caso ainda não esteja disponível localmente."""
    if not caminho_arquivo_tgz.exists():
        print(f"🔽 Baixando dados de {URL_DADOS_IMOVEIS}...")
        urlretrieve(URL_DADOS_IMOVEIS, caminho_arquivo_tgz)
        print("✅ Download concluído.")
    else:
        print(f"📁 Arquivo '{caminho_arquivo_tgz}' já existe. Pulando download.")

def extrair_dados():
    """Extrai o conteúdo do arquivo .tgz caso o CSV ainda não tenha sido extraído."""
    if not caminho_arquivo_csv.exists():
        print("📦 Extraindo conteúdo do arquivo compactado...")
        with tarfile.open(caminho_arquivo_tgz) as arquivo_tgz:
            arquivo_tgz.extractall(path=CAMINHO_DADOS_IMOVEIS)
        print(f"✅ Extração concluída. Dados disponíveis em '{caminho_arquivo_csv}'.")
    else:
        print(f"📄 Arquivo '{caminho_arquivo_csv}' já extraído. Pulando extração.")

# Execução das etapas
baixar_dados()
extrair_dados()


📁 Arquivo 'datasets/housing/housing.tgz' já existe. Pulando download.
📄 Arquivo 'datasets/housing/housing.csv' já extraído. Pulando extração.


### **Carregar os Dados**

Com os dados já extraídos, o próximo passo é carregá-los em um *DataFrame* utilizando a biblioteca *Pandas*. O código abaixo utiliza `pd.read_csv()` para ler o arquivo CSV e armazenar o conteúdo na variável `housing`, possibilitando a exploração e o processamento estruturado das informações ao longo da análise.

In [2]:
import pandas as pd

# Caminho para o arquivo CSV
caminho_csv = CAMINHO_DADOS_IMOVEIS / "housing.csv"

# Leitura dos dados em um DataFrame do Pandas
housing = pd.read_csv(caminho_csv)

### **Analisar os Dados**








Agora que os dados foram carregados em um *DataFrame*, podemos visualizar as primeiras linhas usando `housing.head()`. Essa função exibe uma amostra inicial do conjunto de dados, permitindo uma inspeção rápida da estrutura, colunas e tipos de valores presentes.










In [3]:
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


Prosseguiremos com a tradução das colunas do *DataFrame* `housing` para o português, para facilitar a compreensão e análise dos dados.

In [4]:
housing = housing.rename(columns={
    'housing_median_age': 'idade_média_moradias',
    'total_rooms': 'total_cômodos',
    'total_bedrooms': 'total_quartos',
    'population': 'população',
    'households': 'domicílios',
    'median_income': 'renda_mediana',
    'median_house_value': 'valor_mediano_casas',
    'ocean_proximity': 'proximidade_ao_oceano'
})

E agora com a tradução dos valores da coluna `proximidade_ao_oceano`.

In [5]:
# Substituindo os valores de 'proximidade_ao_oceano' por descrições em português
housing['proximidade_ao_oceano'] = housing['proximidade_ao_oceano'].replace({
    'NEAR BAY': 'PERTO DA BAÍA',
    '<1H OCEAN': 'MENOS DE 1H DO OCEANO',
    'INLAND': 'INTERIOR',
    'NEAR OCEAN': 'PERTO DO OCEANO',
    'ISLAND': 'ILHA'
})

Para apresentar o *DataFrame* `housing` traduzido para o português, vamos exibir agora as 5 últimas linhas usando o método `tail()`

In [6]:
housing.tail()

Unnamed: 0,longitude,latitude,idade_média_moradias,total_cômodos,total_quartos,população,domicílios,renda_mediana,valor_mediano_casas,proximidade_ao_oceano
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INTERIOR
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INTERIOR
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INTERIOR
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INTERIOR
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INTERIOR


Em seguida, será feita a análise do número de linhas, colunas, tipos de dados e a quantidade de valores nulos, utilizando o método `info()`.

In [7]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   longitude              20640 non-null  float64
 1   latitude               20640 non-null  float64
 2   idade_média_moradias   20640 non-null  float64
 3   total_cômodos          20640 non-null  float64
 4   total_quartos          20433 non-null  float64
 5   população              20640 non-null  float64
 6   domicílios             20640 non-null  float64
 7   renda_mediana          20640 non-null  float64
 8   valor_mediano_casas    20640 non-null  float64
 9   proximidade_ao_oceano  20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


**Observações Gerais:**

- O *dataset* contém informações sobre 20.640 imóveis na Califórnia;
- A coluna `total_quartos` possui cerca de 200 valores ausentes;
- A coluna `proximidade_ao_oceano` não é numérica.

In [8]:
housing["proximidade_ao_oceano"].value_counts()

Unnamed: 0_level_0,count
proximidade_ao_oceano,Unnamed: 1_level_1
MENOS DE 1H DO OCEANO,9136
INTERIOR,6551
PERTO DO OCEANO,2658
PERTO DA BAÍA,2290
ILHA,5


### **Salvar o DataFrame em um Novo Arquivo CSV**

Após carregar e preparar os dados, é importante salvar uma cópia local do DataFrame para preservar o estado atual das informações. Isso facilita o reuso em futuras análises, além de garantir segurança caso alterações posteriores precisem ser revertidas.

In [9]:
# Caminho para salvar o novo arquivo CSV
caminho_csv_copia = CAMINHO_DADOS_IMOVEIS / "housing_semana_03.csv"

# Salvar o DataFrame em CSV
housing.to_csv(caminho_csv_copia, index=False)

print(f"📁 Arquivo salvo em: {caminho_csv_copia}")

📁 Arquivo salvo em: datasets/housing/housing_semana_03.csv


## **Medidas de Tendência Central**

As medidas de tendência central resumem um conjunto de dados em um único valor representativo.

### **Média Aritmética**

Representa o valor médio de um conjunto de dados. É calculada somando todos os valores e dividindo pelo número total de observações.

**Fórmula**:
$$
\bar{x} = \frac{1}{n} \sum_{i=0}^{n-1} x_i
$$
Onde:
- $\bar{x}$: Média
- $x_i$: Cada valor no conjunto
- $n$: Número de observações

> A média é útil para entender o "centro" dos dados, mas pode ser sensível a valores extremos (*outliers*).


In [10]:
# Calculando a média da idade média das moradias
mean_houseval = housing['idade_média_moradias'].mean()

# Exibindo o resultado formatado com duas casas decimais
print(f"Média da idade média das moradias: {mean_houseval:.2f} anos")

Média da idade média das moradias: 28.64 anos


A média da idade média das moradias indica, em média, há quantos anos as casas foram construídas

### **Mediana**

É o valor que ocupa a posição central em um conjunto de dados **ordenado**. Ela divide o conjunto ao meio, de forma que:

- 50% dos valores estão **abaixo** da mediana
- 50% estão **acima**

A mediana é especialmente útil quando os dados possuem **outliers** ou estão **assimétricos**, pois não é afetada por valores extremos.

**Como calcular:**
- Se o número de observações ($n$) for **ímpar**, a mediana é o valor do meio ($\frac{n+1}{2}$).
- Se $n$ for **par**, a mediana é a média dos dois valores centrais ($\frac{n}{2}$  e $\frac{n}{2}+1$).


In [11]:
# Calculando a mediana da idade média das moradias
median_houseval = housing['idade_média_moradias'].median()

# Exibindo o resultado formatado com duas casas decimais
print(f"Mediana da idade média das moradias: {median_houseval:.2f} anos")

Mediana da idade média das moradias: 29.00 anos


A mediana representa a idade central das moradias: metade tem idade menor e metade tem idade maior que este valor


### **Moda**

A moda é o valor (ou valores) que aparece com maior frequência.

In [12]:
# Calculando a moda da coluna de proximidade ao oceano
mode_ocean_proximity = housing['proximidade_ao_oceano'].mode()[0]

# Exibindo o resultado
print(f"Moda da proximidade ao oceano: {mode_ocean_proximity}")

Moda da proximidade ao oceano: MENOS DE 1H DO OCEANO


A moda representa o valor mais frequente na coluna — ou seja, o tipo de proximidade ao oceano mais comum entre as moradias


## **Medidas de Dispersão**

As medidas de dispersão indicam o quão espalhados estão os dados em relação à tendência central.

### **Amplitude**

É uma medida simples de dispersão que indica a diferença entre o maior e o menor valor de um conjunto de dados. Ela mostra o **intervalo total de variação** dos dados, ou seja, o quão "espalhados" estão os valores em relação aos extremos.

**Fórmula**:
$$
\text{Amplitude} = \max(x_i) - \min(x_i)
$$

Onde:
- $\max(x_i)$ é o maior valor observado  
- $\min(x_i)$ é o menor valor observado  

> A amplitude é sensível a outliers, pois considera apenas os valores extremos.


In [13]:
# Exemplo de cálculo da amplitude
amplitude_total_comodos = housing['total_cômodos'].max() - housing['total_cômodos'].min()

# Exibindo o resultado
print(f"Amplitude do total de cômodos: {amplitude_total_comodos}")

Amplitude do total de cômodos: 39318.0


A amplitude é a diferença entre o maior e o menor valor na coluna 'total_cômodos', indicando a variação total entre os extremos


### **Variância**

É uma medida de dispersão que indica o quanto os valores de um conjunto de dados se afastam da **média**.

- A **variância populacional** é usada quando queremos medir a dispersão de toda a população de dados.  
- A **variância amostral** é usada quando estamos calculando a dispersão de uma amostra da população.



#### **Fórmula para a variância populacional**

$$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

Onde:
- $\sigma^2$ é a variância populacional
- $x_i$ é cada valor do conjunto
- $\bar{x}$ é a média dos dados
- $n$ é o número total de observações

In [14]:
# Exemplo de cálculo da variância populacional

# Variância populacional
variancia_populacional = housing['total_cômodos'].var(ddof=0)

# Exibindo o resultado
print(f"Variância populacional do total de cômodos: {variancia_populacional:.2f}")

Variância populacional do total de cômodos: 4759214.51


Para variância populacional, usamos o parâmetro `ddof=0`, que divide por $n$.

#### **Fórmula para a variância amostral**

$$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

Onde:
- $s^2$ é a variância amostral
- A diferença é o divisor $n-1$ (graus de liberdade) para corrigir o viés quando calculamos a variância a partir de uma amostra.

In [15]:
# Exemplo de cálculo da variância amostral

# Variância amostral
variancia_amostral = housing['total_cômodos'].var(ddof=1)

# Exibindo o resultado
print(f"Variância amostral do total de cômodos: {variancia_amostral:.2f}")

Variância amostral do total de cômodos: 4759445.11


Para variância amostral, usamos o parâmetro `ddof=1`, que divide por $n-1$, ajustando a estimativa.

### **Desvio Padrão**

É a raiz quadrada da **variância**, e é uma medida que indica o quanto os dados estão dispersos em relação à média, mas agora na **mesma unidade** dos dados originais. Isso o torna mais intuitivo, pois a variância está em unidades ao quadrado.

#### **Fórmulas**


- Para a **população**:
$$
\sigma = \sqrt{\sigma^2}
$$

- Para a **amostra**:
$$
s = \sqrt{s^2}
$$

Onde:
- $\sigma$ é o desvio padrão populacional
- $s$ é o desvio padrão amostral
- $\sigma^2$ e $s^2$ são, respectivamente, as variâncias populacional e amostral


In [16]:
# Exemplo de cálculo do desvio padrão

# Desvio padrão populacional
desvio_padrao_populacional = housing['total_cômodos'].std(ddof=0)

# Desvio padrão amostral
desvio_padrao_amostral = housing['total_cômodos'].std(ddof=1)

# Exibindo os resultados
print(f"Desvio padrão populacional do total de cômodos: {desvio_padrao_populacional:.2f}")
print(f"Desvio padrão amostral do total de cômodos: {desvio_padrao_amostral:.2f}")

Desvio padrão populacional do total de cômodos: 2181.56
Desvio padrão amostral do total de cômodos: 2181.62


### **Percentis e Intervalo Interquartil (IQR)**

- **Percentis**: São pontos que dividem os dados em 100 partes iguais. O $p$-ésimo percentil é o valor abaixo do qual $p$% dos dados se encontram. Por exemplo, o 50º percentil corresponde à mediana.
  
- **Quartis**: São percentis especiais que dividem os dados em 4 partes iguais:
  - **Q1 (25%)**: O primeiro quartil, que representa o valor abaixo do qual 25% dos dados estão.
  - **Q2 (50%)**: O segundo quartil, que é a **mediana** e divide os dados ao meio.
  - **Q3 (75%)**: O terceiro quartil, que representa o valor abaixo do qual 75% dos dados estão.

- **Intervalo Interquartil (IQR)**: O **IQR** é a diferença entre o terceiro quartil (Q3) e o primeiro quartil (Q1). Ele indica a amplitude da parte central dos dados e é útil para identificar **outliers**.


#### **Fórmula para o IQR**

$$
\text{IQR} = Q3 - Q1
$$

Onde:
- **Q1** é o primeiro quartil (25%)
- **Q3** é o terceiro quartil (75%)

## **Resumo Estatístico**

Até agora, exploramos medidas de tendência central e dispersão individualmente, obtendo *insights* valiosos sobre cada variável. No entanto, o método `describe()` do Pandas nos permite ter uma visão panorâmica e concisa de todas as variáveis numéricas simultaneamente. Vamos analisar os resultados e contextualizá-los com o mercado imobiliário da Califórnia:

In [17]:
housing.describe()

Unnamed: 0,longitude,latitude,idade_média_moradias,total_cômodos,total_quartos,população,domicílios,renda_mediana,valor_mediano_casas
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


Essa análise estatística é um bom ponto de partida para entender a distribuição dos dados e detectar outliers ou padrões incomuns.

- A distribuição geográfica dos imóveis, representada por longitude e latitude, abrange uma área considerável da Califórnia.
- A `idade_média_moradias` varia de 1 a 52 anos, com uma média de 28.6 anos, sugerindo uma mistura de imóveis novos e antigos.
- O número de cômodos (`total_cômodos`) e quartos (`total_quartos`) apresentam alta variabilidade, com valores máximos muito distantes das médias, indicando a presença de imóveis de grande porte.
- As colunas `população` e `domicílios` também exibem grande variação, refletindo a diversidade de densidade populacional.
- O `valor_mediano_casas` também apresenta alta variabilidade, com valores máximos muito acima da média.