<a href="https://colab.research.google.com/github/tiagopessoalima/TATI/blob/main/Aula_Semana_03_(TATI).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Estat√≠stica Descritiva: Medidas de Tend√™ncia Central e Dispers√£o**

Este notebook explora conceitos fundamentais de **Estat√≠stica Descritiva**, incluindo:
- **Medidas de Tend√™ncia Central**: M√©dia, Mediana, Moda.
- **Medidas de Dispers√£o**: Vari√¢ncia, Desvio Padr√£o, Amplitude, Percentis.

Usaremos a base de dados **California Housing** para ilustrar os conceitos com exemplos pr√°ticos.

## **Defini√ß√£o do Problema**

**Problema de Neg√≥cio:**

O mercado imobili√°rio √© din√¢mico e complexo, com os pre√ßos dos im√≥veis sendo influenciados por uma ampla variedade de fatores. A capacidade de estimar com precis√£o o valor de uma propriedade √© essencial para subsidiar decis√µes estrat√©gicas de compradores, vendedores, investidores e institui√ß√µes financeiras. Modelos preditivos baseados em dados permitem compreender melhor essas vari√°veis e antecipar tend√™ncias, promovendo maior efici√™ncia e assertividade nas transa√ß√µes imobili√°rias.

**Descri√ß√£o do Conjunto de Dados:**


Neste semana, utilizamos um conjunto de dados que re√∫ne informa√ß√µes de diversos distritos da [Calif√≥rnia](https://pt.wikipedia.org/wiki/Calif%C3%B3rnia), com o objetivo de prever o valor mediano das resid√™ncias em cada regi√£o. As vari√°veis (*features*) dispon√≠veis abrangem diferentes dimens√µes:

* **Localiza√ß√£o geogr√°fica:** Informa√ß√µes sobre a localiza√ß√£o dos distritos.
* **Caracter√≠sticas demogr√°ficas:** N√∫mero de habitantes, renda m√©dia, etc.
* **Caracter√≠sticas dos im√≥veis:** N√∫mero de quartos, idade m√©dia das casas, etc.

Este conjunto √© muito utilizado em estudos de [regress√£o](https://pt.wikipedia.org/wiki/Regress%C3%A3o_(estat%C3%ADstica)) para modelar a rela√ß√£o entre essas vari√°veis e o pre√ßo mediano dos im√≥veis.

## **Coleta de Dados**


O conjunto de dados foi obtido diretamente do reposit√≥rio GitHub de [Aur√©lien G√©ron](https://github.com/ageron), autor do livro [M√£os √† Obra: Aprendizado de M√°quina com Scikit-Learn, Keras & TensorFlow](https://github.com/ageron/handson-ml2). Alternativamente, o *dataset* tamb√©m est√° dispon√≠vel no [kaggle](https://www.kaggle.com/datasets/camnugent/california-housing-prices).

### **Baixar os Dados**

Antes de iniciar a manipula√ß√£o e limpeza dos dados, precisamos obter e preparar o conjunto de dados *California Housing Prices*. O c√≥digo abaixo verifica se os dados j√° foram previamente baixados. Se n√£o houver o arquivo localmente, ele realiza o *download* do arquivo compactado e extrai seu conte√∫do para o diret√≥rio designado.



In [1]:
import os
import tarfile
from urllib.request import urlretrieve
from pathlib import Path

# Defini√ß√£o das URLs e caminhos
URL_RAIZ_DOWNLOAD = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
CAMINHO_DADOS_IMOVEIS = Path("datasets/housing")
URL_DADOS_IMOVEIS = URL_RAIZ_DOWNLOAD + "datasets/housing/housing.tgz"

# Cria√ß√£o do diret√≥rio, se ainda n√£o existir
CAMINHO_DADOS_IMOVEIS.mkdir(parents=True, exist_ok=True)

# Caminhos dos arquivos
caminho_arquivo_tgz = CAMINHO_DADOS_IMOVEIS / "housing.tgz"
caminho_arquivo_csv = CAMINHO_DADOS_IMOVEIS / "housing.csv"

def baixar_dados():
    """Baixa o arquivo compactado de dados, caso ainda n√£o esteja dispon√≠vel localmente."""
    if not caminho_arquivo_tgz.exists():
        print(f"üîΩ Baixando dados de {URL_DADOS_IMOVEIS}...")
        urlretrieve(URL_DADOS_IMOVEIS, caminho_arquivo_tgz)
        print("‚úÖ Download conclu√≠do.")
    else:
        print(f"üìÅ Arquivo '{caminho_arquivo_tgz}' j√° existe. Pulando download.")

def extrair_dados():
    """Extrai o conte√∫do do arquivo .tgz caso o CSV ainda n√£o tenha sido extra√≠do."""
    if not caminho_arquivo_csv.exists():
        print("üì¶ Extraindo conte√∫do do arquivo compactado...")
        with tarfile.open(caminho_arquivo_tgz) as arquivo_tgz:
            arquivo_tgz.extractall(path=CAMINHO_DADOS_IMOVEIS)
        print(f"‚úÖ Extra√ß√£o conclu√≠da. Dados dispon√≠veis em '{caminho_arquivo_csv}'.")
    else:
        print(f"üìÑ Arquivo '{caminho_arquivo_csv}' j√° extra√≠do. Pulando extra√ß√£o.")

# Execu√ß√£o das etapas
baixar_dados()
extrair_dados()


üìÅ Arquivo 'datasets/housing/housing.tgz' j√° existe. Pulando download.
üìÑ Arquivo 'datasets/housing/housing.csv' j√° extra√≠do. Pulando extra√ß√£o.


### **Carregar os Dados**

Com os dados j√° extra√≠dos, o pr√≥ximo passo √© carreg√°-los em um *DataFrame* utilizando a biblioteca *Pandas*. O c√≥digo abaixo utiliza `pd.read_csv()` para ler o arquivo CSV e armazenar o conte√∫do na vari√°vel `housing`, possibilitando a explora√ß√£o e o processamento estruturado das informa√ß√µes ao longo da an√°lise.

In [2]:
import pandas as pd

# Caminho para o arquivo CSV
caminho_csv = CAMINHO_DADOS_IMOVEIS / "housing.csv"

# Leitura dos dados em um DataFrame do Pandas
housing = pd.read_csv(caminho_csv)

### **Analisar os Dados**








Agora que os dados foram carregados em um *DataFrame*, podemos visualizar as primeiras linhas usando `housing.head()`. Essa fun√ß√£o exibe uma amostra inicial do conjunto de dados, permitindo uma inspe√ß√£o r√°pida da estrutura, colunas e tipos de valores presentes.










In [3]:
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


Prosseguiremos com a tradu√ß√£o das colunas do *DataFrame* `housing` para o portugu√™s, para facilitar a compreens√£o e an√°lise dos dados.

In [4]:
housing = housing.rename(columns={
    'housing_median_age': 'idade_m√©dia_moradias',
    'total_rooms': 'total_c√¥modos',
    'total_bedrooms': 'total_quartos',
    'population': 'popula√ß√£o',
    'households': 'domic√≠lios',
    'median_income': 'renda_mediana',
    'median_house_value': 'valor_mediano_casas',
    'ocean_proximity': 'proximidade_ao_oceano'
})

E agora com a tradu√ß√£o dos valores da coluna `proximidade_ao_oceano`.

In [5]:
# Substituindo os valores de 'proximidade_ao_oceano' por descri√ß√µes em portugu√™s
housing['proximidade_ao_oceano'] = housing['proximidade_ao_oceano'].replace({
    'NEAR BAY': 'PERTO DA BA√çA',
    '<1H OCEAN': 'MENOS DE 1H DO OCEANO',
    'INLAND': 'INTERIOR',
    'NEAR OCEAN': 'PERTO DO OCEANO',
    'ISLAND': 'ILHA'
})

Para apresentar o *DataFrame* `housing` traduzido para o portugu√™s, vamos exibir agora as 5 √∫ltimas linhas usando o m√©todo `tail()`

In [6]:
housing.tail()

Unnamed: 0,longitude,latitude,idade_m√©dia_moradias,total_c√¥modos,total_quartos,popula√ß√£o,domic√≠lios,renda_mediana,valor_mediano_casas,proximidade_ao_oceano
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INTERIOR
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INTERIOR
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INTERIOR
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INTERIOR
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INTERIOR


Em seguida, ser√° feita a an√°lise do n√∫mero de linhas, colunas, tipos de dados e a quantidade de valores nulos, utilizando o m√©todo `info()`.

In [7]:
housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   longitude              20640 non-null  float64
 1   latitude               20640 non-null  float64
 2   idade_m√©dia_moradias   20640 non-null  float64
 3   total_c√¥modos          20640 non-null  float64
 4   total_quartos          20433 non-null  float64
 5   popula√ß√£o              20640 non-null  float64
 6   domic√≠lios             20640 non-null  float64
 7   renda_mediana          20640 non-null  float64
 8   valor_mediano_casas    20640 non-null  float64
 9   proximidade_ao_oceano  20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


**Observa√ß√µes Gerais:**

- O *dataset* cont√©m informa√ß√µes sobre 20.640 im√≥veis na Calif√≥rnia;
- A coluna `total_quartos` possui cerca de 200 valores ausentes;
- A coluna `proximidade_ao_oceano` n√£o √© num√©rica.

In [8]:
housing["proximidade_ao_oceano"].value_counts()

Unnamed: 0_level_0,count
proximidade_ao_oceano,Unnamed: 1_level_1
MENOS DE 1H DO OCEANO,9136
INTERIOR,6551
PERTO DO OCEANO,2658
PERTO DA BA√çA,2290
ILHA,5


### **Salvar o DataFrame em um Novo Arquivo CSV**

Ap√≥s carregar e preparar os dados, √© importante salvar uma c√≥pia local do DataFrame para preservar o estado atual das informa√ß√µes. Isso facilita o reuso em futuras an√°lises, al√©m de garantir seguran√ßa caso altera√ß√µes posteriores precisem ser revertidas.

In [9]:
# Caminho para salvar o novo arquivo CSV
caminho_csv_copia = CAMINHO_DADOS_IMOVEIS / "housing_semana_03.csv"

# Salvar o DataFrame em CSV
housing.to_csv(caminho_csv_copia, index=False)

print(f"üìÅ Arquivo salvo em: {caminho_csv_copia}")

üìÅ Arquivo salvo em: datasets/housing/housing_semana_03.csv


## **Medidas de Tend√™ncia Central**

As medidas de tend√™ncia central resumem um conjunto de dados em um √∫nico valor representativo.

### **M√©dia Aritm√©tica**

Representa o valor m√©dio de um conjunto de dados. √â calculada somando todos os valores e dividindo pelo n√∫mero total de observa√ß√µes.

**F√≥rmula**:
$$
\bar{x} = \frac{1}{n} \sum_{i=0}^{n-1} x_i
$$
Onde:
- $\bar{x}$: M√©dia
- $x_i$: Cada valor no conjunto
- $n$: N√∫mero de observa√ß√µes

> A m√©dia √© √∫til para entender o "centro" dos dados, mas pode ser sens√≠vel a valores extremos (*outliers*).


In [10]:
# Calculando a m√©dia da idade m√©dia das moradias
mean_houseval = housing['idade_m√©dia_moradias'].mean()

# Exibindo o resultado formatado com duas casas decimais
print(f"M√©dia da idade m√©dia das moradias: {mean_houseval:.2f} anos")

M√©dia da idade m√©dia das moradias: 28.64 anos


A m√©dia da idade m√©dia das moradias indica, em m√©dia, h√° quantos anos as casas foram constru√≠das

### **Mediana**

√â o valor que ocupa a posi√ß√£o central em um conjunto de dados **ordenado**. Ela divide o conjunto ao meio, de forma que:

- 50% dos valores est√£o **abaixo** da mediana
- 50% est√£o **acima**

A mediana √© especialmente √∫til quando os dados possuem **outliers** ou est√£o **assim√©tricos**, pois n√£o √© afetada por valores extremos.

**Como calcular:**
- Se o n√∫mero de observa√ß√µes ($n$) for **√≠mpar**, a mediana √© o valor do meio ($\frac{n+1}{2}$).
- Se $n$ for **par**, a mediana √© a m√©dia dos dois valores centrais ($\frac{n}{2}$  e $\frac{n}{2}+1$).


In [11]:
# Calculando a mediana da idade m√©dia das moradias
median_houseval = housing['idade_m√©dia_moradias'].median()

# Exibindo o resultado formatado com duas casas decimais
print(f"Mediana da idade m√©dia das moradias: {median_houseval:.2f} anos")

Mediana da idade m√©dia das moradias: 29.00 anos


A mediana representa a idade central das moradias: metade tem idade menor e metade tem idade maior que este valor


### **Moda**

A moda √© o valor (ou valores) que aparece com maior frequ√™ncia.

In [12]:
# Calculando a moda da coluna de proximidade ao oceano
mode_ocean_proximity = housing['proximidade_ao_oceano'].mode()[0]

# Exibindo o resultado
print(f"Moda da proximidade ao oceano: {mode_ocean_proximity}")

Moda da proximidade ao oceano: MENOS DE 1H DO OCEANO


A moda representa o valor mais frequente na coluna ‚Äî ou seja, o tipo de proximidade ao oceano mais comum entre as moradias


## **Medidas de Dispers√£o**

As medidas de dispers√£o indicam o qu√£o espalhados est√£o os dados em rela√ß√£o √† tend√™ncia central.

### **Amplitude**

√â uma medida simples de dispers√£o que indica a diferen√ßa entre o maior e o menor valor de um conjunto de dados. Ela mostra o **intervalo total de varia√ß√£o** dos dados, ou seja, o qu√£o "espalhados" est√£o os valores em rela√ß√£o aos extremos.

**F√≥rmula**:
$$
\text{Amplitude} = \max(x_i) - \min(x_i)
$$

Onde:
- $\max(x_i)$ √© o maior valor observado  
- $\min(x_i)$ √© o menor valor observado  

> A amplitude √© sens√≠vel a outliers, pois considera apenas os valores extremos.


In [13]:
# Exemplo de c√°lculo da amplitude
amplitude_total_comodos = housing['total_c√¥modos'].max() - housing['total_c√¥modos'].min()

# Exibindo o resultado
print(f"Amplitude do total de c√¥modos: {amplitude_total_comodos}")

Amplitude do total de c√¥modos: 39318.0


A amplitude √© a diferen√ßa entre o maior e o menor valor na coluna 'total_c√¥modos', indicando a varia√ß√£o total entre os extremos


### **Vari√¢ncia**

√â uma medida de dispers√£o que indica o quanto os valores de um conjunto de dados se afastam da **m√©dia**.

- A **vari√¢ncia populacional** √© usada quando queremos medir a dispers√£o de toda a popula√ß√£o de dados.  
- A **vari√¢ncia amostral** √© usada quando estamos calculando a dispers√£o de uma amostra da popula√ß√£o.



#### **F√≥rmula para a vari√¢ncia populacional**

$$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

Onde:
- $\sigma^2$ √© a vari√¢ncia populacional
- $x_i$ √© cada valor do conjunto
- $\bar{x}$ √© a m√©dia dos dados
- $n$ √© o n√∫mero total de observa√ß√µes

In [14]:
# Exemplo de c√°lculo da vari√¢ncia populacional

# Vari√¢ncia populacional
variancia_populacional = housing['total_c√¥modos'].var(ddof=0)

# Exibindo o resultado
print(f"Vari√¢ncia populacional do total de c√¥modos: {variancia_populacional:.2f}")

Vari√¢ncia populacional do total de c√¥modos: 4759214.51


Para vari√¢ncia populacional, usamos o par√¢metro `ddof=0`, que divide por $n$.

#### **F√≥rmula para a vari√¢ncia amostral**

$$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
$$

Onde:
- $s^2$ √© a vari√¢ncia amostral
- A diferen√ßa √© o divisor $n-1$ (graus de liberdade) para corrigir o vi√©s quando calculamos a vari√¢ncia a partir de uma amostra.

In [15]:
# Exemplo de c√°lculo da vari√¢ncia amostral

# Vari√¢ncia amostral
variancia_amostral = housing['total_c√¥modos'].var(ddof=1)

# Exibindo o resultado
print(f"Vari√¢ncia amostral do total de c√¥modos: {variancia_amostral:.2f}")

Vari√¢ncia amostral do total de c√¥modos: 4759445.11


Para vari√¢ncia amostral, usamos o par√¢metro `ddof=1`, que divide por $n-1$, ajustando a estimativa.

### **Desvio Padr√£o**

√â a raiz quadrada da **vari√¢ncia**, e √© uma medida que indica o quanto os dados est√£o dispersos em rela√ß√£o √† m√©dia, mas agora na **mesma unidade** dos dados originais. Isso o torna mais intuitivo, pois a vari√¢ncia est√° em unidades ao quadrado.

#### **F√≥rmulas**


- Para a **popula√ß√£o**:
$$
\sigma = \sqrt{\sigma^2}
$$

- Para a **amostra**:
$$
s = \sqrt{s^2}
$$

Onde:
- $\sigma$ √© o desvio padr√£o populacional
- $s$ √© o desvio padr√£o amostral
- $\sigma^2$ e $s^2$ s√£o, respectivamente, as vari√¢ncias populacional e amostral


In [16]:
# Exemplo de c√°lculo do desvio padr√£o

# Desvio padr√£o populacional
desvio_padrao_populacional = housing['total_c√¥modos'].std(ddof=0)

# Desvio padr√£o amostral
desvio_padrao_amostral = housing['total_c√¥modos'].std(ddof=1)

# Exibindo os resultados
print(f"Desvio padr√£o populacional do total de c√¥modos: {desvio_padrao_populacional:.2f}")
print(f"Desvio padr√£o amostral do total de c√¥modos: {desvio_padrao_amostral:.2f}")

Desvio padr√£o populacional do total de c√¥modos: 2181.56
Desvio padr√£o amostral do total de c√¥modos: 2181.62


### **Percentis e Intervalo Interquartil (IQR)**

- **Percentis**: S√£o pontos que dividem os dados em 100 partes iguais. O $p$-√©simo percentil √© o valor abaixo do qual $p$% dos dados se encontram. Por exemplo, o 50¬∫ percentil corresponde √† mediana.
  
- **Quartis**: S√£o percentis especiais que dividem os dados em 4 partes iguais:
  - **Q1 (25%)**: O primeiro quartil, que representa o valor abaixo do qual 25% dos dados est√£o.
  - **Q2 (50%)**: O segundo quartil, que √© a **mediana** e divide os dados ao meio.
  - **Q3 (75%)**: O terceiro quartil, que representa o valor abaixo do qual 75% dos dados est√£o.

- **Intervalo Interquartil (IQR)**: O **IQR** √© a diferen√ßa entre o terceiro quartil (Q3) e o primeiro quartil (Q1). Ele indica a amplitude da parte central dos dados e √© √∫til para identificar **outliers**.


#### **F√≥rmula para o IQR**

$$
\text{IQR} = Q3 - Q1
$$

Onde:
- **Q1** √© o primeiro quartil (25%)
- **Q3** √© o terceiro quartil (75%)

## **Resumo Estat√≠stico**

At√© agora, exploramos medidas de tend√™ncia central e dispers√£o individualmente, obtendo *insights* valiosos sobre cada vari√°vel. No entanto, o m√©todo `describe()` do Pandas nos permite ter uma vis√£o panor√¢mica e concisa de todas as vari√°veis num√©ricas simultaneamente. Vamos analisar os resultados e contextualiz√°-los com o mercado imobili√°rio da Calif√≥rnia:

In [17]:
housing.describe()

Unnamed: 0,longitude,latitude,idade_m√©dia_moradias,total_c√¥modos,total_quartos,popula√ß√£o,domic√≠lios,renda_mediana,valor_mediano_casas
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


Essa an√°lise estat√≠stica √© um bom ponto de partida para entender a distribui√ß√£o dos dados e detectar outliers ou padr√µes incomuns.

- A distribui√ß√£o geogr√°fica dos im√≥veis, representada por longitude e latitude, abrange uma √°rea consider√°vel da Calif√≥rnia.
- A `idade_m√©dia_moradias` varia de 1 a 52 anos, com uma m√©dia de 28.6 anos, sugerindo uma mistura de im√≥veis novos e antigos.
- O n√∫mero de c√¥modos (`total_c√¥modos`) e quartos (`total_quartos`) apresentam alta variabilidade, com valores m√°ximos muito distantes das m√©dias, indicando a presen√ßa de im√≥veis de grande porte.
- As colunas `popula√ß√£o` e `domic√≠lios` tamb√©m exibem grande varia√ß√£o, refletindo a diversidade de densidade populacional.
- O `valor_mediano_casas` tamb√©m apresenta alta variabilidade, com valores m√°ximos muito acima da m√©dia.