## 🎓 **Aula sobre: Detecção de Problemas nos Dados**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida           | ~1 min         | ⭐           |
| 2 | 🔬 Mergulho Profundo               | ~15 min        | ⭐⭐⭐⭐       |
| 3 | 🕸️ Profundezas e Conexões         | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação             | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais  | Opcional      | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **`df.info()`**: mostra colunas, tipos e não-nulos.  
> - **`df.isnull().sum()`**: conta valores ausentes por coluna.  
> - **`df.duplicated().sum()`**: conta registros duplicados.  
> - **`df['col'].str.contains(pattern)`**: encontra entradas que não seguem padrão.  
> - **`df.describe()`**: resumo estatístico de colunas numéricas (precisa converter tipos).

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Antes de analisar ou modelar dados, você precisa **identificar** e **diagnosticar** problemas:  
1. **Dados ausentes** podem enviesar resultados se não tratados.  
2. **Tipos inconsistentes** (texto em vez de número) impedem cálculos.  
3. **Valores fora de padrão** (“ranges” em vez de número único) indicam necessidade de limpeza.  
4. **Duplicatas** poluem agregações.  
5. **Outliers** podem distorcer estatísticas e modelos.

<br>

#### **🔗 Analogia de Data Science**  
Imagine um jardim onde:  
- **Dados ausentes** são flores arrancadas sem registro (buracos no canteiro).  
- **Tipos inconsistentes** são plantas podadas errado (formato errado).  
- **Valores fora de padrão** são ervas daninhas que crescem em mato (ranges onde só deveria ter uma semente).  
- **Duplicatas** são mudas repetidas no mesmo lugar.  
- **Outliers** são girassóis gigantes que sombreiam tudo.

Você precisa **inspecionar**, **remover** ou **corrigir** antes de “plantar” modelos.

<br>


### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Identificando Dados Ausentes e Duplicatas**


In [None]:
import pandas as pd

# 1. Carrega CSV com separador ';' e index
df = pd.read_csv('/content/analise_imoveis_sao_paulo.csv',
                 sep=';', index_col=0)

# 2. Resumo de tipos e não-nulos
print(df.info())

# 3. Conta valores faltantes e duplicatas
print("Ausentes por coluna:\n", df.isnull().sum())
print("Registros duplicados:", df.duplicated().sum())

# 4. Exibe exemplos de linhas com cidade ausente
print(df[df['Cidade'].isnull()].head())


In [12]:
# Pratique seu código aqui!
import pandas as pd

df = pd.read_csv("/content/analise_imoveis_sao_paulo.csv", sep=";", index_col=0 )
df

Unnamed: 0,Rua,Bairro,Cidade,area_m2,quartos,banheiros,vagas,price
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,469-524,3-6,3-6,4,R$ 3.700.000
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000
3,"Jardim Morumbi, São Paulo",SP,,310,3,2,4,R$ 685.000
4,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000
...,...,...,...,...,...,...,...,...
10028,Rua Tapuçu,Vila Sofia,São Paulo,90,2,2,2,R$ 665.000
10029,Rua Guararema,Bosque da Saúde,São Paulo,600,8,7,5,R$ 2.300.000
10030,Rua Estero Belaco,Vila da Saúde,São Paulo,200,3,3,6,R$ 1.050.000
10031,"Rua Manuel Onha, , 514",Vila Oratório,São Paulo,180,3,2,2,R$ 2.200\n /Mês


In [11]:
print(df.info())
print("\n")
print("Ausentes por coluna:\n", df.isnull().sum())
print("\n")
print("Registros duplicados:", df.duplicated().sum())
print("\n")
df[df["Cidade"].isnull()].head()

<class 'pandas.core.frame.DataFrame'>
Index: 10033 entries, 0 to 10032
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Rua        10033 non-null  object
 1   Bairro     10033 non-null  object
 2   Cidade     6559 non-null   object
 3   area_m2    10033 non-null  object
 4   quartos    10033 non-null  object
 5   banheiros  10033 non-null  object
 6   vagas      10033 non-null  object
 7   price      10033 non-null  object
dtypes: object(8)
memory usage: 705.4+ KB
None


Ausentes por coluna:
 Rua             0
Bairro          0
Cidade       3474
area_m2         0
quartos         0
banheiros       0
vagas           0
price           0
dtype: int64


Registros duplicados: 2818




Unnamed: 0,Rua,Bairro,Cidade,area_m2,quartos,banheiros,vagas,price
3,"Jardim Morumbi, São Paulo",SP,,310,3,2,4,R$ 685.000
11,"Jardim Luzitânia, São Paulo",SP,,436,4,3,3,R$ 15.000
33,"Parque da Lapa, São Paulo",SP,,220,4,4,3,R$ 849.000
49,"Rua Artur Montenegro, 9",A,,250,2,2,2,R$ 370.000
58,"Chácara Santo Antônio (Zona Sul), São Paulo",SP,,190,2,2,2,R$ 1.100.000


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Leia o CSV de imóveis de SP.”  
  df = pd.read_csv(..., sep=';', index_col=0)  

  # “Mostre info() para ver colunas, tipos e não-nulos.”  
  print(df.info())  

  # “Conte ausentes e duplicadas.”  
  print(df.isnull().sum())  
  print(df.duplicated().sum())  

  # “Veja 5 exemplos onde Cidade está faltando.”  
  print(df[df['Cidade'].isnull()].head())  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo                 | Expressão             | Saída                 | O que faz?                              |
  |:---------------------:|:----------------------|:----------------------|:----------------------------------------|
  | 1                     | `df.info()`           | resumo de memória     | Mostra colunas, tipos e não-nulos      |
  | 2                     | `df.isnull().sum()`   | série de inteiros     | Qtde de valores ausentes                |
  | 3                     | `df.duplicated().sum()`| inteiro               | Qtde de registros duplicados            |
  | 4                     | `df[df['Cidade'].isnull()]`| DataFrame pequeno | Exibe linhas com cidade faltante        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como fazer uma vistoria no canteiro do jardim: você conta quantos buracos (ausentes) e quantas mudas duplicadas, anotando onde faltam plantas.

* **Cenário de Mercado:**  
  - Em **cadastros imobiliários**, endereços incompletos (Cidade ausente) atrapalham geolocalização e análise de valor de mercado.  
  - **Por que detectar?** Para que sistemas de recomendação e cálculo de métricas de região só usem registros completos.

* **Boas Práticas:**  
  - **Afirmação:** “Execute `info()` e `isnull().sum()` no início.”  
    - **Porquê:** Entender a “saúde” do dataset evita dores de cabeça adiante.  
    - **Analogia:** É como fazer um exame de sangue antes de começar um tratamento.


#### **Nível Intermediário: Detectando Formatos Inconsistentes em Colunas Numéricas**


In [None]:
import pandas as pd
import re

df = pd.read_csv('/mnt/data/analise_imoveis_sao_paulo.csv',
                 sep=';', index_col=0)

# 1. Máscara para 'area_m2' que não seja somente dígitos
mask_area = ~df['area_m2'].str.match(r'^\d+(\.\d+)?$')
print("Entradas inconsistentes em area_m2:", df.loc[mask_area, 'area_m2'].unique())

# 2. Detecta ranges em 'quartos' e 'banheiros'
mask_quartos = df['quartos'].str.contains('-')
mask_banheiros = df['banheiros'].str.contains('-')
print("Faixas em quartos:", df.loc[mask_quartos, 'quartos'].unique())
print("Faixas em banheiros:", df.loc[mask_banheiros, 'banheiros'].unique())

# 3. Corrige 'price' removendo 'R$ ' e pontos
df['price_num'] = (df['price'].str.replace(r"R\$|\s|\.|/|Mês|Ano|Dia", "", regex=True).astype(int))
print(df['price_num'].describe())


In [16]:
# Pratique seu código aqui!
import pandas as pd
import re

df = pd.read_csv("/content/analise_imoveis_sao_paulo.csv", sep=";", index_col=0 )
df

Unnamed: 0,Rua,Bairro,Cidade,area_m2,quartos,banheiros,vagas,price
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,469-524,3-6,3-6,4,R$ 3.700.000
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000
3,"Jardim Morumbi, São Paulo",SP,,310,3,2,4,R$ 685.000
4,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000
...,...,...,...,...,...,...,...,...
10028,Rua Tapuçu,Vila Sofia,São Paulo,90,2,2,2,R$ 665.000
10029,Rua Guararema,Bosque da Saúde,São Paulo,600,8,7,5,R$ 2.300.000
10030,Rua Estero Belaco,Vila da Saúde,São Paulo,200,3,3,6,R$ 1.050.000
10031,"Rua Manuel Onha, , 514",Vila Oratório,São Paulo,180,3,2,2,R$ 2.200\n /Mês


In [18]:
mask_area = ~df["area_m2"].str.match(r'^\d+(\.\d+)?$')
print("Entradas inconsistentes em area_m2:", df.loc[mask_area, "area_m2"].unique())

Entradas inconsistentes em area_m2: ['469-524' '46-50' '66-95']


In [19]:
mask_quartos = df["quartos"].str.contains("-")
mask_banheiros = df["banheiros"].str.contains("-")
print("Faixas em quartos:", df.loc[mask_quartos, "quartos"].unique())
print("Faixas em banheiros:", df.loc[mask_banheiros, "banheiros"].unique())

Faixas em quartos: ['3-6' '2-3']
Faixas em banheiros: ['3-6']


In [28]:
df['price_num'] = (df['price'].str.replace(r"R\$|\s|\.|/|Mês|Ano|Dia", "", regex=True).astype(int))
print(df["price_num"].describe())

count    1.003300e+04
mean     2.790788e+06
std      3.862716e+06
min      1.650000e+03
25%      7.500000e+05
50%      1.600000e+06
75%      3.350000e+06
max      6.500000e+07
Name: price_num, dtype: float64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e regex.”  
  import pandas as pd  
  import re  

  # “Leia CSV.”  
  df = pd.read_csv(...)

  # “Encontre area_m2 que não é número puro.”  
  mask_area = ~df['area_m2'].str.match(r'^\d+(\.\d+)?$')  

  # “Veja valores inconsistentes.”  
  print(df.loc[mask_area, 'area_m2'].unique())  

  # “Detecte ranges em quartos e banheiros.”  
  mask_quartos = df['quartos'].str.contains('-')  
  mask_banheiros = df['banheiros'].str.contains('-')  

  # “Corrija price para inteiro.”  
  df['price_num'] = (df['price'].str.replace(r"R\$|\s|\.|/|Mês|Ano|Dia", "", regex=True).astype(int))
  print(df['price_num'].describe())  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo       | Expressão                       | Saída                          | O que faz?                              |
  |:-----------:|:--------------------------------|:-------------------------------|:----------------------------------------|
  | 1           | `mask_area`                     | Série booleana                 | Marca entradas não numéricas            |
  | 2           | `df.loc[mask_area,'area_m2']`   | array de strings               | Lista valores problemáticos             |
  | 3           | `df['price_num']`               | coluna int                     | Preço convertido para número            |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como encontrar ervas daninhas (ranges e texto) no solo e substituir símbolos “R$ ” por terra limpa (números) para poder semear cálculos.

* **Cenário de Mercado:**  
  - Em **precificação de imóveis**, áreas com formatos “100-150” indicam incerteza ou subdivisão; precisam ser padronizadas.  
  - **Por que corrigir price?** Sistemas de BI exigem número limpo para calcular valores médios e medianas corretas.

* **Boas Práticas:**  
  - **Afirmação:** “Use regex para identificar formatos estranhos.”  
    - **Porquê:** Permite localizar rapidamente padrões fora do esperado.  
    - **Analogia:** É como usar lupa para achar formigas em um tapete.


#### **Nível Avançado: Encontrando Outliers via IQR**


In [None]:
import pandas as pd

df = pd.read_csv('/mnt/data/analise_imoveis_sao_paulo.csv',
                 sep=';', index_col=0)
# Prepara price_num como antes
df['price_num'] = (
    df['price']
    .str.replace(r'[R\$\.\s]', '', regex=True)
    .astype(int)
)

"""
df['price_num'] = (df['price'].str.replace(r"R\$|\s|\.|/|Mês|Ano|Dia", "", regex=True).astype(int))
"""

# 1. Calcula quartis e IQR
Q1 = df['price_num'].quantile(0.25)
Q3 = df['price_num'].quantile(0.75)
IQR = Q3 - Q1

# 2. Máscara para outliers
mask_out = (df['price_num'] < (Q1 - 1.5 * IQR)) | (df['price_num'] > (Q3 + 1.5 * IQR))
outliers = df.loc[mask_out, 'price_num']
print(f"Outliers encontrados: {outliers.count()}")
print(outliers.head())


In [None]:
# Pratique seu código aqui!
import pandas as pd

df = pd.read_csv("/content/analise_imoveis_sao_paulo.csv", sep=";", index_col=0 )
df

In [32]:
df["price_num"] = (
    df["price"]
    .str.replace(r"R\$|\s|\.|/|Mês|Ano|Dia", "",regex=True)
    .astype(int)
)

Q1 = df['price_num'].quantile(0.25)
Q3 = df['price_num'].quantile(0.75)
IQR = Q3 - Q1

In [34]:
mask_out = (df["price_num"] < (Q1 - 1.5 * IQR)) | (df["price_num"] > (Q3 + 1.5 * IQR))
outliers = df.loc[mask_out, "price_num"]
print(f"Outliers encontrados: {outliers.count()}")

Outliers encontrados: 787


In [35]:
print(outliers.head())

32      8700000
71     14500000
72      8700000
109    37000000
115    30000000
Name: price_num, dtype: int64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Leia CSV e crie price_num.”  
  import pandas as pd  
  df = pd.read_csv(...)  
  df['price_num'] = df['price']...astype(int)  

  # “Calcule Q1, Q3 e IQR.”  
  Q1 = df['price_num'].quantile(0.25)  
  Q3 = df['price_num'].quantile(0.75)  
  IQR = Q3 - Q1  

  # “Encontre valores abaixo/ acima de 1.5×IQR.”  
  mask_out = (...)  
  outliers = df.loc[mask_out, 'price_num']  

  # “Mostre quantos e alguns exemplos.”  
  print(outliers.count(), outliers.head())  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo         | Expressão          | Saída        | O que faz?                            |
  |:-------------:|:-------------------|:-------------|:--------------------------------------|
  | 1             | `Q1, Q3, IQR`      | floats       | Pontos de corte para outliers         |
  | 2             | `mask_out`         | booleana     | Marca valores fora do intervalo       |
  | 3             | `outliers`         | Series int   | Lista de preços atípicos              |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como cercar o canteiro com fita de segurança: plantas muito pequenas ou gigantes ficam fora do perímetro e são sinalizadas.

* **Cenário de Mercado:**  
  - Em **avaliação imobiliária**, imóveis com preço muito baixo ou muito alto em relação à vizinhança indicam erro de digitação ou propriedades excepcionais.

* **Boas Práticas:**  
  - **Afirmação:** “Use IQR antes de remover outliers.”  
    - **Porquê:** Statísticos consideram 1.5×IQR padrão para detectar discrepâncias.  
    - **Analogia:** É como cercar a horta com cerca para manter apenas plantas saudáveis.


#### **Nível DEUS (1/3): Detectando Duplicatas e Resumos de Linhas Iguais**


In [None]:
import pandas as pd

df = pd.read_csv('/mnt/data/analise_imoveis_sao_paulo.csv',
                 sep=';', index_col=0)

# 1. Quantidade total de duplicatas exatas
total_dup = df.duplicated().sum()

# 2. Agrupa por todas as colunas e conta ocorrências
grouped = df.groupby(list(df.columns)).size().reset_index(name='count')
duplicates = grouped[grouped['count'] > 1]

print(f"Registros duplicados exatos: {total_dup}")
print("Exemplos de duplicatas agregadas:\n", duplicates.head())


In [36]:
# Pratique seu código aqui!
import pandas as pd
df = pd.read_csv("/content/analise_imoveis_sao_paulo.csv", sep=";", index_col=0 )
total_dup = df.duplicated().sum()

In [37]:
grouped = df.groupby(list(df.columns)).size().reset_index(name="count")
duplicates = grouped[grouped["count"]>1]

In [39]:
print(f"Registros duplicados exatos: {total_dup}")

Registros duplicados exatos: 2818


In [42]:
print("Exemplos de duplicatas agregadas:\n")
duplicates.head()

Exemplos de duplicatas agregadas:



Unnamed: 0,Rua,Bairro,Cidade,area_m2,quartos,banheiros,vagas,price,count
2,Alameda Canuri,Planalto Paulista,São Paulo,300,3,2,12,R$ 15.000\n /Mês,2
5,Alameda Franca,Jardim Paulista,São Paulo,150,9,2,1,R$ 2.600.000,2
7,"Alameda Franca, 587",Jardim Paulista,São Paulo,137,9,2,1,R$ 2.600.000,2
8,Alameda Gabriel Monteiro da Silva,Jardim América,São Paulo,477,4,5,5,R$ 25.000\n /Mês,2
9,Alameda Itu,Jardim Paulista,São Paulo,250,3,3,1,R$ 2.995.000,2


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Leia CSV.”  
  import pandas as pd  
  df = pd.read_csv(...)  

  # “Conte duplicatas exatas.”  
  total_dup = df.duplicated().sum()  

  # “Agrupe por todas colunas para ver contagens.”  
  grouped = df.groupby(list(df.columns)).size().reset_index(name='count')  

  # “Filtre onde count > 1.”  
  duplicates = grouped[grouped['count']>1]  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo       | Expressão               | Saída          | O que faz?                        |
  |:-----------:|:------------------------|:---------------|:----------------------------------|
  | 1           | `df.duplicated().sum()` | inteiro        | Qtde exata de linhas repetidas    |
  | 2           | `groupby(...).size()`   | DataFrame      | Contagem de ocorrências           |
  ```
  
  **3) Diagrama Mental (A Analogia Central):**  
  É como contar quantas sementes idênticas foram plantadas no mesmo lugar e listar quantas vezes cada semente se repetiu.

* **Cenário de Mercado:**  
  - Em **data lakes**, registros duplicados de cadastros imobiliários inflacionam estatísticas e precisam ser consolidados.

* **Boas Práticas:**  
  - **Afirmação:** “Remova duplicatas após confirmação de causa.”  
    - **Porquê:** Nem toda duplicata é erro; pode ser revisão ou atualização de registro.  
    - **Analogia:** É como verificar se duas plantas iguais foram intencionalmente semeadas.


#### **Nível DEUS (2/3): Detecção de Outliers com Z-Score**


In [None]:
import pandas as pd
from scipy import stats
import numpy as np

df = pd.read_csv('/mnt/data/analise_imoveis_sao_paulo.csv',
                 sep=';', index_col=0)
# Prepara price_num
df['price_num'] = (
    df['price']
    .str.replace(r'[R\$\.\s]', '', regex=True)
    .astype(int)
)

# 1. Calcula Z-score
z_scores = np.abs(stats.zscore(df['price_num']))
mask_z = z_scores > 3

# 2. Exibe outliers (|z|>3)
outliers_z = df.loc[mask_z, 'price_num']
print(f"Outliers pelo Z-score (>3σ): {outliers_z.count()}")
print(outliers_z.head())


In [44]:
# Pratique seu código aqui!
import pandas as pd
import numpy as np
from scipy import stats

df = pd.read_csv("/content/analise_imoveis_sao_paulo.csv", sep=";", index_col=0 )
df.head()

Unnamed: 0,Rua,Bairro,Cidade,area_m2,quartos,banheiros,vagas,price
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,469-524,3-6,3-6,4,R$ 3.700.000
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000
3,"Jardim Morumbi, São Paulo",SP,,310,3,2,4,R$ 685.000
4,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000


In [45]:
df["price_num"] = (
    df["price"]
    .str.replace(r"R\$|\s|\.|/|Mês|Ano|Dia", "",regex=True)
    .astype(int)
)

z_scores = np.abs(stats.zscore(df["price_num"]))
mask_z = z_scores > 3

In [47]:
outliers_z = df.loc[mask_z, "price_num"]
print(f"Outliers pelo Z-score (>3σ): {outliers_z.count()}")

Outliers pelo Z-score (>3σ): 237


In [51]:
outliers_z.head()

Unnamed: 0,price_num
71,14500000
109,37000000
115,30000000
157,16000000
202,26600000


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas, scipy.stats e numpy.”  
  import pandas as pd  
  from scipy import stats  
  import numpy as np  

  # “Leia CSV e crie price_num.”  
  df = pd.read_csv(...)  
  df['price_num'] = ...  

  # “Calcule z-scores absolutos.”  
  z_scores = np.abs(stats.zscore(df['price_num']))  

  # “Identifique valores com |z|>3.”  
  mask_z = z_scores > 3  
  outliers_z = df.loc[mask_z, 'price_num']  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo      | Expressão               | Saída         | O que faz?                        |
  |:----------:|:------------------------|:--------------|:----------------------------------|
  | 1          | `stats.zscore(...)`     | array float   | Mede desvios em σ                 |
  | 2          | `mask_z`                | booleana      | Marca pontos além de 3σ           |
  | 3          | `outliers_z`            | Series        | Lista de preços extremos          |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como medir a altura das plantas em desvios padrão: as muito altas ou muito baixas são sinalizadas.

* **Cenário de Mercado:**  
  - Em **avaliação patrimonial**, imóveis com preço 3σ acima da média podem indicar mansões ou erros de digitação.

* **Boas Práticas:**  
  - **Afirmação:** “Combine IQR e Z-score para robustez.”  
    - **Porquê:** Cada método captura outliers de formas diferentes.  
    - **Analogia:** É como usar lupa e régua para examinar plantas de dois ângulos.


#### **Nível DEUS (3/3): Validação de Esquema de Dados (Checagem de Tipos e Ranges)**


In [None]:
import pandas as pd

df = pd.read_csv('/mnt/data/analise_imoveis_sao_paulo.csv',
                 sep=';', index_col=0)

# 1. Define funções de validação
def is_positive_int(x):
    try: return int(x) > 0
    except: return False

# 2. Aplica validação
valid_area = df['area_m2'].str.match(r'^\d+$').fillna(False)
valid_rooms = df['quartos'].str.match(r'^\d+$').fillna(False)

# 3. Linhas inválidas
invalid_schema = df[~valid_area | ~valid_rooms]
print("Registros com esquema inválido:\n", invalid_schema.head())


In [52]:
# Pratique seu código aqui!
import pandas as pd
df = pd.read_csv("/content/analise_imoveis_sao_paulo.csv", sep=";", index_col=0 )
df.head()

Unnamed: 0,Rua,Bairro,Cidade,area_m2,quartos,banheiros,vagas,price
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,469-524,3-6,3-6,4,R$ 3.700.000
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000
3,"Jardim Morumbi, São Paulo",SP,,310,3,2,4,R$ 685.000
4,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000


In [58]:
def is_positive_int(x):
  try: return int(x) > 0
  except: return False

valid_area = df["area_m2"].str.match(r"R\$|\s|\.|/|Mês|Ano|Dia").fillna(False)
valid_rooms = df["quartos"].str.match(r"R\$|\s|\.|/|Mês|Ano|Dia").fillna(False)

In [60]:
invalid_schema = df[~valid_area | ~valid_rooms]
print("Registros com esquema inválido:\n")
invalid_schema.head()

Registros com esquema inválido:



Unnamed: 0,Rua,Bairro,Cidade,area_m2,quartos,banheiros,vagas,price
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,469-524,3-6,3-6,4,R$ 3.700.000
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000
3,"Jardim Morumbi, São Paulo",SP,,310,3,2,4,R$ 685.000
4,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Leia CSV.”  
  df = pd.read_csv(...)  

  # “Valide area_m2 como inteiro positivo.”  
  valid_area = df['area_m2'].str.match(r'^\d+$').fillna(False)  

  # “Valide quartos como inteiro positivo.”  
  valid_rooms = df['quartos'].str.match(r'^\d+$').fillna(False)  

  # “Selecione registros que falharam em qualquer validação.”  
  invalid_schema = df[~valid_area | ~valid_rooms]  
  print(invalid_schema.head())  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo            | Expressão                     | Saída           | O que faz?                             |
  |:----------------:|:------------------------------|:----------------|:----------------------------------------|
  | 1                | `valid_area`                  | booleana        | Marca áreas inteiras positivas          |
  | 2                | `valid_rooms`                 | booleana        | Marca quartos como números válidos      |
  | 3                | `invalid_schema`              | DataFrame       | Lista de linhas fora do esquema         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como conferir cada semente: se ela não for do tamanho e tipo esperado, ela é destacada para revisão manual.

* **Cenário de Mercado:**  
  - Em **governança de dados**, validações de esquema garantem que pipelines só recebam dados no formato esperado, evitando bugs em produção.

* **Boas Práticas:**  
  - **Afirmação:** “Implemente checagens de esquema antes de pipelines.”  
    - **Porquê:** Previne falhas silenciosas em produção.  
    - **Analogia:** É como checar selo de qualidade antes de embalar um produto.


### 3. 🕸️ Profundezas e Conexões

<br>

Detecção de problemas conecta-se a **pandas_profiling**, **Great Expectations** e **dagster** para validação automática e monitoramento de qualidade em pipelines de dados.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Use `df.info()` e `isnull().sum()` para listar problemas iniciais no CSV de imóveis.  
2. Detecte formatos inconsistentes em `area_m2`, `quartos` e `banheiros`.  
3. Converta `price` e identifique outliers por IQR e Z-score.  
4. Ache registros duplicados exatos e agrupe para ver contagens.  
5. Implemente checagem de esquema simples para `area_m2` e `quartos`, exibindo registros inválidos.

<br>

#### **❓ Pergunta de Verificação**
Qual a diferença prática entre outlier detection via IQR e via Z-score? Quando escolher cada uma?

<br>

---
<br>


### **Resposta Rápida**

Use **IQR** quando os dados forem **não normalizados** ou **assimétricos**; prefira **Z-score** quando os dados forem **distribuídos normalmente** e centrados na média.

---

### **Analogia do Dia**

Imagine que você quer saber quem está “fora do padrão” em uma sala de aula.

* O **Z-score** mede quantos “passos” (desvios-padrão) cada aluno está da **média da turma**.
* O **IQR** olha quem está **fora do intervalo onde está a maioria dos alunos** (entre os 25% e 75%).

---

### **Análise Técnica Detalhada**

#### 🔹 Método 1: **Z-score (pontuação padronizada)**

**Fórmula:**

```python
z = (valor - média) / desvio_padrão
```

* Considera a **distribuição gaussiana (normal)** dos dados
* Um valor com |Z| > 3 costuma ser considerado **outlier**

```python
from scipy.stats import zscore

df["zscore"] = zscore(df["coluna"])
outliers = df[df["zscore"].abs() > 3]
```

✅ Ideal para:

* Dados **normalizados**
* Dados **simétricos e contínuos**
* Aplicações estatísticas padrão

❌ Frágil com:

* Distribuições assimétricas
* Outliers extremos que **distorcem a média/desvio**

---

#### 🔹 Método 2: **IQR (Intervalo Interquartil)**

**Fórmula:**

```python
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR
```

* Baseado na **mediana** e **percentis**, mais robusto
* Não assume distribuição normal

```python
Q1 = df["coluna"].quantile(0.25)
Q3 = df["coluna"].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df["coluna"] < Q1 - 1.5*IQR) | (df["coluna"] > Q3 + 1.5*IQR)]
```

✅ Ideal para:

* Dados com **distribuição assimétrica**
* Dados com **valores extremos**

❌ Pode capturar menos outliers em dados simétricos e suaves

---

#### ⚖️ Comparativo

| Critério              | Z-score          | IQR         |
| --------------------- | ---------------- | ----------- |
| Requer normalidade    | ✅ Sim            | ❌ Não       |
| Resistente a outliers | ❌ Não            | ✅ Sim       |
| Fácil de interpretar  | ✅                | ✅           |
| Dados assimétricos    | ❌ Pouco indicado | ✅ Preferido |
| Sensível à escala     | ✅ Sim            | ❌ Não       |

---

### **Nota de Rodapé para Novatos**

* **Z-score**: mede o quão distante um valor está da média, em unidades de desvio-padrão
* **IQR**: distância entre os quartis 25% (Q1) e 75% (Q3)
* **Distribuição normal**: curva em formato de sino, com média = mediana
* **Outlier**: ponto que está "fora do padrão" da maioria dos dados

---

### **Aplicação Prática e Boas Práticas**

✅ Em projetos de Data Science:

* Use **Z-score** quando normalizar os dados e for treinar modelos sensíveis à escala
* Use **IQR** em análises exploratórias, especialmente com dados financeiros, biomédicos ou habitualmente assimétricos

📌 Dica:

* Em modelos como regressão linear, outliers podem distorcer coeficientes — detectar e tratá-los é fundamental.

---

### **Resumo da Lição**

**Z-score é sensível e elegante, mas frágil com dados brutos. IQR é robusto, confiável e ótimo para limpezas iniciais.** A escolha depende do formato e da distribuição dos dados.

---
