## 🎓 **Aula sobre: Classificação de Variáveis em um Conjunto de Dados**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | 🧠 Ficha de Revisão Rápida        | ~1 min         | ⭐           |
| 2 | 🔬 Mergulho Profundo              | ~15 min        | ⭐⭐⭐⭐       |
| 3 | 💻 Exemplos de Mercado            | ~10 min        | ⭐⭐⭐        |
| 4 | 🕸️ Profundezas e Conexões         | ~3 min         | ⭐⭐         |
| 5 | 🚀 Ação e Verificação              | ~5 min         | ⭐⭐         |
| 6 | 🌊 Mergulhos Adicionais Opcionais  | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **Variável Numérica Contínua:** assume qualquer valor numérico (ex: `delivery_fee`).  
> - **Variável Numérica Discreta:** assume inteiros contáveis (ex: `delivery_time`).  
> - **Variável Categórica Nominal:** classes sem ordem (ex: `category`).  
> - **Variável Categórica Ordinal:** categorias com ordem (ex: `price_range`).  
> - **Variável de Texto/Identificador:** strings únicas (ex: `name`, `url`).  

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Classificar variáveis num dataset permite escolher tratamentos corretos:  
- **Contínuas** recebem escalonamento ou normalização.  
- **Discretas** podem ser binned ou tratadas como contagem.  
- **Nominais** viram *one-hot* ou embeddings.  
- **Ordinais** mapeiam-se para inteiros preservando ordem.  
- **Texto/ID** usam vetorização ou exclusão.  

<br>

#### **🔗 Analogia de Data Science**  
É como organizar peças de Lego por cor, forma e tamanho antes de montar um modelo: cada grupo tem tratamento específico.

<br>


### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Inspeção Manual de Tipos**


In [None]:
import pandas as pd

# “Leia CSV de restaurantes iFood.”
df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')

# “Mostre dtypes para ver classificação inicial.”
print(df.dtypes)

# “Exiba primeiras linhas para inspecionar valores.”
print(df.head())


In [None]:
# Pratique seu código aqui!
import pandas as pd

df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")
df.head()

Unnamed: 0,avatar,category,delivery_fee,delivery_time,distance,name,price_range,rating,url,lat,long
0,https://static-images.ifood.com.br/image/uploa...,Lanches,9.0,80,6.2,El'moedor,CHEAP,4.30303,https://www.ifood.com.br/delivery/vitoria-de-s...,-8.11298,-35.215
1,https://static-images.ifood.com.br/image/uploa...,Doces & Bolos,6.0,35,3.03,Delicia de Brigadeiro,CHEAPEST,0.0,https://www.ifood.com.br/delivery/moreno-pe/de...,-8.11298,-35.115
2,https://static-images.ifood.com.br/image/uploa...,Brasileira,4.0,40,1.51,Pizzaria Rappi10 - Moreno,CHEAPEST,0.0,https://www.ifood.com.br/delivery/moreno-pe/pi...,-8.11298,-35.115
3,https://static-images.ifood.com.br/image/uploa...,Lanches,0.0,50,0.79,Tapioca Arretada,CHEAPEST,5.0,https://www.ifood.com.br/delivery/jaboatao-dos...,-8.11298,-35.015
4,https://static-images.ifood.com.br/image/uploa...,Salgados,12.99,36,5.12,Minuto Kit Festa ( Salgados e Doces ),CHEAPEST,5.0,https://www.ifood.com.br/delivery/jaboatao-dos...,-8.11298,-35.015


In [None]:
print(df.dtypes)

avatar            object
category          object
delivery_fee     float64
delivery_time      int64
distance         float64
name              object
price_range       object
rating           float64
url               object
lat              float64
long             float64
dtype: object


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Carregue o arquivo com pandas.”  
  df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')  

  # “Mostre tipos de cada coluna.”  
  print(df.dtypes)  

  # “Veja as 5 primeiras linhas.”  
  print(df.head())  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão     | Saída                    | O que faz?                          |
  |:-----:|:--------------|:-------------------------|:------------------------------------|
  | 1     | `df.dtypes`   | Série de dtypes          | Classifica variáveis por tipo       |
  | 2     | `df.head()`   | DataFrame de 5 linhas    | Inspeção visual dos valores         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como olhar a etiqueta de cada caixa: “esta caixa é livre (float)”, “esta é de categorias (object)”, “esta guarda URLs”.

* **Cenário de Mercado:**  
  - Em **pré-processamento**, saber o tipo de cada coluna evita erros de modelagem e escolha de transformações.  
  - Por exemplo, não se tenta escalar uma variável que representa nome de restaurante.

* **Boas Práticas:**  
  - **Afirmação:** “Sempre inspecione `df.dtypes` e `df.head()` no início.”  
    - **Porquê:** Confirmações manuais evitam suposições erradas.  
    - **Analogia:** É como verificar rótulos antes de usar ingredientes numa receita.


#### **Nível Intermediário: Classificação Automática com pandas.api.types**


In [None]:
import pandas as pd
from pandas.api import types

# “Leia dados.”
df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')

# “Detecte automaticamente tipos.”
numeric_cols = [c for c in df if types.is_numeric_dtype(df[c])]
categorical_cols = [c for c in df if types.is_object_dtype(df[c])]

print("Numéricas:", numeric_cols)
print("Categóricas:", categorical_cols)


In [6]:
# Pratique seu código aqui!
import pandas as pd
from pandas.api import types

df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")
df.head()

Unnamed: 0,avatar,category,delivery_fee,delivery_time,distance,name,price_range,rating,url,lat,long
0,https://static-images.ifood.com.br/image/uploa...,Lanches,9.0,80,6.2,El'moedor,CHEAP,4.30303,https://www.ifood.com.br/delivery/vitoria-de-s...,-8.11298,-35.215
1,https://static-images.ifood.com.br/image/uploa...,Doces & Bolos,6.0,35,3.03,Delicia de Brigadeiro,CHEAPEST,0.0,https://www.ifood.com.br/delivery/moreno-pe/de...,-8.11298,-35.115
2,https://static-images.ifood.com.br/image/uploa...,Brasileira,4.0,40,1.51,Pizzaria Rappi10 - Moreno,CHEAPEST,0.0,https://www.ifood.com.br/delivery/moreno-pe/pi...,-8.11298,-35.115
3,https://static-images.ifood.com.br/image/uploa...,Lanches,0.0,50,0.79,Tapioca Arretada,CHEAPEST,5.0,https://www.ifood.com.br/delivery/jaboatao-dos...,-8.11298,-35.015
4,https://static-images.ifood.com.br/image/uploa...,Salgados,12.99,36,5.12,Minuto Kit Festa ( Salgados e Doces ),CHEAPEST,5.0,https://www.ifood.com.br/delivery/jaboatao-dos...,-8.11298,-35.015


In [8]:
numeric_cols = [c for c in df if types.is_numeric_dtype(df[c])]
categorical_cols = [c for c in df if types.is_object_dtype(df[c])]

In [9]:
print("Numéricas:", numeric_cols)
print("Categóricas:", categorical_cols)

Numéricas: ['delivery_fee', 'delivery_time', 'distance', 'rating', 'lat', 'long']
Categóricas: ['avatar', 'category', 'name', 'price_range', 'url']


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e módulo types.”  
  import pandas as pd  
  from pandas.api import types  

  # “Carregue CSV.”  
  df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')  

  # “Liste colunas numéricas.”  
  numeric_cols = [c for c in df if types.is_numeric_dtype(df[c])]  

  # “Liste colunas de texto (object).”  
  categorical_cols = [c for c in df if types.is_object_dtype(df[c])]  

  # “Imprima resultados.”  
  print(numeric_cols, categorical_cols)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                      | Saída                | O que faz?                            |
  |:-----:|:-------------------------------|:---------------------|:--------------------------------------|
  | 1     | `types.is_numeric_dtype`       | lista de col nomes   | Detecta colunas contínuas/discretas   |
  | 2     | `types.is_object_dtype`        | lista de col nomes   | Detecta colunas de texto/ID           |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como ter um detector que apita para caixas de ingredientes secos (numéricos) e silencia para caixas de etiquetas (textos).

* **Cenário de Mercado:**  
  - Em **engenharia de dados**, classificação automática acelera pipelines que aplicam transformações corretas conforme o tipo.

* **Boas Práticas:**  
  - **Afirmação:** “Use pandas.api.types para detectar tipos em vez de adivinhar.”  
    - **Porquê:** Evita falhas quando dtypes mudam no dataset.  
    - **Analogia:** É como usar scanner de código de barras para verificação, não leitura manual.


#### **Nível Avançado: Separando Ordinais e Nominais**


In [None]:
import pandas as pd

# “Leia dados.”
df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')

# “Defina ordem para price_range.”
order = ['CHEAPEST','CHEAP','MEDIUM','EXPENSIVE']
df['price_range_ord'] = pd.Categorical(df['price_range'],
                                       categories=order,
                                       ordered=True).codes

# “Listagem final.”
print(df[['price_range','price_range_ord']].drop_duplicates().head(4))


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Carregue CSV.”  
  df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')  

  # “Mapeie price_range em ordem definida.”  
  order = ['CHEAPEST','CHEAP','MEDIUM','EXPENSIVE']  
  df['price_range_ord'] = pd.Categorical(  
      df['price_range'], categories=order, ordered=True  
  ).codes  

  # “Mostre valores únicos mapeados.”  
  print(df[['price_range','price_range_ord']].drop_duplicates().head())  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                                    | Saída                 | O que faz?                          |
  |:-----:|:---------------------------------------------|:----------------------|:------------------------------------|
  | 1     | `pd.Categorical(...).codes`                  | array de inteiros     | Converte ordinais em inteiros       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como atribuir nível de “barato” a cada restaurante: 0=mais barato, 3=mais caro.

* **Cenário de Mercado:**  
  - Em **modelagem**, ordinais permitem regressão baseada em hierarquia de preços.

* **Boas Práticas:**  
  - **Afirmação:** “Use `Categorical` para ordinais.”  
    - **Porquê:** Preserva ordem lógica em transformações.  
    - **Analogia:** É como escolher escada num prédio em vez de elevador: ordem importa.


#### **Nível DEUS (1/3): Pipeline de Pré-processamento com ColumnTransformer**


In [None]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')

num_cols = ['delivery_fee','delivery_time','distance','rating']
ord_cols = ['price_range']
nom_cols = ['category']

preproc = ColumnTransformer([
    ('num', StandardScaler(), num_cols),
    ('ord', OneHotEncoder(categories=[['CHEAPEST','CHEAP','MEDIUM','EXPENSIVE']],
                          drop=None, sparse=False), ord_cols),
    ('nom', OneHotEncoder(handle_unknown='ignore', sparse=False), nom_cols),
])

X = preproc.fit_transform(df)
print("Shape após transformação:", X.shape)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e ColumnTransformer.”  
  import pandas as pd  
  from sklearn.compose import ColumnTransformer  
  from sklearn.preprocessing import StandardScaler, OneHotEncoder  

  # “Carregue CSV.”  
  df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')  

  # “Defina colunas numéricas, ordinais e nominais.”  
  num_cols = [...]  
  ord_cols = ['price_range']  
  nom_cols = ['category']  

  # “Crie pipeline que:  
  #  - padroniza numéricas,  
  #  - one-hot ordinais na ordem correta,  
  #  - one-hot nominais.”  
  preproc = ColumnTransformer([...])  

  # “Aplique e veja shape.”  
  X = preproc.fit_transform(df)  
  print(X.shape)  
  ```  

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo  | Expressão               | Saída        | O que faz?                              |
  |:------:|:------------------------|:-------------|:----------------------------------------|
  | 1      | `StandardScaler()`      | array float  | Escala contíguo                        |
  | 2      | `OneHotEncoder()` ord   | matriz binária | Codifica ordinais                     |
  | 3      | `OneHotEncoder()` nom   | matriz binária | Codifica nominais                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como montar uma esteira que primeiro alinha os ingredientes (escala), depois separa categorias em caixas distintas (one-hot).

* **Cenário de Mercado:**  
  - Em **pipelines de ML**, agrupar transformações garante reprodutibilidade e facilita deploy.

* **Boas Práticas:**  
  - **Afirmação:** “Use `ColumnTransformer` para transformar colunas em paralelo.”  
    - **Porquê:** Organiza código e evita vazamento de dados.  
    - **Analogia:** É como ter estações de trabalho paralelas em uma fábrica.


#### **Nível DEUS (2/3): Detectando Tipos com Data Schema (pandera)**


In [None]:
import pandas as pd
import pandera as pa
from pandera import Column, DataFrameSchema, Check

schema = DataFrameSchema({
    "delivery_fee": Column(pa.Float, Check.ge(0)),
    "delivery_time": Column(pa.Int, Check.ge(0)),
    "distance": Column(pa.Float, Check.ge(0)),
    "price_range": Column(pa.String, Check.isin(['CHEAPEST','CHEAP','MEDIUM','EXPENSIVE'])),
    "category": Column(pa.String),
})

df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')
validated = schema.validate(df)
print("Schema validado:", validated.shape)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e pandera.”  
  import pandas as pd  
  import pandera as pa  

  # “Defina schema com checks de tipo e valor.”  
  schema = DataFrameSchema({  
      "delivery_fee": Column(pa.Float, Check.ge(0)),  
      ...  
  })  

  # “Carregue e valide.”  
  df = pd.read_csv(...)  
  validated = schema.validate(df)  

  # “Imprima shape validado.”  
  print(validated.shape)  
  ```  

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo            | Expressão            | Saída          | O que faz?                          |
  |:----------------:|:---------------------|:---------------|:------------------------------------|
  | 1                | `schema.validate`    | DataFrame      | Filtra e valida colunas             |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como passar cada linha por um detector de qualidade que só deixa passar registros que seguem as regras.

* **Cenário de Mercado:**  
  - Em **dataops**, validações automáticas evitam execução de ETLs com dados fora do padrão.

* **Boas Práticas:**  
  - **Afirmação:** “Inclua checagem de schema antes de pipeline.”  
    - **Porquê:** Previne falhas tardias e facilita debugging.  
    - **Analogia:** É como usar detector de metais no aeroporto antes de embarcar.


#### **Nível DEUS (3/3): Extração de Tipos para Metadata e Documentação**


In [None]:
import pandas as pd

df = pd.read_csv('/content/ifood-restaurants-november-2020.csv')
meta = pd.DataFrame({
    "column": df.columns,
    "dtype": df.dtypes.astype(str),
    "n_unique": [df[c].nunique() for c in df.columns],
    "n_missing": df.isnull().sum().values
})
print(meta)
meta.to_csv('/content/metadata.csv', index=False)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Carregue CSV.”  
  df = pd.read_csv(...)  

  # “Monte DataFrame de metadata.”  
  meta = pd.DataFrame({  
      "column": df.columns,  
      "dtype": df.dtypes.astype(str),  
      "n_unique": [df[c].nunique() for c in df.columns],  
      "n_missing": df.isnull().sum().values  
  })  

  # “Veja e salve metadata.”  
  print(meta)  
  meta.to_csv('/content/metadata.csv', index=False)  
  ```  

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo     | Expressão                | Saída       | O que faz?                           |
  |:---------:|:-------------------------|:------------|:-------------------------------------|
  | 1         | `df.dtypes`              | Series str  | Registra tipo de cada coluna         |
  | 2         | `df.nunique()`           | list int    | Conta valores únicos                 |
  | 3         | `df.isnull().sum()`      | Series int  | Conta faltantes                      |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como criar uma ficha técnica de cada ingrediente: nome, tipo, variedades existentes e quantos estão faltando.

* **Cenário de Mercado:**  
  - Em **documentação de data lake**, metadata drive visualizações e controles de qualidade.

* **Boas Práticas:**  
  - **Afirmação:** “Gere e version controle metadata.”  
    - **Porquê:** Mantém transparência sobre evoluções do dataset.  
    - **Analogia:** É como manter manual de instruções atualizado.


### 3. 🕸️ Profundezas e Conexões

<br>

Classificação de variáveis alimenta **feature engineering**, **modelagem estatística**, **pipelines de ML** e frameworks de **data quality** como **Great Expectations**.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Leia `/content/ifood-restaurants-november-2020.csv` e liste colunas contínuas e categóricas.  
2. Use `pandas.api.types` para classificar automaticamente.  
3. Mapeie `price_range` para códigos ordinais.  
4. Construa um `ColumnTransformer` para escalar contínuos e one-hot nominais/ordinais.  
5. Geração de metadata e salve em CSV.

<br>

#### **❓ Pergunta de Verificação**
Por que é fundamental distinguir variáveis ordinais de nominais ao preparar dados para modelos?

<br>

---
<br>
