## 🎓 **Aula sobre: Classificação de Variáveis em um Conjunto de Dados**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida           | ~1 min         | ⭐           |
| 2 | 🔬 Mergulho Profundo               | ~15 min        | ⭐⭐⭐⭐       |
| 3 | 💻 Exemplos de Mercado (Abrangentes) | ~12 min     | ⭐⭐⭐        |
| 4 | 🕸️ Profundezas e Conexões         | ~3 min         | ⭐⭐         |
| 5 | 🚀 Ação e Verificação              | ~5 min         | ⭐⭐         |
| 6 | 🌊 Mergulhos Adicionais Opcionais  | Opcional      | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **Variável Numérica:** valores contínuos ou discretos (floats, ints).  
> - **Variável Categórica:** rótulos fixos (object ou category).  
> - **Variável Ordinal:** categorias com ordem natural (ex: `price_range`).  
> - **Variável Texto:** strings livres (`name`, `url`).  
> - **Variável Geoespacial:** pares de lat/long.  
> - Use `df.select_dtypes()` para selecionar por tipo.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Classificar variáveis é **identificar** cada coluna pelo tipo de dado que armazena, para **aplicar** a transformação ou análise correta:

1. **Numéricas** permitem estatísticas e modelagem direta.  
2. **Categóricas** exigem codificação (*one-hot*, *label encoding*).  
3. **Ordinais** podem usar mapeamento numérico preservando ordem.  
4. **Texto/URL** requerem técnicas de NLP ou extração de *features*.  
5. **Geo** podem gerar distâncias ou clusters.

<br>

#### **🔗 Analogia de Data Science**  
Imagine um buffet onde cada prato (coluna) pede um talher apropriado:  
- Colher para sopas (*numérico*),  
- Garfo para saladas (*categórico*),  
- Facas para carnes (*ordinal*),  
- Pinças para petiscos (*texto*),  
- Fita métrica para medir lotes (*geo*).  

Se usar o talher errado, você não aproveita o prato.

<br>


### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Identificação Automática de Tipos**


In [None]:
import pandas as pd

# Leia dados de restaurantes iFood
df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")

# 1. Colunas numéricas e categóricas
num_cols = df.select_dtypes(include=["number"]).columns.tolist()
cat_cols = df.select_dtypes(include=["object"]).columns.tolist()

print("Numéricas:", num_cols)
print("Categóricas/Texteais:", cat_cols)


In [2]:
# Pratique seu código aqui!
import pandas as pd

df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")
df.head()

Unnamed: 0,avatar,category,delivery_fee,delivery_time,distance,name,price_range,rating,url,lat,long
0,https://static-images.ifood.com.br/image/uploa...,Lanches,9.0,80,6.2,El'moedor,CHEAP,4.30303,https://www.ifood.com.br/delivery/vitoria-de-s...,-8.11298,-35.215
1,https://static-images.ifood.com.br/image/uploa...,Doces & Bolos,6.0,35,3.03,Delicia de Brigadeiro,CHEAPEST,0.0,https://www.ifood.com.br/delivery/moreno-pe/de...,-8.11298,-35.115
2,https://static-images.ifood.com.br/image/uploa...,Brasileira,4.0,40,1.51,Pizzaria Rappi10 - Moreno,CHEAPEST,0.0,https://www.ifood.com.br/delivery/moreno-pe/pi...,-8.11298,-35.115
3,https://static-images.ifood.com.br/image/uploa...,Lanches,0.0,50,0.79,Tapioca Arretada,CHEAPEST,5.0,https://www.ifood.com.br/delivery/jaboatao-dos...,-8.11298,-35.015
4,https://static-images.ifood.com.br/image/uploa...,Salgados,12.99,36,5.12,Minuto Kit Festa ( Salgados e Doces ),CHEAPEST,5.0,https://www.ifood.com.br/delivery/jaboatao-dos...,-8.11298,-35.015


In [None]:
num_cols = df.select_dtypes(include=["number"]).columns.tolist()
cat_cols = df.select_dtypes(include=)

* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Leia CSV de restaurantes.”  
  df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")  

  # “Selecione colunas numéricas.”  
  num_cols = df.select_dtypes(include=["number"]).columns.tolist()  

  # “Selecione colunas de texto/objeto.”  
  cat_cols = df.select_dtypes(include=["object"]).columns.tolist()  

  # “Exiba listas.”  
  print(num_cols, cat_cols)  
  ```

  **2) Tabela de Estados Intermediários:**

  | Passo | Expressão                                    | Saída                            | O que faz?                                 |
  |:-----:|:---------------------------------------------|:---------------------------------|:--------------------------------------------|
  | 1     | `select_dtypes(include=["number"])`          | Índices numéricos                | Identifica floats e ints                    |
  | 2     | `select_dtypes(include=["object"])`          | Índices object (strings/URLs)    | Identifica colunas de texto                 |
  | 3     | –                                             | impressões                       | Listas de colunas                           |

  **3) Diagrama Mental (A Analogia Central):**  
  É como olhar a despensa e separar tudo que vai na geladeira (números) do que fica no armário (textos).

* **Cenário de Mercado:**  
  - Em **engenharia de features**, saber quais colunas são numéricas guia a aplicação de *scaling* ou *normalization*.  
  - Em **BI**, saber colunas de texto permite construir filtros de busca e agrupamentos.

* **Boas Práticas:**  
  - **Afirmação:** “Use `select_dtypes` sempre antes de transformar.”  
    - **Porquê:** Evita aplicar o mesmo pré-processamento em colunas inadequadas.  
    - **Analogia:** É como separar utensílios antes de lavar: louça e talheres têm processos diferentes.


#### **Nível Intermediário: Conversão e Codificação de Categóricas/Ordinais**


In [None]:
import pandas as pd

df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")

# 1. Converte price_range em categoria ordenada
order = ["CHEAPEST","CHEAP","MODERATE","EXPENSIVE","MOST_EXPENSIVE"]
df["price_ord"] = pd.Categorical(df["price_range"], categories=order, ordered=True)

# 2. Label encoding (1–5)
df["price_code"] = df["price_ord"].cat.codes + 1

# 3. Exibe contagem de cada código
print(df["price_code"].value_counts().sort_index())


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Leia CSV.”  
  df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")  

  # “Defina ordem natural para price_range.”  
  order = ["CHEAPEST","CHEAP","MODERATE","EXPENSIVE","MOST_EXPENSIVE"]  
  df["price_ord"] = pd.Categorical(df["price_range"], categories=order, ordered=True)  

  # “Transforme em códigos 1–5.”  
  df["price_code"] = df["price_ord"].cat.codes + 1  

  # “Conte quantos de cada código.”  
  print(df["price_code"].value_counts().sort_index())  
  ```

  **2) Tabela de Estados Intermediários:**

  | Passo | Expressão                       | Saída                     | O que faz?                                   |
  |:-----:|:--------------------------------|:--------------------------|:----------------------------------------------|
  | 1     | `pd.Categorical(..., ordered=True)` | Série ordenada         | Cria dados ordinais                           |
  | 2     | `cat.codes + 1`                 | Inteiros 1 a 5            | Converte categorias em números preservando ordem |
  | 3     | –                                | Contagem                  | Mostra distribuição de ordinais               |

  **3) Diagrama Mental (A Analogia Central):**  
  É como atribuir notas de 1 a 5 para “econômico” a “mais caro” num cardápio, mantendo a hierarquia.

* **Cenário de Mercado:**  
  - Em **modelagem de preços**, codificar ordinais preserva relação de “mais barato” a “mais caro” para regressão ordinal.  

* **Boas Práticas:**  
  - **Afirmação:** “Use `Categorical(ordered=True)` antes de codificar.”  
    - **Porquê:** Garante que o modelo entenda a ordem, não trate como qualitativo puro.  
    - **Analogia:** É como usar escada numerada para classificar andares de um prédio.


#### **Nível Avançado: Agrupamento de Intervalos e Vetorização**


In [None]:
import pandas as pd

df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")

# 1. Agrupa delivery_time em bins: rápido, médio, lento
bins = [0, 30, 60, df["delivery_time"].max()+1]
labels = ["Rápido","Médio","Lento"]
df["time_bin"] = pd.cut(df["delivery_time"], bins=bins, labels=labels, right=False)

# 2. Exibe distribuição
print(df["time_bin"].value_counts())


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Leia CSV.”  
  df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")  

  # “Crie bins para delivery_time: 0–30,30–60,60+.”  
  bins = [0,30,60, df["delivery_time"].max()+1]  
  labels = ["Rápido","Médio","Lento"]  
  df["time_bin"] = pd.cut(df["delivery_time"], bins=bins, labels=labels, right=False)  

  # “Mostre quantos em cada categoria.”  
  print(df["time_bin"].value_counts())  
  ```

  **2) Tabela de Estados Intermediários:**

  | Passo | Expressão                        | Saída               | O que faz?                           |
  |:-----:|:---------------------------------|:--------------------|:-------------------------------------|
  | 1     | `pd.cut(..., labels=labels)`     | `Categorical`       | Agrupa números em faixas nominais    |
  | 2     | –                                 | Contagem            | Mostra quantos pedidos em cada bin   |

  **3) Diagrama Mental (A Analogia Central):**  
  É como separar cartas de baralho em montes “Rápido”, “Médio” e “Lento” para análise de tempos de entrega.

* **Cenário de Mercado:**  
  - Em **otimização de rotas**, categorizar tempos ajuda a priorizar entregas no mesmo dia.  

* **Boas Práticas:**  
  - **Afirmação:** “Use `pd.cut` para datas ou tempos numéricos.”  
    - **Porquê:** Evita loops; vetorizado em C para performance.  
    - **Analogia:** É como usar moldes para cortar biscoitos de uma só vez.


#### **Nível DEUS (1/3): Detecção Avançada de Tipos e Resumo Programático**


In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")

# 1. Detecta tipos e número de categorias
summary = []
for col in df.columns:
    dtype = df[col].dtype
    unique = df[col].nunique(dropna=False)
    kind = ("num" if np.issubdtype(dtype, np.number)
            else "cat" if unique < 20
            else "text")
    summary.append((col, dtype, unique, kind))

summary_df = pd.DataFrame(summary, columns=["coluna","dtype","n_unique","tipo_estimado"])
print(summary_df)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e numpy.”  
  import pandas as pd  
  import numpy as np  

  # “Leia CSV.”  
  df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")  

  # “Para cada coluna, colete dtype e nunique.”  
  summary = []  
  for col in df.columns:  
      dtype = df[col].dtype  
      unique = df[col].nunique(dropna=False)  
      kind = (  
        "num" if np.issubdtype(dtype, np.number)  
        else "cat" if unique < 20  
        else "text"  
      )  
      summary.append((col, dtype, unique, kind))  

  # “Transforme em DataFrame e exiba.”  
  summary_df = pd.DataFrame(summary, columns=["coluna","dtype","n_unique","tipo_estimado"])  
  print(summary_df)  
  ```

  **2) Tabela de Estados Intermediários:**

  | Passo | Expressão                   | Saída               | O que faz?                                 |
  |:-----:|:----------------------------|:--------------------|:--------------------------------------------|
  | 1     | `dtype`                     | tipo numpy          | Captura dtype real                          |
  | 2     | `nunique(dropna=False)`     | inteiro             | Conta categorias ou valores únicos          |
  | 3     | `kind = ...`                | string              | Estima “num”, “cat” ou “text”               |

  **3) Diagrama Mental (A Analogia Central):**  
  É como ter um robô vistoriando cada planta, contando folhas (valores) e dizendo se é flor (texto), arbusto (categórico) ou árvore (numérico).


#### **Nível DEUS (2/3): Pré-processamento Automático com ColumnTransformer**


In [None]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
import numpy as np

df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")

# Define variáveis
num_feats = df.select_dtypes(include=[np.number]).columns.tolist()
cat_feats = df.select_dtypes(include=["object"]).columns.tolist()

# ColumnTransformer
preprocessor = ColumnTransformer(transformers=[
    ("num", StandardScaler(), num_feats),
    ("cat", OneHotEncoder(handle_unknown="ignore"), cat_feats)
])

# Ajusta e transforma
X_trans = preprocessor.fit_transform(df)
print("Forma após transformação:", X_trans.shape)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas, sklearn e numpy.”  
  import pandas as pd  
  from sklearn.compose import ColumnTransformer  
  from sklearn.preprocessing import StandardScaler, OneHotEncoder  
  import numpy as np  

  # “Leia CSV e separe numéricas e categóricas.”  
  df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")  
  num_feats = df.select_dtypes(include=[np.number]).columns.tolist()  
  cat_feats = df.select_dtypes(include=["object"]).columns.tolist()  

  # “Crie transformer: StandardScaler para números, OneHot para categorias.”  
  preprocessor = ColumnTransformer([...])  

  # “Ajuste e transforme todo o DataFrame.”  
  X_trans = preprocessor.fit_transform(df)  
  print(X_trans.shape)  
  ```

  **2) Tabela de Estados Intermediários:**

  | Passo | Expressão                    | Saída           | O que faz?                             |
  |:-----:|:-----------------------------|:----------------|:----------------------------------------|
  | 1     | `ColumnTransformer(...)`     | objeto         | Define pipeline de transformação        |
  | 2     | `fit_transform(df)`          | array numpy    | Aplica escala e codificação             |

  **3) Diagrama Mental (A Analogia Central):**  
  É como uma linha de montagem: cada esteira (numerical / categorical) aplica o processo certo antes de juntar tudo no final.


#### **Nível DEUS (3/3): Pipeline Completo para Modelagem**


In [None]:
import pandas as pd
import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

# Leia dados
df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")
X = df.drop("price_range", axis=1)
y = LabelEncoder().fit_transform(df["price_range"])

# Pré-processamento
num_feats = X.select_dtypes(include=[np.number]).columns
cat_feats = X.select_dtypes(include=["object"]).columns
pre = ColumnTransformer([
    ("num", StandardScaler(), num_feats),
    ("cat", OneHotEncoder(handle_unknown="ignore"), cat_feats)
])

# Pipeline
pipeline = Pipeline([
    ("preprocessor", pre),
    ("clf", RandomForestClassifier(n_estimators=50, random_state=0))
])

# Treina e avalia
pipeline.fit(X, y)
print("Acurácia no treinamento:", pipeline.score(X, y))


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe bibliotecas e o LabelEncoder.”  
  import pandas as pd  
  import numpy as np  
  from sklearn.compose import ColumnTransformer  
  from sklearn.preprocessing import StandardScaler, OneHotEncoder, LabelEncoder  
  from sklearn.pipeline import Pipeline  
  from sklearn.ensemble import RandomForestClassifier  

  # “Leia CSV e separe X, y.”  
  df = pd.read_csv("/content/ifood-restaurants-november-2020.csv")  
  X = df.drop("price_range", axis=1)  
  y = LabelEncoder().fit_transform(df["price_range"])  

  # “Defina transformadores num/ cat.”  
  pre = ColumnTransformer([...])  

  # “Crie pipeline: preprocessor + RandomForest.”  
  pipeline = Pipeline([("preprocessor", pre), ("clf", RandomForestClassifier(...))])  

  # “Treine e avalie no mesmo conjunto.”  
  pipeline.fit(X, y)  
  print(pipeline.score(X, y))  
  ```

  **2) Tabela de Estados Intermediários:**

  | Passo   | Expressão                 | Saída       | O que faz?                              |
  |:-------:|:--------------------------|:------------|:-----------------------------------------|
  | 1       | `Pipeline([...])`         | Pipeline    | Encadeia pré-processamento e modelo      |
  | 2       | `fit(X,y)`                | fitted      | Ajusta transformações e treina floresta  |
  | 3       | `score(X,y)`              | float       | Retorna acurácia                         |

  **3) Diagrama Mental (A Analogia Central):**  
  É como uma esteira industrial que primeiro limpa e padroniza peças (pré-processamento) e em seguida monta o produto final (modelo de classificação).

* **Cenário de Mercado:**  
  - Em **recomendação de restaurantes**, classificar `price_range` a partir de atributos operacionais fornece base para filtragem personalizada.  

* **Boas Práticas:**  
  - **Afirmação:** “Separe pré-processamento e modelo em pipeline.”  
    - **Porquê:** Facilita deploy e evita *data leakage*.  
    - **Analogia:** É como ter uma linha de montagem padronizada, sem intervenção manual entre etapas.


### 3. 🕸️ Profundezas e Conexões

<br>

Classificação de variáveis alimenta **featuretools**, **pandas-profiling**, **Great Expectations** e pipelines de **scikit-learn** e **mlflow** para garantir qualidade e reprodutibilidade.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Carregue `/content/ifood-restaurants-november-2020.csv` e liste colunas por tipo usando `select_dtypes`.  
2. Ordene e codifique `price_range` como ordinal (1–5).  
3. Crie bins de `delivery_time` e `distance` em categorias qualitativas.  
4. Construa um `ColumnTransformer` que escale numéricos e faça one-hot de categóricas.  
5. Monte um `Pipeline` com esse preprocessor e um classificador à sua escolha, treinando e avaliando acurácia.

<br>

#### **❓ Pergunta de Verificação**
Por que é importante separar pré-processamento de variáveis do modelo em pipelines?

<br>

---
<br>
