## 🎓 **Aula sobre: Python e Tendência Central — Moda, Média, Mediana e Cuidados com Outliers**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                          | Tempo Estimado | Complexidade |
|---|-------------------------------------|----------------|--------------|
| 1 | 🧠 Ficha de Revisão Rápida          | ~1 min         | ⭐           |
| 2 | 🔬 Mergulho Profundo                | ~15 min        | ⭐⭐⭐⭐       |
| 3 | 💻 Exemplos de Mercado              | ~10 min        | ⭐⭐⭐        |
| 4 | 🕸️ Profundezas e Conexões           | ~3 min         | ⭐⭐         |
| 5 | 🚀 Ação e Verificação                | ~5 min         | ⭐⭐         |
| 6 | 🌊 Mergulhos Adicionais Opcionais    | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **Média (mean):** soma dos valores dividida pela quantidade.  
> - **Mediana (median):** valor central de um conjunto ordenado.  
> - **Moda (mode):** valor mais frequente.  
> - **Outliers:** pontos extremos que distorcem a média.  
> - **Trimmed Mean / Winsorized:** formas de reduzir impacto de outliers.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
- A **média** é sensível a **outliers**, pois cada valor contribui igualmente.  
- A **mediana** é robusta: reflete o ponto central sem se deixar levar por extremos.  
- A **moda** destaca valores repetidos, útil em dados categóricos ou discretos.  
- Para lidar com **outliers**, usamos **trimmed mean** (descarta X% das bordas) ou **winsorized mean** (substitui extremos por percentis).

<br>

#### **🔗 Analogia de Data Science**  
Imagine três amigos dividindo pizza:  
- A média é como dividir fatias iguais – um pedaço gigante de alguém (outlier) engorda a porção média.  
- A mediana é escolher a fatia do meio – independente do tamanho das extremas.  
- A moda é ver qual tamanho de fatia aparece mais vezes na mesa.

<br>


### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Moda, Média e Mediana de Taxa de Entrega**


In [None]:
import pandas as pd
# “Leia CSV de fevereiro 2021.”
df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
# “Calcule média, mediana e moda de delivery_fee.”
mean_fee = df['delivery_fee'].mean()
median_fee = df['delivery_fee'].median()
mode_fee = df['delivery_fee'].mode()[0]
print(f"Média: {mean_fee:.2f}, Mediana: {median_fee:.2f}, Moda: {mode_fee:.2f}")


In [3]:
# Pratique seu código aqui!
import pandas as pd

df = pd.read_csv("/content/ifood-restaurants-february-2021.csv")
df.head()

Unnamed: 0,availableForScheduling,avatar,category,delivery_fee,delivery_time,distance,ibge,minimumOrderValue,name,paymentCodes,price_range,rating,tags,url
0,False,https://static-images.ifood.com.br/image/uploa...,Marmita,3.99,27,1.22,5300108,10.0,Cantina Arte & Sabor,DNR $$ MPAY $$ MOVPAY_MC $$ MC $$ GPY_ELO $$ E...,CHEAPEST,0.0,ADDRESS_PREFORM_TYPE $$ CART::MCHT::100_DELIVE...,https://www.ifood.com.br/delivery/brasilia-df/...
1,False,https://static-images.ifood.com.br/image/uploa...,Açaí,7.99,61,4.96,5300108,10.0,Raruty Açaí Raiz,DNR $$ MPAY $$ MOVPAY_MC $$ MC $$ GPY_ELO $$ E...,CHEAPEST,0.0,ADDRESS_PREFORM_TYPE $$ GUIDED_HELP_TYPE $$ ME...,https://www.ifood.com.br/delivery/brasilia-df/...
2,False,https://static-images.ifood.com.br/image/uploa...,Bebidas,11.99,70,8.35,5300108,5.0,Toma na Kombi,DNR $$ MPAY $$ MOVPAY_MC $$ MC $$ GPY_ELO $$ R...,MODERATE,0.0,ADDRESS_PREFORM_TYPE $$ CPGN_USER_DISCOUNT_6_L...,https://www.ifood.com.br/delivery/brasilia-df/...
3,False,https://static-images.ifood.com.br/image/uploa...,Carnes,16.49,63,6.35,5300108,20.0,Churrasquinho do Barriga´s,DNR $$ MPAY $$ MOVPAY_MC $$ MC $$ GPY_ELO $$ E...,CHEAPEST,0.0,ADDRESS_PREFORM_TYPE $$ GUIDED_HELP_TYPE $$ NO...,https://www.ifood.com.br/delivery/brasilia-df/...
4,False,https://static-images.ifood.com.br/image/uploa...,Brasileira,11.99,58,5.22,5300108,20.0,Prime Restaurante,DNR $$ MPAY $$ MOVPAY_MC $$ MC $$ GPY_ELO $$ E...,CHEAPEST,0.0,ADDRESS_PREFORM_TYPE $$ GUIDED_HELP_TYPE $$ NOVO,https://www.ifood.com.br/delivery/brasilia-df/...


In [4]:
mean_fee = df["delivery_fee"].mean()
median_fee = df["delivery_fee"].mean()
mode_fee = df["delivery_fee"].mode()[0]

In [5]:
print(f"Média: {mean_fee:.2f}, Mediana: {median_fee:.2f}, Moda: {mode_fee:.2f}")

Média: 8.18, Mediana: 8.18, Moda: 0.00


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd  

  # “Carregue dados do iFood (fevereiro 2021).”  
  df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')  

  # “Calcule a soma de delivery_fee e divida pela quantidade.”  
  mean_fee = df['delivery_fee'].mean()  

  # “Encontre o valor do meio em delivery_fee.”  
  median_fee = df['delivery_fee'].median()  

  # “Identifique o valor que mais aparece.”  
  mode_fee = df['delivery_fee'].mode()[0]  

  # “Mostre resultados formatados.”  
  print(f"Média: {mean_fee:.2f}, Mediana: {median_fee:.2f}, Moda: {mode_fee:.2f}")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                       | Saída         | O que faz?                             |
  |:-----:|:-------------------------------|:--------------|:---------------------------------------|
  | 1     | `df['delivery_fee']`           | Series float  | Seleciona coluna de taxas              |
  | 2     | `.mean()`                      | float         | Calcula média                          |
  | 3     | `.median()`                    | float         | Calcula mediana                        |
  | 4     | `.mode()[0]`                   | float         | Seleciona primeiro valor modal         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como medir a altura média, achar o ponto do meio e ver qual altura aparece mais vezes numa sala de amigos.

* **Cenário de Mercado:**  
  - Em **precificação dinâmica**, média indica preço geral, mas outliers (taxas promocionais) podem enganar; mediana mostra valor “típico”.  
  - **Por que usar moda?** Para detectar a taxa mais comum praticada.

* **Boas Práticas:**  
  - **Afirmação:** “Compare média e mediana antes de modelar.”  
    - **Porquê:** Diferenças grandes sinalizam outliers ou distribuição enviesada.  
    - **Analogia:** É como comparar o preço médio de casas com o preço da casa mediana numa vizinhança.


#### **Nível Intermediário: Efeito de Outliers na Média**


In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
# “Adicione outliers artificiais.”
outliers = pd.Series([1000, 1200, 1500])
fees = df['delivery_fee'].append(outliers, ignore_index=True)

mean_orig = df['delivery_fee'].mean()
mean_out = fees.mean()
median_out = fees.median()
print(f"Média original: {mean_orig:.2f}, com outliers: {mean_out:.2f}, Mediana com outliers: {median_out:.2f}")


In [14]:
# Pratique seu código aqui!

import pandas as pd
import numpy as np

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')

outliers = pd.Series([10000, 12000, 15000])
fees = pd.concat([df['delivery_fee'], outliers], ignore_index=True)

In [10]:
fees

Unnamed: 0,0
0,3.99
1,7.99
2,11.99
3,16.49
4,11.99
...,...
406397,8.00
406398,9.00
406399,1000.00
406400,1200.00


In [15]:
mean_orig = df['delivery_fee'].mean()
mean_out = fees.mean()
median_out = fees.median()
print(f"Média original: {mean_orig:.2f}, com outliers: {mean_out:.2f}, Mediana com outliers: {median_out:.2f}")

Média original: 6.80, com outliers: 6.90, Mediana com outliers: 6.00


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e numpy.”  
  import pandas as pd  
  import numpy as np  

  # “Carregue CSV e crie série de taxas.”  
  df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')  

  # “Anexe três valores muito altos.”  
  outliers = pd.Series([10000,12000,15000])  
  fees = df['delivery_fee'].append(outliers, ignore_index=True)  

  # “Calcule médias antes e depois, e mediana.”  
  mean_orig = df['delivery_fee'].mean()  
  mean_out = fees.mean()  
  median_out = fees.median()  

  # “Mostre como a média sobe e mediana resiste.”  
  print(f"Média original: {mean_orig:.2f}, com outliers: {mean_out:.2f}, Mediana com outliers: {median_out:.2f}")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo          | Expressão               | Saída    | O que faz?                              |
  |:--------------:|:------------------------|:---------|:----------------------------------------|
  | 1              | `mean_orig`             | float    | Média sem outliers                      |
  | 2              | `mean_out`              | float    | Média com outliers – aumenta muito       |
  | 3              | `median_out`            | float    | Mediana com outliers – pouca alteração   |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pense em calcular salário médio ao incluir bônus extraordinários: a média dispara, mas o valor central (mediana) permanece próximo ao usual.

* **Cenário de Mercado:**  
  - Em **análise de faturamento**, vendas esporádicas de alto valor distorcem média; mediana reflete receita diária típica.

* **Boas Práticas:**  
  - **Afirmação:** “Use mediana em distribuições assimétricas.”  
    - **Porquê:** Minimiza impacto de extremos.  
    - **Analogia:** É como escolher o salário “do meio” para entender custo real de mão de obra.


#### **Nível Avançado: Trimmed Mean e Winsorized Mean**


In [None]:
import pandas as pd
from scipy.stats import trim_mean, mstats

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
fees = df['delivery_fee']

# “Trimmed mean removendo 10% das bordas.”
tmean = trim_mean(fees, proportiontocut=0.1)

# “Winsorize nos 10% extremos.”
wmean = mstats.winsorize(fees, limits=0.1).mean()

print(f"Trimmed Mean: {tmean:.2f}, Winsorized Mean: {wmean:.2f}")


In [16]:
# Pratique seu código aqui!
import pandas as pd
from scipy.stats import trim_mean, mstats

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
fees = df['delivery_fee']

In [17]:
tmean = trim_mean(fees, proportiontocut=0.1)
wmean = mstats.winsorize(fees, limits=0.1).mean()
print(f"Trimmed Mean: {tmean:.2f}, Winsorized Mean: {wmean:.2f}")

Trimmed Mean: 6.67, Winsorized Mean: 6.64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e funções do scipy.”  
  import pandas as pd  
  from scipy.stats import trim_mean, mstats  

  # “Carregue CSV e selecione taxas.”  
  df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')  
  fees = df['delivery_fee']  

  # “Calcule média cortando 10% menores e 10% maiores.”  
  tmean = trim_mean(fees, proportiontocut=0.1)  

  # “Substitua 10% extremos por percentis e calcule média.”  
  wmean = mstats.winsorize(fees, limits=0.1).mean()  

  # “Mostre valores robustos.”  
  print(f"Trimmed Mean: {tmean:.2f}, Winsorized Mean: {wmean:.2f}")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                            | Saída  | O que faz?                                    |
  |:-----:|:-------------------------------------|:-------|:----------------------------------------------|
  | 1     | `trim_mean(...,0.1)`                | float  | Descarta 10% extremos                         |
  | 2     | `winsorize(...,limits=0.1).mean()`  | float  | Substitui extremos e calcula média             |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Trim mean é como cortar as pontas de um bolo, winsorized mean é como achatar pontas extremas para a borda antes de fatiar.

* **Cenário de Mercado:**  
  - Em **finanças**, ao analisar taxas de juros, medidas robustas evitam distorções de valores anômalos.

* **Boas Práticas:**  
  - **Afirmação:** “Use trimmed/winsorized mean para relatórios robustos.”  
    - **Porquê:** Reduz viés de outliers sem ignorar totalmente esses dados.  
    - **Analogia:** É como nivelar terreno irregular antes de construir.


#### **Nível DEUS (1/3): Bootstrap da Distribuição da Média**


In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
fees = df['delivery_fee'].dropna().values

# “1000 reamostragens com reposição.”
boot_means = [np.mean(np.random.choice(fees, size=len(fees), replace=True))
              for _ in range(1000)]
ci = np.percentile(boot_means, [2.5, 97.5])

print(f"Bootstrap 95% CI da média: [{ci[0]:.2f}, {ci[1]:.2f}]")


In [18]:
# Pratique seu código aqui!
import pandas as pd
import numpy as np

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
fees = df["delivery_fee"].dropna().values

In [20]:
fees

array([ 3.99,  7.99, 11.99, ...,  0.  ,  8.  ,  9.  ])

In [22]:
boot_means = [np.mean(np.random.choice(fees, size=len(fees), replace=True))
                for _ in range(1000)]
ci = np.percentile(boot_means, [2.5, 97.5])

In [23]:
ci

array([6.79140078, 6.81757435])

In [24]:
print(f"Bootstrap 95% CI da média: [{ci[0]:.2f}, {ci[1]:.2f}]")

Bootstrap 95% CI da média: [6.79, 6.82]


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e numpy.”  
  import pandas as pd  
  import numpy as np  

  # “Carregue CSV e extraia taxas sem nulos.”  
  df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')  
  fees = df['delivery_fee'].dropna().values  

  # “Para 1000 resamples, calcule média de cada conjunto.”  
  boot_means = [
    np.mean(np.random.choice(fees, len(fees), replace=True))
    for _ in range(1000)
  ]  

  # “Calcule percentis 2.5 e 97.5 para intervalo.”  
  ci = np.percentile(boot_means, [2.5,97.5])  

  # “Mostre CI.”  
  print(f"Bootstrap 95% CI da média: [{ci[0]:.2f}, {ci[1]:.2f}]")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo          | Expressão                 | Saída            | O que faz?                          |
  |:--------------:|:--------------------------|:-----------------|:------------------------------------|
  | 1              | `boot_means`              | lista de floats  | Distribuição empírica de médias     |
  | 2              | `np.percentile(...,[2.5,97.5])` | array floats | CI da média                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como repetir a pesquisa mil vezes e ver onde a média fica 95% das vezes.

* **Cenário de Mercado:**  
  - Em **avaliação de serviço**, estimar variabilidade da taxa média de entrega com confiança estatística.

* **Boas Práticas:**  
  - **Afirmação:** “Use bootstrap se pressupostos de normalidade não se mantêm.”  
    - **Porquê:** Não depende de distribuição paramétrica.  
    - **Analogia:** É como simular multiprojetos para avaliar risco.


#### **Nível DEUS (2/3): Escalonamento Robusto com Median e MAD**


In [None]:
import pandas as pd
from sklearn.preprocessing import RobustScaler

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
fees = df[['delivery_fee']].fillna(0)

# “Aplique RobustScaler (centra na mediana e divide pelo MAD).”
scaler = RobustScaler()
fees_scaled = scaler.fit_transform(fees)

print("Antes:", fees.head().values.flatten()[:5])
print("Depois:", fees_scaled.flatten()[:5])


In [25]:
# Pratique seu código aqui!
import pandas as pd
from sklearn.preprocessing import RobustScaler

df = pd.read_csv("/content/ifood-restaurants-february-2021.csv")
fees = df[["delivery_fee"]].fillna(0)

In [28]:
scaler = RobustScaler()
fees_scaled = scaler.fit_transform(fees)

In [29]:
print("Antes:", fees.head().values.flatten()[:5])
print("Depois:", fees_scaled.flatten()[:5])

Antes: [ 3.99  7.99 11.99 16.49 11.99]
Depois: [-0.36612022  0.36247723  1.09107468  1.91074681  1.09107468]


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e RobustScaler.”  
  import pandas as pd  
  from sklearn.preprocessing import RobustScaler  

  # “Carregue CSV e preencha nulos.”  
  df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')  
  fees = df[['delivery_fee']].fillna(0)  

  # “Escalone centrando na mediana e dividindo pelo MAD.”  
  scaler = RobustScaler()  
  fees_scaled = scaler.fit_transform(fees)  

  # “Mostre primeiros valores antes e depois.”  
  print("Antes:", fees.head().values.flatten()[:5])  
  print("Depois:", fees_scaled.flatten()[:5])  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão               | Saída            | O que faz?                          |
  |:---------------:|:------------------------|:-----------------|:------------------------------------|
  | 1               | `fit_transform()`       | array float      | Escala robusta (mediana/MAD)        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como normalizar alturas de pessoas subtraindo a altura mediana e dividindo pela diferença típica entre elas.

* **Cenário de Mercado:**  
  - Em **engenharia de features**, evita que outliers dominem modelos lineares e de árvore.

* **Boas Práticas:**  
  - **Afirmação:** “Use RobustScaler em vez de StandardScaler com outliers.”  
    - **Porquê:** Não é afetado por valores extremos.  
    - **Analogia:** É como usar filtro de água para remover sujeira antes de beber.


#### **Nível DEUS (3/3): Winsorização Programática e Comparação de Médias**


In [None]:
import pandas as pd
from scipy.stats.mstats import winsorize
import numpy as np

df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')
fees = df['delivery_fee'].dropna().values

# “Winsorize nos 5% extremos.”
w = winsorize(fees, limits=[0.05,0.05])
mean_orig = np.mean(fees)
mean_wins = np.mean(w)

print(f"Média original: {mean_orig:.2f}, após winsorize: {mean_wins:.2f}")


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas, winsorize e numpy.”  
  import pandas as pd  
  from scipy.stats.mstats import winsorize  
  import numpy as np  

  # “Leia CSV e extraia taxas válidas.”  
  df = pd.read_csv('/content/ifood-restaurants-february-2021.csv')  
  fees = df['delivery_fee'].dropna().values  

  # “Substitua 5% menores e maiores por percentis.”  
  w = winsorize(fees, limits=[0.05,0.05])  

  # “Compare médias antes e depois.”  
  mean_orig = np.mean(fees)  
  mean_wins = np.mean(w)  
  print(f"Média original: {mean_orig:.2f}, após winsorize: {mean_wins:.2f}")  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo           | Expressão                 | Saída         | O que faz?                              |
  |:---------------:|:--------------------------|:--------------|:----------------------------------------|
  | 1               | `winsorize(...,limits…)`  | array float   | Aplica winsorização nos extremos        |
  | 2               | `np.mean(w)`              | float         | Calcula média pós-winsorização          |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como limitar o tamanho máximo e mínimo de fatias antes de calcular a média de tamanho.

* **Cenário de Mercado:**  
  - Em **relatórios financeiros**, winsorização suaviza dados de volatilidade extrema sem descartar pontos.

* **Boas Práticas:**  
  - **Afirmação:** “Winsorize em vez de descartar dados.”  
    - **Porquê:** Preserva amostra completa, reduz viés de seleção.  
    - **Analogia:** É como aparar galhos secos de uma árvore sem derrubá-la inteira.


### 3. 🕸️ Profundezas e Conexões

<br>

Tendência central relaciona-se a **boxplot**, **ECDF**, **testes de normalidade** (Shapiro–Wilk) e **pipeline de robustez** em **sklearn** e **scipy**.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Calcule média, mediana e moda de `delivery_fee`.  
2. Adicione outliers e compare efeitos em média e mediana.  
3. Aplique trimmed mean (10%) e winsorize (10%) e compare.  
4. Execute bootstrap para CI da média.  
5. Escalone taxas com `RobustScaler` e compare antes/depois.

<br>

#### **❓ Pergunta de Verificação**
Por que a mediana é preferida à média em distribuições muito assimétricas?

<br>

---
<br>
