In [1]:
import pandas as pd
import numpy as np
from scipy import stats

### Exercício 1 – Cálculo dos Quartis

Considere os salários mensais (em R$) de um grupo de funcionários:


```Python
tempo_entrega = [25, 30, 35, 40, 45, 50, 55, 60, 65, 70]
```

1. Determine o primeiro quartil (Q1), o segundo quartil (Q2 ou mediana) e o terceiro quartil (Q3).
2. Qual a amplitude interquartil (IQR)?
3. Há valores que podem ser considerados outliers?

In [28]:
 tempo_entrega = [25, 30, 35, 40, 45, 50, 55, 60, 65, 70]

In [18]:
## 1. Determine o primeiro quartil (Q1), o segundo quartil (Q2 ou mediana) e o terceiro quartil (Q3).

Q1 = np.quantile(tempo_entrega, 0.25)
Q2 = float(np.median(tempo_entrega))
Q3 = np.quantile(tempo_entrega, 0.75)


print(f"Q1: {Q1}")
print(f"Q2: {Q2}")
print(f"Q3: {Q3}")


Q1: 36.25
Q2: 47.5
Q3: 58.75


In [19]:
## 2. Qual a amplitude interquartil (IQR)?

IQR = Q3 - Q1
print(f"IQR: {IQR}")

IQR: 22.5


In [21]:
## 3. Há valores que podem ser considerados outliers?

limite_superior = Q3 + 1.5 * IQR
limite_inferior = Q1 - 1.5 * IQR

print(f"Limite Superior: {limite_superior}")
print(f"Limite Inferior: {limite_inferior}")




Limite Superior: 92.5
Limite Inferior: 2.5


In [26]:
if limite_superior < max(tempo_entrega) or limite_inferior > min(tempo_entrega):
    print("Há valores que podem ser considerados outliers neste conjunto de dados.")
else:
    print("Não há valores que possam ser considerados outliers neste conjunto de dados.")

Não há valores que possam ser considerados outliers neste conjunto de dados.


---
### Exercício 2 – Amplitude e Dispersão dos Dados

Considere os salários mensais (em R$) de um grupo de funcionários:


```Python
salario = [2500, 2800, 3200, 4000, 5000, 10000]
```

1. Calcule a amplitude total (diferença entre o maior e o menor valor).
2. Qual interpretação pode ser feita com base nessa amplitude?

In [30]:
salario = [2500, 2800, 3200, 4000, 5000, 10000]

In [31]:
## 1.Calcule a amplitude total (diferença entre o maior e o menor valor).

amplitude = max(salario) - min(salario)
print(f"Amplitude: {amplitude}")

Amplitude: 7500


In [None]:
## 2. Qual interpretação pode ser feita com base nessa amplitude?

'''
Alta amplitude indica grande desigualdade salarial. Pode ser necessário verificar outliers ou distribuir os
dados em grupos.
'''


Média Ponderada: 7.75


### Exercício 3 – Média Recortada

Considere os dados de notas de alunos em um exame:

```Python
notas = [55, 60, 70, 75, 80, 85, 90, 95, 100, 200]
```

* 📌 Passo 1: Calcule a média aritmética normal.
* 📌 Passo 2: Remova 10% dos valores mais extremos e
calcule a média recortada.

<br>

Perguntas:
1. Qual a diferença entre a média normal e a média
recortada?
2. Qual métrica é mais representativa  nesse caso?

In [None]:
## 1. Qual a diferença entre a média normal e a média recortada?

notas = [55, 60, 70, 75, 80, 85, 90, 95, 100, 200]

media = np.mean(notas)
mediana = np.median(notas)

# Remove os 10% de valores de cada extremidade e calcula a média.
# O 'proportiontocut' é a porcentagem total a ser removida (10% de cada lado).
# Portanto, para remover 10% no total, usamos 0.10.
media_aparada =stats.trim_mean(notas, proportiontocut=0.2)


In [None]:
print(f"Média: {media:.2f}")
print(f"Mediana: {mediana:.2f}")
print(f"Média (10% removidos): {media_aparada:.2f}")

Média: 91.00
Mediana: 82.50
Média (10% removidos): 82.50


In [None]:
## 2. Qual métrica é mais representativa nesse caso?

'''
A média recortada reduz o impacto dos outliers.
'''

### Exercício 4 – Mediana em Séries Temporais

Em uma análise financeira, temos o seguinte conjunto de
preços de uma ação ao longo de 10 dias:

```Python
precos = [105, 107, 110, 115, 120, 200, 130, 128, 126, 125]

```

* 📌 Passo 1: Calcule a mediana de todos os valores.
* 📌 Passo 2: Calcule a mediana móvel com uma janela de 3 dias.

<br>

Perguntas:

1. Como a mediana móvel suaviza os valores da série?
2. O valor 200 influencia a mediana móvel?


In [None]:
precos = [105, 107, 110, 115, 120, 200, 130, 128, 126, 125]

mediana = np.median(precos)
print(f"A mediana de todos os valores é: {mediana}")

A mediana de todos os valores é: 122.5


In [None]:
janela = 3
mediana_movel = []

for i in range(len(precos)-janela+1):
    subconjunto = precos[i:i+janela]
    mediana_movel.append(np.median(subconjunto))

for y in range(len(mediana_movel)):
    print(f"A mediana móvel com uma janela de {janela} dias (Nº{y+1}): {mediana_movel[y]}")


A mediana móvel com uma janela de 3 dias (Nº1): 107.0
A mediana móvel com uma janela de 3 dias (Nº2): 110.0
A mediana móvel com uma janela de 3 dias (Nº3): 115.0
A mediana móvel com uma janela de 3 dias (Nº4): 120.0
A mediana móvel com uma janela de 3 dias (Nº5): 130.0
A mediana móvel com uma janela de 3 dias (Nº6): 130.0
A mediana móvel com uma janela de 3 dias (Nº7): 128.0
A mediana móvel com uma janela de 3 dias (Nº8): 126.0


In [None]:
'''
mediana_movel = np.convolve(precos, np.ones(janela)/janela, mode='valid')
print(f"A mediana móvel com uma janela de {janela} dias é: {mediana_movel}")'

'''


**1. Como a mediana móvel suaviza os valores da série?**

A mediana móvel suaviza a série temporal ao remover flutuações e ruídos de curto prazo, pois, em vez de considerar apenas um ponto de dado por vez, ela o substitui pela mediana de um grupo de pontos adjacentes. Isso tem o efeito de "filtrar" picos e quedas repentinas. Comparando a série original com a série da mediana móvel, é possível notar que as mudanças entre os valores consecutivos são menos abruptas, resultando em uma tendência mais clara e menos volátil.

<br>

**2. O valor 200 influencia a mediana móvel?**

Sim, o valor 200, que é um pico atípico (um *outlier*), influencia a mediana móvel, mas de uma forma menos dramática do que influenciaria a média móvel. Como a mediana é resistente a *outliers*, ela substitui o valor extremo pelo valor central do subconjunto, que é muito mais próximo do restante dos dados.

Vamos analisar as janelas que incluem o valor 200:
* **Janela 4:** `[115, 120, 200]` -> Mediana: **120**
* **Janela 5:** `[120, 200, 130]` -> Mediana: **130**
* **Janela 6:** `[200, 130, 128]` -> Mediana: **130**

<br>

Apesar de o valor 200 estar presente, a mediana para essas janelas fica entre 120 e 130, que são valores consistentes com a tendência geral da série. Se fosse utilizada a média móvel, o valor 200 causaria um pico muito mais pronunciado na série suavizada, distorcendo a tendência. Portanto, a mediana móvel é eficaz em suavizar a série e mitigar a influência de valores extremos como o 200.

### Exercício 5 – Tratamento de Valores

```Python
salario = [3500, 4000, None, 5000, 3000, 4500, None, 4800]

```
<br>

* 📌 Passo 1: Substitua os valores ausentes pela média dos
salários.
* 📌 Passo 2: Agora, substitua os valores ausentes pela
mediana dos salários.
* 📌 Passo 3: Compare os dois métodos de
preenchimento.

<br>

Perguntas:
1. Qual método é mais adequado se houver outliers no
conjunto de dados?

2. Como essa abordagem pode ser aplicada em modelos
de machine learning?

In [None]:
salario = [3500, 4000, None, 5000, 3000, 4500, None, 4800]

In [None]:
## Passo 1:

df = pd.DataFrame(salario)
df.head(3)

Unnamed: 0,0
0,3500.0
1,4000.0
2,


In [None]:
media = df.mean()
df.fillna(media, inplace=True)
df.head(3)

Unnamed: 0,0
0,3500.0
1,4000.0
2,4133.333333


In [None]:
## Passo 2:

salario = [3500, 4000, None, 5000, 3000, 4500, None, 4800]

df = pd.DataFrame(salario)
mediana = df.median()

df.fillna(mediana, inplace=True)
df.head(3)

Unnamed: 0,0
0,3500.0
1,4000.0
2,4250.0



Passo 3: Análise e Perguntas

<br>

**Qual método é mais adequado se houver outliers no conjunto de dados?**

<br>

O método da mediana é mais adequado. A média é sensível a valores extremos (outliers). Um único valor muito alto ou muito baixo pode distorcer a média, "puxando-a" em sua direção. Se usássemos a média para preencher um valor ausente, estaríamos introduzindo essa distorção. Por exemplo, se um dos salários fosse 50000 em vez de 5000, a média saltaria para aproximadamente 11666.67, um valor que não representa bem o restante dos dados.

A mediana, por outro lado, é robusta a outliers. Ela representa o valor central do conjunto ordenado e não é afetada por quão extremos os valores nos extremos são. Portanto, usar a mediana para imputar dados ausentes resulta em uma representação mais fiel da tendência central e é a escolha preferida quando a presença de outliers é uma preocupação.

**Como essa abordagem pode ser aplicada em modelos de machine learning?**

<br>

Esta abordagem é uma etapa crucial de pré-processamento de dados em machine learning, conhecida como imputação de dados.

<br>

A maioria dos algoritmos de machine learning não consegue processar conjuntos de dados com valores ausentes (None, NaN, etc.) e retornará um erro. A imputação resolve esse problema preenchendo os dados ausentes com valores substitutos.

<br>

Por que é importante? A imputação permite que os dados sejam usados para treinar um modelo. A escolha do método (média, mediana, etc.) afeta o desempenho do modelo, pois o valor imputado pode influenciar a distribuição dos dados e, consequentemente, o que o modelo aprende.

<br>

**Quando usar cada um?**

<br>

Média: Preferível para dados com distribuição normal e sem outliers significativos.

<br>

Mediana: A melhor escolha para dados com outliers ou distribuições assimétricas (enviesadas), pois é mais robusta.

<br>

Outros métodos: Existem técnicas mais avançadas, como a imputação por regressão, que usam outros recursos do conjunto de dados para prever o valor ausente, ou a imputação com a moda (valor mais frequente) para variáveis categóricas. A escolha depende da natureza dos dados e da complexidade do problema.