# Exercícios

## Medidas de centralidade e dispersão
---

In [46]:
# funções

def calcular_media (dados:list) -> float:
    return sum(dados)/len(dados)

def calcular_moda(dados:list) -> list[dict[float, float]]:
    dados_ordenados = sorted(dados)
    contagem = {}
    for dado in dados_ordenados:
        if dado in contagem:
            contagem[dado] += 1
        else:
            contagem[dado] = 1
    return [k for k, v in contagem.items() if v == max(contagem.values())]

def calcular_mediana(dados:list) -> float:
    dados_ordenados = sorted(dados)
    n = len(dados_ordenados)
    
    if n % 2 == 1:
        return dados_ordenados[n // 2]
    else:
        meio = n // 2
        return (dados_ordenados[meio - 1] + dados_ordenados[meio]) / 2

def calcular_variancia_desvio(dados:list) -> float:
    media = calcular_media(dados)
    variancia = sum([(x-media)**2 for x in dados])/len(dados)
    desvio = variancia**0.5
    return variancia, desvio    

def calcular_iqr(dados:list) -> float:
    dados_ordenados = sorted(dados)
    
    q2 = calcular_mediana(dados_ordenados)
    
    dados_q1 = dados_ordenados[:len(dados_ordenados)//2]
    q1 = calcular_mediana(dados_q1)
    
    if len(dados_ordenados) % 2 == 0:
        dados_q3 = dados_ordenados[len(dados_ordenados)//2:]
    else:
        dados_q3 = dados_ordenados[len(dados_ordenados)//2 + 1:]
    q3 = calcular_mediana(dados_q3)
    
    iqr = q3 - q1
    
    return q1, q3, iqr

def detectar_outliers(dados:list):
    q1, q3, iqr = calcular_iqr(dados)
    
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    
    outliers = [x for x in dados if x < limite_inferior or x > limite_superior]
    
    return outliers, limite_inferior, limite_superior

def comparar_distribuicoes(dados1:list, dados2:list):
    return [ 
    {
        'media': calcular_media(i),
        'mediana': calcular_mediana(i),
        'variancia':calcular_variancia_desvio(i)[0],
        'desvio padrao':calcular_variancia_desvio(i)[1]
    }
        for i in [dados1,dados2]
]

#### **Exercício 1: Cálculo da Média, Mediana e Moda**

Dado um conjunto de dados numéricos `[15, 16, 16, 17, 18, 19, 20, 20, 21, 25]` (ex: idades de uma turma de alunos), calcule a média, a mediana e a moda.

Compare os resultados e explique como cada medida pode ser útil em diferentes contextos.


In [22]:
dados = [15, 16, 16, 17, 18, 19, 20, 20, 21, 25]

print(f'Media: {calcular_media(dados)}')
print(f'Moda: {calcular_moda(dados)}')
print(f'Mediana: {calcular_mediana(dados)}')

Media: 18.7
Moda: [16, 20]
Mediana: 18.5


Com base nos dados podemos perceber que a proximidade entre a média e a mediana indica que a distribuição é relativamente simétrica, a amostra é bimodal contendo dois dados mais aparecem.

- Média: 18.7
- Moda: [16, 20]
- Mediana: 18.5

---

#### **Exercício 2: Análise de Desvio Padrão e Variância**

**Objetivo:** Entender as medidas de dispersão.

1. Calcule a variância e o desvio padrão de um conjunto de dados numéricos.
2. Interprete o que esses valores significam em relação à dispersão dos dados.

**Exemplo de dados:**

`[12, 14, 16, 18, 20, 22, 24]`

In [24]:
dados = [12, 14, 16, 18, 20, 22, 24]

variancia, desvio = calcular_variancia_desvio(dados)
print(f'Variância: {variancia}')
print(f'Desvio Padrão: {desvio}')

Variância: 16.0
Desvio Padrão: 4.0


Esses resultados indicam que, em média, os valores dos dados estão afastados da média em 4 unidades (o que é o desvio padrão). A variância é 16, o que representa o valor quadrado do desvio médio.

---

#### **Exercício 3: Identificação de Outliers**

**Objetivo:** Aplicar as medidas de dispersão para identificar valores atípicos.

1. Dado um conjunto de dados, calcule o **intervalo interquartílico (IQR)** e determine os valores atípicos (outliers).
2. Comente sobre a influência desses outliers nos cálculos da média e da mediana.

**Exemplo de dados:**

`[100, 102, 103, 104, 110, 115, 120, 125, 130, 200]`

In [25]:
dados = [100, 102, 103, 104, 110, 115, 120, 125, 130, 200]
media = calcular_media(dados)

outliers, limite_inferior, limite_superior = detectar_outliers(dados)

print(f"Média da Distribuição: {media}")
print(f"Mediana (Q2): {calcular_mediana(dados)}")
print(f"Limite inferior: {limite_inferior}")
print(f"Limite superior: {limite_superior}")
print(f"Outliers: {outliers}")



Média da Distribuição: 120.9
Mediana (Q2): 112.5
Limite inferior: 70.0
Limite superior: 158.0
Outliers: [200]


Analisando a influência dos outliers nos cálculos da média e mediana da distribuição percebemos que o valor de 200 aumentou significativamente a média para 120.9, evidenciando a sensibilidade da média a valores extremos.
A mediana foi 112.5, que é mais robusta, pois o valor de 200 não afetou diretamente o centro da distribuição.

---

#### **Exercício 4: Comparando Médias e Dispersões entre Grupos**

**Objetivo:** Analisar distribuições e comparar características de diferentes grupos.

1. Dado um conjunto de dados com diferentes categorias (por exemplo, salários de homens e mulheres), calcule as médias, medianas, variâncias e desvios padrões de cada grupo.
2. Compare as distribuições e escreva um insight sobre as diferenças entre os grupos.

**Exemplo de dados:**

Homens: `[2500, 3000, 3200, 3500, 4000]`

Mulheres: `[2200, 2500, 2600, 2700, 2900]`

In [38]:
homens = [2500, 3000, 3200, 3500, 4000]
mulheres = [2200, 2500, 2600, 2700, 2900]

for i in comparar_distribuicoes(homens,mulheres):
    print(i)

{'media': 3240.0, 'mediana': 3200, 'variancia': 250400.0, 'desvio padrao': 500.39984012787215}
{'media': 2580.0, 'mediana': 2600, 'variancia': 53600.0, 'desvio padrao': 231.5167380558045}


A média e a mediana dos Homens são mais altas que as das Mulheres, indicando uma diferença salarial entre os gêneros.

A maior variância e desvio padrão para os Homens sugerem que, apesar de uma média mais alta, o grupo tem uma maior diversidade salarial. 

Isso pode indicar que há um pequeno número de homens ganhando salários significativamente mais altos, o que aumenta a dispersão.

A menor dispersão no grupo das Mulheres sugere que os salários estão mais concentrados em uma faixa salarial menor. A falta de variabilidade pode ser um indicativo de uma possível desigualdade de oportunidades ou barreiras no mercado de trabalho para as mulheres.

---

#### **Exercício 5: Comparação de Desempenho entre Diferentes Departamentos**

**Objetivo:** Analisar a dispersão e centralidade em diferentes setores.

1. Dado o desempenho de dois departamentos (ex: vendas em dois setores diferentes da empresa), calcule a média, mediana, desvio padrão, variância e IQR de ambos os setores.
2. Com base nas análises, discuta a qual departamento você atribuiria uma maior "variabilidade" no desempenho e qual setor apresenta um desempenho mais consistente.

**Exemplo de dados:**

Setor A: `[210, 215, 220, 225, 230, 235, 240, 250, 300]`

Setor B: `[180, 190, 195, 205, 210, 220, 225, 230, 240, 300, 350, 500]`

In [45]:
A = [210, 215, 220, 225, 230, 235, 240, 250, 300]
B = [180, 190, 195, 205, 210, 220, 225, 230, 240, 300, 350, 500]

setor_a, setor_b = comparar_distribuicoes(A, B)
q1a, q3a, iqra = calcular_iqr(A)
q1b, q3b, iqrb = calcular_iqr(B)

setor_a, setor_b, q1a, q3a, iqra, q1b, q3b, iqrb

({'media': 236.11111111111111,
  'mediana': 230,
  'variancia': 648.7654320987654,
  'desvio padrao': 25.470874191883667},
 {'media': 253.75,
  'mediana': 222.5,
  'variancia': 7667.1875,
  'desvio padrao': 87.56247769450108},
 217.5,
 245.0,
 27.5,
 200.0,
 270.0,
 70.0)

**Resultados Calculados**

Para o Setor A:
- Média: 236.11
- Mediana: 230
- Variância: 648.77
- Desvio Padrão: 25.47
- IQR: 27.5 (Q1 = 217.5, Q3 = 245.0)

Para o Setor B:
- Média: 253.75
- Mediana: 222.5
- Variância: 7667.19
- Desvio Padrão: 87.56
- IQR: 70.0 (Q1 = 200.0, Q3 = 270.0)

O Setor A apresenta desempenho mais consistente, com menor dispersão e valores concentrados em torno da média enquanto o Setor B, apresenta maior variabilidade no desempenho, com outliers significativos que aumentam a dispersão e dificultam a previsibilidade.