# Desafio - Estatística

### Contexto:

Você é um **cientista de dados** em uma academia que deseja entender melhor as características físicas de seus alunos para personalizar treinos. Você recebeu um conjunto de dados que contém as alturas e pesos de um grupo de 50 alunos. Com esses dados, você foi solicitado a calcular as principais **medidas centrais** (média, mediana e moda) e **medidas de dispersão** (variância, desvio padrão, amplitude, e coeficiente de variação) para fornecer uma análise descritiva sobre o perfil dos alunos.

### Desafio:

1. **Colete as medidas centrais e de dispersão**:
    - **Média**: Altura e peso médios dos alunos.
    - **Mediana**: Ponto central para as alturas e pesos.
    - **Moda**: Valor mais frequente (se houver) das alturas e pesos.
    - **Amplitude**: Diferença entre o maior e o menor valor.
    - **Variância**: Como os dados se dispersam em torno da média.
    - **Desvio padrão**: Quão espalhados estão os dados em relação à média.
    - **Coeficiente de variação**: O quão grande é o desvio padrão em relação à média.

**Faça a análise descritiva**:

- **Entenda a tendência central**: A maioria dos alunos está próxima da média? A mediana e a média estão próximas?
- **Identifique a dispersão**: Os alunos têm alturas e pesos muito variados ou estão relativamente próximos?
- **Detecte possíveis outliers**: Existe algum aluno fora do intervalo de 3 desvios padrões?

### Passos para resolver:

### 1. Calcular as Medidas Centrais:

- **Média (Alturas e Pesos)**: A soma dos valores dividida pela quantidade de alunos.
- **Mediana (Alturas e Pesos)**: O valor central dos dados quando ordenados.
- **Moda (Alturas e Pesos)**: O valor que mais aparece (se houver).

### 2. Calcular as Medidas de Dispersão:

- **Amplitude (Alturas e Pesos)**: A diferença entre o maior e o menor valor.
- **Variância (Alturas e Pesos)**: A soma dos quadrados das diferenças entre cada valor e a média, dividida pelo número de alunos.
- **Desvio padrão (Alturas e Pesos)**: A raiz quadrada da variância.
- **Coeficiente de variação**: O desvio padrão dividido pela média, expressa em porcentagem.

### 3. Análise Descritiva:

- Compare a média e a mediana para verificar se há simetria nos dados.
- Observe a amplitude e o desvio padrão para entender se os valores estão muito dispersos ou concentrados.
- Verifique se há outliers comparando valores que estão fora de 3 desvios padrões.
- Utilize o coeficiente de variação para entender a magnitude da dispersão em relação à média.

### Análise Final:

- Com base nos cálculos, descreva o perfil médio dos alunos (altura e peso típicos).
- Identifique se há alunos com valores muito fora da média (outliers) e o impacto deles.
- Discuta como a variação de peso e altura pode influenciar o planejamento de treinos personalizados.

In [33]:
# 1 - Calculando as medidas centrais

import pandas as pd

dataset = pd.read_excel("alunos_altura_peso.xlsx")

alturas = dataset['Altura (cm)']
pesos = dataset['Peso (kg)']

# Médias
print("A média das alturas é: " + str(alturas.mean()))
print("A média dos pesos é: " + str(pesos.mean()))

# Medianas
print("A mediana das alturas é: " + str(alturas.median()))
print("A mediana dos pesos é: " + str(pesos.median()))

# Moda
print("A moda das alturas é:\n" + str(alturas.mode()))
print("A moda dos pesos é:\n" + str(pesos.mode()))

A média das alturas é: 169.94
A média dos pesos é: 69.98
A mediana das alturas é: 170.0
A mediana dos pesos é: 70.5
A moda das alturas é:
0    160
1    165
2    170
3    173
4    174
5    180
dtype: int64
A moda dos pesos é:
0    60
1    65
2    72
3    73
4    74
5    80
dtype: int64


In [31]:
# Calculando as medidas de dispersão

import pandas as pd

dataset = pd.read_excel("alunos_altura_peso.xlsx")

alturas = dataset['Altura (cm)']
pesos = dataset['Peso (kg)']

# Amplitudes
print("A amplitude das alturas é: " + str(max(alturas) - min(alturas)))
print("A amplitude dos pesos é: " + str(max(pesos) - min(pesos)))

# Variância
print("A variância das alturas é: " + str(alturas.var()))
print("A variância dos pesos é: " + str(pesos.var()))

# Desvio padrão
desvio_padrao_alturas = alturas.std()
desvio_padrao_pesos = pesos.std()
print("O desvio padrão das alturas é: " + str(desvio_padrao_alturas))
print("O desvio padrão dos pesos é: " + str(desvio_padrao_pesos))

# Coeficiente de variacao
coeficiente_variacao_alturas = (desvio_padrao_alturas / alturas.mean()) * 100
coeficiente_variacao_pesos = (desvio_padrao_pesos / pesos.mean()) * 100
print("O coeficiente de variação das alturas é: " + str(coeficiente_variacao_alturas) + "%")
print("O coeficiente de variação dos pesos é: " + str(coeficiente_variacao_pesos) + "%")


A amplitude das alturas é: 24
A amplitude dos pesos é: 24
A variância das alturas é: 46.58816326530613
A variância dos pesos é: 46.67306122448981
O desvio padrão das alturas é: 6.8255522315272135
O desvio padrão dos pesos é: 6.831768528316061
O coeficiente de variação das alturas é: 4.016448294414037%
O coeficiente de variação dos pesos é: 9.76245860005153%


In [32]:
# 3 - Análise descritiva
import pandas as pd

dataset = pd.read_excel("alunos_altura_peso.xlsx")

alturas = dataset['Altura (cm)']
pesos = dataset['Peso (kg)']


# Médias
media_alturas = alturas.mean()
media_pesos = pesos.mean()
print("A média das alturas é: " + str(media_alturas))
print("A média dos pesos é: " + str(media_pesos))

# Medianas
mediana_alturas = alturas.median()
mediana_pesos = pesos.median()
print("A mediana das alturas é: " + str(mediana_alturas))
print("A mediana dos pesos é: " + str(mediana_pesos))

# Diferencas
print("A diferença absoluta entre a média e a mediana das alturas é: " + str(abs(media_alturas - mediana_alturas)))
print("A diferença absoluta entre a média e a mediana dos pesos é: " + str(abs(media_pesos - mediana_pesos)))

# No caso das alturas, a diferença é minúscula, significando que há pouca dispersão dos dados
# No caso dos pesos, a diferença é um pouco maior, mas mesmo assim pequena, significando que há pouca dispersão dos dados


# Amplitudes das alturas
print("A altura máxima é: " + str(max(alturas)))
print("A altura mínima é: " + str(min(alturas)))
print("A amplitude das alturas é: " + str(max(alturas) - min(alturas)))
# A aplitude, 24, não é muito alta
# Não sei se tem crianças no grupo de pessoas, a altura pode não ser absurda no caso de uma criança

# Amplitudes dos pesos
print("O peso máximo é: " + str(max(pesos)))
print("O peso mínimo é: " + str(min(pesos)))
print("A amplitude dos pesos é: " + str(max(pesos) - min(pesos)))
# A amplitude dos pesos, também 24, também não é muito alto. O valor 24 é percentualmente relevante próximo ao menor peso, 
# mas pode ser o peso de uma mulher ou de uma criança, se for este caso pode não ser anormal

# Desvio padrão
desvio_padrao_alturas = alturas.std()
desvio_padrao_pesos = pesos.std()
print("O desvio padrão das alturas é: " + str(desvio_padrao_alturas))
print("A média das alturas + seu desvio padrão é: " + str(media_alturas + desvio_padrao_alturas))
print("A média das alturas - seu desvio padrão é: " + str(media_alturas - desvio_padrao_alturas))
print("O desvio padrão dos pesos é: " + str(desvio_padrao_pesos))
print("A média dos pesos + seu desvio padrão é: " + str(media_pesos + desvio_padrao_alturas))
print("A média dos pesos - seu desvio padrão é: " + str(media_pesos - desvio_padrao_alturas))

# Análise do coeficiente de variação
desvio_padrao_alturas = alturas.std()
desvio_padrao_pesos = pesos.std()
coeficiente_variacao_alturas = (desvio_padrao_alturas / alturas.mean()) * 100
coeficiente_variacao_pesos = (desvio_padrao_pesos / pesos.mean()) * 100
print("O coeficiente de variação das alturas é: " + str(coeficiente_variacao_alturas) + "%")
print("O coeficiente de variação dos pesos é: " + str(coeficiente_variacao_pesos) + "%")
# Em ambos os casos os valores foram baixos, menores que 10%





A média das alturas é: 169.94
A média dos pesos é: 69.98
A mediana das alturas é: 170.0
A mediana dos pesos é: 70.5
A diferença absoluta entre a média e a mediana das alturas é: 0.060000000000002274
A diferença absoluta entre a média e a mediana dos pesos é: 0.519999999999996
A altura máxima é: 182
A altura mínima é: 158
A amplitude das alturas é: 24
O peso máximo é: 82
O peso mínimo é: 58
A amplitude dos pesos é: 24
O desvio padrão das alturas é: 6.8255522315272135
A média das alturas + seu desvio padrão é: 176.7655522315272
A média das alturas - seu desvio padrão é: 163.1144477684728
O desvio padrão dos pesos é: 6.831768528316061
A média dos pesos + seu desvio padrão é: 76.80555223152722
A média dos pesos - seu desvio padrão é: 63.15444776847279
O coeficiente de variação das alturas é: 4.016448294414037%
O coeficiente de variação dos pesos é: 9.76245860005153%


Materiais de apoio:

- https://github.com/luizcalaca/pandas-statistics

# Análise final

### Com base nos cálculos, descreva o perfil médio dos alunos (altura e peso típicos).

A média e a mediana das alturas fica em torno de 1,70:
A média das alturas é: 169.94
A mediana das alturas é: 1,70m

A média e a mediana dos pesos fica em torno de 70kg
A média dos pesos é: 69.98
A mediana dos pesos é: 70.5

Temos  valores de moda discrepantes, como 1,80m para altura e 80kg para peso, mas não creio que estes valores ofusquem a moda e a mediana.


### Identifique se há alunos com valores muito fora da média (outliers) e o impacto deles.

Outliers são valores fora de 3 desvios padrão. Calcularemos primeiro este limite:

In [42]:
import pandas as pd

dataset = pd.read_excel("alunos_altura_peso.xlsx")

alturas = dataset['Altura (cm)']
pesos = dataset['Peso (kg)']

triplo_desvio_padrao_alturas = 3 * alturas.std()
media_menos_triplo_desvio_padrao_alturas = alturas.mean() - triplo_desvio_padrao_alturas
media_mais_triplo_desvio_padrao_alturas = alturas.mean() + triplo_desvio_padrao_alturas
print("O triplo do desvio padrão das alturas é: " + str(triplo_desvio_padrao_alturas))
print("Média das alturas - valor anterior: " + str(media_menos_triplo_desvio_padrao_alturas))
print("Média das alturas + valor anterior: " + str(media_mais_triplo_desvio_padrao_alturas))

triplo_desvio_padrao_pesos = 3 * pesos.std()
media_menos_triplo_desvio_padrao_pesos = pesos.mean() - triplo_desvio_padrao_pesos
media_mais_triplo_desvio_padrao_pesos = pesos.mean() + triplo_desvio_padrao_pesos
print("O triplo do desvio padrão dos pesos é: " + str(triplo_desvio_padrao_pesos))
print("Média dos pesos - valor anterior: " + str(media_menos_triplo_desvio_padrao_pesos))
print("Média dos pesos + valor anterior: " + str(media_mais_triplo_desvio_padrao_pesos))

# Vamos agora tentar achar outliers

# Para altura
list_alturas = alturas.tolist()
list_alturas.sort()
outliers_altura_baixo = []
for altura in list_alturas:
    if altura < media_menos_triplo_desvio_padrao_alturas:
        outliers_altura_baixo.append(altura)

if len(outliers_altura_baixo) == 0:
    print("Não temos outliers de altura abaixo de " + str(media_menos_triplo_desvio_padrao_alturas))
else:
    for altura in outliers_altura_baixo:
        print("Oulier da altura abaixo de " + str(outliers_altura_baixo) + ": " + altura)

list_alturas.reverse()
outliers_altura_acima = []
for altura in list_alturas:
    if altura > media_mais_triplo_desvio_padrao_alturas:
        outliers_altura_acima.append(altura)

if len(outliers_altura_acima) == 0:
    print("Não temos outliers de altura acima de " + str(media_mais_triplo_desvio_padrao_alturas))
else:
    for altura in outliers_altura_acima:
        print("Oulier da altura acima de " + str(outliers_altura_acima) + ": " + altura)

# Para o peso
list_pesos = pesos.tolist()
list_pesos.sort()
outliers_peso_baixo = []
for peso in list_pesos:
    if peso < media_menos_triplo_desvio_padrao_pesos:
        outliers_peso_baixo.append(peso)

if len(outliers_peso_baixo) == 0:
    print("Não temos outliers de peso abaixo de " + str(media_menos_triplo_desvio_padrao_pesos))
else:
    for peso in outliers_peso_baixo:
        print("Oulier do peso abaixo de " + str(outliers_peso_baixo) + ": " + peso)

list_pesos.reverse()
outliers_peso_acima = []
for peso in list_pesos:
    if peso > media_mais_triplo_desvio_padrao_pesos:
        outliers_peso_acima.append(peso)

if len(outliers_peso_acima) == 0:
    print("Não temos outliers de peso acima de " + str(media_mais_triplo_desvio_padrao_pesos))
else:
    for peso in outliers_peso_acima:
        print("Oulier da peso acima de " + str(outliers_peso_acima) + ": " + peso)



O triplo do desvio padrão das alturas é: 20.476656694581642
Média das alturas - valor anterior: 149.46334330541836
Média das alturas + valor anterior: 190.41665669458163
O triplo do desvio padrão dos pesos é: 20.495305584948184
Média dos pesos - valor anterior: 49.48469441505182
Média dos pesos + valor anterior: 90.47530558494819
Não temos outliers de altura abaixo de 149.46334330541836
Não temos outliers de altura acima de 190.41665669458163
Não temos outliers de peso abaixo de 49.48469441505182
Não temos outliers de peso acima de 90.47530558494819


### Discuta como a variação de peso e altura pode influenciar o planejamento de treinos personalizados.

Esta pergunta é bem interpretativa. É óbvio que se tivermos outliers para cima ou para baixo o treino tem que mudar. A quantidade de força para uma pessoa acima de 90kg com certeza deve ser maior do que para uma pessoa abaixo de 49kg, **talvez** excetuando-se apenas casos especiais, como do Anatoly que posta vídeos no Facebook.

Creio que para a altura (não sou especialista em Educação Física) o impacto seja menor, mas algumas atividades (mesmo que poucas) para praticamente gigantes devem ser diferentes das atividades para praticamente anões.