In [1]:
import pandas as pd
import numpy as np

In [2]:
df_atletas = pd.read_csv('athletes.csv')
df_atletas['height']

0          0.0
1          0.0
2          0.0
3          0.0
4          0.0
         ...  
11108    165.0
11109      0.0
11110      NaN
11111      NaN
11112      NaN
Name: height, Length: 11113, dtype: float64

In [49]:
# Limpar dados inválidos
df_clean = df_atletas[df_atletas['height'] > 0]

df_clean[['name_short','height']]

Unnamed: 0,name_short,height
5,ARENAS L,162.0
7,BASS BITTAYE GM,161.0
8,CAMARA E,178.0
12,MAAROUFOU H,183.0
25,ISMAIL M,170.0
...,...,...
11102,PAPAMICHAIL D,177.0
11104,van de WIEL A,168.0
11105,JOSEPH E,177.0
11107,CHELANGAT AC,174.0


In [28]:
'''
count::	Número de valores não nulos (dados disponíveis). Aqui, Height tem 11110 valores, Weight 11108.
mean::	Média dos valores. Por exemplo, a média de altura está mostrando 81,8 cm, mas isso não faz sentido, porque há muitos zeros (altura = 0).
std::	Desvio padrão, mede a dispersão dos dados. 89,5 cm é muito alto porque os zeros distorcem os cálculos.
min::	Valor mínimo (0 cm/peso). Provavelmente indica dados faltantes ou registros incorretos.
25%,50%,75%	Quartis:: 25% dos atletas têm altura ≤ 0, 50% ≤ 0, 75% ≤ 177 cm. Isso confirma que os zeros estão distorcendo os dados.
max::	Valor máximo (altura 222 cm, peso 113 kg), que parece plausível.

'''


# Número total de atletas (população)
total_atletas = len(df_atletas)
print("Número total de atletas:", total_atletas)

# Estatísticas descritivas de altura e peso
print(df_atletas[['height']].describe())


Número total de atletas: 11113
             height
count  11110.000000
mean      81.798830
std       89.508247
min        0.000000
25%        0.000000
50%        0.000000
75%      177.000000
max      222.000000


In [None]:
# Substituir zeros por NaN
df_atletas['height'].replace(0, pd.NA, inplace=True)


# Estatísticas depois da limpeza
print(df_atletas[['height']].describe())
df_atletas['height']


In [68]:
'''
count::	Número de valores não nulos. Agora, 5078 atletas têm altura registrada, e 316 têm peso registrado.
unique::	Número de valores diferentes. Por exemplo, há 73 alturas diferentes e 54 pesos diferentes.
top::	Valor que aparece com mais frequência. Altura mais comum: 170 cm; peso mais comum: 70 kg.
freq::	Quantas vezes o valor mais comum aparece. Altura 170 cm aparece 291 vezes; peso 70 kg aparece 20 vezes.
'''

# Supondo que seu DataFrame já está limpo
df_clean = df_atletas.dropna(subset=['height'])  # remover zeros ou NaN

# Estatísticas descritivas
estatisticas = df_clean['height'].describe()
print(estatisticas)


count     5078.0
unique      73.0
top        170.0
freq       291.0
Name: height, dtype: float64


In [None]:
altura = df_clean['height']

print("Altura:")
print(f"Média: {altura.mean():.2f}")
print("Desvio padrão:", altura.std())
print("Mínimo:", altura.min())
print("25%:", altura.quantile(0.25))          # 25% tem altura ≤ x
print("50% (mediana):", altura.median())      # 50% tem altura ≤ y
print("75%:", altura.quantile(0.75))          # 75% tem altura ≤ z


In [34]:
# Frequência simples da altura
freq_simples = df_clean['height', 'name_short'].value_counts()
print("Frequência simples ordenada (maior para menor):")
print(freq_simples.head(10))  # 10 valores mais frequentes


Frequência simples ordenada (maior para menor):
height
170.0    291
180.0    246
175.0    237
178.0    206
185.0    189
183.0    186
190.0    163
182.0    156
168.0    156
173.0    153
Name: count, dtype: int64


In [36]:
print(f"Moda: {altura.mode().tolist()}")  # lista de valores mais frequentes

Moda: 0    170.0
Name: height, dtype: object


In [None]:
# Frequência relativa (fração)
freq_relativa = df_clean['height'].value_counts(normalize=True)

# param:: normalize= True retorna proporções ao invés de frequências

print("Frequência relativa ordenada (maior para menor):")
# print(freq_relativa.head(10))

freq_percent = freq_relativa * 100
freq_percent_sorted = freq_percent.sort_values(ascending=False)
print(freq_percent_sorted.head(10))

In [None]:
# Formatar como string com 2 casas decimais
freq_percent_sorted_str = freq_percent_sorted.map(lambda x: f"{x:.2f}%")
print(freq_percent_sorted_str.head(10))

In [51]:
variancia = df_clean['height'].var()
print(f"Variância da altura: {variancia:.2f} cm²")


Variância da altura: 137.68 cm²


In [52]:
desvio_padrao = df_clean['height'].std()
print(f"Desvio padrão da altura: {desvio_padrao:.2f}")

# O mesmo que pegar a raiz de variância::
variancia ** 0.5

Desvio padrão da altura: 11.73


np.float64(11.733523018583378)

In [60]:
# Calcular amplitude
amplitude = df_clean['height'].max() - df_clean['height'].min()
print(f"Amplitude da altura: {amplitude} cm")



Amplitude da altura: 82.0 cm


In [None]:
# Filtrar apenas valores válidos
df_clean = df_atletas[df_atletas['height'] > 0]

# ROL crescente
rol_crescente = df_clean['height'].sort_values()
print("ROL Crescente - primeiros 10 valores:")
print(rol_crescente.head(10))

# ROL decrescente
rol_decrescente = df_clean['height'].sort_values(ascending=False)
print("\nROL Decrescente - 10 maiores valores:")
print(rol_decrescente.head(10))
