In [1]:
import pandas as pd
pd.__version__

'2.2.2'

#### Definindo os dados

In [2]:
dict_metrics = {"idade": [15, 18, 25, 26, 40, 40, 58, 60],
                "altura": [160, 165, 149, 168, 172, 174, 174, 178]}

In [3]:
type(dict_metrics)

dict

In [4]:
#Criar dataframe

df = pd.DataFrame(dict_metrics)

In [5]:
type(df)

pandas.core.frame.DataFrame

In [6]:
df

Unnamed: 0,idade,altura
0,15,160
1,18,165
2,25,149
3,26,168
4,40,172
5,40,174
6,58,174
7,60,178


#### Medidas de posição
- Média: soma de todos os valores dividida pelo número de valores. É a medida mais comum de tendência central. Pode ser sensível a valores extremos.
- Mediana: É o valor do meio quando os dados estão ordenados. Não sofre por valores extremos. É útil em distribuições assimétricas.
- Moda: É o valor que ocorre com maior frequência. É útil em dados categóricos ou quando deseja-se identificar valores com maior frequência.


In [8]:
#Duas formas de acessar uma coluna no dataframe

df["idade"] #OU


0    15
1    18
2    25
3    26
4    40
5    40
6    58
7    60
Name: idade, dtype: int64

In [9]:
df.idade

0    15
1    18
2    25
3    26
4    40
5    40
6    58
7    60
Name: idade, dtype: int64

In [12]:
#Média de cada coluna

print(f'A média da idade é: {df["idade"].mean()} anos.')
print(f'A média da altura é: {df["altura"].mean()} cm.')

A média da idade é: 35.25 anos.
A média da altura é: 167.5 cm.


In [20]:
##Mediana de cada coluna

print(f'A mediana da idade é: {df["idade"].median()} anos.')
print(f'A mediana da altura é: {df["altura"].median()} cm.')

A mediana da idade é: 33.0 anos.
A mediana da altura é: 170.0 cm.


In [21]:
##Moda de cada coluna

print(f'A moda da idade é: {df["idade"].mode()} anos.')
print(f'A moda da altura é: {df["altura"].mode()} cm.')

A moda da idade é: 0    40
Name: idade, dtype: int64 anos.
A moda da altura é: 0    174
Name: altura, dtype: int64 cm.


#### Medidas de dispersão

- Variância: É a média dos quadrados entre cada valor e a média. Informa quão distantes os valores estão da média.
- Desvio padrão: É a medidade de dispersão mais usdada. É a raiz quadrada da variância. Expressa a dispersão em termos da mesma unidade dos dados.
- Coeficiente de variação: É o desvio padrão dividido pela média, expresso em porcentagem. Indica a variabilidade relativa dos dados em relação à média. 



In [24]:
#Variância
print(f'Variância de idade: {df["idade"].var():.2f}')
print(f'Variância de altura: {df["altura"].var():.2f}')

Variância de idade: 296.21
Variância de altura: 88.57


In [27]:
#Desvio padrão

print(f'Desvio padrão da idade: {df["idade"].std():.2f}')
print(f'Desvio padrão da altura: {df["altura"].std():.2f}')

#Pelo resultado verificamos que a altura está mais próxima da média que a idade.


Desvio padrão da idade: 17.21
Desvio padrão da altura: 9.41


In [30]:
#Coeficiente de variação
cof_idade = df["idade"].std() / df["idade"].mean() * 100
cof_altura = df["altura"].std() / df["altura"].mean() * 100

print(f'Coeficiente de variação da idade: {cof_idade:.2f}%')
print(f'Coeficiente de variação da altura: {cof_altura:.2f}%')

Coeficiente de variação da idade: 48.83%
Coeficiente de variação da altura: 5.62%


#### Medidas de formas (Distribuição dos dados)

- Assimétrica: indica o grau e a direção da distorção da distribuição em relação à média. Se positiva, indica a cauda direita da distribuição mais longa. Já o oposto, indica a cauda esquerda mais longa.
- Curtose: mede o pico ou "pontuação" da distribuição. Uma curtose alta indica uma distribuição mais concentrada, já o oposto, indica uma distribuição mais achatada.

In [31]:
df

Unnamed: 0,idade,altura
0,15,160
1,18,165
2,25,149
3,26,168
4,40,172
5,40,174
6,58,174
7,60,178


In [34]:
#Assimetrica

print(f'Assimetria de idade: {df["idade"].skew():.2f}')
#Assimettria de idade positiva: valores maiores estão mais espalhados.
print(f'Assimetria de altura: {df["altura"].skew():.2f}')
#Assimettria de altura negativa: valores maiores estão mais próximos.

Assimetria de idade: 0.44
Assimetria de altura: -1.14


In [38]:
#Curtose

print(f'Curtose de idade: {df["idade"].kurtosis():.2f}')
#Curtose da idade negativa: dados estão mais espalhados.
print(f'Curtose de altura: {df["altura"].kurtosis():.2f}')
#Curtose da altura positiva: valores mais concentrados na média.

Curtose de idade: -1.31
Curtose de altura: 1.06


In [39]:
#Traz algumas informações estatísticas
df.describe()

Unnamed: 0,idade,altura
count,8.0,8.0
mean,35.25,167.5
std,17.210877,9.411239
min,15.0,149.0
25%,23.25,163.75
50%,33.0,170.0
75%,44.5,174.0
max,60.0,178.0


#### Correlação

- Mede a relação entre duas variáveis. Se positiva, as variáveis aumentam juntas. Caso contrário, uma aumenta enquanto a outra diminui. Ou se não há nenhum correlação.
- Ajuda a selecionar características relevantes para os modelos, melhorando a precisão e a interpretabilidade.

##### Índices de correlação

- Coeficiente de Pearson: mede a relação linear entre duas variáveis, variando de -1 a 1. E 0 para nenhuma correlação.
- Coeficiente de Spearman: é útil quando os dados não tem uma relação linear clara ou quando as variáveis não são númericamente escalonáveis.
- Pearson: para relações lineares e variáveis conítnuas. Spearman: relações não lineares, ordinais ou com outliers.

In [40]:
df.corr(method="pearson")

Unnamed: 0,idade,altura
idade,1.0,0.740852
altura,0.740852,1.0


In [41]:
df.corr(method="spearman")

Unnamed: 0,idade,altura
idade,1.0,0.909639
altura,0.909639,1.0


In [43]:
#Especificando as colunas:

df["altura"].corr(df["idade"], method="pearson")

0.7408519382898473

In [44]:
df["altura"].corr(df["idade"], method="spearman")

0.9096385542168675