In [91]:
import pandas as pd 

In [92]:
# Criando um dicionário para ser transformado em um DataFrame
dict_pessoas = {
    "nome": ["João", "Maria", "José"],
    "idade": [20, 30, 40],
    "sexo": ["M", "F", "M"]
}

In [93]:
## A partir do dicionário, vamos criar um dataframe

df_pessoas = pd.DataFrame.from_dict(dict_pessoas)

In [94]:
# Imprimindo o dataframe
df_pessoas

Unnamed: 0,nome,idade,sexo
0,João,20,M
1,Maria,30,F
2,José,40,M


### Medidas de posição
Medidas de posição são medidas que resumem um conjunto de dados em um único valor, você pode lembrar delas das suas aulas de matemática. As principais medidas de posição são:

In [95]:
# Média
df_pessoas["idade"].mean()

30.0

In [96]:
# Mediana
df_pessoas["idade"].median()

30.0

In [97]:
# Moda
df_pessoas["idade"].mode()

0    20
1    30
2    40
Name: idade, dtype: int64

## Criando dicinário com dados de exemplo
Com exemplo anterior foi possível entender como que o pandas trabalha com dados, agora vamos criar um dicionário com dados de exemplo para que possamos trabalhar com dados mais interessantes.

In [98]:
dict_medidas = {
    "idade": [15, 18, 25, 25, 40, 55, 58, 60, 80],
    "altura": [160, 162, 165, 168, 172, 174, 174, 174, 176], #Altura em cm
}

In [99]:
# Criando novo dataframe
df_medidas = pd.DataFrame.from_dict(dict_medidas)

In [100]:
# Media de idades e altura
print(f'Idade: {df_medidas["idade"].mean()} anos')
print(f'Altura: {df_medidas["altura"].mean()} cm')

Idade: 41.77777777777778 anos
Altura: 169.44444444444446 cm


In [101]:
# Mediana de idades e altura
print(f'Idade: {df_medidas["idade"].median()} anos')
print(f'Altura: {df_medidas["altura"].median()} cm')

Idade: 40.0 anos
Altura: 172.0 cm


In [102]:
# Moda de idades e altura
print(f'Idade: {df_medidas["idade"].mode()} anos')
print(f'Altura: {df_medidas["altura"].mode()} cm')

Idade: 0    25
Name: idade, dtype: int64 anos
Altura: 0    174
Name: altura, dtype: int64 cm


### Media de dispersão
Medidas de dispersão são medidas que resumem a variabilidade de um conjunto de dados. As principais medidas de dispersão são:

In [103]:
# Variância - distanciamento dos valores em relação a média elevado ao quadrado
print(f'Variância das idades: {df_medidas["idade"].var()}')

Variância das idades: 509.94444444444446


In [104]:
# Desvio Padrão - raiz quadrada da variância
print(f'Desvio padrão das idades: {df_medidas["idade"].std()} anos')

Desvio padrão das idades: 22.58194952709895 anos


In [105]:
# Coeficiente de Variação - desvio padrão em relação a média
print(f'Coeficiente de variação das idades: {(df_medidas["idade"].std() / df_medidas["idade"].mean())*100}%')

Coeficiente de variação das idades: 54.05253876167302%


### Medidas de Forma
Medidas de forma são medidas que resumem a forma de um conjunto de dados. As principais medidas de forma são:

In [106]:
# Assimetria - indica a tendência de valores a direita (positiva) ou a esquerda (negativa) da média
assimetria = df_medidas["idade"].skew()
if assimetria > 0:
    print(f'Assimetria das idades positiva: {assimetria}')
else:
    print(f'Assimetria das idades negativa: {assimetria}')

Assimetria das idades positiva: 0.368108517895537


In [107]:
assimetria_altura = df_medidas["altura"].skew()
if assimetria_altura > 0:
    print(f'Assimetria das alturas positiva: {assimetria_altura}')
else:
    print(f'Assimetria das alturas negativa: {assimetria_altura}')

Assimetria das alturas negativa: -0.598486996170113


In [108]:
curtose_idade = df_medidas["idade"].kurtosis()
if curtose_idade > 0:
    print(f'Curtose das idades mais concentrados: {curtose_idade}')
else:
    print(f'Curtose das idades menos concentrados: {curtose_idade}')

Curtose das idades menos concentrados: -1.1344461075421046


In [109]:
curtose_altura = df_medidas["altura"].kurtosis()
if curtose_altura > 0:
    print(f'Curtose das idades mais concentrados: {curtose_altura}')
else:
    print(f'Curtose das idades menos concentrados: {curtose_altura}')

Curtose das idades menos concentrados: -1.3372641199913002


## Resumo
Neste notebook você aprendeu sobre as principais medidas de posição, dispersão e forma. Além disso, você aprendeu como criar um dicionário com dados de exemplo e como trabalhar com ele usando o pandas.

In [110]:
df_medidas.idade.describe()

count     9.000000
mean     41.777778
std      22.581950
min      15.000000
25%      25.000000
50%      40.000000
75%      58.000000
max      80.000000
Name: idade, dtype: float64

### Correlação
Correlação é uma medida que indica o quão relacionadas estão duas variáveis. Ela é usada para resumir a relação entre duas variáveis. As principais medidas de correlação são:

In [114]:
# Pearson - correlação entre duas variáveis
df_medidas.corr(method="pearson")

Unnamed: 0,idade,altura
idade,1.0,0.931024
altura,0.931024,1.0


In [112]:
# Spearman - correlação entre duas variáveis
df_medidas.corr(method="spearman")

Unnamed: 0,idade,altura
idade,1.0,0.978803
altura,0.978803,1.0
