# Medidas estatísticas

Neste documento, ilustramos conceitos de estatísticas descritivas utilizando o conjunto de dados *Adult Income* da UCI. Abaixo, apresentamos exemplos em Python que cobrem os seguintes conceitos:
- média,
- mediana, 
- moda, 
- quantis, 
- IQR,
- variância,
- desvio padrão.



In [2]:
# pip install pandas

In [3]:
# Descriptive Statistics Using the Adult Income Dataset

## 1. Loading the Dataset

import pandas as pd

# Load the dataset
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
columns = ['age', 'workclass', 'fnlwgt', 'education', 'education_num', 
           'marital_status', 'occupation', 'relationship', 'race', 
           'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 
           'native_country', 'income']

df = pd.read_csv(url, header=None, names=columns, na_values=' ?', skipinitialspace=True)

In [4]:
# Display the first few rows
df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [5]:
df.describe()

Unnamed: 0,age,fnlwgt,education_num,capital_gain,capital_loss,hours_per_week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


## Média

A média é o valor médio de uma coluna numérica. Vamos calcular a média da idade dos indivíduos no conjunto de dados.

In [6]:
mean_age = df['age'].mean()
print(f"Mean age: {mean_age}")

Mean age: 38.58164675532078


## Mediana

A mediana é o valor central de um conjunto de dados ordenado. Vamos calcular a mediana das horas trabalhadas por semana pelos indivíduos.

In [7]:
median_hours_per_week = df['hours_per_week'].median()
print(f"Median hours per week: {median_hours_per_week}")

Median hours per week: 40.0



## Moda

A moda é o valor que aparece com mais frequência. Vamos encontrar a moda para a coluna \texttt{workclass}.

In [8]:
mode_workclass = df['workclass'].mode()[0]
mode_age = df['age'].mode()[0]
print(f"Mode of workclass: {mode_workclass}")
print(f"Mode of age: {mode_age}")

Mode of workclass: Private
Mode of age: 36


## Quantis

Quantis são pontos de corte que dividem o intervalo de um conjunto de dados em intervalos contínuos com probabilidades iguais. Vamos calcular os quartis (quantis 0,25; 0,5; 0,75) para a coluna `fnlwgt`.

In [15]:
quantiles_fnlwgt = df['fnlwgt'].quantile([0.25, 0.5, 0.75])
print(f"Quantiles for fnlwgt: {quantiles_fnlwgt}")

Quantiles for fnlwgt: 0.25    117827.0
0.50    178356.0
0.75    237051.0
Name: fnlwgt, dtype: float64


In [16]:
median_fnlwgt = df['fnlwgt'].median()
print(f"Quantiles for fnlwgt: {median_fnlwgt}")

Quantiles for fnlwgt: 178356.0


## Intervalo Interquartil (IQR)

O intervalo interquartil (IQR) é a diferença entre o primeiro quartil (percentil 25) e o terceiro quartil (percentil 75). Ele pode ser calculado para qualquer coluna numérica. Aqui está como calculá-lo para `age`.

In [None]:
Q1 = df['age'].quantile(0.25)
Q3 = df['age'].quantile(0.75)
IQR = Q3 - Q1
print(f"Interquartile Range (IQR) of age: {IQR}")

# Percentis

In [3]:
import numpy as np

# Definir a amostra
sample = [5, 8, 7, 9, 5, 6, 8, 7, 10, 8, 7, 5]

# Calcular os percentis
P10 = np.percentile(sample, 10)
P25 = np.percentile(sample, 25)
P50 = np.percentile(sample, 50)
P75 = np.percentile(sample, 75)

# Calcular o IQR
IQR = P75 - P25

P10, P25, P50, P75, IQR

(5.0, 5.75, 7.0, 8.0, 2.25)

In [11]:
x = [5, 6, 7, 8, 9]
np.percentile(x, 40), np.quantile(x, .40)

(6.6, 6.6)

In [12]:
np.sqrt(4444)

66.66333324999583


## Variância

A variância mede a dispersão dos pontos de dados em relação à média. Vamos calcular a variância da idade.

In [10]:

variance_age = df['age'].var()
print(f"Variance of age: {variance_age}")

Variance of age: 186.0614002488016



## Desvio Padrão

O desvio padrão é a raiz quadrada da variância, fornecendo uma medida da distância média de cada ponto de dados em relação à média. Vamos calcular o desvio padrão das horas trabalhadas por semana.

In [11]:
std_hours_per_week = df['hours_per_week'].std()
print(f"Standard deviation of hours per week: {std_hours_per_week}")

Standard deviation of hours per week: 12.347428681731843
