# Operações Estatísticas com Pandas

Este notebook demonstra como utilizar o Pandas para realizar operações estatísticas essenciais nos dados, uma parte crucial da análise exploratória de dados em projetos de Machine Learning.

In [1]:
import pandas as pd
import numpy as np

## Criando um DataFrame de Exemplo

In [2]:
# Dados de exemplo
np.random.seed(42)  # Para reprodutibilidade
data = {
    'Idade': np.random.randint(18, 60, size=100),
    'Salário': np.random.randint(5000, 50000, size=100),
    'Nota': np.random.normal(5, 2, size=100)
}

df = pd.DataFrame(data)

## Operações Estatísticas Básicas

In [3]:
# Média
print("Média de cada coluna:\n", df.mean())

# Mediana
print("\nMediana de cada coluna:\n", df.median())

# Desvio padrão
print("\nDesvio padrão de cada coluna:\n", df.std())

Média de cada coluna:
 Idade         37.910000
Salário    27371.320000
Nota           4.888646
dtype: float64

Mediana de cada coluna:
 Idade         38.000000
Salário    28509.000000
Nota           5.008338
dtype: float64

Desvio padrão de cada coluna:
 Idade         12.219454
Salário    12863.082964
Nota           2.085337
dtype: float64


## Mais Operações Estatísticas

In [4]:
# Mínimo e Máximo
print("\nMínimo de cada coluna:\n", df.min())
print("\nMáximo de cada coluna:\n", df.max())

# Quantis
print("\nQuantis:\n", df.quantile([0.25, 0.5, 0.75]))

# Contagem de valores
print("\nContagem de valores por idade:\n", df['Idade'].value_counts().head())


Mínimo de cada coluna:
 Idade        18.000000
Salário    5206.000000
Nota         -0.758914
dtype: float64

Máximo de cada coluna:
 Idade         59.00000
Salário    49417.00000
Nota           9.54669
dtype: float64

Quantis:
       Idade  Salário      Nota
0.25  26.75  16619.0  3.498984
0.50  38.00  28509.0  5.008338
0.75  46.25  36105.5  6.135938

Contagem de valores por idade:
 Idade
41    6
25    5
56    4
42    4
32    4
Name: count, dtype: int64


## Descrição Completa dos Dados

In [None]:
print("\nDescrição estatística do DataFrame:\n", df.describe())

## Correlação entre Colunas

In [None]:
print("\nCorrelação entre as colunas:\n", df.corr())

## Conclusão

Este notebook demonstrou como o Pandas pode ser utilizado para realizar uma série de operações estatísticas fundamentais em conjuntos de dados. Essas operações são essenciais para a análise exploratória de dados, ajudando a identificar padrões, tendências e possíveis anomalias nos dados.