<h1>📌 Operações Estatísticas em Pandas</h1>

<p style='font-size:16px;'>O Pandas é uma das bibliotecas mais poderosas do Python para manipulação e análise de dados. Ele oferece diversas funções estatísticas prontas, que permitem entender melhor os seus dados sem precisar de cálculos manuais ou uso de planilhas.</p>
<p style='font-size:16px;'>Neste notebook, vamos explorar as principais operações estatísticas que você pode realizar com o Pandas</p>

<h4>📌 Autor: Carlos da Costa</h4>
📌Recife, PE - Brasil<br>
📌Telefone: +55 81 99712 9140<br>
📌Telegram: @jcarlossc<br>
📌Blogger linguagem R: https://informaticus77-r.blogspot.com/<br>
📌Blogger linguagem Python: https://informaticus77-python.blogspot.com/<br>
📌Email: jcarlossc1977@gmail.com<br>
📌Portfólio em construção: https://portfolio-carlos-costa.netlify.app/<br>
📌LinkedIn: https://www.linkedin.com/in/carlos-da-costa-669252149/<br>
📌GitHub: https://github.com/jcarlossc<br>
📌Kaggle: https://www.kaggle.com/jcarlossc/<br>
📌Twitter/X: https://x.com/jcarlossc1977<br>

In [1]:
# Importação da biblioteca Pandas.
import pandas as pd

<h2>📌 Criando um DataFrame</h2>
<p style='font-size:16px;'>Antes de começar, precisamos criar um pequeno conjunto de dados (DataFrame):</p>

In [2]:
dados = pd.DataFrame(
    { "idade": [23, 25, 31, 35, 40, 29, 23, 37, 41, 30], 
     "salario": [2500, 2700, 3200, 4000, 5000, 3100, 2600, 4500, 5200, 3300], 
     "departamento": ["RH", "RH", "TI", "TI", "Financeiro", "TI", "RH", "Financeiro", "Financeiro", "TI"] }
)

In [3]:
print(dados)

   idade  salario departamento
0     23     2500           RH
1     25     2700           RH
2     31     3200           TI
3     35     4000           TI
4     40     5000   Financeiro
5     29     3100           TI
6     23     2600           RH
7     37     4500   Financeiro
8     41     5200   Financeiro
9     30     3300           TI


<h2>📌 Estatísticas Descritivas</h2>

<p style='font-size:16px;'>Com o método describe(), é possível visualizar rapidamente algumas medidas de posição e dispersão:</p>

In [4]:
print(dados.describe())
# count: quantidade de observações
# mean: média aritmética
# std: desvio padrão
# min: valor menos
# 25%: primeiro quartil
# 50%: segundo quartil ou mediana
# 75%: terceiro quartil
# max: valor máximo

           idade      salario
count  10.000000    10.000000
mean   31.400000  3610.000000
std     6.669999  1000.499875
min    23.000000  2500.000000
25%    26.000000  2800.000000
50%    30.500000  3250.000000
75%    36.500000  4375.000000
max    41.000000  5200.000000


<h2>📌 Medidas de Tendência Central</h2>

<p style='font-size:16px;'>Essas medidas ajudam a entender o comportamento médio dos dados:</p>

In [5]:
# Média → soma de todos os valores dividida pela quantidade:
print("Média:", dados["idade"].mean()) 

# Mediana → valor central da amostra ordenada:
print("Mediana:", dados["idade"].median()) 

# Moda → valor mais frequente:
print("Moda:", dados["idade"].mode().values[0])

Média: 31.4
Mediana: 30.5
Moda: 23


<h2>📌 Medidas de Dispersão</h2>

<p style='font-size:16px;'>Essas medidas indicam o quanto os dados estão espalhados:</p>
<p style='font-size:16px;'>Quanto maior o desvio padrão, mais os valores se afastam da média.</p>

In [6]:
# Desvio padrão:
print("Desvio padrão:", dados["salario"].std()) 

# Variância:
print("Variância:", dados["salario"].var())

Desvio padrão: 1000.499875062461
Variância: 1001000.0


<h2>📌 Estatísticas por Grupo</h2>

<p style='font-size:16px;'>O método groupby() é essencial para comparar grupos dentro dos dados:</p>

<p style='font-size:16px;'>Esse exemplo mostra a média salarial por departamento, algo muito útil em relatórios corporativos e análises financeiras.</p>

In [7]:
# Média de salário por departamento:
print(dados.groupby("departamento")["salario"].mean())

departamento
Financeiro    4900.0
RH            2600.0
TI            3400.0
Name: salario, dtype: float64


<h2>📌 Correlação</h2>

<p style='font-size:16px;'>Para verificar se duas variáveis estão relacionadas, usamos:<p>

<p style='font-size:16px;'>Uma correlação próxima de 1 indica relação positiva forte, enquanto próxima de -1 indica relação negativa.</p>

In [8]:
print(dados[["idade", "salario"]].corr())

           idade  salario
idade    1.00000  0.98335
salario  0.98335  1.00000


<h2>📌 Frequência e Percentuais</h2>

<p style='font-size:16px;'>Para entender a distribuição de categorias, use:</p>

<p style='font-size:16px;'>Esses comandos mostram a contagem e o percentual de cada departamento.</p>

In [9]:
# Frequência:
print(dados["departamento"].value_counts())

# Percentual:
print(dados["departamento"].value_counts(normalize=True) * 100)

departamento
TI            4
RH            3
Financeiro    3
Name: count, dtype: int64
departamento
TI            40.0
RH            30.0
Financeiro    30.0
Name: proportion, dtype: float64


<h2>📌 Conclusão</h2>

<p style='font-size:16px;'>O Pandas facilita muito o trabalho com estatísticas em Python. Com poucos comandos, você pode obter informações valiosas sobre médias, dispersões, correlações e muito mais — tudo de forma rápida e intuitiva.</p>

<p style='font-size:16px;'>Essas ferramentas são a base para análises exploratórias, relatórios de negócios e até para preparar dados antes de aplicar algoritmos de Aprendizado de Máquina.</p>