# **Como Manipular Dados com o Pandas: O Básico para o Dia a Dia**

O Pandas é uma das ferramentas mais práticas para quem trabalha com dados em Python. Se você quer aprender o essencial para manipular tabelas, explorar informações e fazer análises rápidas, este guia foi feito para você. Vamos simplificar? 🚀

## **O que é o Pandas?**
Pandas é uma biblioteca que permite trabalhar com dados organizados, como planilhas ou tabelas. Ele é ótimo para:

**. Criar e manipular tabelas (DataFrames).**

**. Ler e salvar dados de arquivos (CSV, Excel, etc.).**

**. Filtrar, transformar e organizar informações.**

**. Resumir e explorar dados rapidamente.**

## **Instalando o Pandas**

Para começar, certifique-se de que o Pandas e o openpyxl (módulo para trabalhar com Excel(.xlsx) no Python) está instalado:

In [25]:
!pip install pandas openpyxl



Agora você está pronto(a) para trabalhar com seus dados. 🎉

## **Criando e Salvando DataFrames**

O **DataFrame** é como uma tabela superpoderosa. Vamos criar dois exemplos diferentes para salvar em formatos distintos e depois realizar uma análise combinada:

### **DataFrame 1: Dados Pessoais dos Funcionários (CSV)**

In [13]:
import pandas as pd

In [14]:
# Criando o primeiro DataFrame
dados_pessoais = {
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'João', 'Maria'],
    'Idade': [25, 34, 29],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte'],
    'Cargo': ['Analista', 'Desenvolvedor', 'Designer']
}
df_pessoais = pd.DataFrame(dados_pessoais)
print(df_pessoais)
# Salvando em CSV
df_pessoais.to_csv('dados_pessoais.csv', index=False)

   ID   Nome  Idade          Cidade          Cargo
0   1    Ana     25       São Paulo       Analista
1   2   João     34  Rio de Janeiro  Desenvolvedor
2   3  Maria     29  Belo Horizonte       Designer


Note que o arquivo dados_pessoais.csv, apareceu na nossa pasta do projeto.

### **DataFrame 2: Cargos e Salários (Excel)**

In [15]:
# Criando o segundo DataFrame
dados_cargos = {
    'Cargo': ['Analista', 'Desenvolvedor', 'Designer'],
    'Salário': [4000, 6000, 4500]
}

df_cargos = pd.DataFrame(dados_cargos)
print(df_cargos)
# Salvando em Excel
df_cargos.to_excel('dados_cargos.xlsx', index=False)

           Cargo  Salário
0       Analista     4000
1  Desenvolvedor     6000
2       Designer     4500


Um novo arquivo chamado dados_cargos.xlsx deve ser criado na nossa pasta do projeto.

Agora que criamos e salvamos os DataFrames, podemos aprender a carregá-los e combiná-los em uma única análise.

## **Ler Dados de Arquivos**
O Pandas facilita muito o processo de leitura de dados. Vamos carregar os arquivos criados anteriormente:

### **. Ler o arquivo CSV:**

In [16]:
df_pessoais_lido = pd.read_csv('dados_pessoais.csv')
print(df_pessoais_lido.head())

   ID   Nome  Idade          Cidade          Cargo
0   1    Ana     25       São Paulo       Analista
1   2   João     34  Rio de Janeiro  Desenvolvedor
2   3  Maria     29  Belo Horizonte       Designer


### **. Ler o arquivo Excel:**

In [17]:
df_cargos_lido = pd.read_excel('dados_cargos.xlsx')
print(df_cargos_lido.head())

           Cargo  Salário
0       Analista     4000
1  Desenvolvedor     6000
2       Designer     4500


## **Combinando e Analisando Dados**
Uma das funcionalidades mais úteis do Pandas é combinar dados de diferentes fontes. Vamos unir os dois DataFrames usando a coluna `Cargo`:

In [18]:
# Combinando os DataFrames
df_combinado = pd.merge(df_pessoais_lido, df_cargos_lido, on='Cargo')
print(df_combinado)

   ID   Nome  Idade          Cidade          Cargo  Salário
0   1    Ana     25       São Paulo       Analista     4000
1   2   João     34  Rio de Janeiro  Desenvolvedor     6000
2   3  Maria     29  Belo Horizonte       Designer     4500


Agora temos uma visão completa dos funcionários, incluindo dados pessoais e profissionais.

## **Filtrar, Transformar e Organizar Dados**

### **Filtrando Dados**
. Selecionar funcionários com salário acima de R$ 5000:

In [19]:
df_filtrado = df_combinado[df_combinado['Salário'] > 5000]
print(df_filtrado)

   ID  Nome  Idade          Cidade          Cargo  Salário
1   2  João     34  Rio de Janeiro  Desenvolvedor     6000


Nesse caso foi impresso apenas os registros do João que ganha R$ 6000.

### **Transformando Dados**
. Adicionar uma nova coluna com bônus de 10%:

In [20]:
df_combinado['Bônus'] = df_combinado['Salário'] * 0.1
print(df_combinado)

   ID   Nome  Idade          Cidade          Cargo  Salário  Bônus
0   1    Ana     25       São Paulo       Analista     4000  400.0
1   2   João     34  Rio de Janeiro  Desenvolvedor     6000  600.0
2   3  Maria     29  Belo Horizonte       Designer     4500  450.0


Uma nova coluna chamada Bônus foi adicionada, com base com valor do cálculo de 10% do valor do salário de cada um.

## **Organizando Dados**
### **Ordenar por salário em ordem decrescente:**

In [21]:
df_ordenado = df_combinado.sort_values(by='Salário', ascending=False)
print(df_ordenado)

   ID   Nome  Idade          Cidade          Cargo  Salário  Bônus
1   2   João     34  Rio de Janeiro  Desenvolvedor     6000  600.0
2   3  Maria     29  Belo Horizonte       Designer     4500  450.0
0   1    Ana     25       São Paulo       Analista     4000  400.0


Caso a ordenação fosse em ordem crescente bastaria trocar o parâmetro `ascending = True`.

## **Resumir e Explorar Dados Rapidamente**
### **Resumo Estatístico**
**. Obter estatísticas básicas:**

In [22]:
print(df_combinado.describe())

        ID      Idade      Salário       Bônus
count  3.0   3.000000     3.000000    3.000000
mean   2.0  29.333333  4833.333333  483.333333
std    1.0   4.509250  1040.833000  104.083300
min    1.0  25.000000  4000.000000  400.000000
25%    1.5  27.000000  4250.000000  425.000000
50%    2.0  29.000000  4500.000000  450.000000
75%    2.5  31.500000  5250.000000  525.000000
max    3.0  34.000000  6000.000000  600.000000


E o que significa cada uma dessas linhas?

### **count:**
. Número de entradas não nulas para cada coluna.
. Exemplo: Em todas as colunas (`ID`, `Idade`, `Salário`, `Bônus`), há **3 valores não nulos**, então `count = 3`.

### **mean:**
. Média (média aritmética) dos valores na coluna.
. Exemplo: A média da coluna `Idade` é **29,33 anos** e do Salário é 4833,33.

### **std:**
. Desvio padrão, que mede a dispersão ou variabilidade dos dados em torno da média.
. Exemplo: O desvio padrão para o `Salário` é **1040,38**, indicando que os valores de salário variam significativamente em torno da média.

### **min:**
. O menor valor na coluna.
. Exemplo: O menor valor na coluna `Idade` é **25 anos**, e o menor `Bônus` é **400**.

### **25%:**
. Primeiro quartil (Q1), ou seja, o valor abaixo do qual 25% dos dados estão situados.
. Exemplo: Para a `Idade`, 25% das pessoas têm **27,5 anos ou menos**.

### **50%:**
. Mediana (Q2), o ponto central dos dados, onde metade dos valores estão abaixo e metade acima.
. Exemplo: Na coluna `Salário`, 50% dos valores estão abaixo de **4500**.

### **75%:**
. Terceiro quartil (Q3), ou seja, o valor abaixo do qual 75% dos dados estão situados.
. Exemplo: Para `Bônus`, 75% dos valores estão abaixo de **525**.

### **max:**
. O maior valor na coluna.
. Exemplo: O maior `Salário` é **6000** e a maior Idade é **34 anos**.

Fique tranquilo(a) se não entendeu o que significa algumas dessas medidas estatísticas chegaremos em uma explicação melhor elaborada para cada uma delas no futuro. Só guarde essa informação ela é muito útil para entender rapidamente a distribuição e a variabilidade dos seus dados, além de detectar possíveis outliers (valores muito distantes dos demais).

## **Explorando Dados**
**. Exibir informações gerais:**

In [23]:
print(df_combinado.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   ID       3 non-null      int64  
 1   Nome     3 non-null      object 
 2   Idade    3 non-null      int64  
 3   Cidade   3 non-null      object 
 4   Cargo    3 non-null      object 
 5   Salário  3 non-null      int64  
 6   Bônus    3 non-null      float64
dtypes: float64(1), int64(3), object(3)
memory usage: 300.0+ bytes
None


Essa é a saída do método `info()` do pandas, que fornece um resumo técnico sobre o DataFrame.

**`<class 'pandas.core.frame.DataFrame'>:`**

. Indica que o objeto em questão é um DataFrame, a estrutura principal de dados do pandas.

**`RangeIndex: 3 entries, 0 to 2:`**

. O índice do DataFrame contém 3 linhas (entradas), indo de 0 a 2.

**`Data columns (total 7 columns):`**

. O DataFrame tem **7 colunas** no total.

Cada linha a seguir descreve uma coluna do DataFrame:

**`#`**:
. Índice da coluna na tabela de resumo.

**`Column`**:
. Nome da coluna.

**`Non-Null Count`**:
. Número de valores não nulos em cada coluna.
. Exemplo: Todas as colunas possuem 3 valores não nulos, o que indica que não há valores ausentes (`NaN`) no DataFrame.

**`Dtype`**:
. Tipo de dado (`dtype`) armazenado na coluna:

**`int64`**: Valores inteiros (ex.: `ID`, `Idade`, `Salário`).

**`float64`**: Valores de ponto flutuante (ex.: `Bônus`).

**`object`**: Strings ou outros objetos (ex.: `Nome`, `Cidade`, `Cargo`).

**`Uso de Memória`**:

Estimativa do espaço na memória utilizado pelo DataFrame, que neste caso é **300 bytes**.

Ou seja, o método `info()` é útil para:

**1. Identificar dados ausentes**: Verificando as contagens de valores não nulos (`Non-Null Count`).

**2. Entender a estrutura do DataFrame**: Número de linhas, colunas e seus tipos de dados.

**3. Checar consumo de memória**, especialmente em grandes conjuntos de dados.

**. Contar cargos únicos:**

In [24]:
print(df_combinado['Cargo'].value_counts())

Cargo
Analista         1
Desenvolvedor    1
Designer         1
Name: count, dtype: int64


Com esses exemplos, espero que você tenha conseguido entender como criar DataFrames, salvá-los em diferentes formatos e combiná-los para realizar análises simples.

Seja para organizar tabelas, explorar informações ou criar relatórios, o Pandas é uma ferramenta indispensável para o dia a dia de quem trabalha com dados. Além disso, ele facilita até mesmo tarefas mais complexas com poucos comandos.