# **Como Manipular Dados com o Pandas: O B√°sico para o Dia a Dia**

O Pandas √© uma das ferramentas mais pr√°ticas para quem trabalha com dados em Python. Se voc√™ quer aprender o essencial para manipular tabelas, explorar informa√ß√µes e fazer an√°lises r√°pidas, este guia foi feito para voc√™. Vamos simplificar? üöÄ

## **O que √© o Pandas?**
Pandas √© uma biblioteca que permite trabalhar com dados organizados, como planilhas ou tabelas. Ele √© √≥timo para:

**. Criar e manipular tabelas (DataFrames).**

**. Ler e salvar dados de arquivos (CSV, Excel, etc.).**

**. Filtrar, transformar e organizar informa√ß√µes.**

**. Resumir e explorar dados rapidamente.**

## **Instalando o Pandas**

Para come√ßar, certifique-se de que o Pandas e o openpyxl (m√≥dulo para trabalhar com Excel(.xlsx) no Python) est√° instalado:

In [25]:
!pip install pandas openpyxl



Agora voc√™ est√° pronto(a) para trabalhar com seus dados. üéâ

## **Criando e Salvando DataFrames**

O **DataFrame** √© como uma tabela superpoderosa. Vamos criar dois exemplos diferentes para salvar em formatos distintos e depois realizar uma an√°lise combinada:

### **DataFrame 1: Dados Pessoais dos Funcion√°rios (CSV)**

In [13]:
import pandas as pd

In [14]:
# Criando o primeiro DataFrame
dados_pessoais = {
    'ID': [1, 2, 3],
    'Nome': ['Ana', 'Jo√£o', 'Maria'],
    'Idade': [25, 34, 29],
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'Belo Horizonte'],
    'Cargo': ['Analista', 'Desenvolvedor', 'Designer']
}
df_pessoais = pd.DataFrame(dados_pessoais)
print(df_pessoais)
# Salvando em CSV
df_pessoais.to_csv('dados_pessoais.csv', index=False)

   ID   Nome  Idade          Cidade          Cargo
0   1    Ana     25       S√£o Paulo       Analista
1   2   Jo√£o     34  Rio de Janeiro  Desenvolvedor
2   3  Maria     29  Belo Horizonte       Designer


Note que o arquivo dados_pessoais.csv, apareceu na nossa pasta do projeto.

### **DataFrame 2: Cargos e Sal√°rios (Excel)**

In [15]:
# Criando o segundo DataFrame
dados_cargos = {
    'Cargo': ['Analista', 'Desenvolvedor', 'Designer'],
    'Sal√°rio': [4000, 6000, 4500]
}

df_cargos = pd.DataFrame(dados_cargos)
print(df_cargos)
# Salvando em Excel
df_cargos.to_excel('dados_cargos.xlsx', index=False)

           Cargo  Sal√°rio
0       Analista     4000
1  Desenvolvedor     6000
2       Designer     4500


Um novo arquivo chamado dados_cargos.xlsx deve ser criado na nossa pasta do projeto.

Agora que criamos e salvamos os DataFrames, podemos aprender a carreg√°-los e combin√°-los em uma √∫nica an√°lise.

## **Ler Dados de Arquivos**
O Pandas facilita muito o processo de leitura de dados. Vamos carregar os arquivos criados anteriormente:

### **. Ler o arquivo CSV:**

In [16]:
df_pessoais_lido = pd.read_csv('dados_pessoais.csv')
print(df_pessoais_lido.head())

   ID   Nome  Idade          Cidade          Cargo
0   1    Ana     25       S√£o Paulo       Analista
1   2   Jo√£o     34  Rio de Janeiro  Desenvolvedor
2   3  Maria     29  Belo Horizonte       Designer


### **. Ler o arquivo Excel:**

In [17]:
df_cargos_lido = pd.read_excel('dados_cargos.xlsx')
print(df_cargos_lido.head())

           Cargo  Sal√°rio
0       Analista     4000
1  Desenvolvedor     6000
2       Designer     4500


## **Combinando e Analisando Dados**
Uma das funcionalidades mais √∫teis do Pandas √© combinar dados de diferentes fontes. Vamos unir os dois DataFrames usando a coluna `Cargo`:

In [18]:
# Combinando os DataFrames
df_combinado = pd.merge(df_pessoais_lido, df_cargos_lido, on='Cargo')
print(df_combinado)

   ID   Nome  Idade          Cidade          Cargo  Sal√°rio
0   1    Ana     25       S√£o Paulo       Analista     4000
1   2   Jo√£o     34  Rio de Janeiro  Desenvolvedor     6000
2   3  Maria     29  Belo Horizonte       Designer     4500


Agora temos uma vis√£o completa dos funcion√°rios, incluindo dados pessoais e profissionais.

## **Filtrar, Transformar e Organizar Dados**

### **Filtrando Dados**
. Selecionar funcion√°rios com sal√°rio acima de R$ 5000:

In [19]:
df_filtrado = df_combinado[df_combinado['Sal√°rio'] > 5000]
print(df_filtrado)

   ID  Nome  Idade          Cidade          Cargo  Sal√°rio
1   2  Jo√£o     34  Rio de Janeiro  Desenvolvedor     6000


Nesse caso foi impresso apenas os registros do Jo√£o que ganha R$ 6000.

### **Transformando Dados**
. Adicionar uma nova coluna com b√¥nus de 10%:

In [20]:
df_combinado['B√¥nus'] = df_combinado['Sal√°rio'] * 0.1
print(df_combinado)

   ID   Nome  Idade          Cidade          Cargo  Sal√°rio  B√¥nus
0   1    Ana     25       S√£o Paulo       Analista     4000  400.0
1   2   Jo√£o     34  Rio de Janeiro  Desenvolvedor     6000  600.0
2   3  Maria     29  Belo Horizonte       Designer     4500  450.0


Uma nova coluna chamada B√¥nus foi adicionada, com base com valor do c√°lculo de 10% do valor do sal√°rio de cada um.

## **Organizando Dados**
### **Ordenar por sal√°rio em ordem decrescente:**

In [21]:
df_ordenado = df_combinado.sort_values(by='Sal√°rio', ascending=False)
print(df_ordenado)

   ID   Nome  Idade          Cidade          Cargo  Sal√°rio  B√¥nus
1   2   Jo√£o     34  Rio de Janeiro  Desenvolvedor     6000  600.0
2   3  Maria     29  Belo Horizonte       Designer     4500  450.0
0   1    Ana     25       S√£o Paulo       Analista     4000  400.0


Caso a ordena√ß√£o fosse em ordem crescente bastaria trocar o par√¢metro `ascending = True`.

## **Resumir e Explorar Dados Rapidamente**
### **Resumo Estat√≠stico**
**. Obter estat√≠sticas b√°sicas:**

In [22]:
print(df_combinado.describe())

        ID      Idade      Sal√°rio       B√¥nus
count  3.0   3.000000     3.000000    3.000000
mean   2.0  29.333333  4833.333333  483.333333
std    1.0   4.509250  1040.833000  104.083300
min    1.0  25.000000  4000.000000  400.000000
25%    1.5  27.000000  4250.000000  425.000000
50%    2.0  29.000000  4500.000000  450.000000
75%    2.5  31.500000  5250.000000  525.000000
max    3.0  34.000000  6000.000000  600.000000


E o que significa cada uma dessas linhas?

### **count:**
. N√∫mero de entradas n√£o nulas para cada coluna.
. Exemplo: Em todas as colunas (`ID`, `Idade`, `Sal√°rio`, `B√¥nus`), h√° **3 valores n√£o nulos**, ent√£o `count = 3`.

### **mean:**
. M√©dia (m√©dia aritm√©tica) dos valores na coluna.
. Exemplo: A m√©dia da coluna `Idade` √© **29,33 anos** e do Sal√°rio √© 4833,33.

### **std:**
. Desvio padr√£o, que mede a dispers√£o ou variabilidade dos dados em torno da m√©dia.
. Exemplo: O desvio padr√£o para o `Sal√°rio` √© **1040,38**, indicando que os valores de sal√°rio variam significativamente em torno da m√©dia.

### **min:**
. O menor valor na coluna.
. Exemplo: O menor valor na coluna `Idade` √© **25 anos**, e o menor `B√¥nus` √© **400**.

### **25%:**
. Primeiro quartil (Q1), ou seja, o valor abaixo do qual 25% dos dados est√£o situados.
. Exemplo: Para a `Idade`, 25% das pessoas t√™m **27,5 anos ou menos**.

### **50%:**
. Mediana (Q2), o ponto central dos dados, onde metade dos valores est√£o abaixo e metade acima.
. Exemplo: Na coluna `Sal√°rio`, 50% dos valores est√£o abaixo de **4500**.

### **75%:**
. Terceiro quartil (Q3), ou seja, o valor abaixo do qual 75% dos dados est√£o situados.
. Exemplo: Para `B√¥nus`, 75% dos valores est√£o abaixo de **525**.

### **max:**
. O maior valor na coluna.
. Exemplo: O maior `Sal√°rio` √© **6000** e a maior Idade √© **34 anos**.

Fique tranquilo(a) se n√£o entendeu o que significa algumas dessas medidas estat√≠sticas chegaremos em uma explica√ß√£o melhor elaborada para cada uma delas no futuro. S√≥ guarde essa informa√ß√£o ela √© muito √∫til para entender rapidamente a distribui√ß√£o e a variabilidade dos seus dados, al√©m de detectar poss√≠veis outliers (valores muito distantes dos demais).

## **Explorando Dados**
**. Exibir informa√ß√µes gerais:**

In [23]:
print(df_combinado.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   ID       3 non-null      int64  
 1   Nome     3 non-null      object 
 2   Idade    3 non-null      int64  
 3   Cidade   3 non-null      object 
 4   Cargo    3 non-null      object 
 5   Sal√°rio  3 non-null      int64  
 6   B√¥nus    3 non-null      float64
dtypes: float64(1), int64(3), object(3)
memory usage: 300.0+ bytes
None


Essa √© a sa√≠da do m√©todo `info()` do pandas, que fornece um resumo t√©cnico sobre o DataFrame.

**`<class 'pandas.core.frame.DataFrame'>:`**

. Indica que o objeto em quest√£o √© um DataFrame, a estrutura principal de dados do pandas.

**`RangeIndex: 3 entries, 0 to 2:`**

. O √≠ndice do DataFrame cont√©m 3 linhas (entradas), indo de 0 a 2.

**`Data columns (total 7 columns):`**

. O DataFrame tem **7 colunas** no total.

Cada linha a seguir descreve uma coluna do DataFrame:

**`#`**:
. √çndice da coluna na tabela de resumo.

**`Column`**:
. Nome da coluna.

**`Non-Null Count`**:
. N√∫mero de valores n√£o nulos em cada coluna.
. Exemplo: Todas as colunas possuem 3 valores n√£o nulos, o que indica que n√£o h√° valores ausentes (`NaN`) no DataFrame.

**`Dtype`**:
. Tipo de dado (`dtype`) armazenado na coluna:

**`int64`**: Valores inteiros (ex.: `ID`, `Idade`, `Sal√°rio`).

**`float64`**: Valores de ponto flutuante (ex.: `B√¥nus`).

**`object`**: Strings ou outros objetos (ex.: `Nome`, `Cidade`, `Cargo`).

**`Uso de Mem√≥ria`**:

Estimativa do espa√ßo na mem√≥ria utilizado pelo DataFrame, que neste caso √© **300 bytes**.

Ou seja, o m√©todo `info()` √© √∫til para:

**1. Identificar dados ausentes**: Verificando as contagens de valores n√£o nulos (`Non-Null Count`).

**2. Entender a estrutura do DataFrame**: N√∫mero de linhas, colunas e seus tipos de dados.

**3. Checar consumo de mem√≥ria**, especialmente em grandes conjuntos de dados.

**. Contar cargos √∫nicos:**

In [24]:
print(df_combinado['Cargo'].value_counts())

Cargo
Analista         1
Desenvolvedor    1
Designer         1
Name: count, dtype: int64


Com esses exemplos, espero que voc√™ tenha conseguido entender como criar DataFrames, salv√°-los em diferentes formatos e combin√°-los para realizar an√°lises simples.

Seja para organizar tabelas, explorar informa√ß√µes ou criar relat√≥rios, o Pandas √© uma ferramenta indispens√°vel para o dia a dia de quem trabalha com dados. Al√©m disso, ele facilita at√© mesmo tarefas mais complexas com poucos comandos.