
# Aula 5 - Manipulação de Dados com Pandas

Nesta aula, vamos explorar a biblioteca **Pandas**, que é amplamente utilizada em Python para manipulação e análise de dados. Vamos abordar os seguintes tópicos:

- Introdução a **Series** e **DataFrames**.
- Carregamento e leitura de dados (CSV, Excel, etc.).
- Operações básicas com DataFrames (seleção, filtragem, agrupamento).
- Limpeza e transformação de dados.

---

## Instalando o Pandas

Se ainda não tiver o Pandas instalado, você pode rodar o seguinte comando:

```bash
pip install pandas
```



## Introdução a Series e DataFrames

**Pandas** é uma biblioteca poderosa para manipulação de dados, construída em cima do **NumPy**. Existem duas estruturas de dados principais no Pandas:

- **Series**: São arrays unidimensionais com rótulos (semelhante a dicionários).
- **DataFrames**: São tabelas bidimensionais com rótulos para linhas e colunas (semelhante a planilhas).

Vamos criar nossos primeiros **Series** e **DataFrames**.



### Criando Series

Um objeto **Series** pode ser criado a partir de listas, arrays NumPy, ou dicionários.

#### Exemplo:


In [None]:
# Importando o Pandas
import pandas as pd

# Criando uma Series a partir de uma lista
series_exemplo = pd.Series([10, 20, 30, 40])#se for minusculo o "s" retorna a um erro
print(type(series_exemplo))

# Criando uma Series com rótulos personalizados
series_rotulos = pd.Series([100, 200, 300], index=['a', 'b', 'c'])

# Exibindo os resultados
print("Series simples:")
print(series_exemplo)

print("Series com rótulos:")
print(series_rotulos)

<class 'pandas.core.series.Series'>
Series simples:
0    10
1    20
2    30
3    40
dtype: int64
Series com rótulos:
a    100
b    200
c    300
dtype: int64



### Criando DataFrames

Um **DataFrame** é uma estrutura de dados bidimensional que pode ser criada a partir de dicionários, listas, ou arrays. Ele é equivalente a uma tabela de dados.

#### Exemplo:


In [None]:
# Criando um DataFrame a partir de um dicionário
dados = {
    'Nome': ['Ana', 'João', 'Maria','Josimar'],
    'Idade': [23, 34, 45,1000],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte','Rio de Janeiro']
}

df = pd.DataFrame((dados), index=['a','b','c','d'])

# Exibindo o DataFrame
print(df)


      Nome  Idade          Cidade
a      Ana     23       São Paulo
b     João     34  Rio de Janeiro
c    Maria     45  Belo Horizonte
d  Josimar   1000  Rio de Janeiro



## Carregamento e Leitura de Dados

Uma das funções mais úteis do Pandas é a capacidade de carregar dados a partir de diferentes formatos, como CSV, Excel, SQL, entre outros.

### Lendo um arquivo CSV

Podemos usar a função **`pd.read_csv()`** para ler arquivos CSV.

#### Exemplo de leitura de arquivo CSV:
```python
# Carregando um arquivo CSV
df = pd.read_csv('dados.csv')
```

Outras funções úteis:
- `pd.read_excel()`: Lê arquivos Excel.
- `pd.read_sql()`: Lê dados de um banco de dados SQL.

### Salvando um DataFrame

Você também pode salvar DataFrames em arquivos CSV ou Excel:
```python
# Salvando em CSV
df.to_csv('saida.csv', index=False)

# Salvando em Excel
df.to_excel('saida.xlsx', index=False)
```



## Operações Básicas com DataFrames

Com Pandas, podemos realizar várias operações em DataFrames, como:

- **Seleção** de colunas ou linhas.
- **Filtragem** de dados com base em condições.
- **Agrupamento** de dados para análise.

### Seleção de Colunas e Linhas

#### Exemplo:


In [None]:
# Selecionando uma coluna
print("Coluna Nome:")
print(df['Nome'])

# Selecionando múltiplas colunas
print("\n\nColunas Nome e Idade:")
print(df[['Nome', 'Idade']])

# Selecionando uma linha pelo índice
print("\n\nLinha 0:")
print(df.iloc[0])

# Selecionando uma linha pelo rótulo
print("\n\nLinha com rótulo 'a':")
print(df.loc['a'])

Coluna Nome:
a        Ana
b       João
c      Maria
d    Josimar
Name: Nome, dtype: object


Colunas Nome e Idade:
      Nome  Idade
a      Ana     23
b     João     34
c    Maria     45
d  Josimar   1000


Linha 0:
Nome            Ana
Idade            23
Cidade    São Paulo
Name: a, dtype: object


Linha com rótulo 'a':
Nome            Ana
Idade            23
Cidade    São Paulo
Name: a, dtype: object



### Filtragem de Dados

Podemos filtrar os dados de um DataFrame com base em condições, como se fosse um "filtro" em uma planilha.

#### Exemplo:


In [None]:
# Filtrando pessoas com idade maior que 30
filtro_idade = df[df['Idade'] > 30]

print("Pessoas com idade maior que 30:")
print(filtro_idade)

Pessoas com idade maior que 30:
      Nome  Idade          Cidade
b     João     34  Rio de Janeiro
c    Maria     45  Belo Horizonte
d  Josimar   1000   Rio de Janero



### Agrupamento de Dados

A função **`groupby()`** permite agrupar dados por uma coluna, útil para realizar análises de categorias.

#### Exemplo:


In [None]:
# Agrupando por Cidade e calculando a idade média
agrupado = df.groupby('Cidade')['Idade'].mean()

print("Idade média por cidade:")
print(agrupado)

Idade média por cidade:
Cidade
Belo Horizonte     45.0
Rio de Janeiro    517.0
São Paulo          23.0
Name: Idade, dtype: float64



## Limpeza e Transformação de Dados

Pandas também oferece ferramentas poderosas para limpeza e transformação de dados, como:

- **Tratamento de valores faltantes**.
- **Remoção de duplicatas**.
- **Renomeação de colunas**.
- **Transformação de dados** (como converter tipos de dados).

### Tratamento de Valores Faltantes

#### Exemplo:


In [None]:
# Criando um DataFrame com valores faltantes
df_com_faltantes = pd.DataFrame({
    'Nome': ['Ana', 'João', 'Maria', 'Pedro'],
    'Idade': [23, None, 45, 30],
    'Cidade': ['São Paulo', 'Rio de Janeiro', None, 'Curitiba']
})

# Preenchendo valores faltantes com um valor padrão
df_preenchido = df_com_faltantes.fillna('Não informado')

# Exibindo o DataFrame original e o preenchido
print("DataFrame original:")
print(df_com_faltantes)
print("DataFrame com valores preenchidos:")
print(df_preenchido)

DataFrame original:
    Nome  Idade          Cidade
0    Ana   23.0       São Paulo
1   João    NaN  Rio de Janeiro
2  Maria   45.0            None
3  Pedro   30.0        Curitiba
DataFrame com valores preenchidos:
    Nome          Idade          Cidade
0    Ana           23.0       São Paulo
1   João  Não informado  Rio de Janeiro
2  Maria           45.0   Não informado
3  Pedro           30.0        Curitiba



#### **Mini exercício 1:**
Carregue um arquivo CSV com dados de vendas. Exiba as 5 primeiras linhas e a coluna que contém os totais de vendas.


In [None]:
# Resposta Mini exercício 1
# df_vendas = pd.read_csv('vendas.csv')
# print(df_vendas.head())
# print(df_vendas['Total_Vendas'])


#### **Mini exercício 2:**
Filtre as vendas que ocorreram no ano de 2023 e calcule o valor total dessas vendas.


In [None]:
# Resposta Mini exercício 2
# vendas_2023 = df_vendas[df_vendas['Ano'] == 2023]
# total_vendas_2023 = vendas_2023['Total_Vendas'].sum()
# print("Total de vendas em 2023:", total_vendas_2023)