# Aula de Pandas para Ciência de Dados


# <center>📊 Pandas: A Biblioteca Essencial para Análise de Dados em Python</center>

O **Pandas** é a principal biblioteca Python para **manipulação e análise profissional de dados**. Desenvolvida como projeto *open-source*, tornou-se o padrão da indústria para trabalhar com informações estruturadas.

## 🔍 Principais Características

### 🏗️ Estruturas de Dados
- `DataFrame`: Tabelas multidimensionais (como planilhas Excel avançadas)
- `Series`: Arrays unidimensionais otimizados (colunas de dados)

### ⚡ Funcionalidades-Chave

```
python
# Exemplo de código embutido
df = pd.DataFrame({'coluna': [1, 2, 3]})
print(df.head())
```



In [None]:
# Importação do pandas
import pandas as pd
import numpy as np


## 2. Criando DataFrames

Podemos criar DataFrames a partir de diversos tipos de fontes de dados como:
- Dicionários
- Listas
- Arrays NumPy
- Arquivos externos (CSV, Excel, etc)


In [None]:
# Criando um DataFrame a partir de um dicionário
data = {
    'Nome': ['Ana', 'João', 'Maria', 'Carlos'],
    'Idade': [25, 30, 22, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']
}

df = pd.DataFrame(data)
df

## 3. Operações Básicas com DataFrames

**Inspeção de Dados**

***Visualizações***

In [None]:
# Visualizando as primeiras linhas
print("Primeiras linhas:")
print(df.head(2))

# Visualizando as últimas linhas
print("\nÚltimas linhas:")
print(df.tail(2))

# Informações sobre o DataFrame
print("\nInformações do DataFrame:")
print(df.info())

# Estatísticas descritivas
print("\nEstatísticas descritivas:")
print(df.describe())

## 4. Seleção e Indexação

**Acessando partes do DataFrame**

In [None]:
# Selecionando uma coluna
print("Coluna Nome:")
print(df['Nome'])

# Selecionando múltiplas colunas
print("\nColunas Nome e Idade:")
print(df[['Nome', 'Idade']])

# Selecionando linhas por índice
print("\nSegunda linha:")
print(df.iloc[1])

# Selecionando com condições
print("\nPessoas com mais de 25 anos:")
print(df[df['Idade'] > 25])

## 5. Lidando com Dados Faltantes

***Identificação e tratamento de valores nulos***

Dados faltantes (NaN - Not a Number) são comuns em análise de dados. Vamos aprender a lidar com eles.

In [None]:
# Criando DataFrame com dados faltantes
data = {
    'Nome': ['Ana', 'João', 'Maria', 'Carlos', None],
    'Idade': [25, 30, None, 35, 28],
    'Cidade': ['São Paulo', 'Rio de Janeiro', None, 'Porto Alegre', 'Curitiba']
}

df_nan = pd.DataFrame(data)
print("DataFrame original:")
print(df_nan)

# Identificando valores faltantes
print("\nValores faltantes:")
print(df_nan.isnull())

# Removendo linhas com valores faltantes
print("\nRemovendo linhas com NaN:")
print(df_nan.dropna())

# Preenchendo valores faltantes
print("\nPreenchendo NaN com valores padrão:")
print(df_nan.fillna({'Nome': 'Desconhecido', 'Idade': df_nan['Idade'].mean(), 'Cidade': 'Não informada'}))

## 6. Agregação e Agrupamento

***Análise de dados agregados***

Operações de agregação são essenciais para análise de dados.

In [None]:
# Criando DataFrame de exemplo
vendas = {
    'Vendedor': ['Ana', 'João', 'Ana', 'Carlos', 'João', 'Maria'],
    'Produto': ['TV', 'Notebook', 'Celular', 'TV', 'Celular', 'Notebook'],
    'Valor': [2000, 3500, 1500, 2200, 1400, 3600],
    'Data': ['2023-01-15', '2023-01-20', '2023-01-10', '2023-02-05', '2023-02-15', '2023-03-10']
}

df_vendas = pd.DataFrame(vendas)
df_vendas['Data'] = pd.to_datetime(df_vendas['Data'])

# Agregações básicas
print("Soma dos valores:")
print(df_vendas['Valor'].sum())

print("\nMédia dos valores:")
print(df_vendas['Valor'].mean())

# Agrupamento
print("\nTotal de vendas por vendedor:")
print(df_vendas.groupby('Vendedor')['Valor'].sum())

print("\nMédia de vendas por produto:")
print(df_vendas.groupby('Produto')['Valor'].mean())

## 7. Visualização Básica com Pandas

***Gráficos básicos com Pandas***

O Pandas oferece integração com Matplotlib para visualizações simples.


In [None]:
# Gráfico de barras
df_vendas['Produto'].value_counts().plot(kind='bar', title='Vendas por Produto')

# Histograma
df_vendas['Valor'].plot(kind='hist', bins=5, title='Distribuição de Valores')

# Boxplot
df_vendas.boxplot(column='Valor', by='Produto')