# Aula de Pandas para Ciência de Dados - Introdução à Manipulação de Dados

#### Descrição:
Esta aula introdutória explora a biblioteca Pandas, uma ferramenta essencial para cientistas de dados.
Abordaremos desde os conceitos básicos até operações mais avançadas de manipulação e análise de dados.

**Objetivos da aula:**
1. Entender os conceitos básicos do Pandas
2. Aprender a manipular DataFrames
3. Realizar operações de limpeza e transformação de dados
4. Visualizar dados básicos com Pandas

**Pré-requisitos:**
- Conhecimento básico de programação em Python (variáveis, listas, dicionários).
- Familiaridade com o ambiente Google Colab (criação e execução de notebooks).


## 1. Introdução ao Pandas

* Nesta seção, vamos abordar os conceitos básicos do Pandas, como Series e DataFrames.

O Pandas é uma biblioteca Python de código aberto para manipulação e análise de dados. Ele fornece estruturas de dados e operações para manipular tabelas numéricas e séries temporais.

Principais estruturas:
- **Series**: Array unidimensional que pode armazenar qualquer tipo de dados
- **DataFrame**: Estrutura bidimensional (tabela) com linhas e colunas

Vamos começar importando a biblioteca:

In [1]:
# Importando as bibliotecas necessárias
# Pandas: biblioteca para manipulação e análise de dados
# NumPy: biblioteca para operações numéricas em arrays
import pandas as pd
import numpy as np


## 2. Criando DataFrames

DataFrames são estruturas de dados tabulares, semelhantes a planilhas, que facilitam a manipulação e análise de dados em Python.

Vamos explorar como criá-los a partir de diferentes fontes:
- Dicionários: Criação rápida de DataFrames a partir de dados em formato de dicionário.
- Listas: Construção de DataFrames a partir de listas de listas ou listas de dicionários.
- Arrays NumPy: Conversão de arrays NumPy em DataFrames para análise eficiente.
- Arquivos externos (CSV, Excel, etc.): Importação de dados de arquivos externos para DataFrames.


In [None]:
# Criando um DataFrame a partir de um dicionário
data = {
    'Nome': ['Ana', 'João', 'Maria', 'Carlos'],
    'Idade': [25, 30, 22, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']
}
# pd.DataFrame(): cria um DataFrame a partir de um dicionário
df = pd.DataFrame(data)
df

## 3. Operações Básicas com DataFrames: Explorando e Entendendo seus Dados

####  Antes de mergulhar na análise, é crucial entender as operações básicas que o Pandas oferece:

- Visualização de dados: `head()`, `tail()`, `info()`, `describe()`
- Seleção de colunas e linhas
- Ordenação de dados: `sort_values()`
- Filtragem de dados: seleção condicional
- Adição e remoção de colunas

In [None]:
# Visualizando as primeiras linhas
print("Primeiras linhas:")
print(df.head(2))

# Visualizando as últimas linhas
print("\nÚltimas linhas:")
print(df.tail(2))

# Informações sobre o DataFrame
print("\nInformações do DataFrame:")
print(df.info())

# Estatísticas descritivas
print("\nEstatísticas descritivas:")
print(df.describe())

## 4. Seleção e Indexação: Acessando Dados Específicos

#### A seleção e indexação são cruciais para acessar e manipular dados específicos em um DataFrame:

Podemos selecionar dados de várias formas:

In [None]:
# Selecionando uma coluna
print("Coluna Nome:")
print(df['Nome'])

# Selecionando múltiplas colunas
print("\nColunas Nome e Idade:")
print(df[['Nome', 'Idade']])

# Selecionando linhas por índice
print("\nSegunda linha:")
print(df.iloc[1])

# Selecionando com condições
print("\nPessoas com mais de 25 anos:")
print(df[df['Idade'] > 25])

## 5. Lidando com Dados Faltantes: Limpeza e Preparação de Dados

#### Dados faltantes (NaN - Not a Number) são comuns em conjuntos de dados reais.

Vamos aprender a lidar com eles.

In [None]:
# Criando DataFrame com dados faltantes
data = {
    'Nome': ['Ana', 'João', 'Maria', 'Carlos', None],
    'Idade': [25, 30, None, 35, 28],
    'Cidade': ['São Paulo', 'Rio de Janeiro', None, 'Porto Alegre', 'Curitiba']
}

df_nan = pd.DataFrame(data)
print("DataFrame original:")
print(df_nan)

# Identificando valores faltantes
print("\nValores faltantes:")
print(df_nan.isnull())

# Removendo linhas com valores faltantes
print("\nRemovendo linhas com NaN:")
print(df_nan.dropna())

# Preenchendo valores faltantes
print("\nPreenchendo NaN com valores padrão:")
print(df_nan.fillna({'Nome': 'Desconhecido', 'Idade': df_nan['Idade'].mean(), 'Cidade': 'Não informada'}))

## 6. Agregação e Agrupamento: Resumindo e Analisando Dados

#### A agregação e o agrupamento são essenciais para resumir e analisar dados em DataFrames:

- Agrupamento de dados: `groupby()`
- Funções de agregação: `sum()`, `mean()`, `count()`, `min()`, `max()`, etc.
- Aplicação de funções personalizadas: `agg()`, `apply()`
- Tabelas dinâmicas: `pivot_table()`

In [None]:
# Criando DataFrame de exemplo
vendas = {
    'Vendedor': ['Ana', 'João', 'Ana', 'Carlos', 'João', 'Maria'],
    'Produto': ['TV', 'Notebook', 'Celular', 'TV', 'Celular', 'Notebook'],
    'Valor': [2000, 3500, 1500, 2200, 1400, 3600],
    'Data': ['2023-01-15', '2023-01-20', '2023-01-10', '2023-02-05', '2023-02-15', '2023-03-10']
}

df_vendas = pd.DataFrame(vendas)
df_vendas['Data'] = pd.to_datetime(df_vendas['Data'])

# Agregações básicas
print("Soma dos valores:")
print(df_vendas['Valor'].sum())

print("\nMédia dos valores:")
print(df_vendas['Valor'].mean())

# Agrupamento
print("\nTotal de vendas por vendedor:")
print(df_vendas.groupby('Vendedor')['Valor'].sum())

print("\nMédia de vendas por produto:")
print(df_vendas.groupby('Produto')['Valor'].mean())

## 7. Visualização Básica com Pandas: Explorando Dados Visualmente

####  O Pandas oferece integração com Matplotlib para criar visualizações simples e informativas:

- Gráficos de linhas: `plot(kind='line')`
- Gráficos de barras: `plot(kind='bar')`
- Histogramas: `plot(kind='hist')`
- Gráficos de dispersão: `plot(kind='scatter')`
- Personalização de gráficos: títulos, rótulos, cores, etc.

In [None]:
# Gráfico de barras
df_vendas['Produto'].value_counts().plot(kind='bar', title='Vendas por Produto')

# Histograma
df_vendas['Valor'].plot(kind='hist', bins=5, title='Distribuição de Valores')

# Boxplot
df_vendas.boxplot(column='Valor', by='Produto')