# Introdução ao Pandas e manipulação de arquivos com Pandas

- Introdução ao Pandas
    - Conceitos Básicos de Pandas
      - Estruturas de dados: Series e DataFrames
      - Criação de Series e DataFrames a partir de listas e dicionários
      - Visualização de dados: cabeçalho, cauda e informações básicas
- Manipulação de Dados com Pandas
    - Carregamento de Dados
      - Leitura de dados de diferentes fontes (CSV, Excel, SQL) 
      - Visualização inicial e sumário estatístico
    - Limpeza e Preparação de Dados
      - Tratamento de valores ausentes
      - Remoção de duplicatas
      - Filtragem de dados  
    - Transformação de Dados
      - Operações com colunas (adicionar, remover, modificar)
      - Funções de mapeamento
      - Agrupamento e agregação


## Objetivo
- Fornecer uma compreensão abrangente da biblioteca Pandas, uma ferramenta essencial no Python para análise de dados. Ao final do curso, você será capaz de manipular, limpar e explorar conjuntos de dados de forma eficiente. Estaremos cobrindo desde a configuração do ambiente de desenvolvimento até a realização de análises de dados complexas e visualização de dados.

# Visão Geral do Pandas e sua Importância
- Pandas é uma biblioteca de código aberto que fornece estruturas de dados de alto desempenho e ferramentas de análise de dados para a linguagem Python. 
- Com Pandas, você pode realizar tarefas essenciais de __pré-processamento__ e __análise de dados__, como a __limpeza de dados__, transformações, agregações, e muito mais. 
- A biblioteca é amplamente utilizada em diversas áreas, incluindo finanças, neurociência, economia, estatística, publicidade e web analytics.

### Exemplo de Implementação Inicial com Pandas:
- Vamos começar com um exemplo simples para demonstrar como iniciar com o Pandas. 

In [None]:
import pandas as pd

# Criando um DataFrame simples
data = {
    'Nome': ['João', 'Ana', 'Pedro', 'Maria'],
    'Idade': [28, 34, 29, 32],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre']
}

df = pd.DataFrame(data)

# print(df, "\n", "_"*50, "\n")

# Em notebooks o que é retornado da célula é renderizado (exibido) na saída da célula de código, não exigindo a função print
df


Cria um DataFrame, que é uma das principais estruturas de dados do Pandas. 

Um DataFrame é semelhante a uma tabela de banco de dados ou uma planilha de Excel, com linhas e colunas. 

No exemplo acima, criamos um DataFrame a partir de um dicionário de listas, uma estrutura de dados muito comum em Python.

## Séries e DataFrames
- Series: Uma Series é uma coluna unidimensional capaz de armazenar qualquer tipo de dados (inteiros, strings, floats, objetos Python, etc.). Cada elemento de uma Series é indexado, começando por padrão do índice 0.

In [8]:
import pandas as pd

# Criando uma Series a partir de uma lista
idades = pd.Series([25, 30, 35.0, 40])
print(idades)
# idades

0    25.0
1    30.0
2    35.0
3    40.0
dtype: float64


- DataFrames: Um DataFrame é uma estrutura de dados bidimensional, como uma planilha ou uma tabela de banco de dados, com colunas de diferentes tipos. Pode ser visto como um conjunto de Series que compartilham o mesmo índice.

In [None]:
# Criando um DataFrame a partir de um dicionário de listas
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana','Fernando'],
    'Idade': [28, 34, 29, 32, 45],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Brasília']
}
df = pd.DataFrame(data)
df


### Criação de Series e DataFrames
- A partir de __listas__: Podemos criar uma Series diretamente de uma lista. Para criar um DataFrame a partir de listas, podemos combinar várias listas em um dicionário, onde cada chave se torna o nome da coluna.
- A partir de __dicionários__: Um DataFrame também pode ser criado a partir de um dicionário de listas ou de Series, proporcionando uma forma intuitiva de especificar dados junto com seus rótulos de coluna.

## Visualização de Dados
- Pandas oferece métodos simples para uma rápida inspeção dos seus dados.
- Ferramentas cruciais para uma primeira análise exploratória dos dados, permitindo uma visão geral rápida e eficiente da estrutura e conteúdo do seu conjunto de dados.

Métodos <code>.head() e .tail()</code>: Use df.head(n) para visualizar as primeiras n linhas do DataFrame df, e df.tail(n) para as últimas n. Se n não for especificado, o padrão é 5.

In [11]:
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Diana','Fernando','João', 'Ana', 'Pedro', 'Maria', 'Alice', 'Bob', 'Charlie'],
    'Idade': [28, 34, 29, 32, 45, 28, 34, 29, 32,25, 30, 35],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'Brasília','São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre', 'New York', 'Paris', 'London']
}
df = pd.DataFrame(data)

print(df.head(3))  # Mostra as primeiras 5 linhas

print('*'*80)

print(df.tail(2)) 


     Nome  Idade          Cidade
0     Ana     28       São Paulo
1   Bruno     34  Rio de Janeiro
2  Carlos     29  Belo Horizonte
********************************************************************************
       Nome  Idade  Cidade
10      Bob     30   Paris
11  Charlie     35  London


- Operações básicas de manipulação de dados com Pandas, como seleção de colunas, filtragem de linhas, e cálculos simples (médias, somas).

In [None]:
import pandas as pd
# Seleção de colunas
print(df['Nome'])

# Filtragem de linhas
print(df[df['Idade'] > 18])

# Cálculos simples
print(df['Idade'].mean())


<code>.info()</code>: Este método fornece um resumo conciso do DataFrame, incluindo o número de entradas não-nulas em cada coluna, o tipo de dados e o uso de memória.

In [None]:
df.info()

<code>.describe()</code>: Oferece uma visão geral estatística das colunas numéricas, como contagem, média, desvio padrão, mínimos e máximos.

In [None]:
df.describe()


## Limpeza de Dados

A limpeza de dados é uma parte crítica da análise de dados. Pandas oferece várias funções para facilitar este processo.

In [None]:
# Removendo linhas com valores ausentes
df_limpo = df.dropna()

# Preenchendo valores ausentes com zero
df_preenchido = df.fillna(0)

# Removendo duplicatas
df_unico = df.drop_duplicates()

# Leitura de Dados de Diferentes Fontes


## Arquivos CSV
 Arquivos CSV (Valores Separados por Vírgula) são uma das formas mais comuns de armazenamento de dados tabulares. 
 
 Utilizar a biblioteca Pandas para ler, escrever e manipular dados em arquivos CSV de maneira eficiente, aproveitando as funcionalidades avancadas para analise de dados.
 
 Função pd.read_csv() para carregar dados de um arquivo CSV diretamente para um DataFrame, permitindo uma manipulação fácil e flexível dos dados.

 - Parâmetros úteis como sep para delimitadores customizados e usecols para selecionar colunas específicas.

In [13]:

import pandas as pd

# Carregando dados de um arquivo CSV
df_csv = pd.read_csv('dadosFictícios/Exemplo_Aula_8.csv')
# df_csv.info()
df_csv


Unnamed: 0,Produto,Preço,Quantidade,Data
0,Mesa,235.76,18,2023-01-01
1,Mesa,295.82,7,2023-01-02
2,Mesa,235.59,8,2023-01-03
3,Sofá,171.8,19,2023-01-04
4,Sofá,168.39,12,2023-01-05
5,Cadeira,285.38,18,2023-01-06
6,Cadeira,449.83,10,2023-01-07
7,Mesa,477.65,15,2023-01-08
8,Mesa,343.3,10,2023-01-09
9,Sofá,338.66,19,2023-01-10


In [None]:
import pandas as pd
# Exemplo: Leitura de um arquivo CSV com Pandas
df = pd.read_csv('dados/usuarios.csv')
print(df.head())  # Mostra as primeiras 5 linhas do DataFrame

Escrita para CSV:


In [None]:
df.to_csv('dados/saida_pandas.csv', index=False)


Exportar um DataFrame para um arquivo CSV usando o método to_csv(), permitindo salvar os resultados de análises e manipulações dos dados.

- Argumento index=False para evitar a escrita do índice como uma coluna no arquivo CSV.

In [None]:
# Exemplo: Escrita de um DataFrame em um arquivo CSV
df_novo = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carol'],
    'Idade': [25, 30, 22],
    'Email': ['alice@example.com', 'bob@example.com', 'carol@example.com']
})

df_novo.to_csv('saida_pandas.csv', index=False)



## Tarefas de dados:
Utilizar um arquivo CSV de sua escolha (pode ser um conjunto de dados público sobre um tema de interesse) para realizar as seguintes tarefas com Pandas:
1. Carregar os dados em um DataFrame.
2. Realizar uma análise exploratória básica (número de linhas, colunas, tipos de dados).
3. Limpar os dados se necessário (tratar valores ausentes, remover duplicatas).
4. Criar novas colunas com dados derivados ou calculados.
5. Salvar o DataFrame modificado em um novo arquivo CSV.


In [None]:

# Solucao do Desafio (Exemplo com dados ficticios)
# 1. Carregar os dados
df = pd.read_csv('dados/usuarios.csv')
# 2. Analise exploratoria basica
print(df.info())

# 3. Limpeza dos dados
df.dropna(inplace=True)  # Remover linhas com valores ausentes
df.drop_duplicates(inplace=True)  # Remover duplicatas

# 4. Criar novas colunas
df['Nova_Coluna'] = df['idade'] % 2

print(df.head)
# 5. Salvar em novo arquivo CSV
df.to_csv('dados/exemplo_modificado.csv', index=False)


# Manipulacao de Dados JSON com Pandas

## Objetivo:
Utilizar a biblioteca Pandas para manipular dados no formato JSON, convertendo-os facilmente entre formatos JSON e DataFrame para analise e processamento de dados.


Função pd.read_json() para carregar dados JSON em um DataFrame, discutindo diferentes opções de orientação de dados (como records, split, index, etc.) e como elas afetam a leitura dos dados.

In [None]:
import pandas as pd

# Exemplo: Carregando dados JSON em um DataFrame
dados_json = '{"nome": ["Alice", "Bob", "Carol"], "idade": [25, 30, 22], "email": ["alice@example.com", "bob@example.com", "carol@example.com"]}'
df = pd.read_json(dados_json)
print(df)


Usar a função pd.read_json() para carregar dados JSON em um DataFrame, discutindo diferentes opções de orientação de dados (como records, split, index, etc.) e como elas afetam a leitura dos dados.

In [None]:
# Carregando JSON com orientação diferente
df_orientado = pd.read_json('dados/saidaPessoas.json', orient='records')
print(df_orientado)

df_orientado.to_json('dados/saida_orientada.json', orient='records', indent=4)


In [None]:
# Exemplo: Convertendo um DataFrame em JSON
df_novo = pd.DataFrame({
    'Produto': ['Mesa', 'Cadeira', 'Lampada'],
    'Preco': [300.00, 150.00, 50.00],
    'Quantidade': [10, 20, 30]
})

json_saida = df_novo.to_json(orient='records', indent=4)
print(json_saida)


Normalização de dados JSON aninhados usando pd.json_normalize, facilitando a análise de dados complexos e hierárquicos.

In [None]:
dados_aninhados = [
    {'nome': 'João', 'info': {'idade': 30, 'cidade': 'São Paulo'}},
    {'nome': 'Ana', 'info': {'idade': 25, 'cidade': 'Rio de Janeiro'}}
]

df_normalizado = pd.json_normalize(dados_aninhados)
print(df_normalizado)


Análise com Pandas: Convertendo dados JSON em DataFrame para análise mais profunda usando Pandas.

In [None]:
import pandas as pd
import json

# Simulando dados JSON
dados_json = '''
[
    {"nome": "Alice", "idade": 30, "cidade": "New York"},
    {"nome": "Bob", "idade": 25, "cidade": "Los Angeles"}
]
'''
dados = json.loads(dados_json)
df = pd.DataFrame(dados)
print(df)



## Desafio:
Dado um DataFrame contendo informações sobre filmes (titulo, gênero, ano de lançamento), converta-o para o formato JSON. Em seguida, carregue esse JSON de volta para um DataFrame e adicione uma nova coluna com a duração dos filmes. Salve o DataFrame final como um novo arquivo JSON.


## Arquivos Excel:

### Objetivo:
Usar a biblioteca Pandas para a manipulacao de dados provenientes de arquivos Excel, abrangendo desde a leitura de multiplas planilhas ate a escrita de dados em novos arquivos Excel.

Pandas pode facilmente ler planilhas do Excel usando o método pd.read_excel(), tornando a transição de dados do Excel para análise em Python suave.


In [None]:
# Carregando dados de um arquivo Excel
df_excel = pd.read_excel('dadosFictícios/Exemplo_Aula_10.xlsx')
df_excel

Carregar múltiplas planilhas de um único arquivo Excel em diferentes DataFrames, utilizando o argumento sheet_name.

In [None]:
xlsx = pd.ExcelFile('dados/exemplo.xlsx')
df_sheet1 = pd.read_excel(xlsx, 'Planilha1')
df_sheet2 = pd.read_excel(xlsx, 'Planilha2')


Escrevendo dados em um arquivo Excel

In [None]:

# Exemplo: Escrevendo dados em um arquivo Excel
df_novo = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carol'],
    'Idade': [25, 30, 22],
    'Email': ['alice@example.com', 'bob@example.com', 'carol@example.com']
})

with pd.ExcelWriter('dados/saida.xlsx') as writer:
    df_novo.to_excel(writer, sheet_name='NovaPlanilha', index=False)


Salvar um DataFrame em um arquivo Excel, usando o método to_excel(), e como escrever múltiplos DataFrames em diferentes planilhas do mesmo arquivo.

In [None]:
with pd.ExcelWriter('dados/saida.xlsx') as writer:
    df_sheet1.to_excel(writer, sheet_name='NovaPlanilha1', index=False)
    df_sheet2.to_excel(writer, sheet_name='NovaPlanilha2', index=False)


Combinação de múltiplos DataFrames e a utilização de funções como merge e concat para integrar dados de várias fontes.

In [None]:
# Concatenando dados de duas planilhas
df_concatenado = pd.concat([df_sheet1, df_sheet2], ignore_index=True)
print(df_concatenado)


## Combinando Dados de Multiplos Arquivos Excel com Pandas


### Objetivo:
Combinar dados de multiplas fontes, especificamente de varios arquivos Excel, em um unico DataFrame usando Pandas, para analise consolidada.


In [None]:

import pandas as pd

# Carregando dados de multiplos arquivos Excel
df1 = pd.read_excel('dados_janeiro.xlsx')
df2 = pd.read_excel('dados_fevereiro.xlsx')

# Combinando os DataFrames
df_combinado = pd.concat([df1, df2], ignore_index=True)
print(df_combinado.head())


In [None]:

# Exemplo: Combinando dados usando merge
df_clientes = pd.read_excel('clientes.xlsx')
df_vendas = pd.read_excel('vendas.xlsx')

df_final = pd.merge(df_vendas, df_clientes, on='cliente_id')
print(df_final.head())



## Desafio:
Imagine que você tenha dois arquivos Excel, cada um contendo dados de vendas de diferentes meses. Seu desafio é carregar ambos os arquivos em DataFrames, combinar os dados em um único DataFrame e calcular o total de vendas para cada produto. Finalmente, escreva o resultado em um novo arquivo Excel.



## Desafio:
Você possui três arquivos Excel com dados de vendas dos primeiros três trimestres do ano. Cada arquivo contém dados de vendas com as colunas 'Data', 'Produto' e 'Quantidade'. Seu desafio é carregar esses arquivos em DataFrames separados, combiná-los em um único DataFrame e, em seguida, calcular o total de vendas por produto.


## Insights para Dados
Os dados muitas vezes estão espalhados por vários arquivos ou planilhas e a habilidade de combiná-los é crucial para análises abrangentes.

Cenário comum onde dados de vendas estão distribuídos mensalmente em diferentes arquivos e precisam ser consolidados para análise anual.

Carregar múltiplos arquivos Excel, usando laços for junto com listas de nomes de arquivos ou padrões de correspondência de nomes.

In [None]:
import pandas as pd
import glob

# Carregando todos os arquivos Excel no diretório atual
arquivos_excel = glob.glob('dados_mes_*.xlsx')
df_total = pd.DataFrame()

for arquivo in arquivos_excel:
    df = pd.read_excel(arquivo)
    df_total = pd.concat([df_total, df], ignore_index=True)

print(df_total)


Utilizar pd.concat() para combinar DataFrames verticalmente (unindo dados) e pd.merge() para combinar horizontalmente (enriquecendo os dados com informações adicionais).

In [None]:
# Supondo df_vendas e df_clientes como DataFrames previamente carregados
df_combinado = pd.merge(df_vendas, df_clientes, on='cliente_id')
print(df_combinado)


Verificar e tratar os dados após a combinação, como lidar com valores ausentes, duplicatas e inconsistências.

In [None]:
# Verificando valores ausentes
print(df_combinado.isnull().sum())

# Removendo duplicatas
df_combinado.drop_duplicates(inplace=True)


## Db SQL
Para dados armazenados em bancos de dados, Pandas pode executar consultas SQL diretamente e retornar o resultado como um DataFrame utilizando o método pd.read_sql_query().

In [None]:
from sqlalchemy import create_engine

# Criando uma conexão ao banco de dados (exemplo SQLite)
engine = create_engine('sqlite:///caminho/para/seu/banco_de_dados.db')

# Carregando dados via consulta SQL
df_sql = pd.read_sql_query("SELECT * FROM sua_tabela", engine)


## Limpeza e Preparação de Dados
- Uma etapa fundamental no processo de análise de dados é a limpeza e preparação dos dados. Esta fase envolve tratar valores ausentes, remover duplicatas, filtrar dados, e fazer transformações necessárias para garantir que os dados estejam em um formato adequado para análise. Nesta aula, vamos explorar técnicas comuns de limpeza de dados usando Pandas.

### Tratamento de Valores Ausentes
- Valores ausentes são comuns em muitos conjuntos de dados e podem ser o resultado de erros de entrada de dados, falhas na coleta de dados, ou outras inconsistências. Pandas oferece várias formas de lidar com valores ausentes:

  - Descartando valores ausentes: Usar dropna() para remover linhas ou colunas que contêm valores ausentes.

In [None]:
# Removendo linhas com valores ausentes
df_limpo = df.dropna()

# Removendo colunas com valores ausentes
df_limpo = df.dropna(axis=1)


Preenchendo valores ausentes: Utilizar fillna() para substituir os valores ausentes por um valor específico, como a média da coluna.


In [None]:

# Preenchendo valores ausentes com a média da coluna
df['coluna'] = df['coluna'].fillna(df['coluna'].mean())


- Remoção de Duplicatas: Dados duplicados podem distorcer análises e resultados. Pandas torna fácil identificar e remover duplicatas com drop_duplicates().


In [None]:
# Removendo duplicatas
df_unico = df.drop_duplicates()


Filtragem de Dados
Filtrar dados é um processo chave para focar em informações relevantes. Com Pandas, você pode usar condições booleanas para filtrar linhas que atendem a critérios específicos.


In [None]:

# Filtrando dados onde a coluna 'idade' é maior que 30
df_filtrado = df[df['idade'] > 30]


- Transformação de Dados
  - Transformações são frequentemente necessárias para adequar os dados às necessidades da análise. Isso pode incluir a criação de novas colunas a partir de dados existentes, conversão de tipos de dados, entre outros.

- Adicionando novas colunas: Você pode adicionar colunas baseadas em operações com colunas existentes.


In [None]:

# Criando uma nova coluna 'idade_dobrada'
df['idade_dobrada'] = df['idade'] * 2


Conversão de tipos de dados: Use astype() para converter o tipo de dados de uma coluna.


In [None]:

# Convertendo a coluna 'idade' para float
df['idade'] = df['idade'].astype(float)


- Exemplo Prático: 
Considerando um DataFrame df_vendas que contém dados de vendas, incluindo algumas colunas com valores ausentes e possíveis duplicatas:



In [None]:
# Preenchendo valores ausentes na coluna 'quantidade' com a média
df_vendas['quantidade'] = df_vendas['quantidade'].fillna(df_vendas['quantidade'].mean())

# Removendo duplicatas
df_vendas = df_vendas.drop_duplicates()

# Filtrando vendas com valor maior que 500
df_vendas_altas = df_vendas[df_vendas['valor'] > 500]

# Adicionando uma nova coluna 'valor_total' (quantidade * valor)
df_vendas['valor_total'] = df_vendas['quantidade'] * df_vendas['valor']

## Transformação de Dados

Depois de limpar e preparar os dados, o próximo passo é transformá-los para facilitar análises futuras.
Operações de manipulação de dados, incluindo operações com colunas, funções de mapeamento, agrupamento, e agregação, utilizando a biblioteca Pandas.


- Operações com Colunas: 
Adicionar, remover e modificar colunas: Pandas permite a manipulação flexível de colunas em um DataFrame.

In [None]:
# Adicionando uma nova coluna
df['nova_coluna'] = df['coluna_existente'] * 10

# Removendo uma coluna
df = df.drop('coluna_para_remover', axis=1)

# Modificar valores de uma coluna (por exemplo, aplicando uma função lambda)
df['coluna_existente'] = df['coluna_existente'].apply(lambda x: x * 2)


### Funções de Mapeamento
apply() e map(): Estas funções permitem aplicar uma função ao longo de um eixo do DataFrame ou a uma Series, respectivamente, facilitando a transformação de dados.

In [None]:
# Usando apply() para aplicar uma função a todas as linhas de uma coluna
df['coluna'] = df['coluna'].apply(lambda x: x + 100)

# Usando map() para substituir valores em uma Series
df['categoria'] = df['categoria'].map({'A': 1, 'B': 2, 'C': 3})


#### Agrupamento e Agregação
groupby(): Esta função é usada para agrupar dados com base em uma ou mais colunas e aplicar uma função de agregação (como soma, média, etc.) ao grupo.

In [None]:
# Agrupando dados pela coluna 'categoria' e calculando a média das outras colunas
df_agrupado = df.groupby('categoria').mean()


Funções de agregação: Após agrupar os dados, você pode aplicar várias funções de agregação para resumir os dados agrupados.

In [None]:
# Calculando várias estatísticas agregadas após o agrupamento
df_agrupado = df.groupby('categoria').agg({'coluna_numerica': ['mean', 'min', 'max']})


## Exemplo Prático

Suponha que temos um DataFrame df_vendas contendo colunas para data, categoria, valor_venda e quantidade. Vamos realizar algumas transformações para analisar esses dados.

In [None]:
import pandas as pd

# Simulando o DataFrame
data = {
    'data': pd.date_range('2021-01-01', periods=4),
    'categoria': ['A', 'B', 'A', 'B'],
    'valor_venda': [100, 200, 150, 300],
    'quantidade': [1, 2, 2, 3]
}
df_vendas = pd.DataFrame(data)

# Adicionando uma coluna 'valor_total'
df_vendas['valor_total'] = df_vendas['valor_venda'] * df_vendas['quantidade']

# Agrupando por 'categoria' e calculando o valor total de vendas por categoria
vendas_por_categoria = df_vendas.groupby('categoria')['valor_total'].sum()

# Exibindo o resultado
print(vendas_por_categoria)


## Análise e Visualização de Dados

Pandas integra-se bem com Matplotlib e Seaborn para visualização de dados, permitindo a análise visual dos dados.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Histograma
df['Idade'].hist()
plt.title('Distribuição de Idades')
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.show()

# Gráfico de barras
sns.barplot(x='Cidade', y='Idade', data=df)
plt.title('Média de Idade por Cidade')
plt.show()