## Importar o Pandas

### Para instalar, se ainda não tiver instalado

```bash
%pip install pandas
```

In [2]:
import pandas as pd

# Leitura de Dados de Diferentes Fontes


## Arquivos CSV
- Arquivos CSV (Valores Separados por Vírgula) são uma das formas mais comuns de armazenamento de dados tabulares. 

- Utilizar a biblioteca **Pandas** para *ler, escrever e manipular* dados em arquivos **CSV** de maneira eficiente, aproveitando as funcionalidades avancadas para analise de dados.

- Função **`pd.read_csv()`** para carregar dados de um arquivo CSV diretamente para um DataFrame, permitindo uma manipulação **fácil** e flexível dos dados.

   - *Parâmetros úteis* como `sep` para delimitadores customizados e `usecols` para selecionar colunas específicas.

### Carregando dados de um arquivo CSV


In [32]:
df_csv = pd.read_csv('dadosFictícios/Exemplo_Aula_8.csv')
df_csv


Unnamed: 0,Produto,Preço,Quantidade,Data
0,Mesa,235.76,18,2023-01-01
1,Mesa,295.82,7,2023-01-02
2,Mesa,235.59,8,2023-01-03
3,Sofá,171.8,19,2023-01-04
4,Sofá,168.39,12,2023-01-05
5,Cadeira,285.38,18,2023-01-06
6,Cadeira,449.83,10,2023-01-07
7,Mesa,477.65,15,2023-01-08
8,Mesa,343.3,10,2023-01-09
9,Sofá,338.66,19,2023-01-10


In [33]:
df_csv.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Produto     30 non-null     object 
 1   Preço       30 non-null     float64
 2   Quantidade  30 non-null     int64  
 3   Data        30 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 1.1+ KB


In [34]:
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### Exemplo: Leitura de um arquivo CSV com Pandas


In [35]:
df = pd.read_csv('dados/usuarios.csv')
df.head()  # Mostra as primeiras 5 linhas do DataFrame

Unnamed: 0,nome,idade
0,Ana,28
1,Amélia,34
2,João,30
3,Ana,25
4,Maria,35


#### Escrita para CSV:


In [36]:
df.to_csv('dados/saida_pandas.csv', index=False)

- Exportar um *DataFrame* para um arquivo *CSV* usando o método **`to_csv()`**, permitindo salvar os resultados de análises e manipulações dos dados.

  - Argumento `index=False` para evitar a escrita do índice como uma coluna no arquivo CSV.

In [37]:
# Exemplo: Escrita de um DataFrame em um arquivo CSV
df_novo = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carol'],
    'Idade': [25, 30, 22],
    'Email': ['alice@example.com', 'bob@example.com', 'carol@example.com']
})

df_novo.to_csv('saida_pandas.csv', index=False)


## Desafio

- Utilizar um arquivo CSV de sua escolha (pode ser um conjunto de dados público sobre um tema de interesse) para realizar as seguintes tarefas com Pandas:
1. Carregar os dados em um DataFrame.
2. Realizar uma análise exploratória básica (número de linhas, colunas, tipos de dados).
3. Limpar os dados se necessário (tratar valores ausentes, remover duplicatas).
4. Criar novas colunas com dados derivados ou calculados.
5. Salvar o DataFrame modificado em um novo arquivo CSV.

---

# Manipulacao de Dados JSON com Pandas

## Objetivo:
- Utilizar a biblioteca Pandas para manipular dados no formato *JSON*, convertendo-os facilmente entre formatos *JSON e DataFrame* para analise e processamento de dados.


### Função **`pd.read_json()`**
- Carregar dados JSON em um DataFrame

- Diferentes opções de **orientação de dados** (como records, split, index, etc.) e como elas afetam a leitura dos dados.

### Exemplo: Carregando dados JSON em um DataFrame


In [45]:
# Carregando JSON com orientação diferente
df_orientado = pd.read_json('dados/saidaPessoas.json', orient='values')
display(df_orientado)


Unnamed: 0,nome,idade
0,João,30
1,Ana,25
2,Maria,35
3,Pedro,40
4,José,20
5,Marcos,30
6,Carlos,35
7,Jorge,40
8,Mariana,20
9,Marta,25


In [46]:

df_orientado.to_json('dados/saida_orientada_records.json', orient='records', indent=4)


In [48]:
# # Carregando JSON com orientação diferente
# df_orientado = pd.read_json('dados/saidaPessoas.json', orient='index')
# display(df_orientado)

df_orientado.to_json('dados/saida_orientada_index.json', orient='index', indent=4)


In [53]:
# # Carregando JSON com orientação diferente
# df_orientado = pd.read_json('dados/saidaPessoas.json', orient='columns')
# display(df_orientado)

df_orientado.to_json('dados/saida_orientada_columns.json', orient='columns', indent=4)


In [54]:
dado_por_coluna = {
    "nome":{
        "0":"Jo\u00e3o",
        "1":"Ana",
        "2":"Maria",
        "3":"Pedro",
        "4":"Jos\u00e9",
        "5":"Marcos",
        "6":"Carlos",
        "7":"Jorge",
        "8":"Mariana",
        "9":"Marta",
        "10":"Joana",
        "11":"Carla",
        "12":"Jorge",
        "13":"Mariana",
        "14":"Marta"
    },
    "idade":{
        "0":30,
        "1":25,
        "2":35,
        "3":40,
        "4":20,
        "5":30,
        "6":35,
        "7":40,
        "8":20,
        "9":25,
        "10":25,
        "11":35,
        "12":40,
        "13":20,
        "14":25
    }
}

import json

with open("dados/saidadecolunas.json", 'w', encoding='utf-8') as f:
    json.dump(dado_por_coluna,f,indent=4)

### Carregando JSON com orientação diferente


In [11]:
df_orientado = pd.read_json('dados/saidaPessoas.json', orient='columns')
display(df_orientado)

df_orientado.to_json('dados/saida_orientada_split.json', orient='split', indent=4)


Unnamed: 0,empregados
0,"{'nome': 'João', 'idade': 30}"
1,"{'nome': 'Ana', 'idade': 25}"
2,"{'nome': 'Maria', 'idade': 35}"
3,"{'nome': 'Pedro', 'idade': 40}"
4,"{'nome': 'José', 'idade': 20}"
5,"{'nome': 'Marcos', 'idade': 30}"
6,"{'nome': 'Carlos', 'idade': 35}"
7,"{'nome': 'Jorge', 'idade': 40}"
8,"{'nome': 'Mariana', 'idade': 20}"
9,"{'nome': 'Marta', 'idade': 25}"


In [12]:
# Carregando JSON com orientação diferente

df_orientado = pd.read_json('dados/saida_orientada_split.json', orient='split')
display(df_orientado)

Unnamed: 0,empregados
0,"{'nome': 'João', 'idade': 30}"
1,"{'nome': 'Ana', 'idade': 25}"
2,"{'nome': 'Maria', 'idade': 35}"
3,"{'nome': 'Pedro', 'idade': 40}"
4,"{'nome': 'José', 'idade': 20}"
5,"{'nome': 'Marcos', 'idade': 30}"
6,"{'nome': 'Carlos', 'idade': 35}"
7,"{'nome': 'Jorge', 'idade': 40}"
8,"{'nome': 'Mariana', 'idade': 20}"
9,"{'nome': 'Marta', 'idade': 25}"


In [13]:
# Carregando JSON com orientação diferente
df_orientado = pd.read_json('dados/saidaPessoas.json', orient='values')
display(df_orientado)

df_orientado.to_json('dados/saida_orientada_values.json', orient='values', indent=4)


Unnamed: 0,empregados
0,"{'nome': 'João', 'idade': 30}"
1,"{'nome': 'Ana', 'idade': 25}"
2,"{'nome': 'Maria', 'idade': 35}"
3,"{'nome': 'Pedro', 'idade': 40}"
4,"{'nome': 'José', 'idade': 20}"
5,"{'nome': 'Marcos', 'idade': 30}"
6,"{'nome': 'Carlos', 'idade': 35}"
7,"{'nome': 'Jorge', 'idade': 40}"
8,"{'nome': 'Mariana', 'idade': 20}"
9,"{'nome': 'Marta', 'idade': 25}"


In [14]:
# Exemplo: Convertendo um DataFrame em JSON
df_novo = pd.DataFrame({
    'Produto': ['Mesa', 'Cadeira', 'Lampada'],
    'Preco': [300.00, 150.00, 50.00],
    'Quantidade': [10, 20, 30]
})

json_saida = df_novo.to_json(orient='records', indent=4)
print(json_saida)


[
    {
        "Produto":"Mesa",
        "Preco":300.0,
        "Quantidade":10
    },
    {
        "Produto":"Cadeira",
        "Preco":150.0,
        "Quantidade":20
    },
    {
        "Produto":"Lampada",
        "Preco":50.0,
        "Quantidade":30
    }
]


# Já vimos até aqui em 13-11-24



#### **Normalização** 
Dados JSON aninhados usando `pd.json_normalize`, facilitando a análise de dados complexos e **hierárquicos**.

In [15]:
dados_aninhados = [
    {'nome': 'João', 'info': {'idade': 30, 'cidade': 'São Paulo'}},
    {'nome': 'Ana', 'info': {'idade': 25, 'cidade': 'Rio de Janeiro'}}
]

df_normalizado = pd.json_normalize(dados_aninhados)
df_normalizado


Unnamed: 0,nome,info.idade,info.cidade
0,João,30,São Paulo
1,Ana,25,Rio de Janeiro


Análise com Pandas: Convertendo dados JSON em DataFrame para análise mais profunda usando Pandas.

In [16]:
import pandas as pd
import json

# Simulando dados JSON
dados_json = '''
[
    {"nome": "Alice", "idade": 30, "cidade": "New York"},
    {"nome": "Bob", "idade": 25, "cidade": "Los Angeles"}
]
'''
dados = json.loads(dados_json)
df = pd.DataFrame(dados)
df


Unnamed: 0,nome,idade,cidade
0,Alice,30,New York
1,Bob,25,Los Angeles



## Desafio:
- Dado um DataFrame contendo informações sobre filmes (titulo, gênero, ano de lançamento), converta-o para o formato JSON. 
  - Em seguida, carregue esse JSON de volta para um DataFrame e adicione uma nova coluna com a duração dos filmes. 
  - Salve o DataFrame final como um novo arquivo JSON.

---

## Arquivos Excel:

### Objetivo:
Usar a biblioteca Pandas para a manipulacao de dados provenientes de arquivos Excel, abrangendo desde a **leitura de multiplas planilhas** ate a escrita de dados em novos arquivos Excel.

Pandas pode facilmente ler planilhas do Excel usando o método **`pd.read_excel()`**, tornando a transição de dados do Excel para análise em Python suave.


#### Necessário instalar a dependência
```bash
%pip install openpyxl
```

In [3]:
# Carregando dados de um arquivo Excel
df_excel = pd.read_excel('dadosFictícios/Exemplo_Aula_10.xlsx')
df_excel

Unnamed: 0,Produto,Preço,Quantidade,Data
0,Livro,118.84,40,2023-01-01
1,Caderno,46.32,78,2023-01-02
2,Livro,62.33,95,2023-01-03
3,Caneta,92.26,60,2023-01-04
4,Caderno,48.2,31,2023-01-05
5,Caderno,61.92,27,2023-01-06
6,Caneta,37.59,81,2023-01-07
7,Livro,74.38,84,2023-01-08
8,Livro,16.25,95,2023-01-09
9,Caneta,121.97,56,2023-01-10


#### Carregar múltiplas planilhas
- de um único arquivo Excel em diferentes DataFrames, utilizando o argumento `sheet_name`.

In [4]:
xlsx = pd.ExcelFile('dados/example.xlsx')
df_sheet1 = pd.read_excel(xlsx, 'Planilha1')
df_sheet2 = pd.read_excel(xlsx, 'Planilha2')


ValueError: Worksheet named 'Planilha1' not found

Escrevendo dados em um arquivo Excel

In [7]:

# Exemplo: Escrevendo dados em um arquivo Excel
df_novo = pd.DataFrame({
    'Nome': ['Alice', 'Bob', 'Carol'],
    'Idade': [25, 30, 22],
    'Email': ['alice@example.com', 'bob@example.com', 'carol@example.com']
})

with pd.ExcelWriter('dados/saida.xlsx') as writer:
    df_novo.to_excel(writer, sheet_name='NovaPlanilha1', index=False)


Salvar um DataFrame em um arquivo Excel, usando o método to_excel(), e como escrever múltiplos DataFrames em diferentes planilhas do mesmo arquivo.

In [9]:
with pd.ExcelWriter('dados/saida.xlsx') as writer:
    df_sheet1.to_excel(writer, sheet_name='NovaPlanilha1', index=False)
    df_sheet1.to_excel(writer, sheet_name='NovaPlanilha2', index=False)


Exception ignored in: <function ZipFile.__del__ at 0x000002287CAE6840>
Traceback (most recent call last):
  File "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.12_3.12.2032.0_x64__qbz5n2kfra8p0\Lib\zipfile\__init__.py", line 1940, in __del__
    self.close()
  File "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.12_3.12.2032.0_x64__qbz5n2kfra8p0\Lib\zipfile\__init__.py", line 1957, in close
    self.fp.seek(self.start_dir)
ValueError: seek of closed file
Exception ignored in: <function ZipFile.__del__ at 0x000002287CAE6840>
Traceback (most recent call last):
  File "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.12_3.12.2032.0_x64__qbz5n2kfra8p0\Lib\zipfile\__init__.py", line 1940, in __del__
    self.close()
  File "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.12_3.12.2032.0_x64__qbz5n2kfra8p0\Lib\zipfile\__init__.py", line 1957, in close
    self.fp.seek(self.start_dir)
ValueError: seek of closed file


IndexError: At least one sheet must be visible

Combinação de múltiplos DataFrames e a utilização de funções como merge e concat para integrar dados de várias fontes.

In [None]:
# Concatenando dados de duas planilhas
df_concatenado = pd.concat([df_sheet1, df_sheet2], ignore_index=True)


print(df_concatenado)


NameError: name 'df_sheet1' is not defined

## Combinando Dados de Multiplos Arquivos Excel com Pandas


### Objetivo:
Combinar dados de multiplas fontes, especificamente de varios arquivos Excel, em um unico DataFrame usando Pandas, para analise consolidada.


In [10]:

import pandas as pd

# Carregando dados de multiplos arquivos Excel
df1 = pd.read_excel('dados_janeiro.xlsx')
df2 = pd.read_excel('dados_fevereiro.xlsx')

# Combinando os DataFrames
df_combinado = pd.concat([df1, df2], ignore_index=True)
print(df_combinado.head())


FileNotFoundError: [Errno 2] No such file or directory: 'dados_janeiro.xlsx'

In [None]:

# Exemplo: Combinando dados usando merge
df_clientes = pd.read_excel('clientes.xlsx')
df_vendas = pd.read_excel('vendas.xlsx')

df_final = pd.merge(df_vendas, df_clientes, on='cliente_id')
print(df_final.head())



## Desafio:
Imagine que você tenha dois arquivos Excel, cada um contendo dados de vendas de diferentes meses. Seu desafio é carregar ambos os arquivos em DataFrames, combinar os dados em um único DataFrame e calcular o total de vendas para cada produto. Finalmente, escreva o resultado em um novo arquivo Excel.



## Desafio:
Você possui três arquivos Excel com dados de vendas dos primeiros três trimestres do ano. Cada arquivo contém dados de vendas com as colunas 'Data', 'Produto' e 'Quantidade'. Seu desafio é carregar esses arquivos em DataFrames separados, combiná-los em um único DataFrame e, em seguida, calcular o total de vendas por produto.


## Insights para Dados
Os dados muitas vezes estão espalhados por vários arquivos ou planilhas e a habilidade de combiná-los é crucial para análises abrangentes.

Cenário comum onde dados de vendas estão distribuídos mensalmente em diferentes arquivos e precisam ser consolidados para análise anual.

Carregar múltiplos arquivos Excel, usando laços for junto com listas de nomes de arquivos ou padrões de correspondência de nomes.

In [None]:
import pandas as pd
import glob

# Carregando todos os arquivos Excel no diretório atual
arquivos_excel = glob.glob('dados_mes_*.xlsx')
df_total = pd.DataFrame()

for arquivo in arquivos_excel:
    df = pd.read_excel(arquivo)
    df_total = pd.concat([df_total, df], ignore_index=True)

print(df_total)


Empty DataFrame
Columns: []
Index: []


Utilizar pd.concat() para combinar DataFrames verticalmente (unindo dados) e pd.merge() para combinar horizontalmente (enriquecendo os dados com informações adicionais).

In [None]:
# Supondo df_vendas e df_clientes como DataFrames previamente carregados
df_combinado = pd.merge(df_vendas, df_clientes, on='cliente_id')
print(df_combinado)


Verificar e tratar os dados após a combinação, como lidar com valores ausentes, duplicatas e inconsistências.

In [None]:
# Verificando valores ausentes
print(df_combinado.isnull().sum())

# Removendo duplicatas
df_combinado.drop_duplicates(inplace=True)


## Db SQL
Para dados armazenados em bancos de dados, Pandas pode executar consultas SQL diretamente e retornar o resultado como um DataFrame utilizando o método pd.read_sql_query().

## O **SQLAlchemy** é um poderoso ORM e gerenciador de Bancos de dados
- Aqui usaremos apenas um pequena parte dele.

Para instalar:
```bash
%pip install sqlalchemy
```

In [11]:
from sqlalchemy import create_engine

# Criando uma conexão ao banco de dados (exemplo SQLite)
# engine = create_engine(f'{dialect}+{driver}://{username}:{password}@{host}:{port}/{database}')

engine = create_engine('sqlite:///turmaADS.db', echo=True)

# Carregando dados via consulta SQL
df_sql = pd.read_sql_query("SELECT * FROM sua_tabela", engine)


2024-11-21 21:44:34,153 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2024-11-21 21:44:34,155 INFO sqlalchemy.engine.Engine SELECT * FROM sua_tabela
2024-11-21 21:44:34,156 INFO sqlalchemy.engine.Engine [raw sql] ()
2024-11-21 21:44:34,159 INFO sqlalchemy.engine.Engine ROLLBACK


OperationalError: (sqlite3.OperationalError) no such table: sua_tabela
[SQL: SELECT * FROM sua_tabela]
(Background on this error at: https://sqlalche.me/e/20/e3q8)