## Aula 1 - Fazendo leitura de arquivos CSV

Dados:

- https://github.com/alura-cursos/Pandas/blob/main/superstore_data.csv
- https://github.com/alura-cursos/Pandas/blob/main/superstore_data_ponto_virgula.csv

### Lendo arquivos CSV

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data.csv'

In [None]:
dados = pd.read_csv(url)
dados.head()

In [None]:
url_2 = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data_ponto_virgula.csv'

In [None]:
dados_ponto_virgula = pd.read_csv(url_2)

In [None]:
dados_ponto_virgula.head()

#### Parâmetros da função read_csv

Documentação: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

In [None]:
dados_ponto_virgula = pd.read_csv(url_2, sep = ';')

In [None]:
dados_ponto_virgula.head()

In [None]:
dados_primeiras_linhas = pd.read_csv(url, nrows = 5)
dados_primeiras_linhas

In [None]:
dados_selecao = pd.read_csv(url, usecols = ['Id', 'Year_Birth', 'Income'])
dados_selecao.head()

In [None]:
# posso utilizar tambem o index das colunas, lembrar que em python comeca em 0
dados_selecao = pd.read_csv(url, usecols = [0, 1, 4])
dados_selecao.head()

#### Escrevendo arquivos CSV

Documentação: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html

In [None]:
dados_selecao.to_csv('pandas-dados/clientes_mercado.csv')

In [None]:
clientes_mercado = pd.read_csv('pandas-dados/clientes_mercado.csv')
clientes_mercado

In [None]:
dados_selecao.to_csv('pandas-dados/dados_mercado.csv', index=False)

In [None]:
dados_mercado = pd.read_csv('pandas-dados/dados_mercado.csv')
dados_mercado

## Aula 2 - Utilizando planilhas

Dados:

- https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx

### Lendo arquivos Excel

In [None]:
import pandas as pd

In [None]:
url = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=true'

In [None]:
dados_co2 = pd.read_excel(url)

In [None]:
dados_co2.head()

In [None]:
pd.ExcelFile(url).sheet_names

### Parâmetros da função read_excel

Documentação: 

- https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [None]:
percapita = pd.read_excel(url, sheet_name='emissoes_percapita')

In [None]:
percapita.head()

In [None]:
fontes = pd.read_excel(url, sheet_name='fontes')

In [None]:
fontes.head()

In [None]:
# o parametro usecols define um intervalo que eu quero que seja lido
intervalo = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D')
intervalo.head()

In [None]:
intervalo_2 = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D', nrows=10)

In [None]:
intervalo_2

### Escrevendo arquivos Excel

In [None]:
percapita.to_excel('pandas-dados/co2_percapita.xlsx', index=False)

In [None]:
pd.read_excel('pandas-dados/co2_percapita.xlsx')

### Escrevendo arquivos Excel

link da planilha: https://docs.google.com/spreadsheets/d/1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog/edit?usp=sharing

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'

In [None]:
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

In [None]:
dados_co2_sheets = pd.read_csv(url)

In [None]:
dados_co2_sheets

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
sheet_name = 'emissoes_percapita'
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [None]:
percapita_sheets = pd.read_csv(url_percapita)

In [None]:
percapita_sheets.head()

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog'
sheet_name = 'fontes'
url_fontes = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [None]:
fontes_sheets = pd.read_csv(url_fontes)

In [None]:
fontes_sheets.head()

## Aula 3 - Manipulando arquivos JSON

Dados:

- https://github.com/alura-cursos/Pandas/blob/main/pacientes.json
- https://github.com/alura-cursos/Pandas/blob/main/pacientes_2.json

### Lendo arquivos JSON

In [None]:
# JavaScript Object Notation
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/refs/heads/main/pacientes.json'


In [None]:
dados_pacientes = pd.read_json(url)
dados_pacientes.head()

In [None]:
url_2 = 'https://raw.githubusercontent.com/alura-cursos/Pandas/refs/heads/main/pacientes_2.json'

In [None]:
dados_pacientes_2 = pd.read_json(url_2)
dados_pacientes_2.head()

### Normalizando arquivos JSON

In [None]:
print(type(dados_pacientes_2))

In [None]:
pd.json_normalize(dados_pacientes_2['Pacientes'], meta=['Pesquisa', 'Ano'],errors='ignore' )

In [None]:
df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])

In [None]:
df_normalizado

In [None]:
df_normalizado.explode(['Problemas_saude'])

O resultado parece ótimo, mas não inclui as colunas “Pesquisa” e “Ano”. Para incluí-las, podemos usar o parâmetro meta para especificar outras colunas que queremos no DataFrame.

In [None]:
df_normalizado['Pesquisa'] = dados_pacientes_2['Pesquisa']
df_normalizado['Ano'] = dados_pacientes_2['Ano']

In [None]:
df_normalizado

### Escrevendo arquivos JSON

In [None]:
df_normalizado.to_json('pandas-dados/historico_pacientes_normalizado.json')

In [None]:
pd.read_json('pandas-dados/historico_pacientes_normalizado.json').info()

### Para saber mais: obtendo arquivos JSON de APIs

Para obter dados no formato JSON podemos utilizar uma API (Application Programming Interface). Ela é uma interface de programação de aplicação que permite a comunicação entre diferentes programas ou sistemas.
Existem vários formatos que podem ser usados em APIs e um dos mais comuns é o JSON (JavaScript Object Notation). O JSON é um formato leve de troca de informações entre sistemas que utiliza uma notação baseada em objetos do JavaScript.

Nós temos a seguinte situação-problema: “Uma empresa de tecnologia está em fase de expansão e deseja otimizar sua base de contatos e a forma como gerencia suas interações com os clientes e parceiros. A equipe de vendas e atendimento ao cliente está enfrentando dificuldades para acompanhar todos os contatos, entender as necessidades dos diferentes perfis de clientes, e personalizar o atendimento de forma eficiente. Para solucionar isso, a empresa precisa de uma maneira organizada e automatizada para coletar, gerenciar e segmentar informações de seus clientes e parceiros, como nome, e-mail, endereço, telefone e empresa em que trabalham.”

Nesta situação, podemos acessar a API JSONPlaceholder para coletar os dados dos contatos, que incluem nome, e-mail, endereço, telefone, entre outros. Com esses dados, a equipe pode melhorar suas operações e a comunicação com os clientes.

Uma maneira comum de acessar APIs é por meio da biblioteca requests. Para isso, também é necessário importar o módulo json:

In [None]:
import requests
import json

Os dados da JSONPlaceholder serão obtidos com a função request.get('url'). Dentro dela nós passamos o endereço da API:

In [None]:
dados_usuarios = requests.get('https://jsonplaceholder.typicode.com/users')

Conseguimos recuperar os resultados usando a função json.loads(). Para isso, é necessário passar a variável dados_usuarios, criada anteriormente com o atributo text que retorna o conteúdo da resposta.

In [None]:
resultado = json.loads(dados_usuarios.text)

In [None]:
type(resultado)

Em seguida, podemos visualizar o DataFrame.

```Ao usar o argumento sep='_' no método pd.json_normalize, você garante que os subcampos de dados aninhados sejam desaninhados com os níveis unidos por um sublinhado (_). Isso facilita o acesso e a manipulação dos dados no DataFrame, mantendo uma estrutura mais clara.```

In [None]:
dados_usuarios = pd.json_normalize(resultado, sep='_')
dados_usuarios

## Aula 4 - Lendo dados em HTML e XML

### Dados: https://github.com/alura-cursos/Pandas/blob/main/filmes_wikipedia.html

In [None]:
tabelas = pd.read_html('pandas-dados/filmes_wikipedia.html')

## Aula 5 - Trabalhando com banco de dadois

In [None]:
import sqlalchemy

In [None]:
from sqlalchemy import create_engine, MetaData, Table, inspect

In [None]:
engine = create_engine('sqlite:///:memory:')

In [None]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'

In [None]:
import pandas as pd

In [None]:
dados = pd.read_csv(url)

In [None]:
dados.head()

In [None]:
dados.to_sql('clientes', engine, index=False)

In [None]:
inspector = inspect(engine)

In [None]:
print(inspector.get_table_names())

In [None]:
query = 'SELECT * FROM clientes WHERE Categoria_de_renda = "Empregado"'

In [None]:
empregados = pd.read_sql(query, engine)

In [None]:
empregados

In [None]:
empregados.to_sql('empregados', con=engine, index=False)

In [None]:
pd.read_sql_table('empregados', engine)

Portando, o método read_sql é para se ler uma consulta SQL, enquanto o método read_sql_table é utilizado para se ler uma tabela inteira.

In [None]:
pd.read_sql_table('empregados', engine, columns=['ID_Cliente', 'Grau_escolaridade', 'Rendimento_anual'])

In [None]:
from sqlalchemy import text

In [None]:
query = 'SELECT * FROM clientes'

In [None]:
pd.read_sql(query, engine)

In [None]:
## imagine que essa pessoa com esse ID não é mais cliente, ou seja, precisamos deletar ela do banco
## para isso vamos precisar deletar o usuário dela
query = 'DELETE FROM clientes WHERE ID_Cliente=5008804'
with engine.connect() as conn:
    result = conn.execute(text(query))
    conn.commit()  

In [None]:
pd.read_sql_table('clientes', engine)

In [None]:
# mas e se eu quiser atualizar uma informação, imagine que o cliente com esse ID finalizou sua graduação
# vamos precisar atualizar seu cadastro de grau de escolaridade
query = 'UPDATE clientes SET Grau_escolaridade="Ensino superior" WHERE ID_Cliente=5008808'
with engine.connect() as conn:
    result = conn.execute(text(query))
    conn.commit()  

In [None]:
pd.read_sql_table('clientes', engine)