# Pandas I/O

1. Lendo arquivos CSV
2. Utilizando planilhas
3. Manupulando arquivos JSON
4. Trabalhando com arquivos HTML e XML
5. Trabalhando com Banco de Dados

## 1 Fazendo leitura de arquivos CSV

> Um supermercado que está planejando uma liquidação de fim de ano e quer oferecer uma assinatura que dá 20% de desconto em todas as compras.  
> O time de marketing desse supermercado entende que a melhor maneira de diminuir custos com essa campanha é analisar os dados de compras dos clientes, entender quais teriam mais chances de aderir a essa assinatura e oferecer diretamente a essas pessoas.

Dados:
- https://github.com/alura-cursos/Pandas/blob/main/superstore_data.csv
- https://github.com/alura-cursos/Pandas/blob/main/superstore_data_ponto_virgula.csv

In [None]:
import pandas as pd

url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data.csv'
df = pd.read_csv(url) # arquivo com valores separados por ','

In [None]:
print(df.shape)
df.head()

(2240, 22)


Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [None]:
df2 = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/Pandas/main/superstore_data_ponto_virgula.csv', sep=';') # valores separados por ';'
print(df2.shape)
df2.head()

(2240, 22)


Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [None]:
df.equals(df2) # verifica se os dois DataFrames são iguais

True

### Outros parâmetros da função [`read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [None]:
dados_primeiras_linhas = pd.read_csv(url, nrows=5) # carrega apenas as 5 primeiras linhas
print(dados_primeiras_linhas.shape)
dados_primeiras_linhas

(5, 22)


Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [None]:
dados_selecao = pd.read_csv(url, usecols=['Id', 'Year_Birth', 'Income']) # carrega apenas colunas selecionadas, indicando-as pelos labels
print(dados_selecao.shape)
dados_selecao.head()

(2240, 3)


Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


In [None]:
dados_selecao = pd.read_csv(url, usecols=[0,1,4]) # carrega apenas colunas selecionadas, indicando-as pelos indices
print(dados_selecao.shape)
dados_selecao.head()

(2240, 3)


Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


### Escrevendo arquivos CSV com [`to_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

In [None]:
dados_selecao.to_csv('clientes_mercado.csv')

In [None]:
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv') # exporta dados do DataFrame para arquivo CSV
clientes_mercado.head()

Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0


In [None]:
dados_selecao.to_csv('clientes_mercado.csv', index=False) # exporta dados do DataFrame, sem enviar a coluna de indices para o arquivo
clientes_mercado = pd.read_csv('/content/clientes_mercado.csv')
clientes_mercado.head()

Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0


### Lidando com erros de _encoding_

O erro de encoding ocorre quando a biblioteca Pandas não consegue interpretar corretamente os caracteres de um arquivo CSV. Isso pode acontecer quando ele contém caracteres especiais que não são reconhecidos pela biblioteca Pandas ou quando foi salvo em um formato de codificação diferente do esperado.

Para resolver esse erro, é necessário identificar a codificação correta do arquivo CSV e especificá-la ao carregar o arquivo com a biblioteca Pandas. Essa codificação padrão é o UTF-8, mas em alguns casos, o arquivo pode ter sido salvo com uma codificação diferente, como ISO-8859-1.

O UTF-8 é uma codificação de caracteres universal usada para representar caracteres de diferentes idiomas de forma compatível com a internet e com sistemas de computador em geral. A sigla UTF significa Unicode Transformation Format (Formato de Transformação Unicode) e o número 8 indica que essa codificação associa uma sequência de 1 a 4 bytes (8 a 32 bits) com cada caractere.

A codificação UTF-8 é amplamente utilizada na internet e em sistemas de computador em todo o mundo, pois permite a representação de caracteres de diferentes idiomas em um único conjunto de caracteres. Além disso, essa codificação é capaz de preservar a compatibilidade com outras mais antigas, como ASCII, o que a torna uma escolha popular para a criação e compartilhamento de arquivos de texto.

Pode ser que você esteja pensando neste momento: como será que a Giovanna conseguiu descobrir qual é a codificação do arquivo que ela está tentando ler?

Existem algumas formas para descobrir isso, no entanto, teremos a oportunidade de experimentar uma maneira prática de fazer isso no próprio Google Colab. Vamos lá?

Nós podemos usar uma biblioteca chamada [`chardet`](https://pypi.org/project/chardet/) para detectar o encoding de um arquivo CSV. Para utilizar essa biblioteca no Google Colab, basta realizar sua importação:

In [None]:
import chardet

with open('/content/clientes_mercado.csv', 'rb') as file:
    print(chardet.detect(file.read()))

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


Note que a primeira linha deste código abre o arquivo CSV em modo de leitura binária rb e atribui o objeto de arquivo retornado a uma variável chamada file.

Na segunda linha do código, o conteúdo do arquivo CSV é lido usando o método read() e o resultado é passado para a função chardet.detect(), que retorna um dicionário contendo informações sobre a codificação mais provável do arquivo. O resultado é impresso com a função print() que mostra a codificação e a confiança associada a essa codificação.

```python
df = pd.read_csv('/content/dados.csv', encoding='ISO-8859-1')
```

- [Instituto de Matemática e Estatística - IME/USP: Unicode e UTF-8](https://www.ime.usp.br/~pf/algoritmos/apend/unicode.html#detection)
- [IBM: O que é Unicode](https://www.ibm.com/docs/pt-br/workload-automation/9.3.0?topic=support-what-is)
- [Kaggle:Character Encodings](https://www.kaggle.com/code/alexisbcook/character-encodings/tutorial)

## 2 Trabalhando com planilhas

> Um grupo de pesquisa coletou os dados das emissões de gás carbônico (CO2) pelos países ao longo dos anos e armazenou esses dados em uma planilha do Excel, um arquivo em formato `.xlsx`.  
Eles querem analisar esses dados com o objetivo de entender os impactos ambientais gerados pelos países e pensar em questões de sustentabilidade.

### Lendo arquivos `.xlsx`
Para cerregar arquivos desse formato no Pandas usamos a função [`read_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html).

In [None]:
url = 'https://github.com/alura-cursos/Pandas/blob/main/emissoes_CO2.xlsx?raw=True'
df_co2 = pd.read_excel(url)
print(df_co2.shape)
df_co2.head()

(63104, 11)


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0.0,,,,,,,
1,Afeganistão,AFG,1751,0.0,,,,,,,
2,Afeganistão,AFG,1752,0.0,,,,,,,
3,Afeganistão,AFG,1753,0.0,,,,,,,
4,Afeganistão,AFG,1754,0.0,,,,,,,


Uma característica das planilhas é a possibilidade de um arquivo ter multiplas páginas. Para saber quais são as páginas presentes em uma planilha, podemos acessar o atributo `sheet_names` da classe `ExcelFile` do Pandas.

Por padrão é carregada a primeira página, para carregar uma página específica passamos o rótulo ou índice no parâmetro `sheet_name`.

In [None]:
pd.ExcelFile(url).sheet_names

['emissoes_C02', 'emissoes_percapita', 'fontes']

In [None]:
df_per_capita = pd.read_excel(url, sheet_name='emissoes_percapita')
print(df_per_capita.shape)
df_per_capita.head()

(63104, 10)


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


In [None]:
df_fontes = pd.read_excel(url, sheet_name='fontes')
print(df_fontes.shape)
df_fontes.head()

(63104, 11)


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
1,Afeganistão,AFG,1751,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
2,Afeganistão,AFG,1752,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
3,Afeganistão,AFG,1753,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]
4,Afeganistão,AFG,1754,[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE],[NONE]


Podemos definir quais colunas queremos trazer ao carregar uma planilha, aqui também temos o paramêtro `usecols` e os valores que passamos são as letras das colunas. Além disso, também podemos limitar o número de linhas com o paramêtro `nrows`.

In [None]:
df_selecao = pd.read_excel(url, sheet_name='emissoes_C02', usecols='A:D,J', nrows=10) # carrega colunas de A a D
print(df_selecao.shape)
df_selecao.head()

(10, 5)


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Outro
0,Afeganistão,AFG,1750,0,
1,Afeganistão,AFG,1751,0,
2,Afeganistão,AFG,1752,0,
3,Afeganistão,AFG,1753,0,
4,Afeganistão,AFG,1754,0,


### Criando arquivos `.xlsx`

In [None]:
df_selecao.to_excel('/content/co2_amostra.xlsx')

### Carregando dados do Google Planilhas

O link de acesso da planilha que queremos carregar é: https://docs.google.com/spreadsheets/d/1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog/edit?usp=sharing

E abaixo montamos a URL usada na função Pandas que trará os dados.

In [None]:
sheet_id = '1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog' # ID da planilha, encontrado entre os caracteres '/d/' e '/edit'
param_api = 'gviz/tq' # acesso a API de interface entre Google Colab e Google Planilhas
param_csv = 'tqx=out:csv' # dados serao retornados em formato CSV, entao usaremos read_csv()
param_all = 'sheet' # nao especifica pagina, pega a primeira
url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/{param_api}?{param_csv}&{param_all}"
url

'https://docs.google.com/spreadsheets/d/1lzq0k-41-MbbS63C3Q9i1wPvLkSJt9zhr4Jolt1vEog/gviz/tq?tqx=out:csv&sheet'

In [None]:
df_sheets_co2 = pd.read_csv(url)
print(df_sheets_co2.shape)
df_sheets_co2.head()

(63104, 11)


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Oléo,Gás,Cimento,Queima,Outro,Per Capita
0,Afeganistão,AFG,1750,0,,,,,,,
1,Afeganistão,AFG,1751,0,,,,,,,
2,Afeganistão,AFG,1752,0,,,,,,,
3,Afeganistão,AFG,1753,0,,,,,,,
4,Afeganistão,AFG,1754,0,,,,,,,


In [None]:
param_all = 'sheet=emissoes_percapita' # define qual pagina trazer
url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/{param_api}?{param_csv}&{param_all}"

df_sheets_per_capita = pd.read_csv(url)
print(df_sheets_per_capita.shape)
df_sheets_per_capita.head()

(63104, 10)


Unnamed: 0,País,ISO 3166-1 alpha-3,Ano,Total,Carvão,Óleo,Gás,Cimento,Queima,Outro
0,Afeganistão,AFG,1750,,,,,,,
1,Afeganistão,AFG,1751,,,,,,,
2,Afeganistão,AFG,1752,,,,,,,
3,Afeganistão,AFG,1753,,,,,,,
4,Afeganistão,AFG,1754,,,,,,,


## 3 Manipulando arquivos JSON

> Um hospital deseja acessar os dados de pacientes e esses arquivos estão no formato JSON (JavaScript Object Notation).

### Lendo arquivos JSON

In [None]:
df = pd.read_json('https://github.com/alura-cursos/Pandas/blob/main/pacientes.json?raw=True')
print(df.shape)
df.head()

(1000, 19)


Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.6,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao


### Normalizando arquivos JSON

Quando formos carregar um JSON aninhado, ou seja, um "json com outros JSONs dentro", temos que normalizar os dados carregados para o DataFrame.

In [None]:
# json aninhado
df2 = pd.read_json('https://github.com/alura-cursos/Pandas/blob/main/pacientes_2.json?raw=True')
print(df2.shape)
df2.head()

(3, 3)


Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


In [None]:
df2.Pacientes[0]

{'ID': '01',
 'Faixa_etaria': '55-59',
 'Sexo_biologico': 'Feminino',
 'Raça': 'Branca',
 'IMC': 16.6,
 'Fumante': 'Sim',
 'Consumo_alcool': 'Nao',
 'Saude_fisica': 3,
 'Saude_mental': 30,
 'Dificuldade_caminhar': 'Nao',
 'Atividade_fisica': 'Sim',
 'Saude_geral': 'Muito boa',
 'Horas_sono': 5,
 'Problemas_saude': ['Diabetes', 'Asma', 'Cancer_pele']}

In [None]:
# normalizando
df2_norm = pd.json_normalize(df2['Pacientes'])
print(df2_norm.shape)
df2_norm.head()

(3, 14)


Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


Normalização de dados é um processo importante em ciência de dados que tem como objetivo organizar e padronizar dados para facilitar a análise e comparação entre eles. Quando se trata de dados no formato JSON (_JavaScript Object Notation_ - Notação de Objetos JavaScript), é comum que eles estejam aninhados, o que pode dificultar sua análise e manipulação.

In [None]:
pd.concat([df2[['Pesquisa', 'Ano']], df2_norm], axis=1)

Unnamed: 0,Pesquisa,Ano,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,Principais Indicadores de Doenca Cardiaca,2020,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,Principais Indicadores de Doenca Cardiaca,2020,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,Principais Indicadores de Doenca Cardiaca,2020,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


### Salvando dados em JSON

In [None]:
df2_norm.to_json('pacientes_normalizados.json')

In [None]:
df = pd.read_json('/content/pacientes_normalizados.json')
print(df.shape)
df.head()

(3, 14)


Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


### Lendo dados em formato JSON de APIs

In [None]:
import requests
import json

dados_frutas = requests.get('https://fruityvice.com/api/fruit/all')
dados_frutas

<Response [200]>

In [None]:
type(dados_frutas.text)

str

In [None]:
resultado = json.loads(dados_frutas.text)
print(type(resultado))
print(len(resultado))
print(type(resultado[0]))
print(resultado[0])

<class 'list'>
45
<class 'dict'>
{'name': 'Persimmon', 'id': 52, 'family': 'Ebenaceae', 'order': 'Rosales', 'genus': 'Diospyros', 'nutritions': {'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'carbohydrates': 18.0, 'protein': 0.0}}


In [None]:
df = pd.DataFrame(resultado)
print(df.shape)
df.head()

(45, 6)


Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."


In [None]:
pd.json_normalize(df.nutritions).head()

Unnamed: 0,calories,fat,sugar,carbohydrates,protein
0,81,0.0,18.0,18.0,0.0
1,29,0.4,5.4,5.5,0.8
2,96,0.2,17.2,22.0,1.0
3,74,0.2,2.6,3.9,0.9
4,57,0.1,10.0,15.0,0.4


In [None]:
pd.concat([df.drop('nutritions', axis=1), pd.json_normalize(df.nutritions)], axis=1, join="inner").head()

Unnamed: 0,name,id,family,order,genus,calories,fat,sugar,carbohydrates,protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
3,Tomato,5,Solanaceae,Solanales,Solanum,74,0.2,2.6,3.9,0.9
4,Pear,4,Rosaceae,Rosales,Pyrus,57,0.1,10.0,15.0,0.4


## 4 Trabalhando com arquivos HTML e XML

> Vamos criar um sistema de recomendação de filmes. Mas, para isso, precisamos de dados de avaliações de filmes.  
Na Wikipedia, encontramos um artigo web sobre os [100 melhores filmes listados pelo Instituto Americano de Cinema](https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies). Ao acessar essa página verificamos que ela contém mais de uma tabela (elementos HTML do tipo `<table>`), dentre elas a que estamos interessados, a tabela com notas de filmes.

### Lendo dados em HTML

In [None]:
df_html = pd.read_html('https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies')
df_html

[                                                    0  \
 0                                                1998   
 1                                                1999   
 2                                                2000   
 3                                                2001   
 4                                                2002   
 5                                                2003   
 6                                                2004   
 7                                                2005   
 8                                                2005   
 9                                                2006   
 10                                               2006   
 11                                               2007   
 12                                               2008   
 13  .mw-parser-output .hlist dl,.mw-parser-output ...   
 
                                                     1  
 0                                          100 Movies  
 1            

In [None]:
type(df_html) # retorna uma lista de DataFrames, cada um contendo os dados de uma tabela da pagina HTML

list

In [None]:
len(len(df_html)) # neste caso a pagina tem duas tabelas (elementos <table>)

2

In [None]:
df_filmes = df_html[1] # cada item da tabela eh um DataFrame, basta acessar pelo indice
print(df_filmes.shape)
df_filmes.head()

(123, 6)


Unnamed: 0,Film,Release year,Director,Production companies,1998 Rank,2007 Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2,3
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4,6
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5,7


### Exportando dados para um arquivo HTML

In [None]:
df_filmes.to_html('filmes.html', index=False)

In [None]:
df_html = pd.read_html('/content/filmes.html')
df_html[0].head()

Unnamed: 0,Film,Release year,Director,Production companies,1998 Rank,2007 Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2,3
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4,6
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5,7


### Lendo e escrevendo dados em XML

In [None]:
df_imdb = pd.read_xml('https://github.com/alura-cursos/Pandas/raw/main/imdb_top_1000.xml') # lendo arquivo XML
print(df_imdb.shape)
df_imdb.head(2)

(1000, 17)


Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411


In [None]:
df_imdb.head(2).to_xml('filmes_imdb.xml', index=False) # escrevendo dados em arquivo XML

In [None]:
df_imdb = pd.read_xml('/content/filmes_imdb.xml') # lendo arquivo XML
print(df_imdb.shape)
df_imdb.head()

(2, 17)


Unnamed: 0,index,Poster_Link,Series_Title,Released_Year,Certificate,Runtime,Genre,IMDB_Rating,Overview,Meta_score,Director,Star1,Star2,Star3,Star4,No_of_Votes,Gross
0,0,https://m.media-amazon.com/images/M/MV5BMDFkYT...,The Shawshank Redemption,1994,A,142 min,Drama,9.3,Two imprisoned men bond over a number of years...,80.0,Frank Darabont,Tim Robbins,Morgan Freeman,Bob Gunton,William Sadler,2343110,28341469
1,1,https://m.media-amazon.com/images/M/MV5BM2MyNj...,The Godfather,1972,A,175 min,"Crime, Drama",9.2,An organized crime dynasty's aging patriarch t...,100.0,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,1620367,134966411


XML é uma sigla da expressão em inglês _Extensible Markup Language_, ou "Linguagem de marcação estendida", é uma linguagem de marcação que permite criar e descrever dados de forma estruturada e padronizada. Ela é composta por linhas de comandos que usam _tags_ para definir os elementos e os atributos dos dados. Sua estrutura de _tags_ é muito parecida com o HTML.

A estrutura básica de um documento XML é formada por:

- Uma declaração inicial que indica a versão, o encoding e o tipo do documento.
- Um elemento raiz que contém todos os outros elementos do documento.
- Elementos filhos que podem ter outros elementos ou conteúdo de texto dentro deles.
- Atributos que fornecem informações adicionais sobre os elementos.

Um exemplo simples de um documento XML é:

```xml
xml
<?xml version="1.0" encoding="UTF-8"?>
<animais>
  <animal nome="Mel" tipo="cachorro" cor="marrom"/>
  <animal nome="Vick" tipo="gato" cor="branco"/>
</animais>
```

Neste exemplo, <animais> é o elemento raiz, <animal> é um elemento filho com três atributos (nome, tipo e cor) e Mel e Vick são os conteúdos de texto dos elementos.

No arquivo lido, por exemplo, temos uma _tag_ logo no início chamada `<data>`. Essa é a _tag_ raiz que indica o início do documento. Em seguida temos uma _tag_ chamada `<row>`, "linha" em português. Para cada linha, temos várias _tags_ que contêm as informações que estarão em cada uma das colunas.

Na primeira linha, por exemplo, temos as seguintes informações:

```xml
<data>
  <row>
    <index>0</index>
    <Poster_Link>https://m.media-amazon.com/images/M/MV5BMDFkYTc0MGEtZmNhMC00ZDIzLWFmNTEtODM1ZmRlYWMwMWFmXkEyXkFqcGdeQXVyMTMxODk2OTU@._V1_UX67_CR0,0,67,98_AL_.jpg</Poster_Link>
    <Series_Title>The Shawshank Redemption</Series_Title>
    <Released_Year>1994</Released_Year>
    <Certificate>A</Certificate>
    <Runtime>142 min</Runtime>
    <Genre>Drama</Genre>
    <IMDB_Rating>9.3</IMDB_Rating>
    <Overview>Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.</Overview>
    <Meta_score>80.0</Meta_score>
    <Director>Frank Darabont</Director>
    <Star1>Tim Robbins</Star1>
    <Star2>Morgan Freeman</Star2>
    <Star3>Bob Gunton</Star3>
    <Star4>William Sadler</Star4>
    <No_of_Votes>2343110</No_of_Votes>
    <Gross>28,341,469</Gross>
  </row>
```

## 5 Trabalhando com Banco de Dados

> O time de dados de uma Instituição Financeira possui um arquivo CSV que contém os [dados de todos os clientes cadastrados](https://github.com/alura-cursos/Pandas/blob/main/clientes_banco.csv). Porém, o que eles querem é pegar esse arquivo, colocar em um banco de dados local e a partir dele realizar consultas SQL. Assim será possível analisar dados, obter insights e tomar decisões estratégicas.

### Preparando o ambiente

In [None]:
import pandas as pd
import sqlalchemy
sqlalchemy.__version__ # se for versao acima de 2, deve fazer downgrade do pacote


'1.4.51'

In [None]:
# !pip install --upgrade 'sqlalchemy<2.0'

### Banco de dados local

In [None]:
from sqlalchemy import create_engine, MetaData, Table, inspect
engine = create_engine('sqlite:///:memory:') # cria um banco de dados na memoria local

Python oferece vários pacotes e bibliotecas para trabalhar com bancos de dados, incluindo SQLite, MySQL, PostgreSQL, Oracle, MongoDB, entre outros. Um dos pacotes mais comuns usados para trabalhar com bancos de dados relacionais em Python é o pacote sqlite3 que oferece suporte a bancos de dados SQLite. Este banco de dados é leve e incorporado que não exige um servidor separado para ser executado que já vem nativamente instalado no Google Colab.

Para trabalhar com esse banco podemos utilizar a SQLAlchemy, uma biblioteca de mapeamento objeto-relacional (ORM), que possibilita interagir com bancos de dados relacionais usando código Python. Ela fornece uma camada de abstração que permite aos desenvolvedores trabalhar com objetos Python em vez de lidar diretamente com as complexidades da linguagem SQL (_Structured Query Language_ - Linguagem de consulta estruturada).

Uma das principais vantagens do uso de [SQLAchemy](https://www.sqlalchemy.org/) é a capacidade de criar código mais legível e fácil de manter. Com SQLAlchemy, as operações do banco de dados são executadas usando métodos em objetos Python, tornando o código mais claro e menos propenso a erros.

Além disso, a SQLAlchemy oferece suporte a consultas complexas em bancos de dados, permitindo que pessoas desenvolvedoras extraiam facilmente informações relevantes de grandes conjuntos de dados. Isso é especialmente útil em aplicações que precisam lidar com grandes quantidades de dados.

### Escrevendo em um banco de dados

In [None]:
df = pd.read_csv('https://github.com/alura-cursos/Pandas/raw/main/clientes_banco.csv')
df.columns = df.columns.str.lower()
print(df.shape)
df.head()

(438463, 11)


Unnamed: 0,id_cliente,idade,grau_escolaridade,estado_civil,tamanho_familia,categoria_de_renda,ocupacao,anos_empregado,rendimento_anual,tem_carro,moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio


In [None]:
df.to_sql('clientes', engine, index=False, if_exists='replace') # cria tabela 'clientes' no banco, retorna quantidade de linhas inseridas

438463

In [None]:
inspector = inspect(engine) # cria objeto para inspecionar banco
type(inspector)

sqlalchemy.engine.reflection.Inspector

In [None]:
inspector.get_table_names() # recupera nome das tabelas que existem no banco

['clientes']

### Consultas SQL

In [None]:
query = "select distinct(categoria_de_renda) from clientes" # consulta quais sao as categorias de renda
categorias_renda = pd.read_sql(query, engine)
categorias_renda

Unnamed: 0,categoria_de_renda
0,Empregado
1,Associado comercial
2,Pensionista
3,Servidor público
4,Estudante


In [None]:
query = "select * from clientes where categoria_de_renda = 'Empregado'" # consulta todos clientes na categoria de renda 'Empregado'
empregados = pd.read_sql(query, engine)
print(empregados.shape)
empregados.head()

(226059, 11)


Unnamed: 0,id_cliente,idade,grau_escolaridade,estado_civil,tamanho_familia,categoria_de_renda,ocupacao,anos_empregado,rendimento_anual,tem_carro,moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008815,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio
4,5112956,46,Ensino superior,Casado,2,Empregado,Contabilidade,2,270000.0,1,Casa/apartamento próprio


In [None]:
empregados.to_sql('empregados', con=engine, index=False) # cria nova tabela com resultado da consulta

226059

In [None]:
inspector.get_table_names()

['clientes', 'empregados']

In [None]:
empregados2 = pd.read_sql_table('empregados', engine) # carrega tabela completa para Pandas DataFrame
empregados.equals(empregados2)

True

In [None]:
pd.read_sql_table('empregados', engine, columns=['idade', 'grau_escolaridade', 'estado_civil']).head(3) # carrega apenas algumas colunas

Unnamed: 0,idade,grau_escolaridade,estado_civil
0,32,Ensino superior,União-estável
1,32,Ensino superior,União-estável
2,58,Ensino médio,Casado


### Atualizando um banco de dados

#### `DELETE`

In [None]:
engine.connect().execute("select count(*) from clientes").scalar() # numero de linhas na tabea 'clientes' antes

438463

In [None]:
query = "delete from clientes where id_cliente = 5008804"
with engine.connect() as conn:
    conn.execute(query)

In [None]:
engine.connect().execute("select count(*) from clientes").scalar() # numero de linhas depois

438462

#### `UPDATE`

In [None]:
id_cliente = '5008806'
pd.read_sql(f"select id_cliente, grau_escolaridade from clientes where id_cliente = '{id_cliente}'", engine) # grau de escolaridade antes

Unnamed: 0,id_cliente,grau_escolaridade
0,5008806,Ensino médio


In [None]:
with engine.connect() as conn:
    conn.execute("update clientes set grau_escolaridade = 'Ensino superior' where id_cliente = 5008806")

In [None]:
pd.read_sql(f"select id_cliente, grau_escolaridade from clientes where id_cliente = '{id_cliente}'", engine) # grau de escolaridade antes

Unnamed: 0,id_cliente,grau_escolaridade
0,5008806,Ensino superior
