Formação Python para Data Science - Alura.

Aluno: Thiago William  
dezembro/2024


In [35]:
import pandas as pd
import chardet

# Curso 05 - Pandas I/O: Trabalhando com diferentes formatos de arquivos

## 01. Fazendo leitura de arquivos CSV

### Conceitos

Na importação de arquivos, podemos encontrar o problema da codificação (encoding). Para resolver esse problema, podemos usar a biblioteca **chardet**:

```python
import chardet

with open('/arquivo.csv', 'rb') as file:
  print(chardet.detect(file.read()))
```

Nesse código, temos que:
* ```rb```: Modo de leitura binário,
* ```chardet.detect()```: Retorna um dicionário coma s informações sobre a codificação do arquivo.

Depois de realizar essa etapa, podemos passar a codificação correta na leitura do arquivo:

```python
df = pd.read_csv('/arquivo.csv', encoding='ISO-8859-1')
```



### Exercícios - Bora praticar?

Seu desafio aqui será fazer a leitura desse arquivo [Informações de Saúde](https://raw.githubusercontent.com/alura-cursos/Pandas/main/dados_sus.csv) utilizando a função read_csv da biblioteca Pandas. Alguns parâmetros devem ser adicionados para que a leitura seja feita corretamente. Então, seguem algumas dicas:

* Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula,
* A codificação do arquivo é ISO-8859-1.
* As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha.
* As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos.
* Para deletar as últimas linhas é necessário adicionar o parâmetro engine='python'.

In [36]:
with open('/content/dados_sus.csv', 'rb') as file:
  print(chardet.detect(file.read()))

{'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}


In [37]:
dados_sus = pd.read_csv('/content/dados_sus.csv', encoding='ISO-8859-1', sep=';', skiprows=3, skipfooter=9, engine='python')
dados_sus.tail()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
23,Mato Grosso do Sul,537739211,700247261,842393319,879748768,977042180,1090539218,1024929982,967155345,1021851105,...,1885884444,1987708068,1924789451,1949721085,2202312625,1962959155,2169331115,2433729563,2516819534,232452509633
24,Mato Grosso,479529901,868488223,788624314,879410979,923164540,1022176377,916331428,924314881,905235489,...,1683465098,1970491536,2074622760,2272740520,2050603958,1958380346,1912014168,1834937692,1961103261,218011978115
25,Goiás,1531063729,2225866868,2144251575,2092121245,2161597067,1827004387,2054051713,2065073067,2086844356,...,4060622282,4622935710,4488958833,4552949623,4303760045,4414735321,4612776388,4274277393,4559268649,497357361347
26,Distrito Federal,474591919,763248067,964720326,1109873299,1289171972,1285012567,1256564674,1371085789,1316510620,...,2526977334,2652619639,2005659211,2085624930,2045932527,2299156776,2352705029,2276695262,3183191745,259242285356
27,Total,40842485923,61317426921,66404305838,68666286142,71580363949,75218156364,76499028476,75060864828,75296264215,...,148401041762,151416082372,147790446614,148998314621,146419639575,144119960505,151399119649,150061229936,168756213838,17248176013888


## 02. Utilizando planilhas

### Conceitos

Quando trabalhamos com arquivos Excel, sabemos que ele pode ter diversas abas (planilhas). Para que possamos ler o nome das planilhas, fazemos:

```python
pd.ExcelFile(arquivo).sheet_names
```

Dessa forma, quando lemos um arquivo Excel, podemos especificar qual planilha vamos ler:

```python
planilha2 = pd,read_excel(arquivo.xlsx, sheet_name='planilha2')
```

Quando tentamos ler uma planilha do google (google sheet), é necessário que ao final da a url da planilha, se coloque ```'/gviz/tq?tqx=out:csv&sheet'``` por exemplo:

```python
url = f'https://docs.google.com/spreadsheets/d/{id_planilha}/gviz/tq?tqx=out:csv&sheet'

pd.read_csv(url)

```

Para ler uma aba (planilha) diferente, após o "...&sheet" devemos passar "=NomeDaPlanilha", por exemplo:

```python
sheet_name = Planilha_3

url_plan_3 = f'https://docs.google.com/spreadsheets/d/{id_planilha}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

pd.read_csv(url_plan_3)

```



### Exercícios - Bora praticar?

Neste desafio, a sua função é efetuar a leitura [desse link do Google Planilhas](https://docs.google.com/spreadsheets/d/1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw/edit?gid=1214654498#gid=1214654498) e depois salvar o DataFrame obtido no formato CSV. Pronto(a) para começar?

In [38]:
sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw' #/edit?gid=1214654498#gid=1214654498
sheet_name = 'CO2_emission'
sheet_url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
df_co2 = pd.read_csv(sheet_url)
df_co2.head()

Unnamed: 0,Country,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191.745.115,167.681.579,95.957.742,8.472.111,75.545.827,68.467.956,...,29.650.624,259.295.334,18.562.366,146.235.617,172.896.741,149.789.334,131.694.556,1.632.953,159.824.372,159.824.372
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553.661.955,544.538.649,543.557.223,70.898.423,836.804.405,912.141.485,...,985.522.312,950.695.879,1.036.293.852,1.099.779.111,113.504.405,1.031.811.348,81.330.073,777.674.934,792.137.069,792.137.069
3,Albania,ALB,Europe & Central Asia,CO2 emissions (metric tons per capita),1.819.541.634,124.281.022,683.699.826,638.307.036,645.355.189,605.436.253,...,166.942.319,150.324.046,1.533.630.039,1.668.337.371,160.377.515,1.557.664.358,1.788.786.074,1.782.738.948,169.224.832,169.224.832
4,Andorra,AND,Europe & Central Asia,CO2 emissions (metric tons per capita),7.521.831.658,723.537.924,69.630.787,6.724.177.518,6.541.578.914,6.733.479.486,...,5.850.886.105,5.944.654.173,5.942.800.412,5.807.127.723,6.026.181.822,6.080.600.282,6.104.133.912,6.362.975.399,6.481.217.432,6.481.217.432


## 03. Manipulando arquivos JSON

### Conceitos

Para ler um arquivo JSON usamos

```python
dados_json = pd.read_json('arquivo.json')
```

Para visualizar um arquivo JSON e sua estrutura, podemos usar o site [JSON crack](https://jsoncrack.com). Sabemos que muitas vezes o arquivo JSON tem colunas aninhadas. Para ler esse tipo de arquivo usamos o método ```.json_normalize(dados)```. Repare que esse método só aceita um dicionário ou lista de dicionários. Se tivermos uma lista de dicionários aninhada, é necessário especificar qual coluna ela está, e então devemos fazer:

```python
json_normalizado = pd.json_normalize(dados_json['Coluna_a_ser_normalizada'])

## Outra forma

pd.json_normalzie(dados_json, record_path=['Coluna_a_ser_normalizada'])

## Para adicionar mais colunas, usamos o parâmetro meta

pd.json_normalize(
  dados_json,
  record_path=['Coluna_a_ser_normalizada'],
  meta=['Col1', 'Col2']
  )

```

Para ler um arquivo do tipo JSON, podemos usar o módulo JSON do python:

```python
import json

with open('arquivo.json', 'r') as f:
  dados = json.loads(f.read())
```


### Exercícios - Bora praticar?

O desafio agora é normalizar [esse DataFrame](https://jsonplaceholder.typicode.com/users), expandindo as colunas address e company em suas respectivas subcolunas para facilitar a visualização e a análise dos dados.

In [39]:
import json
import requests

requisicao = requests.get('https://jsonplaceholder.typicode.com/users')
dados_requisicao = json.loads(requisicao.text)
#df_requisicao = pd.DataFrame(dados_requisicao)
df_requisicao = pd.json_normalize(dados_requisicao)
df_requisicao.head()

Unnamed: 0,id,name,username,email,phone,website,address.street,address.suite,address.city,address.zipcode,address.geo.lat,address.geo.lng,company.name,company.catchPhrase,company.bs
0,1,Leanne Graham,Bret,Sincere@april.biz,1-770-736-8031 x56442,hildegard.org,Kulas Light,Apt. 556,Gwenborough,92998-3874,-37.3159,81.1496,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,010-692-6593 x09125,anastasia.net,Victor Plains,Suite 879,Wisokyburgh,90566-7771,-43.9509,-34.4618,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,1-463-123-4447,ramiro.info,Douglas Extension,Suite 847,McKenziehaven,59590-4157,-68.6102,-47.0653,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,493-170-9623 x156,kale.biz,Hoeger Mall,Apt. 692,South Elvis,53919-4257,29.4572,-164.299,Robel-Corkery,Multi-tiered zero tolerance productivity,transition cutting-edge web services
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,(254)954-1289,demarco.info,Skiles Walks,Suite 351,Roscoeview,33263,-31.8129,62.5342,Keebler LLC,User-centric fault-tolerant solution,revolutionize end-to-end systems


## 04. Lendo dados em HTML e XML

### Exercícios - Bora praticar?

Vanessa, ao pesquisar na internet, encontrou uma [tabela de estimativas populacionais em um artigo da página Wikipédia](https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o).

Assim como Vanessa, seu desafio é obter um DataFrame da tabela que contém as informações do número de habitantes de cada país.

In [40]:
dados_populacionais = pd.read_html("https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o")[0]
dados_populacionais

Unnamed: 0.1,Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Crescimento desde a última estimativa,Estimativa Oficial
0,,1,Índia,1 429 921 746,+269.108.746,Estimativa oficial
1,,2,China,1 426 391 281,+87.778.313,Censo oficial
2,,3,Estados Unidos,339 987 103,+31.241.565,Censo oficial
3,,4,Indonésia,277 184 719,+33.168.546,Estimativa oficial
4,,5,Paquistão,240 215 932,+65.636.932,Estimativa oficial
...,...,...,...,...,...,...
245,,–,Ilha de Ascensão (Reino Unido),1 100,,Estimativa oficial[10]
246,,195,Vaticano,879,,Estimativa oficial
247,,–,Ilhas Cocos (Keeling) (Austrália),605,,Estimativa oficial
248,,–,Tristão da Cunha (Reino Unido),264,,Estimativa oficial[11]


## 05. Trabalhando com bancos de dados.

In [41]:
import sqlalchemy
sqlalchemy.__version__

'2.0.36'

In [42]:
!pip install --upgrade sqlalchemy



### Conceitos

Para poder trabalhar com banco de dados, vamos usar a biblioteca **SQLAlchemy**. Essa biblioteca faz o mapeamento objeto-relacional, que possibilita interagir com BD relacionais.

Para usar essa biblioteca temos que importar alguns métodos que são:

* **create_engine**: Motor do BD, serve para criar o motor e fazer o BD funcionar,
* **MetaData**: Metadados do BD,
* **Table**: Representa a tabela do BD,
* **inspect**: Permite inspecionar a estrutura do BD.

E para criar o bando de dados, primeiro criamos (instanciamos) o motor do banco de dados: ```engine = create_engine('sqlite:///:memory:')``` -> Estamos usando o sqlite e salvando os dados na memória.

Para levar os dados carregados para o SQL, fazemos:

```python
dados.to_sql('Nome_banco', engine, index=False)
```
E podemos usar a função inspect para inspecionar o BD:
```python
inspector = inspect(engine)
inspector.get_table_names # Retorna o nome das tabelas que tem dentro do bd.
```
Para fazer consultas em SQL, podemos tanto passar a query direto ou criar uma variável ```query```, podemos passar essa query da seguinte forma:

```python
consulta1 = pd.read_sql(query, engine)
```
Para salvar essa consulta como uma tabela:
```python
consulta1.to_sql('nome_tabela', con=engine, index=False)
```
Por fim, podemos usar a função ```pd.read_sql_table('tabela', engine)``` para ler a tabela inteira

Ou seja:
* ```read_sql()``` lê uma consulta,
* ```read_sql_table``` lê a tabela.

E como podemos fazer outras queries, usando DELET, UPDATE etc?

```python
with engine.connect() as conn:
  conn.execute(query)
```

Um exemplo completo é dado por:

```python
from sqlalchemy import create_engine, MetaData, Table, inspect

engine = create_engine('sqlite:///:memory:')

dados = pd.read_csv('arquivo.csv')
dados.to_sql('Nome_banco', engine, index=False)
inspector = inspect(engine)
inspector.get_table_names
#>>> tabela_1, tabela_2
query = 'SELECT col1 FROM Nome_banco WHERE col1 = "X"'
consulta1 = pd.read_sql(query, engine)
#Salvando como tabela
consulta1.to_sql('nome_tabela', con=engine, index=False)
#Excluindo registro
query2 = 'DELETE FROM nome_tabela WHERE col1="X"'
with engine.connect() as conn:
  conn.execute(query)
```


### Exercícios - Bora praticar?

Você é responsável por criar um banco de dados local de clientes para uma instituição financeira. [Temos o arquivo CSV com os dados de clientes](https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv).

Sua missão é:

1. Criar o banco de dados local com a biblioteca SQLAlchemy.
2. Escrever os dados do arquivo CSV neste banco de dados local.
3. Realizar três atualizações no banco de dados:
  + Atualizar o registro do cliente de ID 6840104 que teve o rendimento anual alterado para 300000.  
  + Excluir o registro do cliente de ID 5008809, pois essa pessoa não possui mais conta na instituição financeira.
  + Criar um novo registro de cliente seguindo as especificações abaixo:
  ID_Cliente: 6850985,  
  Idade: 33,  
  Grau_escolaridade: Doutorado,  
  Estado_civil: Solteiro,  
  Tamanho_familia: 1,  
  Categoria_de_renda: Empregado,  
  Ocupacao: TI,  
  Anos_empregado: 2,  
  Rendimento_anual: 290000,  
  Tem_carro: 0,  
  Moradia: Casa/apartamento próprio

In [43]:
import sqlalchemy
from sqlalchemy import create_engine, MetaData, Table, inspect, text
engine = create_engine('sqlite:///:memory:')

In [44]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'
dados_clientes = pd.read_csv(url)
dados_clientes.shape

(438463, 11)

In [45]:
dados_clientes.to_sql('clientes', con=engine, if_exists='replace', index=False)

438463

In [46]:
inspection = inspect(engine)
inspection.get_table_names()

['clientes']

In [47]:
dados_clientes.head(3)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio


In [48]:
query_1 = text('UPDATE clientes SET Rendimento_anual = 300000 WHERE ID_Cliente = 6840104')
query_2 = text('DELETE FROM clientes WHERE ID_Cliente = 5008809')
query_3 = text('INSERT INTO clientes VALUES (6850985, 33, "Doutorado", "Solteiro", 1, "Empregado", "TI", 2, 290000, 0, "Casa/apartamento próprio")')
with engine.connect() as conn:
  conn.execute(query_1),
  conn.execute(query_2),
  conn.execute(query_3)

In [49]:
pd.read_sql_table('clientes', engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio
