<a href="https://colab.research.google.com/github/strawndri/python-ds-pandas-io/blob/main/Desafios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Python para Data Science - Desafios

Neste Notebook, serão trabalhadas diferentes maneiras de importar e exportar arquivos utilizando a [biblioteca Pandas](https://pandas.pydata.org/docs/), do Python.

Todo o estudo é baseado no conteúdo apresentado no curso [Pandas I/O: trabalhando com diferentes formatos de arquivos](https://www.alura.com.br/curso-online-pandas-io-trabalhando-diferentes-formatos-arquivos), da Alura.

## Aula 1: Fazendo leitura de arquivos CSV

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/strawndri/python-ds-pandas-io/main/dados/dados_sus.csv'

### 1. Verifique se o arquivo CSV está separado por vírgula ou ponto e vírgula.

In [None]:
dados = pd.read_csv(url, sep=';')

### 2. A codificação do arquivo é ISO-8859-1.

O parâmetro `enconding` especifica a condificação de caracteres a ser usada na leitura do arquivo CSV. Geralmente, trabalhamos com o padrão `UTF-8`, mas outros podem surgir.

In [None]:
dados = pd.read_csv(url, sep=';', encoding='ISO-8859-1')

### 3. As três primeiras linhas linhas do arquivo podem ser desconsideradas, pois o cabeçalho só começa na quarta linha.

O parâmetro `skiprows` permite pular um número específico de linhas no início do arquivo durante a leitura.

In [None]:
dados = pd.read_csv(url, sep=';', encoding='ISO-8859-1', skiprows=3)
dados.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


### 4. As 9 últimas linhas também podem ser desconsideradas, pois são apenas informações sobre onde os dados foram obtidos.

O parâmetro `skipfooter` permite pular um número específico de linhas no final do arquivo durante a leitura.

In [None]:
dados = pd.read_csv(url, sep=';', encoding='ISO-8859-1', skiprows=3, skipfooter=9)
dados.head()

  dados = pd.read_csv(url, sep=';', encoding='ISO-8859-1', skiprows=3, skipfooter=9)


Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


### 5. Para deletar as últimas linhas é necessário adicionar o parâmetro `engine='python'`.

Com o parâmetro `engine`, definimos o mecanismo a ser usado para a leitura do arquivo CSV. Por padrão, o Pandas trabalha com `'c'` **(C engine)**.

Contudo, para alguns casos, pode ser necessário usar o mecanismo `'python'` **(usando o interpretador Python)** para suportar funcionalidades adicionais, como o próprio `skipfooter.`

In [None]:
dados = pd.read_csv(url, sep=';', encoding='ISO-8859-1', skiprows=3, skipfooter=9, engine='python')
dados.head()

Unnamed: 0,Unidade da Federação,2008/Jan,2008/Fev,2008/Mar,2008/Abr,2008/Mai,2008/Jun,2008/Jul,2008/Ago,2008/Set,...,2020/Jul,2020/Ago,2020/Set,2020/Out,2020/Nov,2020/Dez,2021/Jan,2021/Fev,2021/Mar,Total
0,Rondônia,138852839,293128342,154168252,152531496,164595384,140615068,306527901,323149461,311717863,...,1182468713,1173330776,1020198514,795513945,935794629,888083655,926601459,773059704,1102330947,99641125468
1,Acre,90241600,149720626,179402848,173046942,181944392,182849600,251175459,208910714,227570853,...,391519320,364014282,339124221,404432144,327659010,369699731,371572312,353842792,407704592,45004853047
2,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
3,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
4,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229


## Aula 2: Utilizando planilhas

### 1. Efetuar a leitura [deste link do Google Planilhas](https://docs.google.com/spreadsheets/d/1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw/edit#gid=1214654498) e depois salvar o *DataFrame* obtido no formato CSV.

In [None]:
import pandas as pd

In [None]:
sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw'
sheet_name = 'CO2_emission'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'

In [None]:
dados = pd.read_csv(url)
dados.head()

Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191.745.115,167.681.579,95.957.742,8.472.111,75.545.827,68.467.956,...,29.650.624,259.295.334,18.562.366,146.235.617,172.896.741,149.789.334,131.694.556,1.632.953,159.824.372,159.824.372
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553.661.955,544.538.649,543.557.223,70.898.423,836.804.405,912.141.485,...,985.522.312,950.695.879,1.036.293.852,1.099.779.111,113.504.405,1.031.811.348,81.330.073,777.674.934,792.137.069,792.137.069
3,Albania,ALB,Europe & Central Asia,CO2 emissions (metric tons per capita),1.819.541.634,124.281.022,683.699.826,638.307.036,645.355.189,605.436.253,...,166.942.319,150.324.046,1.533.630.039,1.668.337.371,160.377.515,1.557.664.358,1.788.786.074,1.782.738.948,169.224.832,169.224.832
4,Andorra,AND,Europe & Central Asia,CO2 emissions (metric tons per capita),7.521.831.658,723.537.924,69.630.787,6.724.177.518,6.541.578.914,6.733.479.486,...,5.850.886.105,5.944.654.173,5.942.800.412,5.807.127.723,6.026.181.822,6.080.600.282,6.104.133.912,6.362.975.399,6.481.217.432,6.481.217.432


In [None]:
dados.to_csv('dados_emissoes_CO2.csv', index=False)

## Aula 3: Manipulando arquivos JSON

### 1. O *DataFrame* mostrado abaixo foi gerado após a obtenção de dados da API [Fruitvice](https://fruityvice.com/):

| index | genus     | name        | id | family     | order        | nutritions                                        |
|-------|-----------|-------------|----|------------|--------------|---------------------------------------------------|
| 0     | Malus     | Apple       | 6  | Rosaceae   | Rosales      | {'carbohydrates': 11.4, 'protein': 0.3, 'fat': 0.4, 'calories': 52, 'sugar': 10.3}     |
| 1     | Prunus    | Apricot     | 35 | Rosaceae   | Rosales      | {'carbohydrates': 3.9, 'protein': 0.5, 'fat': 0.1, 'calories': 15, 'sugar': 3.2}       |
| 2     | Persea    | Avocado     | 84 | Lauraceae  | Laurales     | {'carbohydrates': 8.53, 'protein': 2, 'fat': 14.66, 'calories': 160, 'sugar': 0.66}   |
| 3     | Musa      | Banana      | 1  | Musaceae   | Zingiberales | {'carbohydrates': 22, 'protein': 1, 'fat': 0.2, 'calories': 96, 'sugar': 17.2}        |
| 4     | Rubus     | Blackberry  | 64 | Rosaceae   | Rosales      | {'carbohydrates': 9, 'protein': 1.3, 'fat': 0.4, 'calories': 40, 'sugar': 4.5}       |
| 5     | Fragaria  | Blueberry   | 33 | Rosaceae   | Rosales      | {'carbohydrates': 5.5, 'protein': 0, 'fat': 0.4, 'calories': 29, 'sugar': 5.4}       |
| 6     | Prunus    | Cherry      | 9  | Rosaceae   | Rosales      | {'carbohydrates': 12, 'protein': 1, 'fat': 0.3, 'calories': 50, 'sugar': 8}          |

Este DataFrame possui 6 colunas: genus (gênero), name (nome), id, family (família), order (ordem) e nutritions (nutrições). Note que a coluna nutritions está com todas as informações nutricionais aninhadas. Portanto, os dados precisam ser normalizados.

O desafio agora é normalizar esse DataFrame.

In [None]:
import pandas as pd
import requests
import json

A função `get`, do módulo `requests`, envia uma requisição HTTP do tipo GET para um servidor e recebe sua respectiva resposta.

https://www.w3schools.com/python/ref_requests_get.asp

In [None]:
dados_frutas = requests.get('https://fruityvice.com/api/fruit/all')

A função `loads`, do módulo `json`, é usada para analisar uma string JSON e converter o conteúdo em um objeto Python.

A expresão "*loads*" significa "*load string*" (carregar string).

https://www.geeksforgeeks.org/json-loads-in-python/

In [None]:
dados_frutas_json = json.loads(dados_frutas.text)

In [None]:
df_frutas_normalizado = pd.json_normalize(dados_frutas_json)

In [None]:
df_frutas_normalizado.head()

Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
3,Tomato,5,Solanaceae,Solanales,Solanum,74,0.2,2.6,3.9,0.9
4,Pear,4,Rosaceae,Rosales,Pyrus,57,0.1,10.0,15.0,0.4


## Aula 4: Lendado dados em HTML e XML

### 1. lendo uma tabela de uma página web

Vanessa é uma cientista de dados que está realizando algumas análises com dados ambientais. Ela está desenvolvendo um projeto para avaliar o impacto ambiental das atividades humanas em diferentes países do mundo, mas para isso precisa das estimativas populacionais desses países. Ao pesquisar na internet, encontrou uma tabela de estimativas populacionais em um artigo da página [Wikipédia](https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o).

Assim como Vanessa, seu desafio é obter um DataFrame da tabela que contém as informações do número de habitantes de cada país.

In [None]:
import pandas as pd

In [None]:
df_habitantes_por_pais = pd.read_html('https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o')[0]

In [None]:
df_habitantes_por_pais.head()

Unnamed: 0.1,Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Crescimento desde a última estimativa,Data,Estimativa Oficial
0,,1,Índia,1 429 921 746,+269.108.746,2023,Estimativa oficial
1,,2,China,1 426 391 281,+87.778.313,2023,Censo oficial
2,,3,Estados Unidos,339 987 103,+31.241.565,2023,Censo oficial
3,,4,Indonésia,277 184 719,+33.168.546,2023,Estimativa oficial
4,,5,Paquistão,240 215 932,+65.636.932,2023,Estimativa oficial


## Aula 5: Trabalhando com banco de dados

In [2]:
pip install --upgrade 'sqlalchemy<2.0'



In [1]:
import pandas as pd
import sqlalchemy

In [4]:
from sqlalchemy import create_engine, MetaData, Table, inspect

### 1. Criar o banco de dados local com a biblioteca SQLAlchemy.

In [3]:
url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/main/clientes_banco.csv'

In [5]:
engine = create_engine('sqlite:///:memory:')

### 2. Escrever os dados do arquivo CSV neste banco de dados local.

In [7]:
dados = pd.read_csv(url)
dados.head()

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio


In [8]:
dados.to_sql('clientes', engine, index=False)

438463

In [9]:
pd.read_sql_table('clientes', con=engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,135000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


### 3. Realizar três atualizações no banco de dados:

#### Atualizar o registro do cliente de ID 6840104 que teve o rendimento anual alterado para 300000.

In [12]:
query = 'UPDATE clientes SET Rendimento_anual = 300000.00 WHERE ID_Cliente = "6840104"'
with engine.connect() as conn:
  conn.execute(query)

In [13]:
pd.read_sql_table('clientes', con=engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008809,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,300000.0,0,Casa/apartamento próprio
438459,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438460,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438461,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


#### Excluir o registro do cliente de ID 5008809, pois essa pessoa não possui mais conta na instituição financeira.

In [14]:
query = 'DELETE FROM clientes WHERE ID_Cliente = "5008809"'
with engine.connect() as conn:
  conn.execute(query)

In [15]:
pd.read_sql_table('clientes', con=engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438457,6840104,62,Ensino médio,Divorciado,1,Pensionista,Outro,0,300000.0,0,Casa/apartamento próprio
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio


#### Criar um novo registro de cliente seguindo as especificações abaixo:

* ID_Cliente: 6850985
* Idade: 33
* Grau_escolaridade: Doutorado
* Estado_civil: Solteiro
* Tamanho_familia: 1
* Categoria_de_renda: Empregado
* Ocupacao: TI
* Anos_empregado: 2
* Rendimento_anual: 290000
* Tem_carro: 0
* Moradia: Casa/apartamento próprio

In [16]:
query = ''' INSERT INTO clientes (ID_Cliente, Idade, Grau_Escolaridade,
            Estado_civil, Tamanho_familia, Categoria_de_renda, Ocupacao,
            Anos_empregado, Rendimento_anual, Tem_carro, Moradia)
            VALUES ("6850985", 33, "Doutorado", "Solteiro", 1, "Empregado",
            "TI", 2, 290000.0, 0, "Casa/apartamento próprio")'''
with engine.connect() as conn:
  conn.execute(query)

In [17]:
pd.read_sql_table('clientes', con=engine)

Unnamed: 0,ID_Cliente,Idade,Grau_escolaridade,Estado_civil,Tamanho_familia,Categoria_de_renda,Ocupacao,Anos_empregado,Rendimento_anual,Tem_carro,Moradia
0,5008804,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
1,5008805,32,Ensino superior,União-estável,2,Empregado,Outro,12,427500.0,1,Apartamento alugado
2,5008806,58,Ensino médio,Casado,2,Empregado,Segurança,3,112500.0,1,Casa/apartamento próprio
3,5008808,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
4,5008810,52,Ensino médio,Solteiro,1,Associado comercial,Vendas,8,270000.0,0,Casa/apartamento próprio
...,...,...,...,...,...,...,...,...,...,...,...
438458,6840222,43,Ensino médio,Solteiro,1,Empregado,Construção Civil,8,103500.0,0,Casa/apartamento próprio
438459,6841878,22,Ensino superior,Solteiro,1,Associado comercial,Vendas,1,54000.0,0,Mora com os pais
438460,6842765,59,Ensino médio,Casado,2,Pensionista,Outro,0,72000.0,0,Casa/apartamento próprio
438461,6842885,51,Ensino médio,Casado,2,Empregado,Vendas,3,121500.0,0,Casa/apartamento próprio
