In [2]:
import pandas as pd


## Desafio 1 - Importação de arquivo CSV

Será necessário fazer a leitura desse arquivo CSV, porém ele apresenta alguns padrões diferentes que devem ser tratados.

**Importante: analise cuidadosamente o arquivo a cada etapa para entender o que falta.**

In [3]:
path_dados_sus = 'in/dados_sus.csv'


In [4]:
try:
    pd.read_csv('in/dados_sus.csv')
except UnicodeDecodeError as e:
    print(e)


'utf-8' codec can't decode byte 0xe7 in position 56: invalid continuation byte


Primeiramente, o encoder do arquivo é diferente, usaremos a lib `chardet` para esse trabalho.

In [5]:
from chardet import detect

def get_file_encoding():
    with open(path_dados_sus, 'rb') as file:
        return detect(file.read())['encoding']

encoding = get_file_encoding()


In [6]:
dados_sus = pd.read_csv('in/dados_sus.csv', encoding=encoding, skiprows=5, sep=';', skipfooter=10, engine='python')
dados_sus.head()


Unnamed: 0,Acre,"902416,00","1497206,26","1794028,48","1730469,42","1819443,92","1828496,00","2511754,59","2089107,14","2275708,53",...,"3915193,20","3640142,82","3391242,21","4044321,44","3276590,10","3696997,31","3715723,12","3538427,92","4077045,92","450048530,47"
0,Amazonas,473552942,711899057,819663549,825937842,783139990,847727362,936885872,935253270,936309935,...,1976946014,1805993143,1784101563,1640831510,1989561791,1776516769,2143028917,2591713455,2203217622,191724793605
1,Roraima,65788953,77793931,71868803,83999439,86234796,83244066,99669309,89427118,91042417,...,301548830,282648618,292804391,309031373,362103105,345446094,326692847,351977373,398553008,32887696509
2,Pará,1886474411,1955375820,2193734270,2084282969,2324995288,2324068756,2400222356,2334121803,2517226132,...,4080412643,4438571588,3682024947,3696593134,3900431580,3801514579,3835468246,3768831423,3327639289,470530900229
3,Amapá,112097334,126874033,97465124,114113732,86634618,144097895,142665948,147555138,165134143,...,325339945,294639844,241601923,220373204,221853226,256691960,280288634,281784931,318821098,30986009259
4,Tocantins,344159269,498568885,620561260,498448209,551100246,492793422,544560228,541371038,559666950,...,915557236,839026772,872963249,777088566,52784046,67527705,41955349,31916087,135775133,102002827264


### Explicação:

* `encoding='ISO-8859-1'`: tipo de codificação dos caracteres do arquivo. Neste caso, é a codificação ISO-8859-1 que é comum em arquivos de língua portuguesa.
* `sep=';'`: separador dos valores no arquivo. Neste caso, é o ponto-e-vírgula (;).
* `skiprows=3`: indica que as três primeiras linhas do arquivo devem ser ignoradas, pois não contêm dados relevantes.
* `skipfooter = 10`: indica que as dez últimas linhas do arquivo devem ser ignoradas, pois não contêm dados relevantes.
* `engine='python'`: o motor usado para ler o arquivo é o Python. Isso é necessário quando se usa o parâmetro skipfooter, pois o motor padrão não suporta essa opção.

## Desafio 2 - Leitura de Google Sheets

Com base na url [dessa planilha](https://docs.google.com/spreadsheets/d/1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw/edit?gid=1214654498#gid=1214654498) faça a leitura dos dados para o Pandas.

In [8]:
sheet_id = '1pvBoLyX8kP0TjtUbadVMGdTl4yzm6bHMThhPiqCVtpw'
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'

CO2_emission = pd.read_csv(url)
CO2_emission.head()


Unnamed: 0,Country,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191.745.115,167.681.579,95.957.742,8.472.111,75.545.827,68.467.956,...,29.650.624,259.295.334,18.562.366,146.235.617,172.896.741,149.789.334,131.694.556,1.632.953,159.824.372,159.824.372
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553.661.955,544.538.649,543.557.223,70.898.423,836.804.405,912.141.485,...,985.522.312,950.695.879,1.036.293.852,1.099.779.111,113.504.405,1.031.811.348,81.330.073,777.674.934,792.137.069,792.137.069
3,Albania,ALB,Europe & Central Asia,CO2 emissions (metric tons per capita),1.819.541.634,124.281.022,683.699.826,638.307.036,645.355.189,605.436.253,...,166.942.319,150.324.046,1.533.630.039,1.668.337.371,160.377.515,1.557.664.358,1.788.786.074,1.782.738.948,169.224.832,169.224.832
4,Andorra,AND,Europe & Central Asia,CO2 emissions (metric tons per capita),7.521.831.658,723.537.924,69.630.787,6.724.177.518,6.541.578.914,6.733.479.486,...,5.850.886.105,5.944.654.173,5.942.800.412,5.807.127.723,6.026.181.822,6.080.600.282,6.104.133.912,6.362.975.399,6.481.217.432,6.481.217.432


# Desafio 3 - Normalizar Dados de uma API

Capture os dados de uma API pública e normalize sua estrutura (uma das propriedades tem dados aninhados).

In [15]:
import requests
import json

dados_frutas = requests.get('https://fruityvice.com/api/fruit/all')
resultado = json.loads(dados_frutas.text)

pd.DataFrame(resultado).head()


Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."


In [16]:
fruits = pd.json_normalize(resultado)
fruits.head()


Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
3,Tomato,5,Solanaceae,Solanales,Solanum,74,0.2,2.6,3.9,0.9
4,Pear,4,Rosaceae,Rosales,Pyrus,57,0.1,10.0,15.0,0.4


# Desafio 4 - Consumir Dados de uma Página Web

Faça a leitura dessa página web de [países por população](https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o) e crie um DataFrame com a tabela de população por país.

In [21]:
populacao_paises = pd.read_html('https://pt.wikipedia.org/wiki/Lista_de_pa%C3%ADses_por_popula%C3%A7%C3%A3o')[0]
populacao_paises.head()


Unnamed: 0.1,Unnamed: 0,Posição,País (ou território dependente),Estimativa da ONU,Crescimento desde a última estimativa,Estimativa Oficial
0,,1,Índia,1 429 921 746,+269.108.746,Estimativa oficial
1,,2,China,1 426 391 281,+87.778.313,Censo oficial
2,,3,Estados Unidos,339 987 103,+31.241.565,Censo oficial
3,,4,Indonésia,277 184 719,+33.168.546,Estimativa oficial
4,,5,Paquistão,240 215 932,+65.636.932,Estimativa oficial
