# Semana 05 - Obtendo Dados

Para ser um cientista de dados, você precisa de dados. Na verdade, como cientista de dados, você gastará uma (boa) fração de seu tempo adquirindo, limpando e transformando dados.

Nesta aula, veremos diferentes maneiras de obter dados em Python e colocá-los nos formatos corretos.

##Lendo arquivos de texto (.csv)

**ATENÇÃO**

Tenha sempre cuidado no preenchimento do endereço e a extensão do arquivo.

Na grande maioria dos casos, o caminho será especificado da seguinte forma:

`pasta_onde_o_arquivo_se_encontra/nome_do_arquivo.csv`


**ATENÇÃO**

Note que o índice da primeira linha é **zero**.

Esse é o padrão do Python!

In [None]:
import pandas as pd

nomes_br = pd.read_csv("/content/nomes_br2019.csv")
nomes_br

FileNotFoundError: [Errno 2] No such file or directory: '/content/nomes_br2019.csv'

Arquivos com extensão `.csv` tem padrões diferentes.

Por uma questão regional, eventualmente utilizamos arquivos deste tipo com separadores diferentes.

In [None]:
dados_pixar = pd.read_csv("/content/dados_pixar.csv", sep = ";")
dados_pixar

Neste ferramental do Python para leitura de arquivos, temos muitas opções.

Não vamos explorá-las aqui mas pode-se citar que podemos:


*  limitar o número de linhas (importante para arquivos muito grandes);
*  pular determinadas linhas;
*  selecionar e nomear colunas.

Aqui você pode consultar uma ajuda (em inglês)




In [None]:
?pd.read_csv

##Planilhas de Texto (.xlsx)

Esta função suporta diversos tipos de extensões: `xls`, `xlsx`, `xlsm`, `xlsb`, `odf`, `ods` e `odt`.

In [None]:
dados_starwars = pd.read_excel("/content/dados_starwars.xlsx")
dados_starwars

Unnamed: 0,nome,altura,massa,cor_do_cabelo,cor_da_pele,genero,planeta_natal,especie
0,Luke Skywalker,172.0,77.0,Loiro,Branca clara,Masculino,Tatooine,Humano
1,C-3PO,167.0,75.0,,Ouro,Masculino,Tatooine,Droide
2,R2-D2,96.0,32.0,,"Branca, Azul",Masculino,Naboo,Droide
3,Darth Vader,202.0,136.0,Nenhum,Branca,Masculino,Tatooine,Humano
4,Leia Organa,150.0,49.0,Castanho,Clara,Feminino,Alderaan,Humano
...,...,...,...,...,...,...,...,...
82,Rey,,,Castanho,Clara,Feminino,,Humano
83,Poe Dameron,,,Castanho,Clara,Masculino,,Humano
84,BB8,,,Nenhum,Nenhuma,Masculino,,Droide
85,Captain Phasma,,,Desconhecido,Desconhecida,,,


Se você abrir este arquivo em um editor de planilhas, verá que as **células das linhas 2 e 3 da coluna 4 estarão vazias (ou em branco)**.

O Python utiliza `NaN` para representar um **valor faltante**.

Grande parte do tempo você irá se deparar com este tipo de ocorrência.

##Raspando Dados da Web

Vamos estudar um exemplo.

A *Wikipedia* disponibiliza um oceano de informações.

Suponha que desejamos algumas informações valiosas sobre o maravilhoso Estado do Rio de Janeiro disponibilizadas aqui:

https://pt.wikipedia.org/wiki/Rio_de_Janeiro_(estado)

In [None]:
import requests
from bs4 import BeautifulSoup

# retirando o texto do HTML de uma pag na web
url = requests.get('https://pt.wikipedia.org/wiki/Rio_de_Janeiro_(estado)').text

busca = BeautifulSoup(url,'lxml')
busca

Note que o resultado da busca é exatamente o montante de linhas de códigos que aparecem quando inspecionamos uma página da *web*.

Para visualizá-lo manualmente:

1.   abra o link no seu navegador de preferência,
2.   clique com o botão direito do *mouse*
3.   clique em 'Inspecionar'.


Agora, iremos filtrar o código para retirar somente as tabelas.

Em *HTML*, as classes de tabelas se chamam *table*:

In [None]:
tabela = busca.find_all('table')
tabela

Vamos selecionar diferentes tabelas da página e transformá-las diretamente em um `data frame`:

In [None]:
# tab 1: crescimento populacional
cresc_pop = pd.read_html(str(tabela))[6]
cresc_pop

Unnamed: 0_level_0,Crescimento populacional,Crescimento populacional,Crescimento populacional,Crescimento populacional
Unnamed: 0_level_1,Censo,Pop.,Unnamed: 2_level_1,%±
0,1872,1 057 696,,
1,1890,1 399 535,,"32,3%"
2,1900,1 737 478,,"24,1%"
3,1920,2 717 244,,"56,4%"
4,1940,3 611 998,,"32,9%"
5,1950,4 674 645,,"29,4%"
6,1960,6 709 891,,"43,5%"
7,1970,9 110 324,,"35,8%"
8,1980,11 489 797,,"26,1%"
9,1991,12 783 761,,"11,3%"


In [None]:
# tab 2: populacao por cor/raca
pop_cor = pd.read_html(str(tabela))[7]
pop_cor

In [None]:
# tab 3: lista de municipios mais populosos
munic_maispop = pd.read_html(str(tabela))[8]
munic_maispop

Note que a função `pd.read_html` lê várias tabelas de uma única vez.

O valor entre colchetes significa que estamos selecionando uma tabela específica conforme a sua ordem.

Por exemplo, `[6]` significa que estamos selecionando a **sétima** tabela.

##Usando APIs

Muitos sites e serviços da *Web* fornecem interfaces de programação de aplicativos (APIs), que permitem solicitar dados explicitamente em um formato estruturado.

Isso evita **(muito)** trabalho de raspá-los!

Além disso, a linguagem Python possui diversos colaboradores mundo a fora, inclusive no Brasil.

Assim, importantes bases de dados são traduzidas por meio de bibliotecas e disponibilizadas à todos os usuários de forma direta e simples.

No Brasil, muitas bases de dados se destacam. Vamos destacar três delas:

*   IBGE
*   BACEN (SGS)
*   IPEA (Ipeadata)

Inicialmente, precisamos instalar essas bibliotecas virtualmente:

In [None]:
%pip install ibge sgs ipeadatapy

Para ilustrar, podemos buscar dados diretamente do IBGE sobre os **5570 municípios** de nosso país:

In [None]:
from ibge.localidades import *

municip = Municipios()
df_municip = pd.json_normalize(municip.json())
df_municip

Vamos buscar a série temporal do valor da cesta básica no município do Rio de Janeiro de 01/01/1998 à 01/01/2023:

In [None]:
import sgs

# o codigo da serie de cesta basica no RJ
# e 7491
df_cesta = sgs.dataframe(7491, start = '01/01/1998', end = '01/01/2023')
df_cesta

Por fim, vamos buscar o *valor real* do salário mínimo ao longo dos anos na base Ipeadata:

In [None]:
import ipeadatapy

# o codigo da serie de salario minimo na base
# e 'GAC12_SALMINRE12'
df_salmin = ipeadatapy.timeseries('GAC12_SALMINRE12')
df_salmin

In [None]:
series_disponiveis = ipeadatapy.list_series()
series_disponiveis

In [None]:
series

Unnamed: 0,CODE,NAME
0,ABATE_ABPEAV,Abate - aves - peso das carcaças
1,ABATE_ABPEBV,Abate - bovinos - peso das carcaças
2,ABATE_ABPESU,Abate - suínos - peso das carcaças
3,ABATE_ABQUAV,Abate - aves - quantidade
4,ABATE_ABQUBV,Abate - bovinos - quantidade
...,...,...
9614,SIS_NMLTINTSUS1000HUF,Número de leitos para internação pelo SUS por ...
9615,SIS_NMLTINTUF,Número de leitos para internação
9616,SIS_NMMED1000HUF,Médicos por 10.000 habitantes
9617,SIS_NMODN1000HUF,Odontólogos por 10.000 habitantes


**OBSERVAÇÃO:**

*Valor real* do salário mínimo significa que ele foi *deflacionado*.

Ou seja, foi feito um cálculo na tentativa de remoção da inflação ao longo dos anos de forma que os valores do passado sejam comparáveis de forma direta com os mais recentes.