# Construção de dados

## Coletando dados

Muitas vezes, nosso dado de interesse não está imediatamente disponível e é necessário coletá-lo. Esse processo geralmente é realizado por engenheiros de dados, mas em equipes reduzidas é comum que esse trabalho fique para o analista de dados.

Existem várias formas de coletar dados e vamos focar na técnica de raspagem de dados ou Web Scrapping. Essa técnica corresponde a coletar os dados diretamente da Web através de bibliotecas que lerão páginas HTML e vão retirar os dados de lá. 

Vamos focar na raspagem de dados de tabelas HTML. Esses são dados que estão em tags \<table\> e geralmente aparecem como tabelas no navegador. Esse tipo de tabela pode ser obtido diretamente pela biblioteca Pandas, o que reduz bastante o trabalho envolvido na raspagem. 

## Limpeza e Organização dos dados

Uma vez que os dados foram coletados é possível que eles precisem ser limpos e organizados para que seja possível realizar a análise. Essa limpeza ou tratamento dos dados visa garantir sua integridade. Muitas vezes dados numéricos serão importados como texto e datas precisam ser reformatadas para poderem ser acessadas e processadas.

Esse processo de limpeza é realizado ao mesmo tempo que o conjunto de dados é organizado. Essa organização é o que garante que o conjunto de dados contém os dados de interesse e não contém colunas duplicadas ou dados que não possam ser utilizados. 

O conjunto de dados tratado e organizado é o que vamos salvar e compartilhar para a realização das análises. Um conjunto de dados bem construído é valioso e devemos ter muito cuidado para não perder as horas de trabalho que passamos limpando e organizando. Geralmente o conjunto de dados final é salvo em formato CSV, JSON em tabelas XLSX ou em bancos de dados para fácil acesso e processamento posterior.

In [None]:
import pandas as pd
import datetime

#### Limpeza de dados

Vamos começar tratando datas e organizando as colunas de um conjunto de dados.

In [None]:
# Vamos começar estudando a própria história do Python
# A URL a seguir contém uma tabela com informações sobre Python
url = 'https://en.wikipedia.org/wiki/History_of_Python'
# Vamos ler a tabela com Pandas. 
dfs = pd.read_html(url)
# O resultado é uma lista de DataFrames.
# Cada tabela da página é um elemento dessa lista.
print(len(dfs)) # Podemos ver quantas tabelas foram obtidas

In [None]:
# Vamos analisar a tabela obtida
dados = dfs[0]
dados.head()

In [None]:
# Vemos que algumas colunas não parecem ter muitos valores válidos
# Vamos obter um sumário dos dados com a função info()
dados.info()

In [None]:
# Temos 31 elementos e 5 colunas, mas apenas 3 possuem todos os elementos
# Como são poucos elementos, vamos visualizar o conjunto inteiro
dados # Observe as últimas entradas

In [None]:
# As últimas linhas obtidas são a legenda da tabela e precisam ser excluídas
# A última linha corresponde a uma versão que não saiu, vamos eliminar também
dados = dados[0:28]
dados

In [None]:
# Vamos eliminar as linhas 3, 4 e 5, que correspondem a versão unsupported
dados = dados.drop(index=[3,4,5]) # Vamos utilizar a função drop()
dados = dados.reset_index(drop=True)
dados

In [None]:
# Vamos agora limpar as colunas das marcações da Wikipedia
# Vemos que todas as colunas possuem dados entre colchetes []
# Vamos eliminar todos esses com a função split()
dados['Latest micro version'] = [dado.split('[')[0] for dado in dados['Latest micro version']]
dados

In [None]:
# Vamos repetir para cada coluna
dados['Release date'] = [dado.split('[')[0] for dado in dados['Release date']]
dados['End of full support'] = [dado.split('[')[0] for dado in dados['End of full support']]
dados['End of security fixes'] = [dado.split('[')[0] for dado in dados['End of security fixes']]
dados

In [None]:
# Por fim, vamos tratar os dados de datas
# Vamos utilizar a coluna Release Date como exemplo
# O formato nessa coluna está aaaa-mm-dd
# Vamos utilizar a função split() novamente separando pelo -
# Vamos salvar o resultado como um objeto datetime
dados['Release date'] = [datetime.datetime(int(dado.split('-')[0]),int(dado.split('-')[1]),int(dado.split('-')[2])) for dado in dados['Release date']]
dados

In [None]:
dados['Release date'][0].day

In [None]:
dados['End of full support'][0].day

In [None]:
# Para organizar os dados, vamos utilizar outra variável
dados_limpos = pd.DataFrame() # Vamos começar com um DataFrame vazio
dados_limpos = dados[['Latest micro version','Release date']]
dados_limpos

In [None]:
# Por fim, vamos salvar nossos dados
dados_limpos.to_csv('python-versões.csv')

In [None]:
# Vamos olhar outros exemplos
wiki = "https://en.wikipedia.org/wiki/List_of_films_based_on_Marvel_Comics"

In [None]:
df_marvel_site=pd.read_html(wiki,match='Box office')
len(df_marvel_site)
df_marvel = df_marvel_site[0]

In [None]:
df_marvel

In [None]:
# Um exemplo com BeautifulSoup

res = requests.get("http://www.nationmaster.com/country-info/stats/Media/Internet-users")
soup = BeautifulSoup(res.content,'lxml')
table = soup.find_all('table')[0] 
df = pd.read_html(str(table))
print(df[0].to_json(orient='records'))

In [None]:
df = pd.read_html(str(table))[0]
countries = df["COUNTRY"].tolist()
users = df["AMOUNT"].tolist()
countries