# Construção de dados

## Coletando dados

Muitas vezes, nosso dado de interesse não está imediatamente disponível e é necessário coletá-lo. Esse processo geralmente é realizado por engenheiros de dados, mas em equipes reduzidas é comum que esse trabalho fique para o analista de dados.

Existem várias formas de coletar dados e vamos focar na técnica de raspagem de dados ou Web Scrapping. Essa técnica corresponde a coletar os dados diretamente da Web através de bibliotecas que lerão páginas HTML e vão retirar os dados de lá. 

Vamos focar na raspagem de dados de tabelas HTML. Esses são dados que estão em tags \<table\> e geralmente aparecem como tabelas no navegador. Esse tipo de tabela pode ser obtido diretamente pela biblioteca Pandas, o que reduz bastante o trabalho envolvido na raspagem. 

## Limpeza e Organização dos dados

Uma vez que os dados foram coletados é possível que eles precisem ser limpos e organizados para que seja possível realizar a análise. Essa limpeza ou tratamento dos dados visa garantir sua integridade. Muitas vezes dados numéricos serão importados como texto e datas precisam ser reformatadas para poderem ser acessadas e processadas.

Esse processo de limpeza é realizado ao mesmo tempo que o conjunto de dados é organizado. Essa organização é o que garante que o conjunto de dados contém os dados de interesse e não contém colunas duplicadas ou dados que não possam ser utilizados. 

O conjunto de dados tratado e organizado é o que vamos salvar e compartilhar para a realização das análises. Um conjunto de dados bem construído é valioso e devemos ter muito cuidado para não perder as horas de trabalho que passamos limpando e organizando. Geralmente o conjunto de dados final é salvo em formato CSV, JSON em tabelas XLSX ou em bancos de dados para fácil acesso e processamento posterior.

In [1]:
import pandas as pd
import datetime

#### Limpeza de dados

Vamos começar tratando datas e organizando as colunas de um conjunto de dados.

In [2]:
# Vamos começar estudando a própria história do Python
# A URL a seguir contém uma tabela com informações sobre Python
url = 'https://en.wikipedia.org/wiki/History_of_Python'
# Vamos ler a tabela com Pandas. 
dfs = pd.read_html(url)
# O resultado é uma lista de DataFrames.
# Cada tabela da página é um elemento dessa lista.
print(len(dfs)) # Podemos ver quantas tabelas foram obtidas

1


In [3]:
# Vamos analisar a tabela obtida
dados = dfs[0]
dados.head()

Unnamed: 0,Version,Latest micro version,Release date,End of full support,End of security fixes
0,,0.9.9[2],1991-02-20[2],1993-07-29[a][2],1993-07-29[a][2]
1,,1.0.4[2],1994-01-26[2],1994-02-15[a][2],1994-02-15[a][2]
2,,1.1.1[2],1994-10-11[2],1994-11-10[a][2],1994-11-10[a][2]
3,,,1995-04-13[2],Unsupported,Unsupported
4,,,1995-10-13[2],Unsupported,Unsupported


In [4]:
# Vemos que algumas colunas não parecem ter muitos valores válidos
# Vamos obter um sumário dos dados com a função info()
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 5 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Version                3 non-null      object
 1   Latest micro version   27 non-null     object
 2   Release date           31 non-null     object
 3   End of full support    31 non-null     object
 4   End of security fixes  31 non-null     object
dtypes: object(5)
memory usage: 1.3+ KB


In [5]:
# Temos 31 elementos e 5 colunas, mas apenas 3 possuem todos os elementos
# Como são poucos elementos, vamos visualizar o conjunto inteiro
dados # Observe as últimas entradas

Unnamed: 0,Version,Latest micro version,Release date,End of full support,End of security fixes
0,,0.9.9[2],1991-02-20[2],1993-07-29[a][2],1993-07-29[a][2]
1,,1.0.4[2],1994-01-26[2],1994-02-15[a][2],1994-02-15[a][2]
2,,1.1.1[2],1994-10-11[2],1994-11-10[a][2],1994-11-10[a][2]
3,,,1995-04-13[2],Unsupported,Unsupported
4,,,1995-10-13[2],Unsupported,Unsupported
5,,,1996-10-25[2],Unsupported,Unsupported
6,,1.5.2[42],1998-01-03[2],1999-04-13[a][2],1999-04-13[a][2]
7,,1.6.1[42],2000-09-05[43],2000-09[a][42],2000-09[a][42]
8,,2.0.1[44],2000-10-16[45],2001-06-22[a][44],2001-06-22[a][44]
9,,2.1.3[44],2001-04-15[46],2002-04-09[a][44],2002-04-09[a][44]


In [6]:
# As últimas linhas obtidas são a legenda da tabela e precisam ser excluídas
# A última linha corresponde a uma versão que não saiu, vamos eliminar também
dados = dados[0:28]
dados

Unnamed: 0,Version,Latest micro version,Release date,End of full support,End of security fixes
0,,0.9.9[2],1991-02-20[2],1993-07-29[a][2],1993-07-29[a][2]
1,,1.0.4[2],1994-01-26[2],1994-02-15[a][2],1994-02-15[a][2]
2,,1.1.1[2],1994-10-11[2],1994-11-10[a][2],1994-11-10[a][2]
3,,,1995-04-13[2],Unsupported,Unsupported
4,,,1995-10-13[2],Unsupported,Unsupported
5,,,1996-10-25[2],Unsupported,Unsupported
6,,1.5.2[42],1998-01-03[2],1999-04-13[a][2],1999-04-13[a][2]
7,,1.6.1[42],2000-09-05[43],2000-09[a][42],2000-09[a][42]
8,,2.0.1[44],2000-10-16[45],2001-06-22[a][44],2001-06-22[a][44]
9,,2.1.3[44],2001-04-15[46],2002-04-09[a][44],2002-04-09[a][44]


In [7]:
# Vamos eliminar as linhas 3, 4 e 5, que correspondem a versão unsupported
dados = dados.drop(index=[3,4,5]) # Vamos utilizar a função drop()
dados = dados.reset_index(drop=True)
dados

Unnamed: 0,Version,Latest micro version,Release date,End of full support,End of security fixes
0,,0.9.9[2],1991-02-20[2],1993-07-29[a][2],1993-07-29[a][2]
1,,1.0.4[2],1994-01-26[2],1994-02-15[a][2],1994-02-15[a][2]
2,,1.1.1[2],1994-10-11[2],1994-11-10[a][2],1994-11-10[a][2]
3,,1.5.2[42],1998-01-03[2],1999-04-13[a][2],1999-04-13[a][2]
4,,1.6.1[42],2000-09-05[43],2000-09[a][42],2000-09[a][42]
5,,2.0.1[44],2000-10-16[45],2001-06-22[a][44],2001-06-22[a][44]
6,,2.1.3[44],2001-04-15[46],2002-04-09[a][44],2002-04-09[a][44]
7,,2.2.3[44],2001-12-21[47],2003-05-30[a][44],2003-05-30[a][44]
8,,2.3.7[44],2003-06-29[48],2008-03-11[a][44],2008-03-11[a][44]
9,,2.4.6[44],2004-11-30[49],2008-12-19[a][44],2008-12-19[a][44]


In [8]:
# Vamos agora limpar as colunas das marcações da Wikipedia
# Vemos que todas as colunas possuem dados entre colchetes []
# Vamos eliminar todos esses com a função split()
dados['Latest micro version'] = [dado.split('[')[0] for dado in dados['Latest micro version']]
dados

Unnamed: 0,Version,Latest micro version,Release date,End of full support,End of security fixes
0,,0.9.9,1991-02-20[2],1993-07-29[a][2],1993-07-29[a][2]
1,,1.0.4,1994-01-26[2],1994-02-15[a][2],1994-02-15[a][2]
2,,1.1.1,1994-10-11[2],1994-11-10[a][2],1994-11-10[a][2]
3,,1.5.2,1998-01-03[2],1999-04-13[a][2],1999-04-13[a][2]
4,,1.6.1,2000-09-05[43],2000-09[a][42],2000-09[a][42]
5,,2.0.1,2000-10-16[45],2001-06-22[a][44],2001-06-22[a][44]
6,,2.1.3,2001-04-15[46],2002-04-09[a][44],2002-04-09[a][44]
7,,2.2.3,2001-12-21[47],2003-05-30[a][44],2003-05-30[a][44]
8,,2.3.7,2003-06-29[48],2008-03-11[a][44],2008-03-11[a][44]
9,,2.4.6,2004-11-30[49],2008-12-19[a][44],2008-12-19[a][44]


In [9]:
# Vamos repetir para cada coluna
dados['Release date'] = [dado.split('[')[0] for dado in dados['Release date']]
dados['End of full support'] = [dado.split('[')[0] for dado in dados['End of full support']]
dados['End of security fixes'] = [dado.split('[')[0] for dado in dados['End of security fixes']]
dados

Unnamed: 0,Version,Latest micro version,Release date,End of full support,End of security fixes
0,,0.9.9,1991-02-20,1993-07-29,1993-07-29
1,,1.0.4,1994-01-26,1994-02-15,1994-02-15
2,,1.1.1,1994-10-11,1994-11-10,1994-11-10
3,,1.5.2,1998-01-03,1999-04-13,1999-04-13
4,,1.6.1,2000-09-05,2000-09,2000-09
5,,2.0.1,2000-10-16,2001-06-22,2001-06-22
6,,2.1.3,2001-04-15,2002-04-09,2002-04-09
7,,2.2.3,2001-12-21,2003-05-30,2003-05-30
8,,2.3.7,2003-06-29,2008-03-11,2008-03-11
9,,2.4.6,2004-11-30,2008-12-19,2008-12-19


In [10]:
# Por fim, vamos tratar os dados de datas
# Vamos utilizar a coluna Release Date como exemplo
# O formato nessa coluna está aaaa-mm-dd
# Vamos utilizar a função split() novamente separando pelo -
# Vamos salvar o resultado como um objeto datetime
dados['Release date'] = [datetime.datetime(int(dado.split('-')[0]),int(dado.split('-')[1]),int(dado.split('-')[2])) for dado in dados['Release date']]
dados



Unnamed: 0,Version,Latest micro version,Release date,End of full support,End of security fixes
0,,0.9.9,1991-02-20,1993-07-29,1993-07-29
1,,1.0.4,1994-01-26,1994-02-15,1994-02-15
2,,1.1.1,1994-10-11,1994-11-10,1994-11-10
3,,1.5.2,1998-01-03,1999-04-13,1999-04-13
4,,1.6.1,2000-09-05,2000-09,2000-09
5,,2.0.1,2000-10-16,2001-06-22,2001-06-22
6,,2.1.3,2001-04-15,2002-04-09,2002-04-09
7,,2.2.3,2001-12-21,2003-05-30,2003-05-30
8,,2.3.7,2003-06-29,2008-03-11,2008-03-11
9,,2.4.6,2004-11-30,2008-12-19,2008-12-19


In [11]:
dados.dtypes

Version                          object
Latest micro version             object
Release date             datetime64[ns]
End of full support              object
End of security fixes            object
dtype: object

In [12]:
dados['Release date'][0].day

20

In [24]:
novos_1 = []
for item in dados['End of full support']:
    new = item.split(sep='-')
    new_2 = ''.join(new)
    if len(new_2) == 8:
        new_3 = int(new_2)
        datetime.datetime(new_3)
        novos_1.append(new_3)
    else:
        novos_1.append(new_2)

TypeError: function missing required argument 'month' (pos 2)

In [14]:
dados['End of full support'][0].day

AttributeError: 'str' object has no attribute 'day'

In [25]:
# Para organizar os dados, vamos utilizar outra variável
dados_limpos = pd.DataFrame() # Vamos começar com um DataFrame vazio
dados_limpos = dados[['Latest micro version','Release date']]
dados_limpos

Unnamed: 0,Latest micro version,Release date
0,0.9.9,1991-02-20
1,1.0.4,1994-01-26
2,1.1.1,1994-10-11
3,1.5.2,1998-01-03
4,1.6.1,2000-09-05
5,2.0.1,2000-10-16
6,2.1.3,2001-04-15
7,2.2.3,2001-12-21
8,2.3.7,2003-06-29
9,2.4.6,2004-11-30


In [26]:
# Por fim, vamos salvar nossos dados
dados_limpos.to_csv('python-versões.csv')

In [27]:
# Vamos olhar outros exemplos
wiki = "https://en.wikipedia.org/wiki/List_of_films_based_on_Marvel_Comics"

In [28]:
df_marvel_site=pd.read_html(wiki,match='Box office')
len(df_marvel_site)
df_marvel = df_marvel_site[0]

In [29]:
df_marvel

Unnamed: 0_level_0,Title,Distributor(s),Release date(United States),Bud­get (mil­lions),Box office gross[22],Box office gross[22],Box office gross[22],Box office gross[22]
Unnamed: 0_level_1,Title,Distributor(s),Release date(United States),Bud­get (mil­lions),Opening weekend(North America),North America,Other territories,Worldwide
0,Howard the Duck,Universal Pictures,"August 1, 1986",$37,"$5,070,136","$16,295,774","$21,667,000","$37,962,774"
1,Blade,New Line Cinema,"August 21, 1998",$45,"$17,073,856","$70,087,718","$61,095,812","$131,183,530"
2,X-Men,20th Century Fox,"July 14, 2000",$75,"$54,471,475","$157,299,717","$139,039,810","$296,339,527"
3,Blade II,New Line Cinema,"March 22, 2002",$54,"$32,528,016","$82,348,319","$72,661,713","$155,010,032"
4,Spider-Man,Sony Pictures,"May 3, 2002",$139,"$114,844,116","$403,706,375","$418,002,176","$821,708,551"
...,...,...,...,...,...,...,...,...
64,Morbius,Sony Pictures,"April 1, 2022",$75–83,"$39,005,895","$73,865,530","$90,000,000","$163,865,530"
65,Doctor Strange in the Multiverse of Madness,Walt Disney Studios Motion Pictures,"May 6, 2022",$200,"$187,420,998","$411,331,607","$544,444,197","$955,755,804"
66,Thor: Love and Thunder,Walt Disney Studios Motion Pictures,"July 8, 2022",$200,"$144,165,107","$342,513,832","$415,716,411","$758,230,243"
67,Total,Total,Total,"$8,899","$6,059,079,114","$16,670,500,647","$25,508,298,526","$42,179,305,055"


In [30]:
# Um exemplo com BeautifulSoup

res = requests.get("http://www.nationmaster.com/country-info/stats/Media/Internet-users")
soup = BeautifulSoup(res.content,'lxml')
table = soup.find_all('table')[0] 
df = pd.read_html(str(table))
print(df[0].to_json(orient='records'))

NameError: name 'requests' is not defined

In [31]:
df = pd.read_html(str(table))[0]
countries = df["COUNTRY"].tolist()
users = df["AMOUNT"].tolist()
countries

NameError: name 'table' is not defined