# Process Web-Scrapped Data

## Imports

In [1]:
import pandas as pd

## Load Data

In [2]:
data_brasil_scola = pd.read_csv('../data/web_scrapped_data/brasil_escola.csv')
kuadro_resume_data = pd.read_csv('../data/web_scrapped_data/kuadro_resume.csv')
me_salva_resumos_data = pd.read_csv('../data/web_scrapped_data/me_salva_resumos.csv')
quero_bolsa_data = pd.read_csv('../data/web_scrapped_data/quero_bolsa.csv')


In [3]:
# create master data, with the columns sub-subject, subject, content, it should be empty at the beginning
master_data = pd.DataFrame(columns=['title', 'sub-subject', 'subject', 'content'])

## Process data_brasil_scola

In [4]:
data_brasil_scola

Unnamed: 0,title,url,content,subject,sub-subject
0,Análise combinatória,https://brasilescola.uol.com.br/matematica/ana...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nA análise c...,Matematica,analise-combinatoria.htm
1,Binômio de Newton,https://brasilescola.uol.com.br/matematica/bin...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nBinômio de ...,Matematica,binomio-de-newton.htm
2,Circunferência,https://brasilescola.uol.com.br/matematica/cir...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nA circunfer...,Matematica,circunferencia.htm
3,Conjuntos,https://brasilescola.uol.com.br/matematica/con...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nA compreens...,Matematica,conjunto.htm
4,Equação,https://brasilescola.uol.com.br/matematica/equ...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nUma equação...,Matematica,equacao.htm
...,...,...,...,...,...
1928,Alfabeto,https://brasilescola.uol.com.br/acordo-ortogra...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nAlfabeto é ...,Acordo-ortografico,o-alfabeto-brasileiro-as-26-letras.htm
1929,Considerações gerais sobre as Mudanças Ortográ...,https://brasilescola.uol.com.br/acordo-ortogra...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nDepois de m...,Acordo-ortografico,consideracoes-gerais.htm
1930,Letra h no Novo Acordo Ortográfico,https://brasilescola.uol.com.br/acordo-ortogra...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nMuito tem s...,Acordo-ortografico,o-h.htm
1931,Novo Acordo Ortográfico é adiado para 2016,https://brasilescola.uol.com.br/acordo-ortogra...,\n\n\nPUBLICIDADE\n\n\n\n\n\n\n\n\nProrrogação...,Acordo-ortografico,novo-acordo-ortografico-podera-ser-adiado-para...


In [5]:

# remove multiples newlines (including \r and \n) to just one \n
data_brasil_scola['content'] = data_brasil_scola['content'].str.replace(r'[\r\n]+', '\n', regex=True)
# remove PUBLICIDADE
data_brasil_scola['content'] = data_brasil_scola['content'].str.replace('PUBLICIDADE', '')


In [6]:
# convert subject column to lowercase
data_brasil_scola['subject'] = data_brasil_scola['subject'].str.lower()


In [7]:
data_brasil_scola['site'] = 'Brasil Escola'

## Process Kuadro Resume data

In [8]:
# remove multiples \n to just one \n
kuadro_resume_data['content'] = kuadro_resume_data['content'].str.replace('\n+', '\n')

# subject column to lowercase
kuadro_resume_data['subject'] = kuadro_resume_data['subject'].str.lower()

# drop sub-subject column
kuadro_resume_data.drop(columns=['sub-subject'], inplace=True)

# In title, get the entire rest of the string after the first :
kuadro_resume_data['title'] = kuadro_resume_data['title'].str.split(':').str[1]


kuadro_resume_data['site'] = 'Kuadro Resume'

In [9]:
kuadro_resume_data

Unnamed: 0,title,url,content,subject,site
0,Imunização,https://www.kuadro.com.br//resumos-enem-vestib...,"De acordo com a OMS, a aplicação de vacinas em...",biologia,Kuadro Resume
1,Sistema Digestório - Digestão,https://www.kuadro.com.br//resumos-enem-vestib...,SISTEMA DIGESTÓRIO\n \nDigestão\n\nSistema dig...,biologia,Kuadro Resume
2,"Sistema digestório - Boca, Faringe e Esôfago",https://www.kuadro.com.br//resumos-enem-vestib...,Boca\n\nNa boca ocorre o início da digestão.\n...,biologia,Kuadro Resume
3,Sistema Digestório - Estômago,https://www.kuadro.com.br//resumos-enem-vestib...,Estômago\n\n\nQuando o bolo alimentar chega a...,biologia,Kuadro Resume
4,Intestino delgado e fígado,https://www.kuadro.com.br//resumos-enem-vestib...,Intestino delgado e fígado\n\n\nO intestino de...,biologia,Kuadro Resume
...,...,...,...,...,...
982,Material Teórico,https://www.kuadro.com.br//resumos-enem-vestib...,Material Teórico: Pierre Bourdieu - Definição ...,sociologia,Kuadro Resume
983,Material Teórico da Aula ao Vivo - Ana Kareni...,https://www.kuadro.com.br//resumos-enem-vestib...,Material Teórico da Aula ao Vivo - Ana Karenin...,sociologia,Kuadro Resume
984,O Subdesenvolvimento desenvolve-se no Brasil,https://www.kuadro.com.br//resumos-enem-vestib...,O Subdesenvolvimento desenvolve-se no Brasil \...,sociologia,Kuadro Resume
985,Trabalhos e modos de produção ontem e hoje,https://www.kuadro.com.br//resumos-enem-vestib...,Trabalhos e modos de produção ontem e hoje\n\n...,sociologia,Kuadro Resume


In [10]:
# ... existing code ...
kuadro_resume_data = kuadro_resume_data[~kuadro_resume_data['title'].str.contains('Gabarito', na=False)]


In [11]:
kuadro_resume_data['subject'].value_counts()

subject
matematica    263
biologia      192
fisica        111
quimica        88
portugues      62
historia       46
redacao        37
ingles         36
sociologia     34
filosofia       5
Name: count, dtype: int64

## Process Me Salva Resumos

In [12]:
me_salva_resumos_data['subject'] = me_salva_resumos_data['subject'].str.lower()

In [13]:
me_salva_resumos_data['subject'].value_counts()

subject
geografia     142
quimica       135
matematica    128
historia      126
biologia      112
fisica        110
portugues      82
literatura     57
sociologia     23
filosofia      17
artes          15
Name: count, dtype: int64

In [14]:
me_salva_resumos_data['site'] = 'Me Salva Resumos'

## Process Quero Bolsa Data

In [15]:
# remove title \n
quero_bolsa_data['title'] = quero_bolsa_data['title'].str.replace('\n', '')

# remove \nÍndice\n in the content
quero_bolsa_data['content'] = quero_bolsa_data['content'].str.replace('\nÍndice\n', '')


# remove multiples \n to just one \n
quero_bolsa_data['content'] = quero_bolsa_data['content'].str.replace('\n+', '\n')


quero_bolsa_data['site'] = 'Quero Bolsa'

## Concat Data

In [16]:
master_data = pd.concat([data_brasil_scola, kuadro_resume_data, me_salva_resumos_data, quero_bolsa_data], ignore_index=True)

In [17]:
master_data # do a strip in all columns

master_data['title'] = master_data['title'].str.strip()
master_data['sub-subject'] = master_data['sub-subject'].str.strip()
master_data['subject'] = master_data['subject'].str.strip()
master_data['content'] = master_data['content'].str.strip()

In [18]:
# count nan in all columns
master_data.isna().sum()

# drop nan in content
master_data.dropna(subset=['content'], inplace=True)

# reset index
master_data.reset_index(drop=True, inplace=True)

master_data

Unnamed: 0,title,url,content,subject,sub-subject,site
0,Análise combinatória,https://brasilescola.uol.com.br/matematica/ana...,A análise combinatória é um campo de estudo da...,matematica,analise-combinatoria.htm,Brasil Escola
1,Binômio de Newton,https://brasilescola.uol.com.br/matematica/bin...,Binômio de Newton é qualquer binômio elevado a...,matematica,binomio-de-newton.htm,Brasil Escola
2,Circunferência,https://brasilescola.uol.com.br/matematica/cir...,A circunferência é uma figura geométrica plana...,matematica,circunferencia.htm,Brasil Escola
3,Conjuntos,https://brasilescola.uol.com.br/matematica/con...,A compreensão de conjuntos é a principal base ...,matematica,conjunto.htm,Brasil Escola
4,Equação,https://brasilescola.uol.com.br/matematica/equ...,Uma equação é uma sentença matemática que poss...,matematica,equacao.htm,Brasil Escola
...,...,...,...,...,...,...
4959,Economia global atual,https://querobolsa.com.br/enem/geografia/econo...,1) Introdução\n\n2) Revolução Verde\n\n3) Bret...,Geografia,economia-global-atual,Quero Bolsa
4960,Efeito estufa,https://querobolsa.com.br/enem/geografia/efeit...,1) Introdução\n\n2) O que é o efeito estufa?\n...,Geografia,efeito-estufa,Quero Bolsa
4961,Elementos de um Mapa: veja quais são os princi...,https://querobolsa.com.br/enem/geografia/eleme...,1) Introdução\n\n2) Título\n\n3) Coordenadas g...,Geografia,elementos-do-mapa,Quero Bolsa
4962,El Niño e La Niña,https://querobolsa.com.br/enem/geografia/el-ni...,1) Introdução\n\n2) El Niño\n\n3) La Niña\n\n4...,Geografia,el-nino-e-la-nina,Quero Bolsa


In [19]:
# subject column to lowercase
master_data['subject'] = master_data['subject'].str.lower()

# count subject
master_data['subject'].value_counts()



subject
matematica             577
biologia               446
fisica                 371
sociologia             357
quimica                350
curiosidades           295
geografia              285
portugues              259
filosofia              254
literatura             243
historia               242
ingles                 231
italiano               157
historia-geral         100
espanhol                84
biografias              83
redacao                 80
historia-brasil         76
artes                   61
gramatica               61
saude                   57
conhecimento-geral      52
historia-da-america     49
biografia               48
historiab               40
educacao-fisica         36
historiag               23
dicas-de-estudo         20
brasil                  14
acordo-ortografico      13
Name: count, dtype: int64

In [20]:
labels_mapping = {'matematica': 'matematica',
          'biologia': 'biologia',
          'fisica': 'fisica',
          'sociologia': 'sociologia',
          'quimica': 'quimica',
          'curiosidades': 'curiosidades',
          'geografia': 'geografia',
          'portugues': 'portugues',
          'filosofia': 'filosofia',
          'literatura': 'literatura',
          'historia': 'historia',
          'ingles': 'ingles',
          'italiano': 'italiano',
          'historia-geral': 'historia',
          'espanhol': 'espanhol',
          'biografias': 'biografias',
          'redacao': 'redacao',
          'historia-brasil': 'historia',
          'artes': 'artes',
          'gramatica': 'gramatica',
          'saude': 'saude',
          'conhecimento-geral': 'conhecimento-geral',
          'historia-da-america': 'historia',
          'biografia': 'biografias',
          'historiab': 'historia',
          'educacao-fisica': 'educacao-fisica',
          'historiag': 'historia',
          'dicas-de-estudo': 'dicas-de-estudo',
          'brasil': 'brasil',
          'acordo-ortografico': 'gramatica'}



In [25]:
# convert subject column using the labels_mapping
master_data['subject'] = master_data['subject'].map(labels_mapping)

master_data['subject'].value_counts()

# drop nan in subject
master_data.dropna(subset=['subject'], inplace=True)

# reset index
master_data.reset_index(drop=True, inplace=True)

# remove data that content is not a str
master_data = master_data[master_data['content'].apply(lambda x: isinstance(x, str))]

# drop nan in content
master_data.dropna(subset=['content'], inplace=True)
# drop empty or strip content
master_data = master_data[master_data['content'].str.strip() != '']

## Save Data

In [26]:
# save to csv
master_data.to_csv('../data/master_data/master_data.csv', index=False)

In [27]:
# load master data
master_data = pd.read_csv('../data/master_data/master_data.csv')

# get master data with nan in content
master_data.content.isna().sum()

0