# 01. Extração dos dados

Vou buscar e realizar uma extração dos dados dos dados relacionados aos feriados no mundo todo [nesse site](https://www.timeanddate.com/holidays/), e depois buscar e baixar dados relacionados a índices socioeconômicos, criando assim uma base sólida para meu estudo.


## Inicialização

Chamando bibliotecas a serem utilizadas nesse _notebook_


In [102]:
import numpy as np
import pandas as pd
import itertools as itt
import requests
import re
import time
from bs4 import BeautifulSoup
from pprint import pprint

Funções a serem utilizadas nesse notebook

In [110]:
# extração das informações referentes ao feriado

def extract_holiday(link):

    # para nos situar, vamos printar a página a qual estamos extraindo os dados
    print(link)

    r = requests.get(link)
    page = BeautifulSoup(r.content)
    table = page.find("tbody")

    # extraindo lista com as datas dos feriados
    data = table.find_all("th", class_= "nw")
    data = [i.string for i in data]

    # lista com os nomes dos feriados
    nome = table.find_all("a")
    nome = [i.string for i in nome]

    # lista com o tipo de feriado
    tipo = table.find_all("td")
    tipo = tipo[2::3]
    tipo = [i.string for i in tipo]

    # identificação do país
    pais = link.split('/')
    pais = pais[4]
    pais = itt.repeat(pais, len(tipo))

    df = pd.DataFrame({ "país" : pais,
                        "data" : data,
                        "nome": nome,
                        "tipo" : tipo})
    return df

In [113]:
extract_holiday('https://www.timeanddate.com/holidays/australia/')

https://www.timeanddate.com/holidays/australia/


ValueError: All arrays must be of the same length

## Extração

Realizando a extração dos dados referentes aos feriados, para isso, vou realizar um _web scrapping_ no site https://www.timeanddate.com/holidays/ por meio da biblioteca *BeautifulSoup4*. 

Inicialmente vamos pegar todos os países presentes no site e salvar em uma lista.

In [40]:
r = requests.get("https://www.timeanddate.com/holidays/?allcountries")

# Convertendo a página para o bs

holidays = BeautifulSoup(r.content)

# endereço em html de onde se encontra a lista de países disponíveis no site
holidays = holidays.find("article", class_= "category-list")
holidays = holidays.find_all("a")

# coletando apenas as strings com nomes dos países
aux = [i.string for i in holidays]
aux[1:20] # visualizando os primeiros valores da lista


['Albania',
 'Algeria',
 'American Samoa',
 'Andorra',
 'Angola',
 'Anguilla',
 'Antigua and Barbuda',
 'Argentina',
 'Armenia',
 'Aruba',
 'Australia',
 'Austria',
 'Azerbaijan',
 'Bahrain',
 'Bangladesh',
 'Barbados',
 'Belarus',
 'Belgium',
 'Belize']

In [108]:
# criando uma lista com todos os países
hyperlink = "https://www.timeanddate.com/holidays/"

# transformando o tipo da lista auxiliar em string para realizar a concatenação do link
aux = [str(i) for i in aux]

# em links, letras maiúsculas importam, e nossos dados possuem letras maiúscula no inicio do nome do país
# já no hyperlink referente a esse site, a letra é minúscula, então façamos as mudanças necessárias
aux = [i.lower() for i in aux]

# substituindo espaço em branco por traço para o acesso dos links
aux = [i.replace(" ", "-") for i in aux]

link_paginas = ["https://www.timeanddate.com/holidays/" + i + "/" for i in aux]
link_paginas[0:5]

['https://www.timeanddate.com/holidays/afghanistan/',
 'https://www.timeanddate.com/holidays/albania/',
 'https://www.timeanddate.com/holidays/algeria/',
 'https://www.timeanddate.com/holidays/american-samoa/',
 'https://www.timeanddate.com/holidays/andorra/']

os sites foram checados e parecem funcionar bem, agora vamos ao que interessa: pegar os valores de:

- data do feriado
- nome
- tipo de feriado

e transferir para um dataframe

In [112]:
df_holidays = pd.DataFrame()

for i in link_paginas:
  df_holidays = pd.concat([df_holidays, extract_holiday(i)])

https://www.timeanddate.com/holidays/afghanistan/
https://www.timeanddate.com/holidays/albania/
https://www.timeanddate.com/holidays/algeria/
https://www.timeanddate.com/holidays/american-samoa/
https://www.timeanddate.com/holidays/andorra/
https://www.timeanddate.com/holidays/angola/
https://www.timeanddate.com/holidays/anguilla/
https://www.timeanddate.com/holidays/antigua-and-barbuda/
https://www.timeanddate.com/holidays/argentina/
https://www.timeanddate.com/holidays/armenia/
https://www.timeanddate.com/holidays/aruba/
https://www.timeanddate.com/holidays/australia/


ValueError: All arrays must be of the same length