# Obtención fechas revoluciones

**En este caso, buscaremos revoluciones importantes a lo largo de la historia y la fecha en la que se produjeron.**

In [2]:
import pandas as pd
import numpy as np
import re
from bs4 import BeautifulSoup
import requests

pd.options.display.max_columns = None

❕ A continuación, se muestra el link sobre el que trabajaremos.

📅🤔 En él, a traves de una serie de tablas de wikipedia, scrapearemos los nombres de la revolucion y las fechas. Cabe destacar que las tablas contienen una tercera columna correspondiente a la información de dicha revolución, sin embargo, se ha estimado que en este caso no es de provecho.

Por otro lado, al existir diversas tablas dependiendo de la época, tendremos que repetir el mismo proceso para poder obtener la información de todas ellas, variando el índice del soup.find_all de table. De esta forma, lograremos movernops por las distintas tablas disponibles. 

El proceso seguido es el siguiente:

1️⃣  Buscamos las tablas mediante un findall.

2️⃣  Variamos el índice de la variable fechas_rev para movernos por las distintas tablas de wikipedia.

3️⃣  Creamos un diccionario al que añadir los datos obtenidos.

4️⃣  A partir de cada una de las tablas, sabiendo que tienen información del título de la revolución, la fechas y la descripción, aplicamos una longitud de la columna para asegurarnos de que tienen la información de completa. Así, en caso de que sea de tres, es decir, que contenga la información completa, añadimos los datos a nuestro diccionario. 

5️⃣  Por último, convertimos nuestros datos en un dataframe.



In [3]:
url = 'https://es.wikipedia.org/wiki/Revoluci%C3%B3n'
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
html.status_code

200

In [4]:
fechas_rev = soup.find_all("table")

In [5]:
fechas_revolucion_tab1 = fechas_rev[0]

In [6]:
rev_dic_tab1 = {"revolucion": [], 
               "fecha": []}

In [7]:
for i in fechas_revolucion_tab1.find_all("tr")[3:]:
    columna = [elemento for elemento in i.find_all("td")]
    if len(columna) == 3:
        try:
            rev_dic_tab1["revolucion"].append(columna[0].find("a").get('title'))
            rev_dic_tab1["fecha"].append(columna[1].find('a').get('title'))
                   
        except:
            rev_dic_tab1["revolucion"].append('No info')
            rev_dic_tab1["fecha"].append('No info')

In [8]:
revoluciones_tab1 = pd.DataFrame(rev_dic_tab1)
revoluciones_tab1.head(2)

Unnamed: 0,revolucion,fecha
0,Guerra de los Ochenta Años,1568
1,Revolución inglesa,1642


🔁

In [9]:
fechas_revolucion_tab2 = fechas_rev[1]

In [10]:
rev_dic_tab2 = {"revolucion": [], 
               "fecha": []}

In [11]:
for i in fechas_revolucion_tab2.find_all("tr"):
    columna = [elemento for elemento in i.find_all("td")]
    if len(columna) == 3:
        try:
            rev_dic_tab2["revolucion"].append(columna[0].find("a").get('title'))
            rev_dic_tab2["fecha"].append(columna[1].find('a').get('title'))
                   
        except:
            rev_dic_tab2["revolucion"].append('No info')
            rev_dic_tab2["fecha"].append('No info')

In [12]:
revoluciones_tab2 = pd.DataFrame(rev_dic_tab2)
revoluciones_tab2.head(2)

Unnamed: 0,revolucion,fecha
0,Revolución rusa de 1905,1905
1,Revolución mexicana,1910


🔁

In [13]:
fechas_revolucion_tab3 = fechas_rev[2]

In [14]:
rev_dic_tab3 = {"revolucion": [], 
               "fecha": []}

In [15]:
for i in fechas_revolucion_tab3.find_all("tr")[2:]:
    columna = [elemento for elemento in i.find_all("td")]
    if len(columna) == 3:
        try:
            rev_dic_tab3["revolucion"].append(columna[0].find("a").get('title'))
            rev_dic_tab3["fecha"].append(columna[1].find('a').get('title'))
                   
        except:
            rev_dic_tab3["revolucion"].append('No info')
            rev_dic_tab3["fecha"].append('No info')

In [16]:
revoluciones_tab3 = pd.DataFrame(rev_dic_tab3)
revoluciones_tab3.head(2)

Unnamed: 0,revolucion,fecha
0,Comuna de París,1871
1,Revolución bolchevique,1917


🔁

In [17]:
fechas_revolucion_tab4 = fechas_rev[3]

In [18]:
rev_dic_tab4 = {"revolucion": [], 
               "fecha": []}

In [19]:
for i in fechas_revolucion_tab4.find_all("tr"):
    columna = [elemento for elemento in i.find_all("td")]
    if len(columna) == 3:
        try:
            rev_dic_tab4["revolucion"].append(columna[0].find("a").get('title'))
            rev_dic_tab4["fecha"].append(columna[1].find('a').get('title'))
                   
        except:
            rev_dic_tab4["revolucion"].append('No info')
            rev_dic_tab4["fecha"].append('No info')

In [20]:
revoluciones_tab4 = pd.DataFrame(rev_dic_tab4)
revoluciones_tab4.head(2)

Unnamed: 0,revolucion,fecha
0,Italia fascista,1922
1,Tercer Reich,1933


🔚🤓 Por último, una vez obtenidos los datos de las distintas tablas, realizamos un concat para obtener como resultado final un único dataframe y lo guardamos.

In [21]:
fechas_revoluciones = pd.concat([revoluciones_tab1, revoluciones_tab2, revoluciones_tab3, revoluciones_tab4], 
                                axis=0, ignore_index = True)
fechas_revoluciones.head(2)

Unnamed: 0,revolucion,fecha
0,Guerra de los Ochenta Años,1568
1,Revolución inglesa,1642


In [22]:
fechas_revoluciones.to_csv('../data/fechas_revoluciones.csv')