# Creación de la Base de Datos
Por: María José Lee
Fecha: 24 de noviembre, 2021

## 1. Se importan la Librerías

In [1]:
import re
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt

## 2. Datos del API de Congreso Abierto

Se descarga el codigo de las páginas de la API de Congreso Visible.

In [2]:
# Se crea una variable vacía, en la cual poder guardar el codigo de las páginas
html = ""

# Se utiliza un loop para descargar el codigo de todas las páginas y agregarlo a la variable html
for i in range(30):
    link = 'http://congresovisible.uniandes.edu.co/api/apis/congresistas/?page=F'
    link = link.replace("F", str(i+1))
    a = requests.get(link).text
    html = html + " " + a 

In [3]:
# Reemplazamos en la variable html todos los códigos por las letras con tilde que representan
html = html.replace("\\u00c1", "Á").replace("\\u00e1", "á").replace("\\u00e9", "é").replace("\\u00ed", "í").replace("\\u00f3", "ó").replace(" \\", "").replace("\\u00d3", "Ó").replace("\\u00fa", "ú")

### Extracción de los datos 

In [4]:
# Código que extrae el nombre de los congresistas
matches = re.findall(r'{"first_name": "(.+?)"', str(html))

# Se guardan en una lista vacía por medio de un loop
Nombres = []
for match in matches:
    Nombres.append(match)

In [5]:
# Código que extrae el apellido de los congresistas
matches = re.findall(r'"last_name": "(.+?)"', str(html))

# Se guardan en una lista vacía por medio de un loop
Apellidos = []
for match in matches:
    Apellidos.append(match)

In [6]:
# Código extrae la Camara en la que trabajan los congresistas
matches = re.findall(r'"camera": "(.+?)"', str(html))

# Se guardan en una lista vacía por medio de un loop
Camara = []
for match in matches:
    Camara.append(match)

In [7]:
# Código que extrae el Género del congresista
matches = re.findall(r'"gender": "(.+?)"', str(html))

# Se guardan en una lista vacía por medio de un loop
Genero = []
for match in matches:
    Genero.append(match)

In [8]:
# Código que extre el Partido Político del congresista
matches = re.findall(r'"political_party": {"name": "(.+?)"', str(html))

# Se guardan en una lista vacía por medio de un loop
Partido = []
for match in matches:
    Partido.append(match)

## 3. Datos de las Páginas de los Congresistas

Se utiliza la pagína individual de cada congresista para adquirir información adicional.

In [9]:
# Código que extrea el Link de la Página Individual de cada Congresista
matches = re.findall(r'"web_url": "(.+?)"', str(html))

# Se guardan en una lista vacía por medio de un loop
Links_ind = []
for match in matches:
    Links_ind.append(match)

### Extracción de los datos 

In [10]:
# Creamos listas vacías para guardar los datos
Nivel_Educ = []
Lug_Naci = []
Fecha_Naci = []
Autoria_ley = []
Votos = []
Profesión = []

# Utilizamos un loop para ir a las páginas individuales de los congresistas,
for i in range(len(Links_ind)):
    html_2 = requests.get(Links_ind[i]).text
    matches_1 = re.findall(r'Educativo<\/h3><p>(.+?)<', str(html_2))
    Nivel_Educ.append(matches_1)
    matches_2 = re.findall(r'nacimiento<\/h3><p>\n                                          (.+?)\n', str(html_2))
    Lug_Naci.append(matches_2)
    matches_3 = re.findall(r'nacimiento<\/h3><p>(.+?)<\/p><h3>Lugar', str(html_2))
    Fecha_Naci.append(matches_3)
    matches_4 = re.findall(r'Proyectos de Ley<\/p><p>(.+?)<', str(html_2))
    Autoria_ley.append(matches_4)
    matches_5 = re.findall(r'<th>Votaciones<\/th><td>(.+?)<', str(html_2))
    Votos.append(matches_5)
    matches_6 = re.findall(r'Profesi&oacute;n<\/h3><p>(.+?)<', str(html_2))
    Profesión.append(matches_6)

### Limpieza de Datos
Nos damos cuenta que las listas recogidas por el codigo anterior son listas de listas, por lo que se decide generar nuevas listas.

In [11]:
# Creamos una lista vacía para guardar los datos
Nivel_Educ2 = []

# Utilizamos un loop para guardar el contenido de la lista de 
# listas en una sola lista
for i in range(len(Nivel_Educ)):
    j = Nivel_Educ[i][0]
    Nivel_Educ2.append(j)

In [12]:
# Creamos una lista vacía para guardar los datos
Fecha_Naci2 = []

# Utilizamos un loop para guardar el contenido de la lista de 
# listas en una sola lista
for i in range(len(Fecha_Naci)):
    j = Fecha_Naci[i][0]
    Fecha_Naci2.append(j)

In [13]:
# Creamos una lista vacía para guardar los datos
Autoria_ley2 = []

# Utilizamos un loop para guardar el contenido de la lista de 
# listas en una sola lista
for i in range(len(Autoria_ley)):
    j = Autoria_ley[i][0]
    Autoria_ley2.append(j)

In [14]:
# Creamos una lista vacía para guardar los datos
Votos2 = []

# Utilizamos un loop para guardar el contenido de la lista de 
# listas en una sola lista
for i in range(len(Votos)):
    j = Votos[i][0]
    Votos2.append(j)
    
for i in range(len(Votos2)):
    if Votos2[i] == "-":
        Votos2[i] = "null"

In [15]:
# Creamos una lista vacía para guardar los datos
Profesión2 = []

# Utilizamos un loop para guardar el contenido de la lista de 
# listas en una sola lista
for i in range(len(Votos)):
    j = Profesión[i][0]
    Profesión2.append(j)

## 4. Generación de Nuevas Variables

Generamos una variable con el nombre completo de los congresistas.

In [16]:
#Creamos una lista vacía para guardar los datos
Nom_Com = []

# Generamos un loop que una los nombres con los apellidos de los congresistas
for i in range(len(Nombres)):
    k = Nombres[i] + " " + Apellidos[i]
    Nom_Com.append(k)

Generamos una variable con el departamento de nacimiento de los congresistas.

In [17]:
# Creamos listas vacías para guardar los datos
Lug_Naci2 = []
Lug_Naci3 = []
Dept_Naci = []

# Utilizamos un loop para guardar el contenido de la lista de 
# listas en una sola lista
for i in range(len(Lug_Naci)):
    j = Lug_Naci[i][0]
    Lug_Naci2.append(j)

#Reemplazamos los guiones por la palabra null
for i in range(len(Lug_Naci2)):
    if Lug_Naci2[i] == "-":
        Lug_Naci2[i] = "null"
             
# Nos quedamos solo con los departamentos
for i in range(len(Lug_Naci2)):
    j = Lug_Naci2[i]
    matches_1 = re.findall(r' - (.+)|(null)', j)
    Lug_Naci3.append(matches_1)
    match = Lug_Naci3[i][0][1]+Lug_Naci3[i][0][0]
    Dept_Naci.append(match)

Generamos una variable que calcula la edad de los congresistas para el final del 2021.

In [18]:
# Creamos una lista vacía para guardar los datos
Edad = []

# Generamos una copia de la lista de Fechas de Nacimiento sobre la cual poder trabajar
Fecha_Naci3 = Fecha_Naci2

# Utilizamos un loop para guardar el contenido de la lista de 
# listas en una sola lista
for i in range(len(Fecha_Naci3)):
    if Fecha_Naci3[i][-4:] == "-":
        Fecha_Naci3[i] = "null"
        j = Fecha_Naci3[i]
    else:
        j = 2021 - int(Fecha_Naci3[i][-4:])
    Edad.append(j)

Generamos una variable que, basado en el nivel educativo alcanzado, genera una aproximacion de la cantidad de años que el congresista ha pasado estudiando.

In [19]:
# Creamos una lista vacía
Años_Edu = []

# Le asignamos un valor estimado en años a cada categoría, y en base a
# eso usamos un loop para crear una nueva lista de años de educación
for i in range(len(Nivel_Educ)):
    j = Nivel_Educ2[i]
    if j == "Primaria Incompleta":
        a = 3
    elif j == "Bachillerato Completo":
        a = 11
    elif j == "Universitaria Incompleta":
        a = 13.25
    elif j == "Universitaria Completa":
        a = 15.5
    elif j == "Especializacion":
        a = 17.5
    elif j == "Maestria":
        a = 19
    elif j == "Doctorado":
        a = 20.5
    else:
        a = "null"
    Años_Edu.append(a)

## 5. Creación de los DataFrame

In [20]:
# Creamos un DataFrame con todas las listas
df = pd.DataFrame(
    {'Nombres': Nom_Com,
     'Edad': Edad,
     'Departamento de Nacimiento': Dept_Naci,
     'Nivel Educativo': Nivel_Educ2,
     'Años de Educación': Años_Edu,
     'Profesión' : Profesión2,
     'Género': Genero,
     'Partido': Partido,
     'Camara': Camara,
     'Votos': Votos2,
     'Autoría en Proyectos de Ley': Autoria_ley2,
    })

# Establecemos la columna de nombres como el indice del DataFrame
df = df_reset=df.set_index('Nombres')

# Mostramos el DataFrame
df

Unnamed: 0_level_0,Edad,Departamento de Nacimiento,Nivel Educativo,Años de Educación,Profesión,Género,Partido,Camara,Votos,Autoría en Proyectos de Ley
Nombres,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Nidia Marcela Osorio Salgado,57,Antioquia,Especializacion,17.5,Economista,Femenino,Conservador Colombiano,Cámara de Representantes,2070,80
Yenica Sugein Acosta Infante,41,Amazonas,Especializacion,17.5,Ciencias de la Salud,Femenino,Centro Democrático,Cámara de Representantes,,81
Harold Augusto Valencia Infante,49,Amazonas,Maestria,19,Comercio Exterior,Masculino,Partido de la U - Partido Social de Unidad Nac...,Cámara de Representantes,,28
Oscar Darío Pérez Pineda,69,Antioquia,Especializacion,17.5,Contador/a,Masculino,Centro Democrático,Cámara de Representantes,826,212
Esteban Quintero Cardona,35,Antioquia,Especializacion,17.5,Abogado/a,Masculino,Centro Democrático,Cámara de Representantes,,86
...,...,...,...,...,...,...,...,...,...,...
Javier Mauricio Delgado Martínez,48,Valle del Cauca,Maestria,19,Abogado/a,Masculino,Conservador Colombiano,Senado,900,27
José Joaquín Marchena,,,Universitaria Incompleta,13.25,Abogado/a,Masculino,Liberal Colombiano,Cámara de Representantes,,0
Jhon Alejandro Linares Camberos,,Cundinamarca,Maestria,19,Abogado/a,Masculino,Partido de la U - Partido Social de Unidad Nac...,Cámara de Representantes,,1
Juan Luis Castro Cordoba,46,Antioquia,Maestria,19,Ciencias de la Salud,Masculino,Alianza Verde,Senado,,114


### DataFrame de los Senadores

In [21]:
# Creamos un Dataframe solo con los Senadores
senadores = df[df["Camara"] == "Senado"]

### DataFrame de los Representantes

In [22]:
# Creamos un DataFrame solo con los Representantes 
Representantes = df[df["Camara"] != "Senado"]

## 6. Descarga de las bases de datos

In [23]:
# Descargamos el DataFrame de los Senadores
senadores.to_csv('Senadores.csv')
senadores.to_excel("Senadores.xlsx") 

In [24]:
# Descargamos el DataFrame de los Representantes
Representantes.to_csv('Representantes.csv')
Representantes.to_excel("Representantes.xlsx") 