## Scraper para Proyectos de ley del Congreso de la Nación Argentina.
#### Objetivo: recopilar la información de firmantes, dictámenes y cámara iniciadora de todos los proyectos de ley publicados por el sitio web de la Honorable Cámara de Diputados de la Nación desde junio de 2006 hasta julio de 2018.

### Cargo las librerías

In [361]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import urllib.request
import urllib.parse
import requests
import pickle
import time
import re
from tqdm import tqdm
from bs4 import BeautifulSoup
from itertools import cycle

### Completo el formulario con la información requerida en la web de la HCDN (Proyecto 1)

In [4]:
url = "https://www.hcdn.gob.ar/proyectos/resultados-buscador.html"

querystring = {
  "strCantPagina":"20",
  "strTipo":"ley",
  "strMostrarFirmantes":"on",
  "strMostrarComisiones":"on",
  "strMostrarDictamenes":"on",
  "strMostrarTramites":"on"
}

response = requests.request("POST", url, params=querystring)

#### Itero sobre todas las páginas para descargar todos los proyectos

In [394]:
paginas = []
pags_limite = 3000
sleep = 2

for page in range(1,pags_limite):
    time.sleep(sleep)
    link = '{}?pagina={}'.format(url, page)
    cookies = response.cookies
    response_iterative = requests.request("GET", link, cookies=cookies)
    paginas.append(response_iterative.text)
    with open(".txt", "wb") as fp:
        pickle.dump(paginas, fp)
    print('El {}, páginas {}'.format(time.asctime(), len(paginas))) 

#### Abro la base guardada en un pickle

In [3]:
 with open("../data_estatica/proyectos_ley_99_18.txt", "rb") as fp:
                 proyectos_ley = pickle.load(fp)

#### Guardo todos los links a los proyectos

In [12]:
links = []
for page in proyectos_ley[:2]:
    for link in BeautifulSoup(page, 'html5lib').find_all('a', class_ = 'btn btn-info'):
        links.append(link.get('href'))

### Armo la base de proyecto con expediente, camara iniciadora y título

In [367]:
metadata_proyecto = []

for page in tqdm(proyectos_ley):
    soup = BeautifulSoup(page, 'html5lib')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for soup_proyecto in soup_proyectos:
        metadata = soup_proyecto.find_all('div', class_ = 'dp-metadata')
        titulos = soup_proyecto.find_all('div', class_ = 'dp-texto')
        for metadatos, titulo in zip(metadata, titulos):
            spans = metadatos.find_all('span')
            try:
                exp_num = re.search('[0-9]+[-]+[D-S]+[-][0-9]+', str(spans)).group(0)
            except:
                pass
            for span in spans:
                dato = span.get_text().split(':')
                dato.append(titulo.get_text())
                dato.append(exp_num)
                metadata_proyecto.append(dato)

100%|██████████| 2003/2003 [06:30<00:00,  5.13it/s]


In [368]:
proyectos_expediente = pd.DataFrame(metadata_proyecto)

In [None]:
del metadata_proyecto

In [369]:
proyectos_expediente.columns = ['metadata', 'valores', 'titulo', 'expediente']

In [370]:
proyectos_expediente_table = proyectos_expediente.\
pivot_table(index = ['expediente', 'titulo'], columns = 'metadata', values= 'valores', aggfunc = 'first').\
reset_index()

In [420]:
proyectos_expediente_table.head()

metadata,expediente,titulo,Expediente Diputados,Expediente Senado,Fecha,Iniciado en,Publicado en
0,0001-D-2008,CODIGO CIVIL: MODIFICACION DEL INCISO E) DEL A...,0001-D-2008,,03/03/2008,Diputados,Trámite Parlamentario N° 1
1,0001-D-2010,REGIMEN DE CREACION DE COMISIONES INVESTIGADOR...,0001-D-2010,,02/03/2010,Diputados,Trámite Parlamentario N° 3
2,0001-D-2011,CONSEJO DE LA MAGISTRATURA (LEY 24937): MODIFI...,0001-D-2011,,01/03/2011,Diputados,Trámite Parlamentario N° 1
3,0001-S-2008,MODIFICACION DEL ARTICULO 938 DEL CODIGO CIVIL...,,0001-S-2008,03/03/2008,Senado,Diario de Asuntos Entrados N° 1
4,0001-S-2009,CREACION DEL CONSEJO CONSULTIVO DEL TABACO.,,0001-S-2009,02/03/2009,Senado,Diario de Asuntos Entrados N° 1


In [383]:
#proyectos_expediente_table.to_csv('proyectos_ley_expedientes.csv', index = False)

### Armo la base de giros en Diputados

In [434]:
data = []

for page in tqdm(proyectos_ley):
    soup = BeautifulSoup(page, 'html5lib')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for proyecto in soup_proyectos:
        table_body = proyecto.find('table', class_ = 'dp-giros-diputados table table-condensed table-striped')
        titulo = proyecto.find('div', class_ = 'dp-texto')
        metadata = proyecto.find_all('div', class_ = 'dp-metadata')
        try:
            exp_num = re.search('[0-9]+[-]+[D-S]+[-][0-9]+', str(metadata)).group(0)
        except:
            pass           
        if table_body:
            rows = table_body.find_all('tr')
            for row in rows:
                cols = row.find_all('td')
                cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
                if cols:
                    cols.insert(0, titulo.get_text())
                    cols.insert(0, exp_num)
                data.append([ele for ele in cols if ele])

100%|██████████| 2003/2003 [06:35<00:00,  5.06it/s]


In [435]:
giros_diputados = pd.DataFrame([x for x in data if x])
giros_diputados.columns = ['expediente', 'titulo', 'giro_a_comision']

In [467]:
giros_diputados.tail()

Unnamed: 0,expediente,titulo,giro_a_comision
60757,2377-D-2006,"INSTITUCION DE LA ""FIESTA DE LA FAMILIA"", CONO...",LEGISLACION GENERAL
60758,2376-D-2006,"INSTITUCION DE LA ""FIESTA NACIONAL DE LA CARNE...",INDUSTRIA
60759,2376-D-2006,"INSTITUCION DE LA ""FIESTA NACIONAL DE LA CARNE...",LEGISLACION GENERAL
60760,2360-D-2006,TRANSFERENCIA A TITULO GRATUITO DE UN INMUEBLE...,LEGISLACION GENERAL
60761,2360-D-2006,TRANSFERENCIA A TITULO GRATUITO DE UN INMUEBLE...,EDUCACION


In [449]:
#giros_diputados.to_csv('proyectos_ley_giros_diputados.csv', index = False)

### Armo la base de giros en Senado

In [437]:
data = []

for page in tqdm(proyectos_ley):
    soup = BeautifulSoup(page, 'html5lib')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for proyecto in soup_proyectos:
        table_body = proyecto.find('table', class_ = 'dp-giros-senado table table-condensed table-striped')
        titulo = proyecto.find('div', class_ = 'dp-texto')
        metadata = proyecto.find_all('div', class_ = 'dp-metadata')
        try:
            exp_num = re.search('[0-9]+[-]+[D-S]+[-][0-9]+', str(metadata)).group(0)
        except:
            pass           
        if table_body:
            rows = table_body.find_all('tr')
            for row in rows:
                cols = row.find_all('td')
                cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
                if cols:
                    cols.insert(0, titulo.get_text())
                    cols.insert(0, exp_num)
                data.append([ele for ele in cols if ele])

100%|██████████| 2003/2003 [06:46<00:00,  4.93it/s]


In [438]:
giros_senado = pd.DataFrame([x for x in data if x])
giros_senado.columns = ['expediente', 'titulo', 'giro_a_comision']

In [465]:
giros_senado.tail()

Unnamed: 0,expediente,titulo,giro_a_comision
22888,1453-S-2006,"CREACION DEL PROGRAMA DE EDUCACION ""FUNDADORES...",PRESUPUESTO Y HACIENDA
22889,1452-S-2006,REGIMEN DE MEDIERIA FRUTIHORTICOLA .,LEGISLACION GENERAL
22890,1452-S-2006,REGIMEN DE MEDIERIA FRUTIHORTICOLA .,"AGRICULTURA, GANADERIA Y PESCA"
22891,1451-S-2006,DECLARAR DE INTERES NACIONAL LA FABRICACION DE...,INDUSTRIA Y COMERCIO
22892,1449-S-2006,MODIFICACION DEL CODIGO PENAL INCLUYENDO A FAM...,JUSTICIA Y ASUNTOS PENALES


In [448]:
#giros_senado.to_csv('proyectos_ley_giros_senado.csv', index = False)

### Armo la base de firmantes

In [440]:
data = []

for page in tqdm(proyectos_ley):
    soup = BeautifulSoup(page, 'html5lib')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for proyecto in soup_proyectos:
        table_body = proyecto.find('table', class_ = 'dp-firmantes table table-condensed table-striped')
        titulo = proyecto.find('div', class_ = 'dp-texto')
        metadata = proyecto.find_all('div', class_ = 'dp-metadata')
        try:
            exp_num = re.search('[0-9]+[-]+[D-S]+[-][0-9]+', str(metadata)).group(0)
        except:
            pass           
        if table_body:
            rows = table_body.find_all('tr')
            for row in rows:
                cols = row.find_all('td')
                cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
                if cols:
                    cols.insert(0, titulo.get_text())
                    cols.insert(0, exp_num)
                data.append([ele for ele in cols if ele])

100%|██████████| 2003/2003 [06:33<00:00,  5.08it/s]


In [446]:
firmantes = pd.DataFrame([x for x in data if x])
firmantes.columns = ['expediente', 'titulo', 'firmante', 'distrito', 'bloque']

In [459]:
firmantes.tail()

Unnamed: 0,expediente,titulo,firmante,distrito,bloque
107837,2376-D-2006,"INSTITUCION DE LA ""FIESTA NACIONAL DE LA CARNE...","BERRAUTE, ANA",SANTA FE,FRENTE PARA LA VICTORIA - PJ
107838,2376-D-2006,"INSTITUCION DE LA ""FIESTA NACIONAL DE LA CARNE...","NEMIROVSCI, OSVALDO MARIO",RIO NEGRO,FRENTE PARA LA VICTORIA - PJ
107839,2360-D-2006,TRANSFERENCIA A TITULO GRATUITO DE UN INMUEBLE...,"CHIACCHIO, NORA ALICIA",BUENOS AIRES,PERONISTA FEDERAL
107840,2360-D-2006,TRANSFERENCIA A TITULO GRATUITO DE UN INMUEBLE...,"VILLAVERDE, JORGE ANTONIO",BUENOS AIRES,PERONISTA FEDERAL
107841,2360-D-2006,TRANSFERENCIA A TITULO GRATUITO DE UN INMUEBLE...,"NEMIROVSCI, OSVALDO MARIO",RIO NEGRO,FRENTE PARA LA VICTORIA - PJ


In [452]:
#firmantes.to_csv('proyectos_ley_firmantes.csv', index = False)

### Armo la base de trámites

In [453]:
data = []

for page in tqdm(proyectos_ley):
    soup = BeautifulSoup(page, 'html5lib')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for proyecto in soup_proyectos:
        table_body = proyecto.find('table', class_ = 'dp-tramites table table-condensed table-striped')
        titulo = proyecto.find('div', class_ = 'dp-texto')
        metadata = proyecto.find_all('div', class_ = 'dp-metadata')
        try:
            exp_num = re.search('[0-9]+[-]+[D-S]+[-][0-9]+', str(metadata)).group(0)
        except:
            pass           
        if table_body:
            rows = table_body.find_all('tr')
            for row in rows:
                cols = row.find_all('td')
                cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
                if cols:
                    cols.insert(0, titulo.get_text())
                    cols.insert(0, exp_num)
                data.append([ele for ele in cols if ele])

100%|██████████| 2003/2003 [06:42<00:00,  4.97it/s]


In [454]:
tramites = pd.DataFrame([x for x in data if x])
tramites.columns = ['expediente', 'titulo', 'camara', 'movimiento', 'fecha', 'resultado']

In [457]:
tramites.tail()

Unnamed: 0,expediente,titulo,camara,movimiento,fecha,resultado
27825,2381-D-2006,"AGENCIAS DE VIAJES DE TURISMO, LEY 25599: MODI...",Diputados,SOLICITUD DE SER COFIRMANTES DE LOS DIPUTADOS ...,,
27826,2381-D-2006,"AGENCIAS DE VIAJES DE TURISMO, LEY 25599: MODI...",Diputados,MOCION SOBRE TABLAS (AFIRMATIVA) CONJUNTAMENTE...,05/07/2006,
27827,2381-D-2006,"AGENCIAS DE VIAJES DE TURISMO, LEY 25599: MODI...",Diputados,CONSIDERACION Y APROBACION EN GENERAL (VOTACIO...,05/07/2006,
27828,2381-D-2006,"AGENCIAS DE VIAJES DE TURISMO, LEY 25599: MODI...",Diputados,CONSIDERACION Y APROBACION CON MODIFICACIONES ...,05/07/2006,MEDIA SANCION
27829,2381-D-2006,"AGENCIAS DE VIAJES DE TURISMO, LEY 25599: MODI...",Senado,PASA A SENADO - CONJUNTAMENTE PARA LOS EXPEDI...,,


In [456]:
#tramites.to_csv('proyectos_ley_tramites.csv', index = False)