## Scraper para Proyectos de ley del Congreso de la Nación Argentina.
#### Objetivo: recopilar la información de firmantes, dictámenes y cámara iniciadora de todos los proyectos de ley publicados por el sitio web de la Honorable Cámara de Diputados de la Nación desde junio de 2006 hasta julio de 2018.

### Cargo las librerías

In [361]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import urllib.request
import urllib.parse
import requests
import pickle
import time
import re
from tqdm import tqdm
from bs4 import BeautifulSoup
from itertools import cycle

### Completo el formulario con la información requerida en la web de la HCDN (Proyecto 1)

In [4]:
url = "https://www.hcdn.gob.ar/proyectos/resultados-buscador.html"

querystring = {
  "strCantPagina":"20",
  "strTipo":"ley",
  "strMostrarFirmantes":"on",
  "strMostrarComisiones":"on",
  "strMostrarDictamenes":"on",
  "strMostrarTramites":"on"
}

response = requests.request("POST", url, params=querystring)

#### Itero sobre todas las páginas para descargar todos los proyectos

In [394]:
paginas = []
pags_limite = 3000
sleep = 2

for page in range(1,pags_limite):
    time.sleep(sleep)
    link = '{}?pagina={}'.format(url, page)
    cookies = response.cookies
    response_iterative = requests.request("GET", link, cookies=cookies)
    paginas.append(response_iterative.text)
    with open(".txt", "wb") as fp:
        pickle.dump(paginas, fp)
    print('El {}, páginas {}'.format(time.asctime(), len(paginas))) 

#### Abro la base guardada en un pickle

In [3]:
 with open("../data_estatica/proyectos_ley_99_18.txt", "rb") as fp:
                 proyectos_ley = pickle.load(fp)

#### Guardo todos los links a los proyectos

In [12]:
links = []
for page in proyectos_ley[:2]:
    for link in BeautifulSoup(page, 'html5lib').find_all('a', class_ = 'btn btn-info'):
        links.append(link.get('href'))

### Armo la base de proyecto con expediente, camara iniciadora y título

In [367]:
metadata_proyecto = []

for page in tqdm(proyectos_ley):
    soup = BeautifulSoup(page, 'html5lib')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for soup_proyecto in soup_proyectos:
        metadata = soup_proyecto.find_all('div', class_ = 'dp-metadata')
        titulos = soup_proyecto.find_all('div', class_ = 'dp-texto')
        for metadatos, titulo in zip(metadata, titulos):
            spans = metadatos.find_all('span')
            try:
                exp_num = re.search('[0-9]+[-]+[D-S][-][0-9]+', str(spans)).group(0)
            except:
                pass
            for span in spans:
                dato = span.get_text().split(':')
                dato.append(titulo.get_text())
                dato.append(exp_num)
                metadata_proyecto.append(dato)

100%|██████████| 2003/2003 [06:30<00:00,  5.13it/s]


In [368]:
proyectos_expediente = pd.DataFrame(metadata_proyecto)

In [369]:
proyectos_expediente.columns = ['metadata', 'valores', 'titulo', 'expediente']

In [370]:
proyectos_expediente_table = proyectos_expediente.\
pivot_table(index = ['expediente', 'titulo'], columns = 'metadata', values= 'valores', aggfunc = 'first').\
reset_index()

In [372]:
proyectos_expediente_table.head()

metadata,expediente,titulo,Expediente Diputados,Expediente Senado,Fecha,Iniciado en,Publicado en
0,0001-D-2008,CODIGO CIVIL: MODIFICACION DEL INCISO E) DEL A...,0001-D-2008,,03/03/2008,Diputados,Trámite Parlamentario N° 1
1,0001-D-2010,REGIMEN DE CREACION DE COMISIONES INVESTIGADOR...,0001-D-2010,,02/03/2010,Diputados,Trámite Parlamentario N° 3
2,0001-D-2011,CONSEJO DE LA MAGISTRATURA (LEY 24937): MODIFI...,0001-D-2011,,01/03/2011,Diputados,Trámite Parlamentario N° 1
3,0001-S-2008,MODIFICACION DEL ARTICULO 938 DEL CODIGO CIVIL...,,0001-S-2008,03/03/2008,Senado,Diario de Asuntos Entrados N° 1
4,0001-S-2009,CREACION DEL CONSEJO CONSULTIVO DEL TABACO.,,0001-S-2009,02/03/2009,Senado,Diario de Asuntos Entrados N° 1


In [383]:
#proyectos_expediente_table.to_csv('proyectos_ley_expedientes.csv', index = False)

### Armo la base de giros en Diputados

In [18]:
data = []
for page in tqdm(proyectos_ley):
    soup = BeautifulSoup(page, 'html5lib')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for soup_proyecto in soup_proyectos:

### ARREGLAR EL CODIGO

soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')

for proyecto in soup_proyectos:
    table_body = proyecto.find('table', class_ = 'dp-giros-diputados table table-condensed table-striped')
    titulo = proyecto.find('div', class_ = 'dp-texto')
    if table_body:
        rows = table_body.find_all('tr')
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
            if cols:
                cols.insert(0, titulo.get_text())
            data.append([ele for ele in cols if ele])

In [19]:
giros_diputados = pd.DataFrame([x for x in data if x]).head()
giros_diputados.columns = ['titulo', 'comision']

In [20]:
giros_diputados.head()

Unnamed: 0,titulo,comision
0,"INSTITUYESE EL 22 DE MAYO DE CADA AÑO COMO ""D...",LEGISLACION GENERAL
1,"INSTITUYESE EL 22 DE MAYO DE CADA AÑO COMO ""D...",ACCION SOCIAL Y SALUD PUBLICA
2,GARANTIZASE LA EDUCACION PUBLICA SIN INJERENCI...,EDUCACION
3,GARANTIZASE LA EDUCACION PUBLICA SIN INJERENCI...,RELACIONES EXTERIORES Y CULTO
4,DECLARESE DE INTERES PUBLICO LA CONSTRUCION DE...,TRANSPORTES


### Armo la base de giros en Senado

In [21]:
data = []
soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')

for proyecto in soup_proyectos:
    table_body = proyecto.find('table', class_ = 'dp-giros-senado table table-condensed table-striped')
    titulo = proyecto.find('div', class_ = 'dp-texto')
    if table_body:
        rows = table_body.find_all('tr')
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
            if cols:
                cols.insert(0, titulo.get_text())
            data.append([ele for ele in cols if ele])

In [22]:
giros_senado = pd.DataFrame([x for x in data if x]).head()
giros_senado.columns = ['titulo', 'comision']

ValueError: Length mismatch: Expected axis has 0 elements, new values have 2 elements

In [23]:
giros_senado.head()

### Armo la base de firmantes

In [24]:
data = []
soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')

for proyecto in soup_proyectos:
    table_body = proyecto.find('table', class_ = 'dp-firmantes table table-condensed table-striped')
    titulo = proyecto.find('div', class_ = 'dp-texto')
    if table_body:
        rows = table_body.find_all('tr')
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
            if cols:
                cols.insert(0, titulo.get_text())
            data.append([ele for ele in cols if ele])

In [25]:
firmantes = pd.DataFrame([x for x in data if x]).head()
firmantes.columns = ['titulo', 'firmante', 'distrito', 'bloque']

In [26]:
firmantes.head()

Unnamed: 0,titulo,firmante,distrito,bloque
0,"INSTITUYESE EL 22 DE MAYO DE CADA AÑO COMO ""D...","SIERRA, MAGDALENA",BUENOS AIRES,FRENTE PARA LA VICTORIA - PJ
1,"INSTITUYESE EL 22 DE MAYO DE CADA AÑO COMO ""D...","SORAIRE, MIRTA ALICIA",TUCUMAN,FRENTE PARA LA VICTORIA - PJ
2,"INSTITUYESE EL 22 DE MAYO DE CADA AÑO COMO ""D...","CASTAGNETO, CARLOS DANIEL",BUENOS AIRES,FRENTE PARA LA VICTORIA - PJ
3,"INSTITUYESE EL 22 DE MAYO DE CADA AÑO COMO ""D...","MACHA, MONICA",BUENOS AIRES,FRENTE PARA LA VICTORIA - PJ
4,"INSTITUYESE EL 22 DE MAYO DE CADA AÑO COMO ""D...","ALONSO, LAURA V.",BUENOS AIRES,FRENTE PARA LA VICTORIA - PJ


### Armo la base de trámites

In [237]:
data = []
for proyecto in proyectos_ley:
    soup = BeautifulSoup(proyecto, 'html5')
    soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')
    for proyecto in soup_proyectos:
        table_body = proyecto.find('table', class_ = 'dp-tramites table table-condensed table-striped')
        titulo = proyecto.find('div', class_ = 'dp-texto')
        if table_body:
            rows = table_body.find_all('tr')
            for row in rows:
                cols = row.find_all('td')
                cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
                if cols:
                    cols.insert(0, titulo.get_text())
                data.append([ele for ele in cols if ele])



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "html5lib")

  markup_type=markup_type))


KeyboardInterrupt: 

In [None]:
tramites = pd.DataFrame([x for x in data if x])
tramites.columns = ['titulo', 'camara', 'movimiento', 'fecha', 'resultado']

In [None]:
tramites.head()