## Scraper para Proyectos de ley del Congreso de la Nación Argentina.
#### Objetivo: recopilar la información de firmantes, dictámenes y cámara iniciadora de todos los proyectos de ley publicados por el sitio web de la Honorable Cámara de Diputados de la Nación desde junio de 2006 hasta julio de 2018.

### Cargo las librerías

In [181]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import urllib.request
import urllib.parse
import requests
import pickle
import time
import re
from bs4 import BeautifulSoup
from itertools import cycle

### Completo el formulario con la información requerida en la web de la HCDN (Proyecto 1)

In [4]:
url = "https://www.hcdn.gob.ar/proyectos/resultados-buscador.html"

querystring = {
  "strCantPagina":"20",
  "strTipo":"ley",
  "strMostrarFirmantes":"on",
  "strMostrarComisiones":"on",
  "strMostrarDictamenes":"on",
  "strMostrarTramites":"on"
}

response = requests.request("POST", url, params=querystring)

#### Itero sobre todas las páginas para descargar todos los proyectos

In [394]:
paginas = []
pags_limite = 3000
sleep = 2

for page in range(1,pags_limite):
    time.sleep(sleep)
    link = '{}?pagina={}'.format(url, page)
    cookies = response.cookies
    response_iterative = requests.request("GET", link, cookies=cookies)
    paginas.append(response_iterative.text)
    with open(".txt", "wb") as fp:
        pickle.dump(paginas, fp)
    print('El {}, páginas {}'.format(time.asctime(), len(paginas))) 

#### Abro la base guardada en un pickle

In [8]:
 with open("../data_estatica/proyectos_ley_99_18.txt", "rb") as fp:
                 proyectos_ley = pickle.load(fp)

#### Guardo como archivo de BeautifulSoup la página de los proyectos de ley

In [241]:
soup = BeautifulSoup(proyectos_ley[10])



 BeautifulSoup(YOUR_MARKUP})

to this:

 BeautifulSoup(YOUR_MARKUP, "lxml")

  markup_type=markup_type))


#### Guardo todos los links a los proyectos

In [343]:
links = []
for page in proyectos_ley[:2]:
    for link in BeautifulSoup(page, 'html5lib').find_all('a', class_ = 'btn btn-info'):
        links.append(link.get('href'))

### Armo la base de proyecto con expediente, camara iniciadora y título

In [471]:
metadata = soup.find_all('div', class_ = 'dp-metadata')
titulos = soup.find_all('div', class_ = 'dp-texto')
expedientes = soup.find_all('a', class_ = 'btn btn-info')

metadata_proyectos = []
for metadatos, titulo, expediente in zip(metadata, titulos, expedientes):
    spans = metadatos.find_all('span')
    for span in spans:
        dato = span.get_text().split(':')
        dato.append(titulo.get_text())
        metadata_proyectos.append(dato)

In [472]:
proyectos_expediente = pd.DataFrame(metadata_proyectos)

In [473]:
proyectos_expediente.columns = ['metadata', 'valores', 'titulo']

In [474]:
proyectos_expediente = proyectos_expediente.pivot(index = 'titulo', columns = 'metadata', values= 'valores').reset_index()

In [475]:
proyectos_expediente.head()

metadata,titulo,Expediente Diputados,Expediente Senado,Fecha,Iniciado en,Publicado en
0,ASIGNACIONES FAMILIARES - LEY 24714: INCORPORA...,4557-D-2018,,01/08/2018,Diputados,Trámite Parlamentario N° 91
1,ASIGNACIONES FAMILIARES LEY 24.714. MODIFICACI...,4540-D-2018,,31/07/2018,Diputados,Trámite Parlamentario N° 90
2,CODIGO PENAL. MODIFICACION DEL ARTICULO 144 TE...,4528-D-2018,,31/07/2018,Diputados,Trámite Parlamentario N° 90
3,CODIGO PROCESAL PENAL DE LA NACION. MODIFICACI...,4529-D-2018,,31/07/2018,Diputados,Trámite Parlamentario N° 90
4,CONTRATACIONES DE LA ADMINISTRACION NACIONAL. ...,4560-D-2018,,01/08/2018,Diputados,Trámite Parlamentario N° 91


### Armo la base de giros en Diputados

In [451]:
data = []
soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')

for proyecto in soup_proyectos:
    table_body = proyecto.find('table', class_ = 'dp-giros-diputados table table-condensed table-striped')
    titulo = proyecto.find('div', class_ = 'dp-texto')
    if table_body:
        rows = table_body.find_all('tr')
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
            if cols:
                cols.insert(0, titulo.get_text())
            data.append([ele for ele in cols if ele])

In [454]:
giros_diputados = pd.DataFrame([x for x in data if x]).head()
giros_diputados.columns = ['titulo', 'comision']

In [476]:
giros_diputados.head()

Unnamed: 0,titulo,comision
0,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,ACCION SOCIAL Y SALUD PUBLICA
1,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,PRESUPUESTO Y HACIENDA
2,PACTO FEDERAL DEL TRABAJO - LEY 25212: MODIFIC...,LEGISLACION DEL TRABAJO
3,CONTRATACIONES DE LA ADMINISTRACION NACIONAL. ...,OBRAS PUBLICAS
4,CONTRATACIONES DE LA ADMINISTRACION NACIONAL. ...,LEGISLACION GENERAL


### Armo la base de giros en Senado

In [448]:
data = []
soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')

for proyecto in soup_proyectos:
    table_body = proyecto.find('table', class_ = 'dp-giros-senado table table-condensed table-striped')
    titulo = proyecto.find('div', class_ = 'dp-texto')
    if table_body:
        rows = table_body.find_all('tr')
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
            if cols:
                cols.insert(0, titulo.get_text())
            data.append([ele for ele in cols if ele])

In [456]:
giros_senado = pd.DataFrame([x for x in data if x]).head()
giros_senado.columns = ['titulo', 'comision']

In [477]:
giros_senado.head()

Unnamed: 0,titulo,comision
0,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,ACCION SOCIAL Y SALUD PUBLICA
1,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,PRESUPUESTO Y HACIENDA
2,PACTO FEDERAL DEL TRABAJO - LEY 25212: MODIFIC...,LEGISLACION DEL TRABAJO
3,CONTRATACIONES DE LA ADMINISTRACION NACIONAL. ...,OBRAS PUBLICAS
4,CONTRATACIONES DE LA ADMINISTRACION NACIONAL. ...,LEGISLACION GENERAL


### Armo la base de firmantes

In [460]:
data = []
soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')

for proyecto in soup_proyectos:
    table_body = proyecto.find('table', class_ = 'dp-firmantes table table-condensed table-striped')
    titulo = proyecto.find('div', class_ = 'dp-texto')
    if table_body:
        rows = table_body.find_all('tr')
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
            if cols:
                cols.insert(0, titulo.get_text())
            data.append([ele for ele in cols if ele])

In [463]:
firmantes = pd.DataFrame([x for x in data if x]).head()
firmantes.columns = ['titulo', 'firmante', 'distrito', 'bloque']

In [478]:
firmantes.head()

Unnamed: 0,titulo,firmante,distrito,bloque
0,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,"CASTAGNETO, CARLOS DANIEL",BUENOS AIRES,FRENTE PARA LA VICTORIA - PJ
1,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,"GRANA, ADRIAN EDUARDO",BUENOS AIRES,FRENTE PARA LA VICTORIA - PJ
2,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,"IGON, SANTIAGO NICOLAS",CHUBUT,FRENTE PARA LA VICTORIA - PJ
3,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,"CAROL, ANALUZ AILEN",TIERRA DEL FUEGO,FRENTE PARA LA VICTORIA - PJ
4,DECLARASE AL PAN COMO BIEN SOCIAL. MODIFICACIO...,"RACH QUIROGA, ANALIA",CHACO,FRENTE PARA LA VICTORIA - PJ


### Armo la base de trámites

In [442]:
data = []
soup_proyectos = soup.find_all('div', class_ = 'detalle-proyecto')

for proyecto in soup_proyectos:
    table_body = proyecto.find('table', class_ = 'dp-tramites table table-condensed table-striped')
    titulo = proyecto.find('div', class_ = 'dp-texto')
    if table_body:
        rows = table_body.find_all('tr')
        for row in rows:
            cols = row.find_all('td')
            cols = [ele.text.replace('\xa0', ' ').strip() for ele in cols]
            if cols:
                cols.insert(0, titulo.get_text())
            data.append([ele for ele in cols if ele])

In [443]:
tramites = pd.DataFrame([x for x in data if x])
tramites.columns = ['titulo', 'camara', 'movimiento', 'fecha', 'resultado']

In [465]:
tramites.head()

Unnamed: 0,titulo,camara,movimiento,fecha,resultado
0,DEROGACION DEL DECRETO 702 DE FECHA 26 DE JULI...,Diputados,SOLICITUD DE SER COFIRMANTE DE LA DIPUTADA PIT...,,
1,DEROGACION DEL DECRETO 702 DE FECHA 26 DE JULI...,Diputados,MANIFESTACIONES EN MINORIA,07/08/2018,
2,ASIGNACIONES FAMILIARES - LEY 24714: INCORPORA...,Diputados,SOLICITUD DE SER COFIRMANTE DEL DIPUTADO SELVA...,,
3,ASIGNACIONES FAMILIARES - LEY 24714: INCORPORA...,Diputados,MANIFESTACIONES EN MINORIA,07/08/2018,
4,VACUNACIONES CONTRA LAS ENFERMEDADES PREVENIBL...,Diputados,SOLICITUD DE SER ADHERENTE DEL DIPUTADO ZAMARB...,,
