# Código de scraping

### Código inicial de extracción de las tutelas de la página web de la Corte Costitucional
Proyecto:  <a href="https://github.com/Juansemv/MCPP_juan.munoz/tree/master/Proyecto%20final">Análisis tutelar en temas de salud 1992 - 2019</a>

Autor: <a href="https://www.linkedin.com/in/sebastianmunozv/">Juan Sebastian Muñoz Vargas</a>


Objetivo: Extraer las tutelas con su información respectiva de la 
<a href="http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos&pg=0&vs=0&accion=Buscar">página de la Corte Constitucional</a>

Fecha de creación: Noviembre de 2019

In [1]:
## Importar las librerias a usar
import nltk                     #Para Análisis del texto
import time                     #Para usar comandos de tiempo al obtener información de las páginas (scraping)
import timeit                   #Para calcular tiempos de ejecución del código
import re                       #Para uso de expresiones regulares
import matplotlib.pyplot as plt #Para realizar los gráficos
import requests                 #Para hacer las solicitudes del codigo fuente de las páginas
from bs4 import BeautifulSoup   #Para transformar el código extraído a formato para poder ser usado en Python
import pandas as pd             #Decarga de pandas para uso de bases de datos
plt.rcParams["figure.figsize"] = [18.0, 8.0]

In [2]:
#Al realizar la búsqueda de tutelas referentes a temas de salud, los resultados se despliegan en 59 páginas.
#Por lo anterior, se crea una lista con todos los links
links= []
for i in range(6):
    links.append("http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?vs=5832&pg="+str(i)+"&ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos")
links[0:]

['http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?vs=5832&pg=0&ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos',
 'http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?vs=5832&pg=1&ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos',
 'http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?vs=5832&pg=2&ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos',
 'http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?vs=5832&pg=3&ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos',
 'http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?vs=5832&pg=4&ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos',
 'http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php

In [6]:
#Se realiza el scraping de cada uno de los links para capturar:
# - Ítem
# - Expediente
# - Fecha de sentencia
# - Sentencia
# - Magistrado Ponente
# - Demandandante
# - Demandado
# - Tema

#El scraping se realiza con un solo patrón dado que puede que exista alguna tutela sin alguno de los datos anteriores
#Se realiza el scraping para todas las tutelas relativas a temas a salud desde 1992

#Defino el patrón con expresiones regulares
pat = '>Item </strong>(.*?) <strong>\xa0\xa0\xa0Expediente </strong>\xa0\xa0(.*?)<strong>\xa0\xa0\xa0 Fecha sentencia </strong>\xa0\xa0(.*?)-(.*?)-(.*?) <strong>\xa0\xa0\xa0Sentencia </strong>\xa0\xa0<a href="(.*?)">(.*?)</a>.* <br/>\n<strong>Magistrado Ponente</strong>:(.*?)<br/>\n<strong>Demandante / Demandado</strong> \xa0\xa0\xa0(.*?)V*S*(.*?)<br/>\n</p><p align="justify"><strong>Tema:</strong>(.*?\r*\n*.*?\r*\n*.*?\r*\n*.*?\r*\n*.*?)\r*\n*\s*\s*\r*\n*\r*\n*<'
info = []

#Realizo el scraping a cada página, y controlo cuántas tutelas captura por página
for i in range (len(links)):
    html = requests.get("http://www.corteconstitucional.gov.co/relatoria/radicador/buscar.php?vs=5832&pg="+str(i)+"&ponente=&demandado=&Sentencia=&Tipo=Sentencias&busqueda=salud&conector=AND&segundotema=&anios=Todos").text
    time.sleep(2)
    soup = BeautifulSoup(html)
    info.append(re.findall(pat, str(soup)))
    print(str(len(info)) + ' - ' + str(len(info[i])))

1 - 1000
2 - 1000
3 - 1000
4 - 998
5 - 1000
6 - 876


Nos damos cuenta que hacen falta 2 tutelas por ser aquiridas.

In [7]:
#Buscamos cuáles de las 5839 tutelas no está, buscando su ítem correspondiente.
#Para ello, creamos una lista hasta eñ 5839 y la contrastamos con la lista de ítems de las tutelas
list1 = []
for i in range(1, 5840):
    list1.append(str(i))
list2 = []
for l in range(len(info)):
    for i in range (len(info[l])):
        list2.append(info[l][i][0])

In [8]:
#Encontramos las tutelas faltantes
for i in range (len(list1)):
    if list1[i] in list2:
        continue
    else:
        print(list1[i])

3196
3584


Al revisar en la página de la Corte Constitucional, vemos que son tutelas sin Magistrado Ponente, por lo que se descartan de este análisis.

In [9]:
#Como las tutelas están separadas por páginas, las pasamos todas a una sola lista.
info_lists=[]
info_lists = [list(elem) for elem in info]
info_lists = [list(elem) for page in info for elem in page] 

In [10]:
#Completo la información de los links que llevan a más información de la tutela
# * No se hizo uso de esta información porque su formato cambia con el transcurso del tiempo 
#de forma frecuente y no es homogéneo
for i in range(len(info_lists)):
    info_lists[i][5] = "http://www.corteconstitucional.gov.co"+info_lists[i][5]

In [11]:
#Total de tutelas
len(info_lists)

5874

In [12]:
#Pasamos las tutelas a formato DataFrame de Pandas
Database_tutelas = pd.DataFrame(info_lists)
Database_tutelas.columns = ['Item','Expediente','Año','Mes','Día','Link', 'Sentencia', 'Magistrado_Ponente', 'Demandante', 'Demandado', 'Tema']
Database_tutelas

Unnamed: 0,Item,Expediente,Año,Mes,Día,Link,Sentencia,Magistrado_Ponente,Demandante,Demandado,Tema
0,1,2130,1992,08,11,http://www.corteconstitucional.gov.co/relatori...,T-484/92,Fabio Morón Díaz,,ALONSO MUÑOZ,DERECHO A LA SALUD. DERECHO A LA VIDA. SIDA. ...
1,2,2047,1992,08,11,http://www.corteconstitucional.gov.co/relatori...,T-487/92,Alejandro Martínez Caballero,,DANILO MOLINA,DERECHO A LA SALUD. LIBERTAD DE LOCOMOCION. L...
2,3,2193,1992,08,13,http://www.corteconstitucional.gov.co/relatori...,T-491/92,Eduardo Cifuentes Muñoz,,ROSALBA DUQUE,DERECHO A LA SEGURIDAD SOCIAL. DERECHO A LA S...
3,4,2359,1992,08,21,http://www.corteconstitucional.gov.co/relatori...,T-499/92,Eduardo Cifuentes Muñoz,,NERY CHIQUIZA,DERECHO A LA SALUD. DIGNIDAD HUMANA. CAPRECOM...
4,5,2535,1992,08,28,http://www.corteconstitucional.gov.co/relatori...,T-505/92,Eduardo Cifuentes Muñoz,,DIEGO SERNA,SERVICIO DE SALUD. DERECHOS DEL ENFERMO. SIDA...
5,6,2972,1992,09,19,http://www.corteconstitucional.gov.co/relatori...,T-522/92,Alejandro Martínez Caballero,,BALDOYNO ASPRILLA,DERECHOS DE LOS INTERNOS. DERECHO A LA SALUD....
6,7,2610,1992,09,23,http://www.corteconstitucional.gov.co/relatori...,T-536/92,Simon Rodriguez Rodriguez,,OLINDA BARRAGAN Y OTRA,DERECHO AL AMBIENTE SANO. DERECHO A LA SALUD....
7,8,3115,1992,09,24,http://www.corteconstitucional.gov.co/relatori...,T-534/92,Ciro Angarita Baron,,JORGE A MORENO,DERECHO A LA SALUD. SERVICIO MILITAR. DERECHO...
8,9,3479,1992,10,02,http://www.corteconstitucional.gov.co/relatori...,T-548/92,Ciro Angarita Baron,,FELIX ROJAS,DERECHO A LA SALUD. DERECHOS DE LOS PACIENTES...
9,10,D-039,1992,10,20,http://www.corteconstitucional.gov.co/relatori...,C-560/92,Simon Rodriguez Rodriguez,,ABDON ORTIZ,DEC. 1272/90. ARTS. 3 LIT p) Y 7 LIT ll). REF...


In [13]:
for i in range(len((Database_tutelas['Demandado']))):
    Database_tutelas['Demandado'][i] = re.split('VS\.\s' , str(Database_tutelas['Demandado'][i]))

In [14]:
for i in range(len((Database_tutelas['Demandado']))):
    Database_tutelas['Demandante'][i] = Database_tutelas['Demandado'][i][0]
for i in range(len((Database_tutelas['Demandado']))):
    if len(Database_tutelas['Demandado'][i]) == 2:
        Database_tutelas['Demandado'][i] = Database_tutelas['Demandado'][i][1]
    else:
        Database_tutelas['Demandado'][i] = ' '

In [15]:
Database_tutelas

Unnamed: 0,Item,Expediente,Año,Mes,Día,Link,Sentencia,Magistrado_Ponente,Demandante,Demandado,Tema
0,1,2130,1992,08,11,http://www.corteconstitucional.gov.co/relatori...,T-484/92,Fabio Morón Díaz,ALONSO MUÑOZ,,DERECHO A LA SALUD. DERECHO A LA VIDA. SIDA. ...
1,2,2047,1992,08,11,http://www.corteconstitucional.gov.co/relatori...,T-487/92,Alejandro Martínez Caballero,DANILO MOLINA,,DERECHO A LA SALUD. LIBERTAD DE LOCOMOCION. L...
2,3,2193,1992,08,13,http://www.corteconstitucional.gov.co/relatori...,T-491/92,Eduardo Cifuentes Muñoz,ROSALBA DUQUE,,DERECHO A LA SEGURIDAD SOCIAL. DERECHO A LA S...
3,4,2359,1992,08,21,http://www.corteconstitucional.gov.co/relatori...,T-499/92,Eduardo Cifuentes Muñoz,NERY CHIQUIZA,,DERECHO A LA SALUD. DIGNIDAD HUMANA. CAPRECOM...
4,5,2535,1992,08,28,http://www.corteconstitucional.gov.co/relatori...,T-505/92,Eduardo Cifuentes Muñoz,DIEGO SERNA,,SERVICIO DE SALUD. DERECHOS DEL ENFERMO. SIDA...
5,6,2972,1992,09,19,http://www.corteconstitucional.gov.co/relatori...,T-522/92,Alejandro Martínez Caballero,BALDOYNO ASPRILLA,,DERECHOS DE LOS INTERNOS. DERECHO A LA SALUD....
6,7,2610,1992,09,23,http://www.corteconstitucional.gov.co/relatori...,T-536/92,Simon Rodriguez Rodriguez,OLINDA BARRAGAN Y OTRA,,DERECHO AL AMBIENTE SANO. DERECHO A LA SALUD....
7,8,3115,1992,09,24,http://www.corteconstitucional.gov.co/relatori...,T-534/92,Ciro Angarita Baron,JORGE A MORENO,,DERECHO A LA SALUD. SERVICIO MILITAR. DERECHO...
8,9,3479,1992,10,02,http://www.corteconstitucional.gov.co/relatori...,T-548/92,Ciro Angarita Baron,FELIX ROJAS,,DERECHO A LA SALUD. DERECHOS DE LOS PACIENTES...
9,10,D-039,1992,10,20,http://www.corteconstitucional.gov.co/relatori...,C-560/92,Simon Rodriguez Rodriguez,ABDON ORTIZ,,DEC. 1272/90. ARTS. 3 LIT p) Y 7 LIT ll). REF...


*En las primeras tutelas no hay demandados establecidos. Esto van apareciendo desde el ítem 601, que es el 24 de julio del 2000

In [16]:
Database_tutelas.to_pickle('DB_Tutelas.pkl')

## Obtención de las tutelas completas

In [18]:
#Subo las librerias necesarias
pip install selenium
from bs4 import BeautifulSoup
import requests
from IPython.core.display import HTML 
from selenium import webdriver
from urllib.request import urlopen
import time

In [23]:
#Obtengo el texto de una tutela
url = 'https://www.corteconstitucional.gov.co/relatoria/1992/T-484-92.htm'

#browser = webdriver.PhantomJS(executable_path=r"C:\bin\phantomjs\bin\phantomjs.exe")
browser = webdriver.Chrome(executable_path=r"C:\Users\User\Downloads\chromedriver_win32\chromedriver.exe")
  
browser.get(url)
html = browser.page_source
time.sleep(5)
text=[]
texto_tutela = browser.find_element_by_xpath('/html/body/div[2]/div/div[3]')
text.append(texto_tutela.text)
text

['Sentencia No. T-484/92\n  DERECHO A LA SALUD/DERECHO A LA VIDA/DERECHOS FUNDAMENTALES/ SIDA/INSTITUTO DE SEGUROS SOCIALES\n  El derecho a la salud conforma, en su naturaleza jurídica, un conjunto de elementos que pueden agruparse en dos grandes bloques:  el primero, que lo identifica como un  predicado inmediato del derecho a la vida, de manera que  atentar contra la salud de las personas equivale a atentar contra su propia vida.  Por estos aspectos, el derecho a la salud resulta un derecho fundamental.  El segundo bloque de elementos, sitúa el derecho a la salud con un carácter asistencial, ubicado en las referencias funcionales del denominado Estado Social de Derecho, en razón de que su reconocimiento impone acciones concretas. La frontera entre el derecho a la salud como fundamental y como asistencial es imprecisa y sobre todo cambiante, según las circunstancias de cada caso, pero en principio, puede afirmarse que el derecho a la salud es fundamental cuando está relacionado con la

In [29]:
Links_Sentencias = []
for i in range(len((Database_tutelas['Sentencia']))):
    Links_Sentencias.append(Database_tutelas['Sentencia'][i])

Links_Sentencias = [s.replace('/', '-') for s in Links_Sentencias]
Links_Sentencias = [s.replace('.', '') for s in Links_Sentencias]
LS = []
for i in range(len((Database_tutelas['Sentencia']))):
    a = 'https://www.corteconstitucional.gov.co/relatoria/' + Database_tutelas['Año'][i] + '/' + Links_Sentencias[i] + '.htm'
    LS.append(a)
LS  

['https://www.corteconstitucional.gov.co/relatoria/1992/T-484-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-487-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-491-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-499-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-505-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-522-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-536-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-534-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-548-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/C-560-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-571-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-613-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1993/T-116-93.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1993/T-148-93.htm',
 'http

In [31]:
LS

['https://www.corteconstitucional.gov.co/relatoria/1992/T-484-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-487-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-491-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-499-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-505-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-522-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-536-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-534-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-548-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/C-560-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-571-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1992/T-613-92.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1993/T-116-93.htm',
 'https://www.corteconstitucional.gov.co/relatoria/1993/T-148-93.htm',
 'http

In [None]:
browser = webdriver.Chrome(executable_path=r"C:\Users\User\Downloads\chromedriver_win32\chromedriver.exe")
T_completas = []
for l in range(len(LS)):
    browser.get(LS[l])
    html = browser.page_source
    time.sleep(5)
    texto_tutela = browser.find_element_by_xpath('/html/body/div[2]/div/div[3]')
    T_completas.append(texto_tutela.text)
T_completas

# No olivdar hacer limpieza delcontenido de la base de datos

----