In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

Objetivo del proyecto:

En este projecto vamos a hacer web scrapping de una sección del buscador del CENDOJ (Centro de Documentación Judicial, base de datos donde los juristas acceden a la últimas sentencias publicadas para recopilar jurisprudencia de cualquier ámbito)

La web del Cendoj es la siguiente: http://www.poderjudicial.es/search/indexAN.jsp

Y la captura de su pagina de inicio indicando la nube de palabras con los temas mas relevantes:

![Web Sentencias](Sentencias_por_tema.jpg "CENDOJ")

En nuestro caso, haremos un data frame que incluya los datos de las ultimas 200 sentencias publicadas sobre un tema concreto: asesinato :D

Este es un ejemplo de como se ve una pagina con el listado de sentencias. En amarillo están indicados los campos que extraeremos:

![Pagina Sentencias](Ejemplo_sentencia.jpg "Ejemplo Pagina")

In [2]:
#The original URL where we are goin gto scrappe text is this one:
url_CENDOJ = 'http://www.poderjudicial.es/search/sentencias/Asesinato/1/AN'

In [3]:
#We make the request to get the HTML content of the URL:
cendoj_html = requests.get(url_CENDOJ).content
cendoj_clean = BeautifulSoup(cendoj_html,'lxml')
cendoj_clean

<!DOCTYPE html>
<html lang="es">
<head>
<title>CENDOJ : Buscador del Sistema de Jurisprudencia</title>
<meta content="-1" http-equiv="Expires"/>
<meta content="no-cache" http-equiv="Pragma"/>
<meta content="no-cache" http-equiv="Cache-Control"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<meta content="Asesinato | CENDOJ : Buscador del Sistema de Jurisprudencia" name="title"/>
<meta content="Asesinato" lang="es" name="DC.Title"/>
<meta content="Asesinato. Resultados de búsqueda de Asesinato en CENDOJ: Buscador del Sistema de Jurisprudencia" name="description"/>
<meta content="Asesinato. Resultados de búsqueda de Asesinato en CENDOJ: Buscador del Sistema de Jurisprudencia" lang="es" name="DC.description"/>
<meta content="Asesinato,Asesinato" name="Keywords"/>
<meta content="Asesinato,Asesinato" lang="es" name="DC.Subject"/>
<meta content="CENDOJ : Buscador del Sistema de Jurisprudencia" name=

In [4]:
verdict_example = cendoj_clean.find_all('div',{'class':'col-xs-12 content'})
verdict_example

[<div class="col-xs-12 content">
 <div class="title">
 <a href="#" id="ref-6147309" onclick="markOpenedDoc($(this));openDocumentFromUrl('/search/documento/TS/6147309/Asesinato/20111021');return false;" title="ROJ: STS 6280/2011">
 									ROJ: <strong>STS 6280/2011</strong>
 									
 										- ECLI:<strong>ES:TS:2011:6280</strong>
 </a>
 </div> <!-- .title -->
 <div class="metadatos">
 <ul>
 <li>Tipo Órgano: <b>Tribunal Supremo. Sala de lo Penal</b></li>
 <li>Municipio: <b>Madrid</b></li>
 <li>Ponente: <b>LUCIANO VARELA CASTRO</b></li>
 <li>Nº Recurso: <b>2675/2010</b></li>
 <li>Fecha: <b>29/09/2011</b></li>
 <li>Tipo Resolución: <b>Sentencia</b></li>
 </ul>
 </div> <!-- .metadatos -->
 <div class="summary">
 										Resumen: <b>La STS desestimando los recursos, recuerda la doctrina jurisprudencial relacionada con la dispensa del deber de declarar, subrayando que debe incluir a aquellas personas que mantengan vínculos de afectividad análogos al matrimonio, debiendo advertírseles

In [5]:
#We define the for loop to extract the data for the 200 verdict (20 pages) into a single list:
verdict = []
for page in range (20):
  url = 'http://www.poderjudicial.es/search/sentencias/Asesinato/' + str(page*10+1) + '/AN'
  html = BeautifulSoup(requests.get(url).content, 'lxml')
  full_page = html.find_all('div',{'class':'col-xs-12 content'})
  verdict = verdict + full_page

#Check that the final list has the 200 verdicts.
print(len(verdict))

200


In [6]:
#Now we create the Dataframe where we are going to store all the data:
#The columns we want to have are the following:
columns = ['ROJ', 'ECLI', 'Organo', 'Municipio', 'Nº recurso', 'Fecha', 'Resolución']
verdict_df = pd.DataFrame(columns=columns)
verdict_df.head()

Unnamed: 0,ROJ,ECLI,Organo,Municipio,Nº recurso,Fecha,Resolución


In [7]:
ul_list = [row.find('ul') for row in verdict]
ul_text = [list(group.stripped_strings) for group in ul_list]
#Now we have the text contained in the last 5 columns in one list.

In [8]:
organos = []
municipios = []
recursos = []
fechas = []
resoluciones = []

for item in ul_text:
  organos.append(item[1])
  municipios.append(item[3])
  recursos.append(item[7])
  fechas.append(item[9])
  if len(item)<12: #I detected that, at least one verdict didn't has all the fields so we introduce this error message to, later, delete that row.
    resoluciones.append('Fail')
  else:
    resoluciones.append(item[11])

In [9]:
#Finally, we introduce all the data into the dataframe:
verdict_df['Organo'] = organos
verdict_df['Municipio'] = municipios
verdict_df['Nº recurso'] = recursos
verdict_df['Fecha'] = fechas
verdict_df['Resolución'] = resoluciones
verdict_df.head()

Unnamed: 0,ROJ,ECLI,Organo,Municipio,Nº recurso,Fecha,Resolución
0,,,Tribunal Supremo. Sala de lo Penal,Madrid,2675/2010,29/09/2011,Sentencia
1,,,Tribunal Supremo. Sala de lo Penal,Madrid,10145/2012,29/01/2013,Sentencia
2,,,Tribunal Supremo. Sala de lo Penal,Madrid,10329/2007,26/11/2007,Sentencia
3,,,Tribunal Supremo. Sala de lo Penal,Madrid,10085/2010,14/07/2010,Sentencia
4,,,Tribunal Supremo. Sala de lo Penal,Madrid,10997/2007,25/02/2008,Sentencia


In [10]:
#Now we have to extract the ROJ and ECLI references:
verdict_head = []
for page in range (20):
  url = 'http://www.poderjudicial.es/search/sentencias/Asesinato/' + str(page*10+1) + '/AN'
  html = BeautifulSoup(requests.get(url).content, 'lxml')
  full_page = html.find_all('div',{'class':'title'})
  verdict_head = verdict_head + full_page

In [11]:
ul_list = [row.find('a') for row in verdict_head]
ul_text = [list(group.stripped_strings) for group in ul_list]
#Now we have the text contained in the first 2 columns in one list.

In [12]:
#The last step is to add this data (ROJ and ECLI) to the respective dataframe columns following the same process as before.
ROJ_lst = []
ECLI_lst = []

for item in ul_text:
  ROJ_lst.append(item[1])
  ECLI_lst.append(item[3])
  
verdict_df['ROJ'] = ROJ_lst
verdict_df['ECLI'] = ECLI_lst

verdict_df.head(200)

Unnamed: 0,ROJ,ECLI,Organo,Municipio,Nº recurso,Fecha,Resolución
0,STS 6280/2011,ES:TS:2011:6280,Tribunal Supremo. Sala de lo Penal,Madrid,2675/2010,29/09/2011,Sentencia
1,STS 178/2013,ES:TS:2013:178,Tribunal Supremo. Sala de lo Penal,Madrid,10145/2012,29/01/2013,Sentencia
2,STS 8313/2007,ES:TS:2007:8313,Tribunal Supremo. Sala de lo Penal,Madrid,10329/2007,26/11/2007,Sentencia
3,STS 4221/2010,ES:TS:2010:4221,Tribunal Supremo. Sala de lo Penal,Madrid,10085/2010,14/07/2010,Sentencia
4,STS 7567/2008,ES:TS:2008:7567,Tribunal Supremo. Sala de lo Penal,Madrid,10997/2007,25/02/2008,Sentencia
5,STS 5442/2014,ES:TS:2014:5442,Tribunal Supremo. Sala de lo Penal,Madrid,10569/2014,26/12/2014,Sentencia
6,STS 7710/2009,ES:TS:2009:7710,Tribunal Supremo. Sala de lo Penal,Madrid,10663/2009,03/12/2009,Sentencia
7,STS 7333/2010,ES:TS:2010:7333,Tribunal Supremo. Sala de lo Penal,Madrid,1604/2010,22/12/2010,Sentencia
8,STS 4743/2014,ES:TS:2014:4743,Tribunal Supremo. Sala de lo Penal,Madrid,10294/2014,06/11/2014,Sentencia
9,STS 112/2010,ES:TS:2010:112,Tribunal Supremo. Sala de lo Penal,Madrid,10385/2009,25/01/2010,Sentencia


In [13]:
#THINGS TO IMPROVE
#Obviusly, don't iterate two times to extract the html text. With one time is enought, here is done in that way to explain the full process.
#Probably, exist a better method to insert the data extracted from the HTML into the dataframe instead of using temporaly lists.
#In the process I can reuso more variables instead of creating different ones each time. Is done in that way to show properly the process.
#Instead of searchind the data by the list index we can search the index where the field title is and extract the data for tho next one. This would help to avoid errors or keep cells in blank when is no data in the web.

#THINGS TO DEVELOPE
#We can extract key words from the resume to help attorneys find the right verdict
#Maybe scrap more specific data from each verdict url