## Semillero de Programación en Ciencias Sociales (Sesión 7)
### Felipe Botero, Wilson Forero, Laura Merchán y Juan Carlos Rodríguez-Raga

In [1]:
#!pip install altair vega_datasets

#### ¿Cómo habla el uribismo de la JEP? El objetivo de esta clase es descargar automáticamente todas las noticias que incluyan la palabra "JEP" publicadas en el portal Los Irreverentes.

### Paquetes útiles:

**[1.OS](https://docs.python.org/3/library/os.html):** Permite interactuar con el sistema operativo. Lo usaremos para manipular la estructura de directorios (Crear o eliminar directorios o archivos).

**[2.requests:](https://requests.readthedocs.io)** Permite automatizar la navegación en internet (Entrar  y moverse entre páginas).

**[3.urlib.parse:](https://docs.python.org/3/library/urllib.parse.html#module-urllib.parse)** Permite manipular urls (Fragmentarlas  o unirlas).

**[4.BeautifulSoup:](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)** La estrella de hoy. Es una librería especializada en extraer información de la web.

**[5.RegEx:](https://www.w3schools.com/python/python_regex.asp)** Permite trabajar con [expresiones regulares](https://en.wikipedia.org/wiki/Regular_expression).Las expresiones regulares son una serie de convenciones para simplificar la búsqueda de strings que siguen algunos patrones.

**[6. Altair](https://altair-viz.github.io/gallery/)** Una librería para visualizar fácilmente datos.

**[7.Pandas](https://pandas.pydata.org/)** La librería insignia de  python para manipular datos.



In [2]:
import os
import requests
import urllib.parse
from bs4 import BeautifulSoup
import re
import altair as alt
import pandas as pd

### 1. GENERAR LISTA DE  URLS A VISITAR

Revisemos la página de [Los Irreverentes](https://www.losirreverentes.com/)
Con *urllib.parse* podemos ver las partes de la url.

In [4]:
url1= "https://www.losirreverentes.com/page/1/?s=jep"
urllib.parse.urlparse(url1)

ParseResult(scheme='https', netloc='www.losirreverentes.com', path='/page/1/', params='', query='s=jep', fragment='')

In [5]:
url2= "https://www.losirreverentes.com/page/151/?s=jep"
urllib.parse.urlparse(url2)

ParseResult(scheme='https', netloc='www.losirreverentes.com', path='/page/151/', params='', query='s=jep', fragment='')

In [7]:
palabra_clave="jep"
inicial=1
final=151
urls=[]
for i in range(inicial,final):
    url= "https://www.losirreverentes.com/page/"+str(i)+"/?s="+palabra_clave
    urls.append(url)


In [8]:
urls[0:10]

['https://www.losirreverentes.com/page/1/?s=jep',
 'https://www.losirreverentes.com/page/2/?s=jep',
 'https://www.losirreverentes.com/page/3/?s=jep',
 'https://www.losirreverentes.com/page/4/?s=jep',
 'https://www.losirreverentes.com/page/5/?s=jep',
 'https://www.losirreverentes.com/page/6/?s=jep',
 'https://www.losirreverentes.com/page/7/?s=jep',
 'https://www.losirreverentes.com/page/8/?s=jep',
 'https://www.losirreverentes.com/page/9/?s=jep',
 'https://www.losirreverentes.com/page/10/?s=jep']

- Con *requests* visitamos la página de internet almacenada en *url* y la almacenamos en la variable *response*.
- Con *BeautifulSoup* organizamos la información en una estructura jerárquica de  acuerdo a la estructura del código *html* de la página.
- Pueden visitar este [link](https://www.w3schools.com/TAGS/tag_a.asp) comprender mejor el código html.

In [23]:
response = requests.get(urls[1])
soup= BeautifulSoup(response.text, "html.parser")


In [None]:
titulo_articulo= soup.find_all(class_="et-accent-color")

In [16]:
titulo_articulo

[<a class="et-accent-color" href="https://www.losirreverentes.com/rechazo-y-repudio-a-la-jep/" style="color:#8e6ecf;">Rechazo y repudio a la JEP</a>,
 <a class="et-accent-color" href="https://www.losirreverentes.com/cambiemos-la-jep-por-mercados/" style="color:#8e6ecf;">Cambiemos la JEP por mercados</a>,
 <a class="et-accent-color" href="https://www.losirreverentes.com/la-jep-una-verguenza-nacional/" style="color:#7ac8cc;">La JEP, una vergüenza nacional</a>,
 <a class="et-accent-color" href="https://www.losirreverentes.com/jep-ella-misma-se-desacredita/" style="color:#8e6ecf;">JEP, Ella Misma Se Desacredita</a>,
 <a class="et-accent-color" href="https://www.losirreverentes.com/la-jep-el-brazo-juridico-de-las-farc/" style="color:#8e6ecf;">La JEP, el brazo jurídico de las Farc</a>]

In [17]:
#hipervinculo=lin.find("a")
link=titulo_articulo[1].get("href")
link

'https://www.losirreverentes.com/cambiemos-la-jep-por-mercados/'

In [20]:
links=[]
for url in urls[0:2]:
    response = requests.get(url)
    soup= BeautifulSoup(response.text, "html.parser")
    titulos_articulos= soup.find_all(class_="et-accent-color")
    for articulo in titulos_articulos:
        link=articulo.get("href")
        links.append(link)

In [21]:
links

['https://www.losirreverentes.com/firmo-para-eliminar-la-jep/',
 'https://www.losirreverentes.com/la-jep-demostro-que-es-una-cueva-de-impunidades/',
 'https://www.losirreverentes.com/el-berrinche-de-la-jep/',
 'https://www.losirreverentes.com/reformar-la-jep-no-hay-que-acabarla/',
 'https://www.losirreverentes.com/la-farc-jep/',
 'https://www.losirreverentes.com/rechazo-y-repudio-a-la-jep/',
 'https://www.losirreverentes.com/cambiemos-la-jep-por-mercados/',
 'https://www.losirreverentes.com/la-jep-una-verguenza-nacional/',
 'https://www.losirreverentes.com/jep-ella-misma-se-desacredita/',
 'https://www.losirreverentes.com/la-jep-el-brazo-juridico-de-las-farc/']

### 2. IDENTIFICAR EL CÓDIGO HTML A EXTRAER


In [33]:
link=links[0]
response = requests.get(link)
soup= BeautifulSoup(response.text, "html.parser")
titular= soup.find(class_="entry-title").text
fecha= soup.find(class_="updated").text
texto=soup.find(class_="post-content entry-content").text

In [34]:
print(titular,fecha,texto)

Firmo para eliminar la JEP Nov 7, 2020 
En los últimos años la ultra izquierda ha avanzado infiltrando las ramas del poder público de Colombia, particularmente con la rama judicial que mediante fallos exóticos ha asestado golpes en la lucha contra el narcotráfico. ¿Realmente es sensato prohibir la aspersión aérea de glifosato en el país con más hectáreas de cultivos ilícitos en todo el mundo? ¿Qué tal pensar en prohibir el decomiso de la dosis mínima en el primer país productor de cocaína a nivel mundial? Se vislumbra, entonces, que al parecer hubiera una alianza macabra para potencializar el negocio de la droga.
Adicional a esto, Santos al robarse el plebiscito incorporó a la fuerza, tal vez, la institución más inservible en la historia del país: la Jurisdicción Especial para la Paz (JEP) que pese a varios años de funcionamiento no ha mostrado resultados verdaderamente pertinentes –más allá de permitir la fuga de Jesús Santrich- . Hasta el momento, no se ha dado la recuperación efecti

### 3. VISITAR UNA A  UNA LAS URLS  Y EXTRAER LA INFORMACIÓN IDENTIFICADA

In [36]:
titulares=[]
fechas=[]
textos=[]
for link in links:
    response = requests.get(link)
    soup= BeautifulSoup(response.text, "html.parser")
    titulares.append(soup.find(class_="entry-title").text)
    fechas.append(soup.find(class_="updated").text) 
    textos.append(soup.find(class_="post-content entry-content").text)
    

In [37]:
titulares

['Firmo para eliminar la JEP',
 'La JEP demostró que es una cueva de impunidades',
 'El berrinche de la JEP',
 '¿Reformar la JEP? NO. Hay que acabarla',
 'La Farc JEP',
 'Rechazo y repudio a la JEP',
 'Cambiemos la JEP por mercados',
 'La JEP, una vergüenza nacional',
 'JEP, Ella Misma Se Desacredita',
 'La JEP, el brazo jurídico de las Farc']

In [38]:
df = pd.DataFrame(list(zip(titulares, fechas, textos)), 
               columns =['Titular', 'Fecha',"Contenido"]) 
df 

Unnamed: 0,Titular,Fecha,Contenido
0,Firmo para eliminar la JEP,"Nov 7, 2020",\nEn los últimos años la ultra izquierda ha av...
1,La JEP demostró que es una cueva de impunidades,"Nov 3, 2020",\nEl problema de la JEP no se soluciona cambia...
2,El berrinche de la JEP,"Oct 21, 2020","\nDesde antes de entrar en funcionamiento, la ..."
3,¿Reformar la JEP? NO. Hay que acabarla,"Sep 6, 2020","\nReapareció Juan Manuel Santos, en el marco d..."
4,La Farc JEP,"Jul 25, 2020",\nDesde que Juan Manuel Santos decidió robarse...
5,Rechazo y repudio a la JEP,"May 30, 2020","\nNo son pocos los colombianos, que ciega o in..."
6,Cambiemos la JEP por mercados,"May 1, 2020","\nEl Presidente Uribe, dejó un país próspero y..."
7,"La JEP, una vergüenza nacional","Apr 22, 2020","\nLa JEP, tribunal al servicio de los terroris..."
8,"JEP, Ella Misma Se Desacredita","Mar 13, 2020",\nMe parece magnífico que la Justicia Especial...
9,"La JEP, el brazo jurídico de las Farc","Mar 11, 2020",\nSi alguien tenía\ndudas sobre la naturaleza ...


In [39]:
df.to_excel("./los_irreverentesJEP.xlsx")