# <span style="color:#F72585"><center>Web Scraping</center></span>

<center>Introducción</center>

<figure>
<center>
<img src="../Imagenes/web_scraping.jpeg" width="500" height="500" align="center" /> 
</center>
</figure>

Fuente: [Ilya Pavlov](https://unsplash.com/photos/OqtafYT5kTw)

## <span style="color:#4361EE">¿Qué es Web Scraping?</span> 

**Web scraping** o raspado web, es una técnica utilizada mediante programas de software para extraer información de sitios web.

La razón de utilizar esta técnica puede deberse a la incapacidad de obtención de información de manera directa en forma estructurada.

Usualmente, estos programas simulan la navegación de un humano en la *World Wide Web*, ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.

Web scraping es el proceso de recopilar información de forma automática de la Web.

Es un campo con desarrollos activos, compartiendo un propósito en común con la visión de la Web semántica.

Utiliza soluciones prácticas basadas en tecnologías existentes que son comúnmente ad hoc.

## <span style="color:#4361EE">Brevísima Introducción a HTML</span>

```HTML
<!DOCTYPE html>
<html>
<head>
<title>Esto es para divertirnos</title>
</head>
<body>

<h1>Mi primera página web</h1>
<p>Escribiré un párrafo... Algún día.</p>

</body>
</html>
```

- **Observemos la renderización de dicho código HTML anterior en este Notebook**

---
<!DOCTYPE html>
<html>
<head>
<title>Esto es para divertirnos</title>
</head>
<body>

<h1>Mi primera página web</h1>
<p>Escribiré un párrafo... Algún día.</p>

</body>
</html>

---

### <span style="color:#4CC9F0">Partes Fundamentales:</span>

- Declaración que define que este documento es un documento HTML5.

```html
<!DOCTYPE html>
```

- Inicia la estrutura html. Es la raíz de la página web.

```html
<html>
```

- Inicia la cabecera (metadata) de la página web.

```html
<head>
```

- Coloca un título en la cabecera de la página web.

```html
<title>
``` 

- Inicia el cuerpo de la página web que contiene todos los elementos visibles de la página web. 

```html
<body>
```

- Coloca una cabecera dentro del cuerpo de la página web.

```html
<h1>
```

- Coloca un párrafo dentro de la página web.

```html
<p>
```

### <span style="color:#4CC9F0">Ejercicio</span>

Utilize el código anterior en un bloc de notas y visualízelo desde un Browser.

### <span style="color:#4CC9F0">Objetos CSS</span>

Es posible enriquecer aún más el contenido HTML con objetos CSS (Cascading Style Sheets)

```html
<!DOCTYPE html>
<html>
<head>
<style>
h1 {
  color: blue;
  font-family: verdana;
  font-size: 300%;
}
p {
  color: red;
  font-family: courier;
  font-size: 160%;
}
</style>
</head>
<body>

<h1>This is a heading</h1>
<p>This is a paragraph.</p>

</body>
</html>
```

### <span style="color:#4CC9F0">JavaScript</span>

También es posible utilizar herramientas de programación para afectar los comportamientos que puede tener las páginas web.

Este lenguaje de programación se conoce como JavaScript y es utilizado ampliamente dentro del gremio de desarrolladores web.

```html
<!DOCTYPE html>
<html>
<body>

<h2>JavaScript in Body</h2>

<p id="demo"></p>

<script>
document.getElementById("demo").innerHTML = "My First JavaScript";
</script>

</body>
</html>
```

Lo más interesante de JavaScript, es que puede interactuar sobre el DOM (Document Object Model) de las páginas web, generando interactividad con los usuarios de manera dinámica:

```html
<!DOCTYPE html>
<html>
<body>

<p><a id="Ancla" hreflang="¡Soy un elemento nuevo!" href="https://www.w3schools.com/">W3Schools</a></p>

<p>Hacer click en el botón para obtener más info</p>

<button onclick="myFunction()">Pruébame</button>

<p id="Demo"></p>

<script>
function myFunction() {
  var x = document.getElementById("Ancla").hreflang;
  document.getElementById("Demo").innerHTML = x;
}
</script>

</body>
</html>
```

Existen distintos niveles de automatización que las existentes tecnologías de Web Scraping pueden brindar:

- **«Copiar y pegar» humano:** algunas veces incluso las mejores técnicas de web scraping no pueden reemplazar el examen manual de un humano, y a veces esta puede ser la única vía de solución cuando el sitio que tenemos en mente pone ciertas barreras para prevenir que se creen softwares para realizar tareas automáticas en este.

- **Uso de expresiones regulares:** una posible vía para extraer información de páginas webs pueden ser las expresiones regulares, aunque comúnmente no se recomienda utilizarlas para parsear (análisis de sintaxis) el formato HTML.

- **Protocolo HTTP:** páginas webs estáticas y dinámicas pueden ser obtenidas haciendo peticiones HTTP al servidor remoto utilizando sockets, etc.

- **Algoritmos de minería de datos:** muchos sitios webs tienen grandes colecciones de páginas generadas dinámicamente a partir de una base de datos. Datos de la misma categoría aparecen usualmente en páginas similares mediante un script o una plantilla. En la minería de datos, un programa detecta estas plantillas en un contexto específico y extrae su contenido.

- **Parsers de HTML:** Algunos lenguajes, como XQuery y HTQL pueden ser utilizados para parsear documentos, recuperar y transformar el contenido de documentos HTML.

- **Aplicaciones para web scraping:** existen muchas aplicaciones disponibles que pueden ser utilizadas para personalizar soluciones de Web Scraping. Estas aplicaciones podrían reconocer automáticamente la estructura de cierta página o brindar una interfaz al usuario donde este pudiera seleccionar los campos que son de interés dentro del documento. De esta forma no es necesario escribir manualmente código para realizar estas tareas.

- **Reconocimiento de información semántica:** las páginas que son analizadas podrían incluir metadatos o cierta información semántica como anotaciones o comentarios, los cuales pueden ser usados comúnmente. Si estas anotaciones están en las mismas páginas, como sucede con los microformatos, estas podrían ser de utilidad cuando parseamos el DOM del documento. En otro caso, las anotaciones, organizadas en una capa semántica, son almacenadas y manejadas de forma separada desde otras páginas, por lo que los scrapers pueden recuperar estos esquemas y las instrucciones desde esta capa antes de analizar los documentos.

## <span style="color:#4361EE">Scraper de Noticias de Google News</span>

Para comenzar nuestra discusión sobre como puede ser el resultado de un Scraping Web existente, usaremos un famoso paquete existente que hace el trabajo para las noticias en la web, conocido como Google News.

### <span style="color:#4CC9F0">Librerías Necesarias</span>

In [1]:
# Conexión con Google News
from gnewsclient import gnewsclient

### <span style="color:#4CC9F0">Extraer Noticias de Google News</span>

Es posible extraer noticias asociadas a [Google News](https://news.google.com/), usando la herramienta [`gnewsclient`](https://pypi.org/project/gnewsclient/), desarrollada por Nikhil Kumar Singh.

Es una herramienta bastante intuitiva de usar.

Considere que haremos un **Web Scraping** de una página que hace Web Scraping de noticias, utilizando los motores de Google.

In [2]:
# Inicializar el objeto gnewsclient
client = gnewsclient.NewsClient()

Como observamos a continuación, el cliente tiene algunas propiedades y métodos útiles:

In [3]:
print(dir(client))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'get_config', 'get_news', 'language', 'languages', 'location', 'locations', 'max_results', 'params_dict', 'parse_feed', 'topic', 'topics', 'use_opengraph']


### <span style="color:#4CC9F0">Propiedades del Cliente de Noticias</span>

- Podemos observar que tenemos varios países a disposición:

In [4]:
print(client.locations)

['Australia', 'Botswana', 'Canada ', 'Ethiopia', 'Ghana', 'India ', 'Indonesia', 'Ireland', 'Israel ', 'Kenya', 'Latvia', 'Malaysia', 'Namibia', 'New Zealand', 'Nigeria', 'Pakistan', 'Philippines', 'Singapore', 'South Africa', 'Tanzania', 'Uganda', 'United Kingdom', 'United States', 'Zimbabwe', 'Czech Republic', 'Germany', 'Austria', 'Switzerland', 'Argentina', 'Chile', 'Colombia', 'Cuba', 'Mexico', 'Peru', 'Venezuela', 'Belgium ', 'France', 'Morocco', 'Senegal', 'Italy', 'Lithuania', 'Hungary', 'Netherlands', 'Norway', 'Poland', 'Brazil', 'Portugal', 'Romania', 'Slovakia', 'Slovenia', 'Sweden', 'Vietnam', 'Turkey', 'Greece', 'Bulgaria', 'Russia', 'Ukraine ', 'Serbia', 'United Arab Emirates', 'Saudi Arabia', 'Lebanon', 'Egypt', 'Bangladesh', 'Thailand', 'China', 'Taiwan', 'Hong Kong', 'Japan', 'Republic of Korea']


In [5]:
print(f'Países Disponibles: {len(client.locations)}')

Países Disponibles: 69


- Además, podemos minar en diferentes idiomas también:

In [6]:
print(client.languages)

['english', 'indonesian', 'czech', 'german', 'spanish', 'french', 'italian', 'latvian', 'lithuanian', 'hungarian', 'dutch', 'norwegian', 'polish', 'portuguese brasil', 'portuguese portugal', 'romanian', 'slovak', 'slovenian', 'swedish', 'vietnamese', 'turkish', 'greek', 'bulgarian', 'russian', 'serbian', 'ukrainian', 'hebrew', 'arabic', 'marathi', 'hindi', 'bengali', 'tamil', 'telugu', 'malyalam', 'thai', 'chinese simplified', 'chinese traditional', 'japanese', 'korean']


In [7]:
print(f'Idiomas Disponibles: {len(client.languages)}')

Idiomas Disponibles: 39


- Podemos también elegir entre diferentes temas disponibles:

In [8]:
# Mostrar Tópicos disponibles
topicos = client.topics
print(topicos)

['Top Stories', 'World', 'Nation', 'Business', 'Technology', 'Entertainment', 'Sports', 'Science', 'Health']


- Tal vez, el método más importante de este paquete es **`get_news()`**, que busca por las noticias solicitadas en la web a través de Google.

In [9]:
# Obtener las noticias del cliente
noticias = client.get_news()
noticias

[{'title': 'Live updates: Monterey Park mass shooting today: 10 dead, 10 injured at dance studio following Lunar New Year celebration - KABC-TV',
  'link': 'https://news.google.com/__i/rss/rd/articles/CBMiW2h0dHBzOi8vYWJjNy5jb20vbW9udGVyZXktcGFyay1tYXNzLXNob290aW5nLWNhbGlmb3JuaWEtbHVuYXItbmV3LXllYXItZXZlbnQtZGVhZC8xMjcyNTM3Mi_SAV9odHRwczovL2FiYzcuY29tL2FtcC9tb250ZXJleS1wYXJrLW1hc3Mtc2hvb3RpbmctY2FsaWZvcm5pYS1sdW5hci1uZXcteWVhci1ldmVudC1kZWFkLzEyNzI1MzcyLw?oc=5',
  'media': None},
 {'title': 'Biden to Tap Jeff Zients as His Next White House Chief of Staff - The New York Times',
  'link': 'https://news.google.com/__i/rss/rd/articles/CBMiTmh0dHBzOi8vd3d3Lm55dGltZXMuY29tLzIwMjMvMDEvMjIvdXMvcG9saXRpY3MvamVmZi16aWVudHMtY2hpZWYtb2Ytc3RhZmYuaHRtbNIBUmh0dHBzOi8vd3d3Lm55dGltZXMuY29tLzIwMjMvMDEvMjIvdXMvcG9saXRpY3MvamVmZi16aWVudHMtY2hpZWYtb2Ytc3RhZmYuYW1wLmh0bWw?oc=5',
  'media': None},
 {'title': 'Republicans hold firm in demanding debt ceiling deal with Biden - The Washington Post',
  'link': 'h

### <span style="color:#4CC9F0">Fijar parámetros del Cliente</span>

- Podemos elegir entre tópicos de la lista y pasarlos al cliente:

In [10]:
print(topicos)

['Top Stories', 'World', 'Nation', 'Business', 'Technology', 'Entertainment', 'Sports', 'Science', 'Health']


In [11]:
# Elegir de tópicos discponibles
client.topic = topicos[-1]

In [12]:
print(client.languages)

['english', 'indonesian', 'czech', 'german', 'spanish', 'french', 'italian', 'latvian', 'lithuanian', 'hungarian', 'dutch', 'norwegian', 'polish', 'portuguese brasil', 'portuguese portugal', 'romanian', 'slovak', 'slovenian', 'swedish', 'vietnamese', 'turkish', 'greek', 'bulgarian', 'russian', 'serbian', 'ukrainian', 'hebrew', 'arabic', 'marathi', 'hindi', 'bengali', 'tamil', 'telugu', 'malyalam', 'thai', 'chinese simplified', 'chinese traditional', 'japanese', 'korean']


- Podemos también elegir el idioma de nuestro interés:

In [14]:
client.language = 'greek'

In [15]:
client.get_news()

[{'title': 'Οι ιώσεις σχετίζονται με την εμφάνιση Αλτσχάιμερ και Πάρκινσον – Τι δείχνει νέα έρευνα - NewsIT',
  'link': 'https://news.google.com/__i/rss/rd/articles/CBMieWh0dHBzOi8vd3d3Lm5ld3NpdC5nci95Z2VpYS9vaS1pb3NlaXMtc3hldGl6b250YWktbWUtdGluLWVtZmFuaXNpLWFsdHN4YWltZXIta2FpLXBhcmtpbnNvbi10aS1kZWl4bmVpLW5lYS1lcmV5bmEvMzY4ODEyMy_SAX1odHRwczovL3d3dy5uZXdzaXQuZ3IveWdlaWEvb2ktaW9zZWlzLXN4ZXRpem9udGFpLW1lLXRpbi1lbWZhbmlzaS1hbHRzeGFpbWVyLWthaS1wYXJraW5zb24tdGktZGVpeG5laS1uZWEtZXJleW5hLzM2ODgxMjMvYW1wLw?oc=5',
  'media': None},
 {'title': 'Η πλήρως εμβολιασμένη Ιαπωνία γονάτισε από τον Covid – Ρεκόρ μολύνσεων, νοσηλειών και θανάτων ενώ το ...«πείραμα» συνεχίζεται - Bankingnews',
  'link': 'https://news.google.com/__i/rss/rd/articles/CBMijgFodHRwczovL3d3dy5iYW5raW5nbmV3cy5nci9kaWV0aG5pL2FydGljbGVzLzY2MTc3NS9pLXBsaXJvcy1lbXZvbGlhc21lbmktaWFwb25pYS1nb25hdGlzZS1hcG8tdG9uLWNvdmlkLXJla29yLW1vbHluc2Vvbi1ub3NpbGVpb24ta2FpLXRoYW5hdG9u0gEA?oc=5',
  'media': None},
 {'title': 'Ιώσεις: Εκτιμήσεις για π

- También es posible iniciar el cliente con parámetros fijos desde el principio:

In [16]:
# Con opengraph se puede filtrar el medio de comunicación
client = gnewsclient.NewsClient(location='Colombia', language='spanish', topic='Nation', use_opengraph=True, max_results=10)
# Obtener noticias
noticias = client.get_news()

In [17]:
import numpy as np
print(np.random.choice(noticias))

{'url': 'https://www.elheraldo.co/barranquilla/carnaval-de-barranquilla-2023-cierre-de-vias-y-desvios-por-la-lectura-del-bando-en', 'site_name': 'EL HERALDO', 'title': 'Cierre de vías y desvíos por la Lectura del Bando en Barranquilla - EL HERALDO', 'description': 'El evento se cumplirá este sábado en la Plaza de la Paz a partir de las 8:00 p. m. Las puertas se abrirán desde las 5:00 p. m. Policía dispone plan especial por seguridad.', 'image': 'https://www.elheraldo.co/sites/default/files/articulo/2023/01/20/2a_lectura_del_bando.jpg', 'type': 'article', 'locale:alternate': 'es_CO', 'locale': 'es_LA', 'country_name': 'Colombia', 'region': 'Barranquilla', 'image_width': 150, 'image_height': 150, 'link': 'https://news.google.com/__i/rss/rd/articles/CBMieGh0dHBzOi8vd3d3LmVsaGVyYWxkby5jby9iYXJyYW5xdWlsbGEvY2FybmF2YWwtZGUtYmFycmFucXVpbGxhLTIwMjMtY2llcnJlLWRlLXZpYXMteS1kZXN2aW9zLXBvci1sYS1sZWN0dXJhLWRlbC1iYW5kby1lbtIBAA?oc=5', 'media': None}


- Note que el uso de **openGraph** nos permite obtener más características de las noticias, tales como imágenes asociadas, descripciones y tipo de noticia.

In [18]:
print(noticias[0].keys())

dict_keys(['url', 'site_name', 'title', 'description', 'image', 'locale', 'locale:alternate', 'type', 'image:url', 'image:type', 'video', 'video:type', 'video:width', 'video:height', 'image_width', 'image_height', 'link', 'media'])


In [19]:
# Mostrar noticias
for noticia in noticias:
    print(noticia['site_name'],noticia['title'],noticia['url'],noticia['link'],sep='\n',end='\n\n')

El Tiempo
Petro: estas son las medidas que anunció para atender crisis en Nariño - El Tiempo
https://www.eltiempo.com/politica/gobierno/petro-anuncia-conclusiones-tras-consejo-de-ministros-en-ipiales-narino-735851
https://news.google.com/__i/rss/rd/articles/CBMieGh0dHBzOi8vd3d3LmVsdGllbXBvLmNvbS9wb2xpdGljYS9nb2JpZXJuby9wZXRyby1hbnVuY2lhLWNvbmNsdXNpb25lcy10cmFzLWNvbnNlam8tZGUtbWluaXN0cm9zLWVuLWlwaWFsZXMtbmFyaW5vLTczNTg1MdIBfGh0dHBzOi8vd3d3LmVsdGllbXBvLmNvbS9hbXAvcG9saXRpY2EvZ29iaWVybm8vcGV0cm8tYW51bmNpYS1jb25jbHVzaW9uZXMtdHJhcy1jb25zZWpvLWRlLW1pbmlzdHJvcy1lbi1pcGlhbGVzLW5hcmluby03MzU4NTE?oc=5

EL HERALDO
Cierre de vías y desvíos por la Lectura del Bando en Barranquilla - EL HERALDO
https://www.elheraldo.co/barranquilla/carnaval-de-barranquilla-2023-cierre-de-vias-y-desvios-por-la-lectura-del-bando-en
https://news.google.com/__i/rss/rd/articles/CBMieGh0dHBzOi8vd3d3LmVsaGVyYWxkby5jby9iYXJyYW5xdWlsbGEvY2FybmF2YWwtZGUtYmFycmFucXVpbGxhLTIwMjMtY2llcnJlLWRlLXZpYXMteS1kZXN2aW9zLXBvci1sYS1sZWN0d

## <span style="color:#4361EE">Accediendo al contenido de Noticias</span>

### <span style="color:#4CC9F0">Estado de Conexión</span>

Podemos usar la librería `requests` para generar una conexión hacia la página web de la cual queremos extraer la información:

In [20]:
# Abrir conexiones de una página web
import requests
# Bella sopa de muchas cosas de HTML
from bs4 import BeautifulSoup
# Expresiones regulares para filtrar dentro de la sopa
import re
# Transformar html a texto
import html2text

In [23]:
# Elegir noticia al azar
noticia_elegida = np.random.choice(noticias)
# Obtener información importante del diccionario de gnews
medio = noticia_elegida['site_name']
# Nombre del sitio de la noticia
titular = noticia_elegida['title']
# URL de la noticia elegida
url = noticia_elegida['url']
# Elegir link adecuado, a veces url=None
if url==None or re.search('http',url)==None:
    # Si no hay información, ir desde Google
    url = noticia_elegida['link']
# Imprimir información importante
print(medio,titular,url,sep='\n\n',end='\n\n')
# Rompe defensa dummy anti-robot: https://stackoverflow.com/questions/38489386/python-requests-403-forbidden
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
# Obtener info de la página web
res = requests.get(url,headers=headers)
# Mostrar estado de la conexión
print("Estado de conexión:", res.status_code,res.reason, "(200 = OK, 403 = NOT OK)")

www.elcolombiano.com

Niña de 8 años alertó sobre el asesinato de su mamá en Medellín - El Colombiano

https://www.elcolombiano.com/antioquia/nina-alerto-del-homicidio-de-su-mama-en-enciso-medellin-FG20159682

Estado de conexión: 200 OK (200 = OK, 403 = NOT OK)


## <span style="color:#4361EE">Beautiful Soup</span>

En caso de tener conexión, `requests.content` copiará **todo** el contenido encontrado en la página fuente:

In [24]:
# Obtener contenido Web
html_page = res.content
# Mostrar algo de código fuente
print(html_page[:2000])

b'   <!doctype html>  <html class="ltr" dir="ltr" lang="es-ES"> <head> <meta content="text/html; charset=UTF-8" http-equiv="content-type"> <title>Ni\xc3\xb1a de 8 a\xc3\xb1os alert\xc3\xb3 sobre el asesinato de su mam\xc3\xa1 en Medell\xc3\xadn</title> <link rel="shortcut icon" href="https://www.elcolombiano.com/base-portlet/webrsrc/ctxvar/7bacdb4bae8c4a41855e25ae67d07716.jpeg"> <style amp-custom> .mln_uppercase_mln\r\n\t\t{\r\n\t\t\ttext-transform:uppercase\r\n\t\t}\r\n\t\t\r\n\t\t.mln_small-caps_mln\r\n\t\t{\r\n\t\t\tfont-variant:small-caps\r\n\t\t}\r\n\t\t</style> <meta name="keywords" content="actividades ilegales" data-id="25980" data-voc-name="temas" data-voc-id="25977"> <meta name="keywords" content="orden p\xc3\xbablico" data-id="27161" data-voc-name="temas" data-voc-id="25977"> <meta name="keywords" content="seguridad ciudadana" data-id="27173" data-voc-name="temas" data-voc-id="25977"> <meta name="keywords" content="medell\xc3\xadn" data-id="27707" data-voc-name="geogr\xc3\xa

Para poder decodificar los símbolos especiales y organizar en forma coherente para python, usaremos la librería `BeautifulSoup`:

In [25]:
# Obtener la sopa del HTML (construye la estructura de datos para poder minar por tags)
soup = BeautifulSoup(html_page, 'html.parser')
# parser permite decodificar algunos símbolos
print(soup.prettify()[:2000])

<!DOCTYPE html>
<html class="ltr" dir="ltr" lang="es-ES">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="content-type"/>
  <title>
   Niña de 8 años alertó sobre el asesinato de su mamá en Medellín
  </title>
  <link href="https://www.elcolombiano.com/base-portlet/webrsrc/ctxvar/7bacdb4bae8c4a41855e25ae67d07716.jpeg" rel="shortcut icon"/>
  <style amp-custom="">
   .mln_uppercase_mln
		{
			text-transform:uppercase
		}
		
		.mln_small-caps_mln
		{
			font-variant:small-caps
		}
  </style>
  <meta content="actividades ilegales" data-id="25980" data-voc-id="25977" data-voc-name="temas" name="keywords"/>
  <meta content="orden público" data-id="27161" data-voc-id="25977" data-voc-name="temas" name="keywords"/>
  <meta content="seguridad ciudadana" data-id="27173" data-voc-id="25977" data-voc-name="temas" name="keywords"/>
  <meta content="medellín" data-id="27707" data-voc-id="27611" data-voc-name="geográfico" name="keywords"/>
  <meta content="comuna 8" data-id="7442627" 

- Notemos que BeautifulSoup tiene bastantes herramientas para trabajar: 

In [26]:
print(dir(soup))



### <span style="color:#4CC9F0">Obtención del texto de la noticia</span>

In [27]:
# Información Básica
print(medio,titular,url,sep='\n\n',end='\n\n')

www.elcolombiano.com

Niña de 8 años alertó sobre el asesinato de su mamá en Medellín - El Colombiano

https://www.elcolombiano.com/antioquia/nina-alerto-del-homicidio-de-su-mama-en-enciso-medellin-FG20159682



In [28]:
texto = soup.find_all('div',{'class': 'paragraph'})
texto

[<div class="paragraph" mlnid="idcon=41457266;order=4.0"> <p>Una llamada de una niña de ocho años a su abuela fue la que permitió conocer que <b>Melissa Toro Álvarez, de 28 años</b>, había sido atacada con arma de fuego en un callejón del barrio Enciso, oriente de Medellín. Aún con vida, fue trasladada a la Unidad Intermedia de Belén, pese a la cercanía de otros centros asistenciales, y allí llegó sin vida.</p> <p>El ataque en contra de esta mujer se presentó a las 6:15 de la mañana de este domingo en un callejón de este barrio de la comuna 8 (Villa Hermosa), ubicado en la carrera 29 con la calle 59, detrás de la iglesia Divino Jesús de Praga.</p> <p>La mamá de la víctima y abuela de la menor que alertó de lo sucedido, acudió al lugar y <b>la trasladó por sus propios medios</b> al centro asistencial, ubicado a 8,5 kilómetros de distancia, con un disparo en el mentón.</p> </div>,
 <div class="paragraph" mlnid="idcon=41457270;order=6.0"> <p>Sobre las causas del ataque todo es un misterio

Librería `html2text`

In [29]:
# Convertir HTML a Texto    
texto_limpio = html2text.html2text(''.join(str(texto)))
texto_limpio

'[\n\nUna llamada de una niña de ocho años a su abuela fue la que permitió conocer\nque **Melissa Toro Álvarez, de 28 años** , había sido atacada con arma de\nfuego en un callejón del barrio Enciso, oriente de Medellín. Aún con vida, fue\ntrasladada a la Unidad Intermedia de Belén, pese a la cercanía de otros\ncentros asistenciales, y allí llegó sin vida.\n\nEl ataque en contra de esta mujer se presentó a las 6:15 de la mañana de este\ndomingo en un callejón de este barrio de la comuna 8 (Villa Hermosa), ubicado\nen la carrera 29 con la calle 59, detrás de la iglesia Divino Jesús de Praga.\n\nLa mamá de la víctima y abuela de la menor que alertó de lo sucedido, acudió\nal lugar y **la trasladó por sus propios medios** al centro asistencial,\nubicado a 8,5 kilómetros de distancia, con un disparo en el mentón.\n\n,\n\nSobre las causas del ataque todo es un misterio. Algunos vecinos del sector\n**solo se aventuraron a señalar tímidamente** la zona donde fue baleada esta\nmujer, mientras q

## <span style="color:#4361EE">Limpieza básica usando expresiones regulares</span>

Para mayor información, recomendamos visitar [Regular Expressions Cheat Sheet](https://cheatography.com/davechild/cheat-sheets/regular-expressions/), para un resumen de las posibilidades de las expresiones regulares. 

También podemos acceder a un tester para probar todo tipo de patrones en [RegExr: Learn, Build, & Test RegEx](https://regexr.com/)

In [30]:
#Quitar links
texto_limpio = re.sub(r'\([^)]*\)',' ',texto_limpio)
# Quitar paréntesis redondos y cuadrados después de quitar links
texto_limpio = re.sub(r'[\[\]\(\)]','',texto_limpio)
# Quitar saltos de línea
texto_limpio = re.sub(r'\n',' ',texto_limpio)
# Quitar asteriscos
texto_limpio = re.sub(r'\*',' ',texto_limpio)
# Quitar comillas sencillas y reemplazar por dobles
texto_limpio = re.sub(r"[\\']",'\'',texto_limpio)
# Quitar todo lo que no tenga punto al final, después del punto final.
texto_limpio = re.sub(r'([^.]*$)','',texto_limpio)
# Quitar Espacios extra (dos o más)
texto_limpio = re.sub('\s\s+', ' ',texto_limpio)
# Quitar el patrón . , [texto]
texto_limpio = re.sub('\.\s,\s', '. ',texto_limpio)
# Algunos países tienen prob
texto_limpio = re.sub(u'\\\'xa0','',texto_limpio)
# Quitar espacios iniciales y finales
texto_limpio = texto_limpio.strip()
texto_limpio

'Una llamada de una niña de ocho años a su abuela fue la que permitió conocer que Melissa Toro Álvarez, de 28 años , había sido atacada con arma de fuego en un callejón del barrio Enciso, oriente de Medellín. Aún con vida, fue trasladada a la Unidad Intermedia de Belén, pese a la cercanía de otros centros asistenciales, y allí llegó sin vida. El ataque en contra de esta mujer se presentó a las 6:15 de la mañana de este domingo en un callejón de este barrio de la comuna 8 , ubicado en la carrera 29 con la calle 59, detrás de la iglesia Divino Jesús de Praga. La mamá de la víctima y abuela de la menor que alertó de lo sucedido, acudió al lugar y la trasladó por sus propios medios al centro asistencial, ubicado a 8,5 kilómetros de distancia, con un disparo en el mentón. Sobre las causas del ataque todo es un misterio. Algunos vecinos del sector solo se aventuraron a señalar tímidamente la zona donde fue baleada esta mujer, mientras que otros respondían tajantemente, “no vamos a dar ningun

### <span style="color:#4CC9F0">Uniendo Piezas</span>

In [31]:
# Elegir noticia al azar
noticia_elegida = np.random.randint(len(noticias))

# url de la noticia elegida
url = noticias[noticia_elegida]['url']
# Elegir link adecuado, a veces url=None
if url==None or re.search('http',url)==None:
    # Si no hay info, ir desde Google
    url = noticias[noticia_elegida]['link']
    
# nombre del sitio de la noticia
medio = noticias[noticia_elegida]['site_name']
# Titular de la noticia
titular = noticias[noticia_elegida]['title']

# Rompe defensa dummy anti-robot: https://stackoverflow.com/questions/38489386/python-requests-403-forbidden
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
# Obtener info de la página web
res = requests.get(url,headers=headers)

# Extraer contenido
html_page = res.content
# Parsing del contenido en forma de árbol
soup = BeautifulSoup(html_page, 'html.parser')
# En caso de que tengamos que ir más profundo en la fuente
#print(soup.prettify())

# Info Básica
print(medio,titular,url,sep='\n\n',end='\n\n')

# Cuando se tiene error 403
if re.search('403',str(res)):
    print('\nNo se puede mirar ésta Noticia... Estado de la petición:', res)
    print(f'\nLe recomendamos chequear el link para ver qué ocurrió.')
    texto = []
# Sirve para El Tiempo
elif re.search(re.compile('Tiempo|ElTiempo'),titular):
    texto = soup.find_all('p',{'class': 'contenido'})
elif re.search(re.compile('Caracol'),titular):
    texto = soup.find_all('p')
    # Todas las noticias de CR comienzan con negrita (Hasta ahora)
    p = re.compile('^[^\*]*\*')
    # Quitar Las propagandas del inicio
    texto = re.sub(p,'',''.join(str(texto)))
else:
    print("Medio de comunicación no reconocido. Los resultados pueden salirse de lo esperado.\n")
    texto = []
    
#print(texto)
if texto:
    # Convertit HTML a Texto    
    texto_limpio = html2text.html2text(''.join(str(texto)))
    #Quitar links
    texto_limpio = re.sub(r'\([^)]*\)',' ',texto_limpio)
    # Quitar paréntesis redondos y cuadrados después de quitar links
    texto_limpio = re.sub(r'[\[\]\(\)]','',texto_limpio)
    # Quitar saltos de línea
    texto_limpio = re.sub(r'\n',' ',texto_limpio)
    # Quitar asteriscos
    texto_limpio = re.sub(r'\*',' ',texto_limpio)
    # Quitar comillas sencillas y reemplazar por dobles
    texto_limpio = re.sub(r"[\\']",'\'',texto_limpio)
    # Especial para el Colombiano, se mezclan noticias después de >
    #texto_limpio = re.sub(r'(>[^>]*$)','',texto_limpio)
    #Quitar todo lo que no tenga punto al final, después del punto final.
    texto_limpio = re.sub(r'([^.]*$)','',texto_limpio)
    # Quitar Espacios extra (dos o más)
    texto_limpio = re.sub('\s\s+', ' ',texto_limpio)
    # Quitar el patrón . , texto
    texto_limpio = re.sub('\.\s,\s', '. ',texto_limpio)
    # Quitar espacios iniciales y finales
    texto_limpio = texto_limpio.strip()
else: texto_limpio=[]

if texto_limpio:
    print(texto_limpio)
elif not re.search('403',str(res)):
    print('\nNo se puede minar ésta Noticia...')
    print(f'\nLe recomendamos chequear el link para ver qué ocurrió.')

El Tiempo

Comienza paso de camiones que estaban represados en Ipiales, Nariño - El Tiempo

https://www.eltiempo.com/economia/sectores/narino-comienza-paso-de-camiones-que-estaban-represados-en-ipiales-735841

Desde horas de la mañana del domingo 22 de enero, se dio inicio al paso de 50 tractomulas sin carga que se encontraban represadas en Ipiales , Nariño , según dio a conocer la Asociación Colombiana de Camioneros, ACC. La idea es llegar a pasar a Ecuador 800 tractocamiones en los próximos días y este domingo, al medio día , continuar con otros 50 vehículos de carga. El recorrido estará acompañado por la policía ecuatoriana y los camiones volverán a ingresar a Colombia desde otro punto para poder conectarse con el centro del país. "Van a pasar 50 vehículos de Colombia hacia Ecuador y serán custodiados por la policía ecuatoriana hasta el sector de San Miguel en el país vecino", dijo una de las autoridades ecuatorianas. Esto fue posible tras un acuerdo con el gremio camionero. "V amos

## <span style="color:#4361EE">Ir más allá</span>

In [31]:
with open('texto_limpio.txt') as f:
    texto_limpio = f.readlines()

texto_limpio = texto_limpio[0]

In [32]:
# Separar texto en frases (Para el transformer)
from sentence_utils import split_into_sentences
# Utilidad de resumen y traducción
from transformers import pipeline

In [33]:
traductor = pipeline("translation", model="Helsinki-NLP/opus-mt-es-en")

In [34]:
frases = split_into_sentences(texto_limpio)
print(f"{len(frases)} Frases encontradas.")

10 Frases encontradas.


In [35]:
traducciones_frases = traductor(frases)

In [36]:
traduccion = [traduccion['translation_text'] for traduccion in traducciones_frases]
traduccion = ' '.join(traduccion)
traduccion

'From hours of the morning of Sunday, January 22, the passage of 50 unladen tractors that were being dammed in Ipiales , Nariño , was started, according to the Colombian Association of Truckers, ACC. The idea is to get to move to Ecuador 800 tractor trucks in the next days and this Sunday, at noon, continue with another 50 cargo vehicles. The tour will be accompanied by the Ecuadorian police and the trucks will return to Colombia from another point to connect with the center of the country. "Fifty vehicles from Colombia will pass through Ecuador and will be guarded by the Ecuadorian police to the San Miguel sector in the neighboring country," said one of the Ecuadorian authorities. This was possible after an agreement with the trucker guild. "We are going to make the first advance of 100 tractors after having reached an agreement with the trucker union of Ecuador," said one of the ACC leaders. In the process the minister of Transport, Guillermo Reyes, was present, who thanked the manag

In [37]:
sumarizer = pipeline('summarization',min_length=100)

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


In [38]:
resumen = sumarizer(traduccion)

In [39]:
resumen_en = resumen[0]['summary_text']
resumen_en

' 50 unladen tractors that were being dammed in Ipiales, Nariño started . The trucks will return to Colombia from another point to connect with the center of the country . The idea is to get to move to Ecuador 800 tractor trucks in the next days and this Sunday, at noon, continue with another 50 cargo vehicles . The minister of Transport, Guillermo Reyes, was present, who thanked the management from both countries. He also said: "The government is with you and comes to give you solutions"'

In [40]:
traductor_en_es = pipeline("translation", model="Helsinki-NLP/opus-mt-en-es")

In [41]:
resumen_es = traductor_en_es(resumen_en)

In [42]:
resumen_final = resumen_es[0]['translation_text']
resumen_final

'50 tractores sin carga que estaban siendo represados en Ipiales, Nariño comenzó . Los camiones regresarán a Colombia desde otro punto para conectar con el centro del país . La idea es llegar a Ecuador 800 camiones tractores en los próximos días y este domingo, a mediodía, continuar con otros 50 vehículos de carga . El ministro de Transporte, Guillermo Reyes, estuvo presente, quien agradeció a la dirección de ambos países. También dijo: "El gobierno está con ustedes y viene a darles soluciones"'

### <span style="color:#4CC9F0">Ejercicio</span>

Encontrar la mayoría de patrones para todas las noticias que puede extraer Google News.

#### **Pista:**

```python
# Sirve para Revista Semana (IOY)
elif re.search(re.compile('Semana'),titular):
    texto = soup.find_all('script',{'id':'fusion-metadata'})
    # Encontrar dentro del script la parte de , "content":"...
    p=re.compile('([^,\"*]*\w+\s[^\"]*\.)')
    # Encontrar texto escondido
    texto= p.findall(''.join(str(texto)))
    # Chambonada chévere, quitar partes finales (No creo que siempre funcione)
    texto = [re.sub(re.compile(r'\b(Últimas)\b.*|\b(últimas)\b.*|\b(Noticias)\b.*|\b(Nación)\b.*|\b(Revista Semana)\b.*'),'',token) for token in texto]
    texto = ''.join(texto)
```

## <span style="color:#4361EE">Referencias</span>

1. [Alvaro Montenegro y Daniel Montenegro, Inteligencia Artificial y Aprendizaje Profundo, 2021](https://github.com/AprendizajeProfundo/Diplomado)
1. [Unesco: educación e inteligencia artificial](https://es.unesco.org/themes/tic-educacion/inteligencia-artificial)