## Captura de datos:  

# C– Web Scraping Sitio Noticias

### Prof. Ricardo Vega M. - Escuela de Diseño Universidad Católica de Chile - 2022

Scraping es una serie de técnicas para obtener datos desde un archivo de la web. Por ejemplo: Título, Autor, Fecha, Contenidos de texto, ruta de imagen, etc. Para esto se va a una URL (dirección web) y se explora su estructura HTML, tomando los elementos que se necesiten.

En el siguiente ejemplo revisaremos la obtención de titulos y la url (Uniform Resource Locator) de artículos de una web.

Ver más en: https://issuu.com/ricardov_net/docs/datos_obtencion_scraping_2022



In [15]:
## Importar las librerías a usar:
import pandas as pd # libreria para trabajar con estructuras de datos

import requests # para conectarse a las url
from bs4 import BeautifulSoup # para hacer scraping desde sitios web


## A - Realizar request 

request (solicitud) a la página, usando un objeto BeautifulSoup para capturar elementos de la página HTML.


In [16]:
## Primero preguntar por respuesta desde el servidor que aloja la página. 
req1 = requests.get('https://www.elmostrador.cl/cultura/agenda/page/2/')
larespuesta = req1.status_code 

## mostrar respuesta, ojo se puede demorar un poco
## respuesta 200, indica que la solicitud fue éxitosa.
larespuesta


200

In [17]:
## entrega HTML  
soup1 = BeautifulSoup(req1.text, "lxml")

## mostrar elhtml
#soup1


## B - Seleccionar contenido: find()

Funciones para buscar el contenido del los tags de interés.  


In [18]:
## Seleccionaremos la etiquta article

## find( ) – Funcion entrega el primer elemento hijo que encuentre, segun los parámetros. 
mi_art = soup1.find("article")

mi_art


<article class="row">
<figure class="col-xs-5 col-sm-2 col-md-2">
<img alt="Lanzamiento del libro " chileno="" piano="" pipochi="" popular="" src="https://media.elmostrador.cl/2022/08/Oscar_2-210x210.jpg" title="Lanzamiento del libro «Pipochi, piano popular chileno»"/>
</figure> <!-- /imagen noticia -->
<div class="col-xs-7 col-sm-10 col-md-10">
<p><span class="heading-portadas heading-cultura">CULTURA</span></p>
<h4><a href="https://www.elmostrador.cl/cultura/2022/08/28/lanzamiento-del-libro-pipochi-piano-popular-chileno/" title="Ir a enlace">Lanzamiento del libro "Pipochi, piano popular chileno"</a></h4>
<small><em>por</em> <strong>El Mostrador Cultura</strong></small>
</div>
</article>

In [19]:
## Seleccionaremos texto de la etiqueta
#mi_art_text = soup1.find("article").text
#mi_art_text

## Seleccionaremos imagen
mi_art_img = soup1.find("article").img

mi_art_img



<img alt="Lanzamiento del libro " chileno="" piano="" pipochi="" popular="" src="https://media.elmostrador.cl/2022/08/Oscar_2-210x210.jpg" title="Lanzamiento del libro «Pipochi, piano popular chileno»"/>

In [20]:
## Seleccionar lo neceario 

# mi_art_text_solo = soup1.find("article").a.text
# mi_art_text_solo

## Seleccionaremos imagen
mi_art_img_url = soup1.find("article").img['src']

mi_art_img_url


'https://media.elmostrador.cl/2022/08/Oscar_2-210x210.jpg'

## C – Seleccionar contenido: findAll( ) 

Entrega todos los elementos que encuentre de un tipo.


In [21]:
## find_all seleciona todos los elementos de un tipo, en este caso article
mis_arts = soup1.find_all("article")

print( mis_arts )


[<article class="row">
<figure class="col-xs-5 col-sm-2 col-md-2">
<img alt="Lanzamiento del libro " chileno="" piano="" pipochi="" popular="" src="https://media.elmostrador.cl/2022/08/Oscar_2-210x210.jpg" title="Lanzamiento del libro «Pipochi, piano popular chileno»"/>
</figure> <!-- /imagen noticia -->
<div class="col-xs-7 col-sm-10 col-md-10">
<p><span class="heading-portadas heading-cultura">CULTURA</span></p>
<h4><a href="https://www.elmostrador.cl/cultura/2022/08/28/lanzamiento-del-libro-pipochi-piano-popular-chileno/" title="Ir a enlace">Lanzamiento del libro "Pipochi, piano popular chileno"</a></h4>
<small><em>por</em> <strong>El Mostrador Cultura</strong></small>
</div>
</article>, <article class="row">
<figure class="col-xs-5 col-sm-2 col-md-2">
<img alt="“La gran noche del canto popular” en La Pintana" src="https://media.elmostrador.cl/2022/08/pintana-portada-210x210.png" title="“La gran noche del canto popular” en La Pintana"/>
</figure> <!-- /imagen noticia -->
<div class=

In [22]:
print( "Primer arts –", mis_arts[0] )

Primer arts – <article class="row">
<figure class="col-xs-5 col-sm-2 col-md-2">
<img alt="Lanzamiento del libro " chileno="" piano="" pipochi="" popular="" src="https://media.elmostrador.cl/2022/08/Oscar_2-210x210.jpg" title="Lanzamiento del libro «Pipochi, piano popular chileno»"/>
</figure> <!-- /imagen noticia -->
<div class="col-xs-7 col-sm-10 col-md-10">
<p><span class="heading-portadas heading-cultura">CULTURA</span></p>
<h4><a href="https://www.elmostrador.cl/cultura/2022/08/28/lanzamiento-del-libro-pipochi-piano-popular-chileno/" title="Ir a enlace">Lanzamiento del libro "Pipochi, piano popular chileno"</a></h4>
<small><em>por</em> <strong>El Mostrador Cultura</strong></small>
</div>
</article>


In [23]:
## Mostrar otros elementos de la seleccion 
#print( "Cuantos arts –", len(mis_arts) )
#print( "Primer arts –", mis_arts[0] )
#print( "Primer url imagen en arts –", mis_arts[0].img['src'] )
print( "Primer tit en arts –", mis_arts[0].a.get_text() )



Primer tit en arts – Lanzamiento del libro "Pipochi, piano popular chileno"


## D - Obtener todos los de un tipo y guardarlos en una lista cada uno


In [24]:
# Crear listas de los url de imagenes y los titulos de los articulos

los_titulos = []
las_img_url = []


## Recorreremos los articulos
for i in range( len(mis_arts) ):
    ## variables para cada elemento
    cadatitulo = mis_arts[ i ].a.get_text()
    cadalink   = mis_arts[ i ].img['src'] 

    ## append a cada lista
    los_titulos.append(cadatitulo)
    las_img_url.append(cadalink)

    
## mostrar
#las_img_url
los_titulos  


['Lanzamiento del libro "Pipochi, piano popular chileno"',
 '“La gran noche del canto popular” en La Pintana',
 'Cantata Mapudungún en Teatro Municipal de Maipú',
 'Presentación de libro “El coleccionista” de Matías Prado',
 'Agrupación de cueca “Los 30 pesos” en Valparaíso',
 'Jornada cultural "Lecturas Constitucionales en Movimiento"',
 'Winter Rock Fest en Faq Records',
 'Lanzamiento de libro "La Virgen María" de J. M. Ibáñez Langlois',
 '"El lago de los cisnes" en Teatro Municipal de Santiago',
 'Intervención lumínica en Chiu Chiu',
 '\n\n\n\n\n\n\n',
 '\n\n\n\n\n\n\n',
 '\n\n',
 '\n\n',
 'Plebiscito de salida: sin violencia a quien piensa distinto',
 'El renacer del turismo es ahora',
 '¡Avancemos hacia la transformación continua!',
 '\n\n',
 '\n\n',
 '\n\n\n\n\n\n\n',
 '\n\n\n\n\n\n\n',
 '\n\n',
 '\n\n',
 '\n\n',
 '\n\n']

In [25]:
## Lo pasamos a un df paraluego guardarlo como CSV
df_diario = pd.DataFrame( {'elemento_titulo':los_titulos,'img_url':las_img_url} )

df_diario


Unnamed: 0,elemento_titulo,img_url
0,"Lanzamiento del libro ""Pipochi, piano popular ...",https://media.elmostrador.cl/2022/08/Oscar_2-2...
1,“La gran noche del canto popular” en La Pintana,https://media.elmostrador.cl/2022/08/pintana-p...
2,Cantata Mapudungún en Teatro Municipal de Maipú,https://media.elmostrador.cl/2022/08/unnamed-9...
3,Presentación de libro “El coleccionista” de Ma...,https://media.elmostrador.cl/2022/08/MG1_8023-...
4,Agrupación de cueca “Los 30 pesos” en Valparaíso,https://media.elmostrador.cl/2022/08/unnamed-1...
5,"Jornada cultural ""Lecturas Constitucionales en...",https://media.elmostrador.cl/2022/08/Bibliotec...
6,Winter Rock Fest en Faq Records,https://media.elmostrador.cl/2022/08/WhatsApp-...
7,"Lanzamiento de libro ""La Virgen María"" de J. M...",https://media.elmostrador.cl/2022/08/Jose-Migu...
8,"""El lago de los cisnes"" en Teatro Municipal de...",https://media.elmostrador.cl/2022/08/ballet-21...
9,Intervención lumínica en Chiu Chiu,https://media.elmostrador.cl/2022/08/Intervenc...


In [26]:
## Botar las lineas que no nos interesen
df_diario = df_diario.drop(df_diario.index[10:])
df_diario


Unnamed: 0,elemento_titulo,img_url
0,"Lanzamiento del libro ""Pipochi, piano popular ...",https://media.elmostrador.cl/2022/08/Oscar_2-2...
1,“La gran noche del canto popular” en La Pintana,https://media.elmostrador.cl/2022/08/pintana-p...
2,Cantata Mapudungún en Teatro Municipal de Maipú,https://media.elmostrador.cl/2022/08/unnamed-9...
3,Presentación de libro “El coleccionista” de Ma...,https://media.elmostrador.cl/2022/08/MG1_8023-...
4,Agrupación de cueca “Los 30 pesos” en Valparaíso,https://media.elmostrador.cl/2022/08/unnamed-1...
5,"Jornada cultural ""Lecturas Constitucionales en...",https://media.elmostrador.cl/2022/08/Bibliotec...
6,Winter Rock Fest en Faq Records,https://media.elmostrador.cl/2022/08/WhatsApp-...
7,"Lanzamiento de libro ""La Virgen María"" de J. M...",https://media.elmostrador.cl/2022/08/Jose-Migu...
8,"""El lago de los cisnes"" en Teatro Municipal de...",https://media.elmostrador.cl/2022/08/ballet-21...
9,Intervención lumínica en Chiu Chiu,https://media.elmostrador.cl/2022/08/Intervenc...


In [27]:
### Guardar en archivo

## Ojo, el archivo se llama datos_diario.csv y se guarda en la carpeta txt_diario 
## Si no existe dicha carpeta debe crearla

df_diario.to_csv('txt_diario/datos_diario.csv') 


## PUEDE PROBAR CON LO SIGUIENTE: 
* Ver otras páginas de noticias y obtener su información.
* Para esto debe reconocer la estrcutrura HTML de dicha página, e indentificar los elemento y etiquetas HTML de interés. 
