# Web Scrapping

Extraer información de la web.

## Agenda

1. La web
2. robots.txt
3. Librerías
4. Requests
5. Ejemplo sencillo con un periódico
6. Extraer información de la revista CIFE
7. Almacenar la información en un dataframe

## 1. La web

- Frontend vs. Backend

![](https://miro.medium.com/max/1200/1*Hy-RTBZiiqFH9sLHZKDRlQ.png)

- Desarrollo web

![](https://geoinnova.org/blog-territorio/wp-content/uploads/2020/11/logos.png)

- HTML

![](https://upload.wikimedia.org/wikipedia/commons/3/39/Etiquetas_en_HTML.png)

- CSS

![](https://lenguajecss.com/css/introduccion/estructura-de-css/sintaxis-simple.png)

- javascript

```
var n = prompt();
if (n % 2 == 0 && n != 2) {
  console.log("Yes");
} else {
  console.log("No");
}
```

## 2. robots.txt

#[La nación](https://www.lanacion.com.ar/robots.txt)

## 3. Librerías


![](https://docs.python-requests.org/es/latest/_static/requests-sidebar.png) <img src='https://sixfeetup.com/blog/an-introduction-to-beautifulsoup/@@images/27e8bf2a-5469-407e-b84d-5cf53b1b0bb6.png' width="400"> ![](https://selenium-python.readthedocs.io/_static/logo.png)

## 4. Requests, BeautifulSoup



In [None]:
import requests as rq
from bs4 import BeautifulSoup

In [None]:
pagina_web = 'https://www.lanacion.com.ar'
pagina = rq.get(pagina_web)

In [None]:
pagina

<Response [200]>

### 4.1. Respuestas

![](https://miro.medium.com/max/920/1*w_iicbG7L3xEQTArjHUS6g.jpeg)

![](https://i.pinimg.com/originals/6a/bc/7c/6abc7caedc66d8863f2f9d3a5a671fdd.jpg)

In [None]:
# crear la sopa
pagina_sopa = BeautifulSoup(pagina.text,'lxml')

In [None]:
# visualizar la sopa
pagina_sopa

## 5. Ejemplo sencillo con un periódico

![]()

In [None]:
pagina_sopa.find('h1')

<h1 class="com-title --xl"><a class="com-link" href="/politica/una-protesta-multitudinaria-que-desbordo-las-demandas-del-campo-nid09072021/"><em class="com-lead">San Nicolás. </em>Una protesta que desbordó las demandas del campo</a></h1>

In [None]:
pagina_sopa.find('h1').text

'San Nicolás. Una protesta que desbordó las demandas del campo'

In [None]:
h1s = pagina_sopa.find_all('h1')

In [None]:
len(h1s)

1

In [None]:
pagina_sopa.find('h2')

<h2 class="com-title --md">ANTICIPO. Ciudad: Vidal se presentará mañana como candidata a diputada y la acompañaría Martín Tetaz</h2>

In [None]:
pagina_sopa.find('h2').text

'ANTICIPO. Ciudad: Vidal se presentará mañana como candidata a diputada y la acompañaría Martín Tetaz'

In [None]:
h2s = pagina_sopa.find_all('h2')

In [None]:
h2s

[<h2 class="com-title --md">ANTICIPO. Ciudad: Vidal se presentará mañana como candidata a diputada y la acompañaría Martín Tetaz</h2>,
 <h2 class="com-subhead --twoxs"><a aria-label="La manifestación contra el Gobierno incluyó demandas de justicia y educación; visibilizó la crisis económica que agudizó la pandemia; y buscó sembrar comunión entre el campo y la ciudad " class="com-link" href="/politica/una-protesta-multitudinaria-que-desbordo-las-demandas-del-campo-nid09072021/" title="La manifestación contra el Gobierno incluyó demandas de justicia y educación; visibilizó la crisis económica que agudizó la pandemia; y buscó sembrar comunión entre el campo y la ciudad ">La manifestación contra el Gobierno incluyó demandas de justicia y educación; visibilizó la crisis económica que agudizó la pandemia; y buscó sembrar comunión entre el campo y la ciudad </a></h2>,
 <h2 class="com-title --xs"><a class="com-link" href="/politica/fronteras-el-gobierno-flexibiliza-el-cupo-desde-manana-hasta-l

In [None]:
# guardar la información

data = {'titulo':[]}

for noticia in h2s:
  data['titulo'].append(noticia.text)



In [None]:
data

{'titulo': ['ANTICIPO. Ciudad: Vidal se presentará mañana como candidata a diputada y la acompañaría Martín Tetaz',
  'La manifestación contra el Gobierno incluyó demandas de justicia y educación; visibilizó la crisis económica que agudizó la pandemia; y buscó sembrar comunión entre el campo y la ciudad ',
  'Varados. El Gobierno flexibiliza el cupo desde mañana hasta llegar a mil ingresos diarios de pasajeros',
  '"Falsificada". La respuesta del excomandante involucrado en la carta sobre el envío de armamento argentino a Bolivia',
  'Bolivia. El presidente Arce se sumó a las denuncias y acusó a Macri de “fomentar el golpe”',
  'Respuesta. El mensaje del Presidente tras las críticas de Máximo sobre los laboratorios',
  'Gas. La particular militancia que le recomendó hacer a Cambiemos un alfil de Cristina Kirchner']}

In [None]:
# Navegar entre páginas
h2s[1].a.get('href')

'/politica/una-protesta-multitudinaria-que-desbordo-las-demandas-del-campo-nid09072021/'

In [None]:
for noticia in h2s[1:]:
  entrada = rq.get(pagina_web + noticia.a.get('href'))
  print(entrada)

<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>
<Response [200]>


In [None]:


datos = {'titulo':[],
         'fecha':[],
         'texto':[]}
noticias = pagina_sopa.find_all('h2')
for noticia in noticias[1:]:
    pag_not = rq.get(pagina_web + noticia.a.get('href')) #acceder a las páginas
    pag_not_sopa = BeautifulSoup(pag_not.text, 'lxml') #sopa de la nueva página
    datos['titulo'].append(pag_not_sopa.find('h1').text) #agregar el título
    parrafos = pag_not_sopa.find('section', attrs={'class':'cuerpo__nota'}).find_all('p')
    texto = ''
    for parrafo in parrafos:
        texto = texto + parrafo.text + ' '
    datos['texto'].append(texto)
    datos['fecha'].append(datetime.datetime.today())


In [None]:
parrafos[0].text + ' ' + parrafos[1].text

'Federico Bernal, interventor en el Enargas, defendió nuevamente la ley de Zonas Frías, que amplió el subsidio al servicio de gas de 850.000 usuarios a 4 millones de personas. El proyecto, que fue impulsado por el diputado Máximo Kirchner, recibió critícas porque está considerado que beneficia a los más ricos, ya que reduce la tarifa para aquellos usuarios que tienen gas por red, pero no tiene en cuenta a los que compran garrafas. Bernal señaló que hay que generar más inversiones para que todos los usuarios tengan acceso a gas por red e indicó que la ley contempla que, aquellos usuarios que quieran renunciar al subsidio lo puedan hacer.'

## 6. Extraer información de la revista CIFE

In [None]:
revista = 'https://revistas.usantotomas.edu.co/index.php/cife/issue/archive'
pag_revista = rq.get(revista)
pag_revista

<Response [200]>

In [None]:
pag_revista_sopa = BeautifulSoup(pag_revista.text, 'lxml')

In [None]:
pag_revista_sopa.find('h2', attrs={'class':'media-heading'}).a.get('href')

'https://revistas.usantotomas.edu.co/index.php/cife/issue/view/568'

In [None]:
pag_revista_sopa.find_all('h2', attrs={'class':'media-heading'})

[<h2 class="media-heading">
 <a class="title" href="https://revistas.usantotomas.edu.co/index.php/cife/issue/view/568">
 									Vol. 23 Núm. 38 (2021)
 							</a>
 </h2>, <h2 class="media-heading">
 <a class="title" href="https://revistas.usantotomas.edu.co/index.php/cife/issue/view/565">
 									Vol. 22 Núm. 37 (2020)
 							</a>
 </h2>, <h2 class="media-heading">
 <a class="title" href="https://revistas.usantotomas.edu.co/index.php/cife/issue/view/525">
 									Vol. 22 Núm. 36 (2020)
 							</a>
 </h2>, <h2 class="media-heading">
 <a class="title" href="https://revistas.usantotomas.edu.co/index.php/cife/issue/view/511">
 									Vol. 21 Núm. 35 (2019)
 							</a>
 </h2>, <h2 class="media-heading">
 <a class="title" href="https://revistas.usantotomas.edu.co/index.php/cife/issue/view/498">
 									Vol. 21 Núm. 34 (2019)
 							</a>
 </h2>, <h2 class="media-heading">
 <a class="title" href="https://revistas.usantotomas.edu.co/index.php/cife/issue/view/461">
 									Vol. 

In [None]:
numeros = pag_revista_sopa.find_all('h2', attrs={'class':'media-heading'})

In [None]:
import requests as rq
from bs4 import BeautifulSoup
import datetime

datos = {'titulo':[],
         'autores':[],
         'abstract':[],
         'edicion':[]}
contador = 0
for numero in numeros[:-1]:
  pag_numero = rq.get(numero.a.get('href'))
  pag_numero_sopa = BeautifulSoup(pag_numero.text, 'lxml')
  articulos = pag_numero_sopa.find_all('h3', attrs={'class':'media-heading'})
  for articulo in articulos:
    pag_articulo = rq.get(articulo.a.get('href'))
    pag_articulo_sopa = BeautifulSoup(pag_articulo.text, 'lxml')
    datos['titulo'].append(pag_articulo_sopa.find('h2', attrs={'class':'page-header'}).text)
    datos['autores'].append(pag_articulo_sopa.find('div', attrs={'class':'authors'}).text)
    datos['abstract'].append(pag_articulo_sopa.find('div', attrs={'class':'article-abstract'}).text)
    datos['edicion'].append(pag_articulo_sopa.find('ol', attrs={'class':'breadcrumb'}).find_all('li')[2].text)
    contador+=1
    print(contador)



## 7. Almacenar la información en un dataframe

In [None]:
import pandas as pd

data_texto = pd.DataFrame(datos)
data_texto.to_csv('data_texto.csv')

In [None]:
%%time
l = [parrafo.text for parrafo in parrafos]
' '.join(l)

CPU times: user 131 µs, sys: 0 ns, total: 131 µs
Wall time: 135 µs


In [None]:
%%time
texto = ''
for parrafo in parrafos:
  texto = texto + parrafo.text + ' '

CPU times: user 239 µs, sys: 0 ns, total: 239 µs
Wall time: 248 µs


In [None]:
data_texto

Unnamed: 0,titulo,autores,abstract,edicion
0,\n\t\t\tCrónica de una transformación anunciad...,\nVíctor Hugo Malagón Basto\n,\n\t\t\t\t\t\t\tEn la actual sociedad del cono...,\n\n\t\t\t\tVol. 23 Núm. 38 (2021)\n\t\t\t\n
1,\n\t\t\tEl sistema de crédito digital para mic...,\nLenin A. Muñoz G.\n,\n\t\t\t\t\t\t\tEl proyecto aplicado empresari...,\n\n\t\t\t\tVol. 23 Núm. 38 (2021)\n\t\t\t\n
2,\n\t\t\tCreación de un plan para aumentar los ...,\nCarlos David De La Ossa Paternina\n,\n\t\t\t\t\t\t\tHay una tendencia mundial a la...,\n\n\t\t\t\tVol. 23 Núm. 38 (2021)\n\t\t\t\n
3,\n\t\t\tImplementación de un modelo de planeac...,\nMaría Camila Sandoval Acevedo\nMauricio Edua...,"\n\t\t\t\t\t\t\tMediante un estudio de caso, e...",\n\n\t\t\t\tVol. 23 Núm. 38 (2021)\n\t\t\t\n
4,\n\t\t\tSistema de gestión del conocimiento pa...,\nEdison Alonso Sosa\nMaría Elizabeth Duque M...,\n\t\t\t\t\t\t\tEl sistema de salud para segur...,\n\n\t\t\t\tVol. 23 Núm. 38 (2021)\n\t\t\t\n
...,...,...,...,...
164,\n\t\t\tEducación secundaria y sus posibles ef...,\nBenjamín Afanador Vargas\n\n\t\t\t\t\t\t\t\t...,\n\t\t\t\t\t\t\tEl presente trabajo aborda la ...,\n\n\t\t\t\tVol. 11 Núm. 15 (2009): Revista CI...
165,\n\t\t\tModelo para regular la movilidad labor...,\nGustavo Sandoval Betancourt\n\n\t\t\t\t\t\t\...,\n\t\t\t\t\t\t\tEn este trabajo se hace un eje...,\n\n\t\t\t\tVol. 11 Núm. 15 (2009): Revista CI...
166,\n\t\t\tDerechos Humanos y violencia en Colomb...,\nJin Anthony Cotrino Poveda\n\n\t\t\t\t\t\t\t...,\n\t\t\t\t\t\t\tEl presente artículo explora l...,\n\n\t\t\t\tVol. 11 Núm. 15 (2009): Revista CI...
167,\n\t\t\tEl efecto interdependencia entre Colom...,\nSandra Lucero Rodríguez Samacá\n\n\t\t\t\t\t...,\n\t\t\t\t\t\t\tUno de los hechos que ha carac...,\n\n\t\t\t\tVol. 11 Núm. 15 (2009): Revista CI...


In [None]:
textos = data_texto['abstract']

In [None]:
pip install contexto

In [None]:
from contexto.limpieza import limpieza_texto, lista_stopwords

In [None]:
from contexto.vectorizacion import VectorizadorFrecuencias

In [None]:
textos_limpios = [limpieza_texto(texto, lista_palabras=lista_stopwords(), n_min=4) for texto in textos]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
textos_limpios