# ¿Qué es una API?

Una API (Application programming interfaces) es una herramienta que ayuda a hacer los datos de un sitio web mas digeribles para una computadora. A traves de ella, una computadora puede ver y editar datos, justo como una persona puede cargar paginas y llenar formas.  

![Comunicacion con un servidor](figs/fig1.jpg)

Cuando dos sistemas se enlazan a traves de una API, decimos que estan integrados. Por un lado esta el servidor que proporciona la API, y en el otro lado esta el cliente que cunsume la API y puede manipularla.

## El protocolo de la web

En la web, el protocolo principal es Hyper-Text Transfer Protocol, mejor conocido como HTTP.  

Con la omnipresencia de HTTP en la web, muchas compañias escogen adoptarlo como el protocolo para sus APIs

### HTTP Requests  

La comunicación en HTTP se centra en el concepto Request-Response Cycle.  
El cliente manda al servidor una petición para hacer algo. El servidor envia al cliente una respuesta diciendo si pudo hacer o no lo que el cliente le pidió.

![Request](figs/fig2.jpg)

Para hacer una petición valida, el cliente debe de incluir cuatro cosas:

1. URL
2. Method
3. List of Headers
4. Body

#### URL  
URLs son una forma facil para el cliente de decirle al servidor con que cosas quiere interactuar, llamadas recursos.

#### Method  
El método de petición le dice al servidor que tipo de acción el cliente quiere que realice. Los más comunes dentro de las APIs son:

* GET: Le pide al servidor obtener un recurso.
* POST: Le pide al servidor crear un nuevo recurso
* PUT: Le pide al servidor editar/actualizar un recurso existente.
* DELETE: Le pide al servidor eliminar un recurso.

#### Headers  
Los headers proveen información sobre la petición

#### Body  
Contiene información que el cliente quiere enviar al servidor

![Composicion](figs/fig3.jpg)

### HTTP Response  

El servidor responde con un status code (de tres digitos).

![Respuesta](figs/fig4.jpg)


### Data Formats  

Los formatos mas comunes encontrados en APIs son JSON y XML.  

**JSON** es un formato muy simple que tiene dos piezas: _una llave y un valor_.

![JSON](figs/fig5.jpg)  

**XML** esta provisto de bloques. El bloque principal se llama nodo. XML siempre comienza con un nodo raiz, dentro hay mas nodos "hijo". El nombre del nodo nos dice el atributo de la orden y los datos dentro son los detalles.

![XML](figs/fig6.jpg)



## Definiciones
### Web Scraping
> Proceso de **extracción** de datos almacenados en la web.  

### ¿Web Crawling = Web Scraping?
> Proceso de **mapeo e indexación** de páginas web para conocer su contenido.

# ¿Es legal hacer scraping?

## Depende...
   - ¿Estoy violando alguna reglamentación local?
   - ¿Leí los términos y condiciones del sitio web?
   - ¿Estoy accediendo a lugares no autorizados?
   - ¿Para qué quiero esos datos?

## Legislación Americana:  
> "*Quien quiera que acceda a una computadora sin autorización o exceda la autorización otorgada y de este modo obtenga información protegida*"

## ¿Cómo saber si puedo hacer scrapy?

### robots.txt
![title](figs/robots.png)

# Descargando una página web (CNN en español)
Veremos cómo utilizar las bibliotecas `requests` y `bs4` para programar scrapers de sitios HTML. Nos propondremos armar un scraper de noticias del diario <a href='https://cnnespanol.cnn.com/'>CNN en español</a>.

Supongamos que queremos leer el diario por internet. Lo primero que hacemos es abrir el navegador, escribir la URL del diario y oprimir Enter para que aparezca la página del diario. Lo que ocurre en el momento en el que apretamos Enter es lo siguiente:
1. El navegador envía una solicitud a la URL pidiéndole información.
2. El servidor recibe la petición y procesa la respuesta.
3. El servidor envía la respuesta a la IP de la cual recibió la solicitud.
4. Nuestro navegador recibe la respuesta y la muestra **formateada** en pantalla.

Para hacer un scraper debemos hacer un programa que replique este flujo de forma automática para luego extraer la información deseada de la respuesta. Utilizaremos `requests` para realizar peticiones y recibir las respuestas y `bs4` para *parsear* la respuesta y extraer la información.<br>
Algunos links que tal vez te sean de utilidad:
- [Códigos de status HTTP](https://developer.mozilla.org/es/docs/Web/HTTP/Status)
- [Documentación de requests](https://requests.kennethreitz.org/en/master/)
- [Documentación de bs4](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
from tqdm import tqdm

In [5]:
url = 'https://cnnespanol.cnn.com/'
cnn = requests.get(url) #solicitud a url

In [7]:
cnn.status_code #verificamos que sí cargó la página

200

In [11]:
print(cnn.text) #contenido de la página


<!DOCTYPE html>
<html lang="es">
<head>
<meta id="geo-location-data" 
		data-geo-eu="geo-not-eu" 
		data-geo-country-code="CO" 
		data-ads-international 
		 
		 
		><script name="ccpa-onetrust" type="text/javascript" src="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/libs/js/ccpa-onetrust.js"></script><meta charset="UTF-8" />

<meta name="viewport" content="width=device-width, initial-scale=1" />

<link rel="apple-touch-icon" sizes="57x57" href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/images/favicon/apple-touch-icon-57x57.png">
<link rel="apple-touch-icon" sizes="60x60" href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/images/favicon/apple-touch-icon-60x60.png">
<link rel="apple-touch-icon" sizes="72x72" href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/images/favicon/apple-touch-icon-72x72.png">
<link rel="apple-touch-icon" sizes="76x76" href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/i

In [9]:
cnn.headers

{'Server': 'nginx', 'Date': 'Wed, 03 Feb 2021 20:05:57 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Content-Length': '44046', 'Connection': 'keep-alive', 'X-hacker': "If you're reading this, you should visit wpvip.com/careers and apply to join the fun, mention this header.", 'X-Powered-By': 'WordPress VIP <https://wpvip.com>', 'Host-Header': 'a9130478a60e5f9135f765b23f26593b', 'Link': '<https://cnnespanol.cnn.com/wp-json/>; rel="https://api.w.org/", <https://cnnespanol.cnn.com/wp-json/wp/v2/pages/153839>; rel="alternate"; type="application/json", <http://cnn.it/17SGyGO>; rel=shortlink', 'Content-Encoding': 'gzip', 'X-rq': 'gru1 100 221 3129', 'Cache-Control': 'max-age=300, must-revalidate', 'Age': '356', 'X-Cache': 'hit', 'Vary': 'Accept-Encoding', 'Accept-Ranges': 'bytes'}

# Qué desorden...

In [12]:
sopa = BeautifulSoup(cnn.text, 'lxml')

In [17]:
print(sopa.prettify()) #organizamos un poco mejor la página

<!DOCTYPE html>
<html lang="es">
 <head>
  <meta data-ads-international="" data-geo-country-code="CO" data-geo-eu="geo-not-eu" id="geo-location-data"/>
  <script name="ccpa-onetrust" src="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/libs/js/ccpa-onetrust.js" type="text/javascript">
  </script>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <link href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/images/favicon/apple-touch-icon-57x57.png" rel="apple-touch-icon" sizes="57x57"/>
  <link href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/images/favicon/apple-touch-icon-60x60.png" rel="apple-touch-icon" sizes="60x60"/>
  <link href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/images/favicon/apple-touch-icon-72x72.png" rel="apple-touch-icon" sizes="72x72"/>
  <link href="https://cnnespanol.cnn.com/wp-content/themes/cnnespanol/static/images/favicon/apple-touch-icon-76x

### Buscamos las categorías de la página

In [20]:
categorias_html = sopa.find('nav')
categorias_html

<nav class="nav-access" id="access" role="navigation">
<a class="skip-link screen-reader-text" href="#content" title="Skip to content">Skip to content</a>
</nav>

In [88]:
categorias_html = sopa.find('nav', attrs = {"class":"nav-main"})
print(categorias_html.prettify())

<nav class="nav-main">
 <li class="latam-menu-item menu-item menu-item-type-taxonomy menu-item-object-section menu-item-467148 section-latinoamerica" id="menu-item-467148">
  <a href="https://cnnespanol.cnn.com/seccion/latinoamerica/">
   Latam
  </a>
 </li>
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-467157 section-estados-unidos" id="menu-item-467157">
  <a href="https://cnnespanol.cnn.com/seccion/estados-unidos/">
   EE.UU.
  </a>
 </li>
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-455697 section-mundo" id="menu-item-455697">
  <a href="https://cnnespanol.cnn.com/seccion/mundo/">
   Mundo
  </a>
 </li>
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-899003 section-economia-y-negocios" id="menu-item-899003">
  <a href="https://cnnespanol.cnn.com/seccion/economia-y-negocios/">
   Dinero
  </a>
 </li>
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-

In [26]:
categorias_html = sopa.find('nav', attrs = {"class":"nav-main"}).find('li')
categorias_html

<li class="latam-menu-item menu-item menu-item-type-taxonomy menu-item-object-section menu-item-467148 section-latinoamerica" id="menu-item-467148"><a href="https://cnnespanol.cnn.com/seccion/latinoamerica/">Latam</a></li>

In [89]:
categorias_html = sopa.find('nav', attrs = {"class":"nav-main"}).find_all('li') #Lista con "minisopas" de tipo li
categorias_html

[<li class="latam-menu-item menu-item menu-item-type-taxonomy menu-item-object-section menu-item-467148 section-latinoamerica" id="menu-item-467148"><a href="https://cnnespanol.cnn.com/seccion/latinoamerica/">Latam</a></li>,
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-467157 section-estados-unidos" id="menu-item-467157"><a href="https://cnnespanol.cnn.com/seccion/estados-unidos/">EE.UU.</a></li>,
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-455697 section-mundo" id="menu-item-455697"><a href="https://cnnespanol.cnn.com/seccion/mundo/">Mundo</a></li>,
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-899003 section-economia-y-negocios" id="menu-item-899003"><a href="https://cnnespanol.cnn.com/seccion/economia-y-negocios/">Dinero</a></li>,
 <li class="menu-item menu-item-type-taxonomy menu-item-object-section menu-item-467158 section-entretenimiento" id="menu-item-467158"><a href="http

In [92]:
latam_html = categorias_html[0]
print(latam_html.prettify())

<li class="latam-menu-item menu-item menu-item-type-taxonomy menu-item-object-section menu-item-467148 section-latinoamerica" id="menu-item-467148">
 <a href="https://cnnespanol.cnn.com/seccion/latinoamerica/">
  Latam
 </a>
</li>



In [94]:
latam_html.find('a')


<a href="https://cnnespanol.cnn.com/seccion/latinoamerica/">Latam</a>

In [40]:
latam_html.a #otra forma de buscar el tag anchor (ancla)

<a href="https://cnnespanol.cnn.com/seccion/latinoamerica/">Latam</a>

In [36]:
latam_html.find('a').contents[0] #extraemos el nombre del tag de ancla (a)

'Latam'

In [38]:
latam_html.a.get('href')

'https://cnnespanol.cnn.com/seccion/latinoamerica/'

### Guardando los links y nombres de las distintas categorías

In [41]:
nombres = [categoria.a.contents[0] for categoria in categorias_html]
nombres

['Latam',
 'EE.UU.',
 'Mundo',
 'Dinero',
 'Entretenimiento',
 'Tecno',
 'Deportes',
 'Viajes',
 'Salud',
 'Estilo',
 'Opinión',
 'Video',
 'Radio',
 'Especial']

In [43]:
links_categorias = [categoria.a.get('href') for categoria in categorias_html]
links_categorias

['https://cnnespanol.cnn.com/seccion/latinoamerica/',
 'https://cnnespanol.cnn.com/seccion/estados-unidos/',
 'https://cnnespanol.cnn.com/seccion/mundo/',
 'https://cnnespanol.cnn.com/seccion/economia-y-negocios/',
 'https://cnnespanol.cnn.com/seccion/entretenimiento/',
 'https://cnnespanol.cnn.com/seccion/tecnologia/',
 'https://cnnespanol.cnn.com/seccion/deportes/',
 'https://cnnespanol.cnn.com/seccion/viajes-y-turismo/',
 'https://cnnespanol.cnn.com/seccion/salud/',
 'https://cnnespanol.cnn.com/seccion/estilo/',
 'https://cnnespanol.cnn.com/seccion/opinion/',
 'https://cnnespanol.cnn.com/video/',
 'https://cnnespanol.cnn.com/radio/',
 'https://cnnespanol.cnn.com/especiales/']

# Intentando extraer la frecuencia de palabras en un artículo

In [48]:
biden_new = sopa.find('article', attrs = {"id":"article-948468"}) #seleccionamos un atículo específico
biden_new

<article class="news news--box news--box-style-two news--basic-lead news--with-border-bottom post-type--post" data-pc="0" id="article-948468">
<div class="news__media">
<a class="news__media-item" href="https://cnnespanol.cnn.com/2021/02/03/la-administracion-de-biden-anuncia-envios-directos-de-vacunas-a-las-farmacias/" title="Biden anuncia envíos directos de vacunas a las farmacias">
<img alt="vacunas farmacias" class="image" data-lazy-sizes="( min-width: 300px ) 460px" data-lazy-src="https://cnnespanol.cnn.com/wp-content/uploads/2021/02/210111232330-moderna-vaccine-210107-california-exlarge-169.jpg?quality=100&amp;strip=info&amp;w=460&amp;h=260&amp;crop=1" data-lazy-srcset="https://cnnespanol.cnn.com/wp-content/uploads/2021/02/210111232330-moderna-vaccine-210107-california-exlarge-169.jpg?quality=100&amp;strip=info&amp;w=460&amp;h=260&amp;crop=1 460w" src="https://cnnespanol.cnn.com/wp-content/plugins/lazy-load-0.7/images/1x1.trans.gif"/><noscript><img alt="vacunas farmacias" class="i

In [52]:
titulo = biden_new.a.get('title') #título de la noticia
titulo

'Biden anuncia envíos directos de vacunas a las farmacias'

In [61]:
texto = biden_new.p.text #obteniendo el contenido del tag párrafo (p)
texto

'El gobierno de Biden anunció el martes que comenzará los envíos directos de vacunas contra el coronavirus a las farmacias minoristas la próxima semana, ampliando los puntos de acceso para que los estadounidenses reciban vacunas a medida que se expanden las preocupaciones sobre las variantes del virus.'

In [67]:
texto_separado = texto.split()
texto_separado[:5]

['El', 'gobierno', 'de', 'Biden', 'anunció']

In [76]:
from collections import Counter

In [84]:
contador = Counter(texto_separado)
contador

Counter({'El': 1,
         'gobierno': 1,
         'de': 3,
         'Biden': 1,
         'anunció': 1,
         'el': 2,
         'martes': 1,
         'que': 3,
         'comenzará': 1,
         'los': 3,
         'envíos': 1,
         'directos': 1,
         'vacunas': 2,
         'contra': 1,
         'coronavirus': 1,
         'a': 2,
         'las': 3,
         'farmacias': 1,
         'minoristas': 1,
         'la': 1,
         'próxima': 1,
         'semana,': 1,
         'ampliando': 1,
         'puntos': 1,
         'acceso': 1,
         'para': 1,
         'estadounidenses': 1,
         'reciban': 1,
         'medida': 1,
         'se': 1,
         'expanden': 1,
         'preocupaciones': 1,
         'sobre': 1,
         'variantes': 1,
         'del': 1,
         'virus.': 1})

![title](figs/wordcloud.jpg)