# Web Scraping

## 1. ¿Que es el Web Scrapring?
- Web Scraping:
    Es la practica de recopilar datos mediante un programa automatizado que consulta un servidor web. En otras palabras, un codigo que va a realizar peticiones a un determinado servidor y extraer la informacion de un tipo de dato dentro de la pagina. El tipo de informacion a extraer puede ser de cualquier tipo como por ejemplo texto, audio, imagenes, etc.
- Web Crawling:
    Se utiliza para indexar la informacion de una pagina mediante bots. El objetivo de esto es entrar a todos los hipervinculos o paginas dentro de una pagina y obtener toda la informacion. Un ejemplo de esto es el bot de google que indexa las paginas y asi cuando se realice una busqueda pueda realizar la recomendacion de una pagina para dicha peticion.
- Observacion:
    La diferencia entre ambas es que cuando realizamos WebScraping buscamos algun tipo de dato en particular, por ejemplo si lo realizamos en una pagina de venta de ropa online, intentamos obtener unicamente la descripcion de los precios de la ropa que ofrecen, por el contrario, el WebCrawling, traeremos toda la informacion de la pagina.

## 2. ¿Que es una API?
API corresponde a las siglas "Interfaz de programacion de aplicaciones". Es un proveedor de acceso a los datos de una aplicacion, sistema operativo u otro servicio. En ocaciones las paginas o servidores proporcionan una API con el objetivo de controlar la transaccion de la informacion solicitada.

## 3. API vs Web Scraping
- Las API's son mas sencillas de utilizar a la hora de recopilar informacion de manera mas limpia y a la hora de hacer pedidos especificos.
- Cuando querramos obtener informacion de un sitio en especifico deberemos verificar si posee una API publica, en caso de que no, la unica manera de obtener la informacion es Scrapear.
- Si la API es limitada en cuanto a cantidad de pedidos o bien los datos de interes no son posibles obtenerlos a trasves de esta, deberemos Scrapear.
- En el caso de que la API cumpla con nuestros requerimientos, no necesitaremos Srapear.

## 4. HTTPS
- Es un protocolo de transferencia de hipertexto que permite a los navegadores comunicarse con los servicios web (donde se almacenan los sitios). Poniendo un ejemplo, suponiendo que nosotros realizamos un pedido a traves de nuestra computadora (peticiones o request) a un servidor, este servidor devolvera una respuesta a esta peticion (response), en caso de que este todo funcionando correctamente. Existen diferentes metodos como funciones que mediante este protocolo nos permiten obtener informacion, postearla o almacenarla.
- En ocasiones en algunas peticiones no siempre obtenemos lo que queremos, es decir, que las peticines fallen. Existe lo que se conoce como "codigos de status", estos codigos nos permiten saber si nuestros pedidos fueron exitosos o si fallan cual fue el motivo. Los codigos de status pueden ser de Exito (comienzan con 2), Errores de cliente (comienzan con 4) o Errores de servidor (comienzan con 5).

## 5. Formatos de la informacion
- Es bastante comun que la informacion se encuentre en archivos del tipo **.csv** (comma-separated values)
- En internet, mediante las API's u otra interraccion de datos, se utiliza el tipo **.json** (Javascript Object Notation), donde la informacion se almacena de manera similar a la estructura de un diccionario.
- Otro tipo de formato es el tipo **.XML** donde la informacion se almacena de manera similar al equiquetado del formato HTML.

## 6. DOM
- Document object model: Interfaz independiente del lenguaje que trata un documento XML o HMTL como una estructura de arbol.

## 7. WebScraping con Python
- No es la unica tecnologia que con la que se puede hacer WebScraping. Podemos usar por ejemplo, *R*, *JavaScript*, *Java*, *C++*, etc
- Python es util en: 
    - Pedidos HTTP
    - Parseo de la informacion: Dividir un texto en sus componentes y describir sus roles sintacticos.
    - Automatizacion

### 7.1 Flujo de trabajo en WebScraping
1. Le pedimos la informacion de la pagina al servidor (HTTP request).
2. Parseamos el HTML, u otro formato, que recibamos.
3. Procesar la informacion y guardarla

### 7.2 Parseando con Python: **Beautifulsoup**
- Es una libreria de Python para WebScraping.
- Se usa para extraer los datos de archivos *HTML* y *XML*
- Esta nos permite crear un arbol de analisis, *DOM*, a partir del codigo fuente de la pagina.

-------------------------------------------------------------------------

# CHAPTER I: APIs

## I.1 Uso basico de **APIs**

### 1.a Uso de manera directa


#### Api: **SunsetAndSunrise**
- Sirve para obtener la hora del amanecer y del ocaso de un determinado dia
- Parametros
    - *lat* (float): Latitud en grados decimales (obligatorio)
    - *lng* (float): Longitud en grados decimales (obligatorio)
    - *date* (string): Fecha en formato 'AAAA-MM-DD' (opcional. Por defecto: actual)
- *Estructura de la query*:
    - https://api.sunrise-sunset.org/json?

In [13]:
# Definimos los parametros de nuestra query
latitud = -34.6
longitud = -58.4
fecha = '1816-07-09' # Formato: AAAA-MM-DD

In [14]:
# Importamos libreria
import requests

# Hacemos el pedido y guarmamos la respuesta en una nueva variable
respuesta_sunset = requests.get(f'https://api.sunrise-sunset.org/json?lat={latitud}&lng={longitud}&date={fecha}')

In [15]:
# Para des-serializar el objeto (que era tipo 'HTTPResponse') y cargarlo con json
datos_sunset = respuesta_sunset.json()
datos_sunset

{'results': {'sunrise': '10:58:20 AM',
  'sunset': '8:58:27 PM',
  'solar_noon': '3:58:24 PM',
  'day_length': '10:00:07',
  'civil_twilight_begin': '10:32:04 AM',
  'civil_twilight_end': '9:24:44 PM',
  'nautical_twilight_begin': '10:00:49 AM',
  'nautical_twilight_end': '9:55:58 PM',
  'astronomical_twilight_begin': '9:30:19 AM',
  'astronomical_twilight_end': '10:26:29 PM'},
 'status': 'OK',
 'tzid': 'UTC'}

In [19]:
# Tipo de dato
type(datos_sunset)
datos_sunset.keys()

dict_keys(['results', 'status', 'tzid'])

In [16]:
# Evaluamos el status del pedido
sunset_status = datos_sunset['status']
print(f'Status: {sunset_status}')

Status: OK


In [20]:
datos_sunset['results']

{'sunrise': '10:58:20 AM',
 'sunset': '8:58:27 PM',
 'solar_noon': '3:58:24 PM',
 'day_length': '10:00:07',
 'civil_twilight_begin': '10:32:04 AM',
 'civil_twilight_end': '9:24:44 PM',
 'nautical_twilight_begin': '10:00:49 AM',
 'nautical_twilight_end': '9:55:58 PM',
 'astronomical_twilight_begin': '9:30:19 AM',
 'astronomical_twilight_end': '10:26:29 PM'}

In [23]:
# Podemos ver su contenido ya que son diccionarios anidados
sunset = datos_sunset['results']['sunset']
print(f'El dia {fecha}, el sol se oculto a las {sunset} (UTC).')

El dia 1816-07-09, el sol se oculto a las 8:58:27 PM (UTC).


In [24]:
# Tambien podriamos iterar sobre sus claves
print('Iterando sobre data_sunset["results"]')
for elemento in datos_sunset['results']:
    print(elemento)

Iterando sobre data_sunset["results"]
sunrise
sunset
solar_noon
day_length
civil_twilight_begin
civil_twilight_end
nautical_twilight_begin
nautical_twilight_end
astronomical_twilight_begin
astronomical_twilight_end


### 1.a Uso por medio de una libreria


#### Libreria-Api: **Wikipedia**
- Es un *wrapper* de python facil de usar para la **API** de *Wikipedia*. Admite extraccion de textos, secciones, enlaces, categorias, traducciones, etc.
- Repositorio: 
- Documentacion:

#### Instalamos el paquete porque no viene por defecto
*%pip install wikipedia-api==0.5.8 --user*

In [1]:
%pip install wikipedia-api==0.5.8


Note: you may need to restart the kernel to use updated packages.




In [2]:
# Ahora podemos importarlo
import wikipediaapi

# Chequear version
print(wikipediaapi.__version__)

(0, 5, 8)
