# Web Scraping

## 1. ¿Que es el Web Scrapring?
- Web Scraping:
    Es la practica de recopilar datos mediante un programa automatizado que consulta un servidor web. En otras palabras, un codigo que va a realizar peticiones a un determinado servidor y extraer la informacion de un tipo de dato dentro de la pagina. El tipo de informacion a extraer puede ser de cualquier tipo como por ejemplo texto, audio, imagenes, etc.
- Web Crawling:
    Se utiliza para indexar la informacion de una pagina mediante bots. El objetivo de esto es entrar a todos los hipervinculos o paginas dentro de una pagina y obtener toda la informacion. Un ejemplo de esto es el bot de google que indexa las paginas y asi cuando se realice una busqueda pueda realizar la recomendacion de una pagina para dicha peticion.
- Observacion:
    La diferencia entre ambas es que cuando realizamos WebScraping buscamos algun tipo de dato en particular, por ejemplo si lo realizamos en una pagina de venta de ropa online, intentamos obtener unicamente la descripcion de los precios de la ropa que ofrecen, por el contrario, el WebCrawling, traeremos toda la informacion de la pagina.

## 2. ¿Que es una API?
API corresponde a las siglas "Interfaz de programacion de aplicaciones". Es un proveedor de acceso a los datos de una aplicacion, sistema operativo u otro servicio. En ocaciones las paginas o servidores proporcionan una API con el objetivo de controlar la transaccion de la informacion solicitada.

## 3. API vs Web Scraping
- Las API's son mas sencillas de utilizar a la hora de recopilar informacion de manera mas limpia y a la hora de hacer pedidos especificos.
- Cuando querramos obtener informacion de un sitio en especifico deberemos verificar si posee una API publica, en caso de que no, la unica manera de obtener la informacion es Scrapear.
- Si la API es limitada en cuanto a cantidad de pedidos o bien los datos de interes no son posibles obtenerlos a trasves de esta, deberemos Scrapear.
- En el caso de que la API cumpla con nuestros requerimientos, no necesitaremos Srapear.

## 4. HTTPS
- Es un protocolo de transferencia de hipertexto que permite a los navegadores comunicarse con los servicios web (donde se almacenan los sitios). Poniendo un ejemplo, suponiendo que nosotros realizamos un pedido a traves de nuestra computadora (peticiones o request) a un servidor, este servidor devolvera una respuesta a esta peticion (response), en caso de que este todo funcionando correctamente. Existen diferentes metodos como funciones que mediante este protocolo nos permiten obtener informacion, postearla o almacenarla.
- En ocasiones en algunas peticiones no siempre obtenemos lo que queremos, es decir, que las peticines fallen. Existe lo que se conoce como "codigos de status", estos codigos nos permiten saber si nuestros pedidos fueron exitosos o si fallan cual fue el motivo. Los codigos de status pueden ser de Exito (comienzan con 2), Errores de cliente (comienzan con 4) o Errores de servidor (comienzan con 5).

## 5. Formatos de la informacion
- Es bastante comun que la informacion se encuentre en archivos del tipo **.csv** (comma-separated values)
- En internet, mediante las API's u otra interraccion de datos, se utiliza el tipo **.json** (Javascript Object Notation), donde la informacion se almacena de manera similar a la estructura de un diccionario.
- Otro tipo de formato es el tipo **.XML** donde la informacion se almacena de manera similar al equiquetado del formato HTML.

## 6. DOM
- Document object model: Interfaz independiente del lenguaje que trata un documento XML o HMTL como una estructura de arbol.

## 7. WebScraping con Python
- No es la unica tecnologia que con la que se puede hacer WebScraping. Podemos usar por ejemplo, *R*, *JavaScript*, *Java*, *C++*, etc
- Python es util en: 
    - Pedidos HTTP
    - Parseo de la informacion: Dividir un texto en sus componentes y describir sus roles sintacticos.
    - Automatizacion

### 7.1 Flujo de trabajo en WebScraping
1. Le pedimos la informacion de la pagina al servidor (HTTP request).
2. Parseamos el HTML, u otro formato, que recibamos.
3. Procesar la informacion y guardarla

### 7.2 Parseando con Python: **Beautifulsoup**
- Es una libreria de Python para WebScraping.
- Se usa para extraer los datos de archivos *HTML* y *XML*
- Esta nos permite crear un arbol de analisis, *DOM*, a partir del codigo fuente de la pagina.

-------------------------------------------------------------------------

# CHAPTER I: APIs

## I.1 Uso basico de **APIs**

### 1.a Uso de manera directa


#### Api: **SunsetAndSunrise**
- Sirve para obtener la hora del amanecer y del ocaso de un determinado dia
- Parametros
    - *lat* (float): Latitud en grados decimales (obligatorio)
    - *lng* (float): Longitud en grados decimales (obligatorio)
    - *date* (string): Fecha en formato 'AAAA-MM-DD' (opcional. Por defecto: actual)
- *Estructura de la query*:
    - https://api.sunrise-sunset.org/json?

In [2]:
# Definimos los parametros de nuestra query
latitud = -34.6
longitud = -58.4
fecha = '1816-07-09' # Formato: AAAA-MM-DD

In [3]:
# Importamos libreria
import requests

# Hacemos el pedido y guarmamos la respuesta en una nueva variable
respuesta_sunset = requests.get(f'https://api.sunrise-sunset.org/json?lat={latitud}&lng={longitud}&date={fecha}')

In [15]:
# Para des-serializar el objeto (que era tipo 'HTTPResponse') y cargarlo con json
datos_sunset = respuesta_sunset.json()
datos_sunset

{'results': {'sunrise': '10:58:20 AM',
  'sunset': '8:58:27 PM',
  'solar_noon': '3:58:24 PM',
  'day_length': '10:00:07',
  'civil_twilight_begin': '10:32:04 AM',
  'civil_twilight_end': '9:24:44 PM',
  'nautical_twilight_begin': '10:00:49 AM',
  'nautical_twilight_end': '9:55:58 PM',
  'astronomical_twilight_begin': '9:30:19 AM',
  'astronomical_twilight_end': '10:26:29 PM'},
 'status': 'OK',
 'tzid': 'UTC'}

In [19]:
# Tipo de dato
type(datos_sunset)
datos_sunset.keys()

dict_keys(['results', 'status', 'tzid'])

In [16]:
# Evaluamos el status del pedido
sunset_status = datos_sunset['status']
print(f'Status: {sunset_status}')

Status: OK


In [20]:
datos_sunset['results']

{'sunrise': '10:58:20 AM',
 'sunset': '8:58:27 PM',
 'solar_noon': '3:58:24 PM',
 'day_length': '10:00:07',
 'civil_twilight_begin': '10:32:04 AM',
 'civil_twilight_end': '9:24:44 PM',
 'nautical_twilight_begin': '10:00:49 AM',
 'nautical_twilight_end': '9:55:58 PM',
 'astronomical_twilight_begin': '9:30:19 AM',
 'astronomical_twilight_end': '10:26:29 PM'}

In [23]:
# Podemos ver su contenido ya que son diccionarios anidados
sunset = datos_sunset['results']['sunset']
print(f'El dia {fecha}, el sol se oculto a las {sunset} (UTC).')

El dia 1816-07-09, el sol se oculto a las 8:58:27 PM (UTC).


In [24]:
# Tambien podriamos iterar sobre sus claves
print('Iterando sobre data_sunset["results"]')
for elemento in datos_sunset['results']:
    print(elemento)

Iterando sobre data_sunset["results"]
sunrise
sunset
solar_noon
day_length
civil_twilight_begin
civil_twilight_end
nautical_twilight_begin
nautical_twilight_end
astronomical_twilight_begin
astronomical_twilight_end


### 1.b Uso por medio de una libreria


#### Libreria-Api: **Wikipedia**
- Es un *wrapper* de python facil de usar para la **API** de *Wikipedia*. Admite extraccion de textos, secciones, enlaces, categorias, traducciones, etc.
- Repositorio: 
- Documentacion:

#### Instalamos el paquete porque no viene por defecto
*%pip install wikipedia-api==0.5.8 --user*

In [None]:
%pip install wikipedia-api==0.5.8

Note: you may need to restart the kernel to use updated packages.




In [4]:
# Ahora podemos importarlo
import wikipediaapi

# Chequear version
print(wikipediaapi.__version__)

(0, 5, 8)


In [3]:
# Instaciamos la clase wikipediaapi y utilizamos el metodo Wikipedia con el parametro idioma
IDIOMA = 'es'
wiki_wiki = wikipediaapi.Wikipedia(IDIOMA)

# Usamos el metodo page y hacemos un pedido con una palabra clave
PALABRA_CLAVE = 'programacion'
wikipedia_programacion = wiki_wiki.page(PALABRA_CLAVE)

print(f'wikipedia_programacion es un objeto de tipo: \n\n{type(wikipedia_programacion)}')


wikipedia_programacion es un objeto de tipo: 

<class 'wikipediaapi.WikipediaPage'>


In [4]:
# Resumen
print(wikipedia_programacion.title)
print(' ')
print(wikipedia_programacion.summary)

programacion
 
La programación es el proceso de crear un conjunto de instrucciones que le dicen a una computadora como realizar algún tipo de tarea. Pero no solo la acción de escribir un código para que la computadora o el software lo ejecute. Incluye, además, todas las tareas necesarias para que el código funcione correctamente y cumpla el objetivo para el cual se escribió.[1]​
En la actualidad, la noción de programación se encuentra muy asociada a la creación de aplicaciones de informática y videojuegos. En este sentido, es el proceso por el cual una persona desarrolla un programa, valiéndose de una herramienta que le permita escribir el código (el cual puede estar en uno o varios lenguajes, como C++, Java y Python, entre muchos otros) y de otra que sea capaz de “traducirlo” a lo que se conoce como lenguaje de máquina, que puede "comprender" el microprocesador.[2]​


In [6]:
# URL completa
print(wikipedia_programacion.fullurl)

https://es.wikipedia.org/wiki/Programaci%C3%B3n


## I.2 **BeautifulSoup**

### *Documentacion oficial*: https://beautiful-soup-4.readthedocs.io/en/latest/

### 2.a Generalidades
- Vamos a practicar con https://scrapepark.org/spanish/

In [5]:
# Importamos BeautifulSoup
from bs4 import BeautifulSoup
import requests

In [6]:
# Versiones
import bs4
print('Version de BeautifulSoup:', bs4.__version__)
print('Version de requests:', requests.__version__)

Version de BeautifulSoup: 4.12.3
Version de requests: 2.32.3


In [7]:
# Comenzamos con el scraping

# 1. Obtenemos el HTML
URL_BASE = 'https://scrapepark.org/spanish/'
pedido_obtenido = requests.get(URL_BASE)
hmtl_obtenido = pedido_obtenido.text

# 2. Parsear el HTML obtenido
soup = BeautifulSoup(hmtl_obtenido, 'html.parser')

In [15]:
type(soup)

bs4.BeautifulSoup

### 2.b.0 Metodo *find()*
- Nos permite quedarnos con la informacion asociada a una etiqueta HTML

In [14]:
primer_h2 = soup.find('h2')
print(primer_h2)

<h2>¿Por qué comprar con nosotros?</h2>


In [17]:
# Solo el texto
print(primer_h2.text)

¿Por qué comprar con nosotros?


### 2.b.1 Metodo *find_all()*
- Busca **todos** los elementos de la pagina con esa etiqueta y devuelve una "lista" que los contiene (devuelve un objeto de la clase *bs4.element.ResultSet*).

In [18]:
h2_todos = soup.find_all('h2')
print(h2_todos)

[<h2>¿Por qué comprar con nosotros?</h2>, <h2>
                  #<span>Novedades</span>
</h2>, <h2>Nuestros productos</h2>, <h2>Testimonios de clientes</h2>, <h2 class="heading-container">Precios</h2>]


In [25]:
# Podemos iterar sobre este objeto.
for seccion in h2_todos:
    print(seccion.text)

¿Por qué comprar con nosotros?

                  #Novedades

Nuestros productos
Testimonios de clientes
Precios


In [26]:
# Para mas funcionalidades: get.text()
for seccion in h2_todos:
    print(seccion.get_text(strip=True))

¿Por qué comprar con nosotros?
#Novedades
Nuestros productos
Testimonios de clientes
Precios


In [24]:
# Podemos usar el parametro 'limit' para indicar la cantidad de elementos a devolver
h2_uno_solo = soup.find_all('h2', limit=1)
print(h2_uno_solo)

h2_tres = soup.find_all('h2', limit=3)
print(h2_tres)

[<h2>¿Por qué comprar con nosotros?</h2>]
[<h2>¿Por qué comprar con nosotros?</h2>, <h2>
                  #<span>Novedades</span>
</h2>, <h2>Nuestros productos</h2>]


### 2.c Utilizando atributos de las etiquetas

In [28]:
# Clase
divs = soup.find_all('div', class_= 'heading-container heading-center')

for div in divs:
    print(div)
    print('')

<div class="heading-container heading-center" id="about">
<h2>¿Por qué comprar con nosotros?</h2>
</div>

<div class="heading-container heading-center" id="products">
<h2>Nuestros productos</h2>
</div>

<div class="heading-container heading-center">
<h3>Suscríbete para obtener descuentos y ofertas</h3>
</div>

<div class="heading-container heading-center">
<h2>Testimonios de clientes</h2>
</div>



### 2.d Podemos descargar imagenes

In [7]:
# Todas las etiquetas que tengan el atributo "src"
src_todos = soup.find_all(src=True)

for elemento in src_todos:
    if elemento['src'].endswith(".jpg"):
        print(elemento)

src_todos

<img alt="Parque de patinaje" src="../images/slider-bg.jpg"/>
<img alt="Patineta" src="../images/p2.jpg"/>


[<img alt="ScrapePark.org Logo" src="../images/logo.svg" width="250"/>,
 <img alt="Parque de patinaje" src="../images/slider-bg.jpg"/>,
 <img alt="Variedad de patinetas en nuestra tienda" src="../images/arrival-bg-store.png"/>,
 <img alt="Patineta" src="../images/p1.png"/>,
 <img alt="Patineta" src="../images/p2.jpg"/>,
 <img alt="Patineta" src="../images/p3.png"/>,
 <img alt="Patineta" src="../images/p4.png"/>,
 <img alt="Patineta" src="../images/p5.png"/>,
 <img alt="Patineta" src="../images/p6.png"/>,
 <img alt="Patineta" src="../images/p7.png"/>,
 <img alt="Patineta" src="../images/p8.png"/>,
 <img alt="Patineta" src="../images/p9.png"/>,
 <img alt="Patineta" src="../images/p10.png"/>,
 <img alt="Patineta" src="../images/p11.png"/>,
 <img alt="Patineta" src="../images/p12.png"/>,
 <img alt="Cliente" src="../images/client-one.png"/>,
 <img alt="Cliente" src="../images/client-two.png"/>,
 <img alt="Cliente" src="../images/client-three.png"/>,
 <iframe src="table.html" title="table_if

### 2.e Ejercicio: Descargar todas las imagenes

In [8]:
url_imagenes = []

for i, imagen in enumerate(src_todos):

    if imagen['src'].endswith('png'):
        print(imagen['src'])
        r = requests.get(f'https://scrapepark.org/spanish/{imagen['src']}')

        with open(f'imagen {i}.png', 'wb') as f:
            f.write(r.content)

../images/arrival-bg-store.png
../images/p1.png
../images/p3.png
../images/p4.png
../images/p5.png
../images/p6.png
../images/p7.png
../images/p8.png
../images/p9.png
../images/p10.png
../images/p11.png
../images/p12.png
../images/client-one.png
../images/client-two.png
../images/client-three.png
.././images/freecodecamp-logo.png


### 2.f Otros casos de uso: *iframe* y *table*


#### 2.f.1 Tabla

In [8]:
# Informacion de tablas
URL_BASE = 'https://scrapepark.org/spanish/'
URL_TABLA = soup.find_all('iframe')[0]['src']

request_tabla = requests.get(f'{URL_BASE}/{URL_TABLA}')

hmtl_tabla = request_tabla.text
soup_tabla = BeautifulSoup(hmtl_tabla, 'html.parser')
soup_tabla.find('table')

productos_faltantes = soup_tabla.find_all(['th', 'td'], attrs={'style': 'color: red;'})
productos_faltantes = [talle.text for talle in productos_faltantes]

print(productos_faltantes)

['Longboard', '$80', '$85', '$90', '$62', '$150']


### 2.g Datos de productos

In [9]:
divs = soup.find_all('div', class_='detail-box')
productos = []
precios = []

for div in divs:
    if (div.h6 is not None) and ('Patineta' in div.h5.text):
        producto = div.h5.get_text(strip=True)
        precio = div.h6.get_text(strip=True).replace('$', '')
        # Se puede agregar filtros
        print(f'Producto: {producto:<16} | Precio: {precio}')
        productos.append(producto)
        precios.append(precio)

Producto: Patineta nueva1  | Precio: 75
Producto: Patineta usada2  | Precio: 80
Producto: Patineta nueva3  | Precio: 68
Producto: Patineta usada4  | Precio: 70
Producto: Patineta nueva5  | Precio: 75
Producto: Patineta nueva6  | Precio: 58
Producto: Patineta nueva7  | Precio: 80
Producto: Patineta nueva8  | Precio: 35
Producto: Patineta nueva9  | Precio: 165
Producto: Patineta usada10 | Precio: 54
Producto: Patineta usada11 | Precio: 99
Producto: Patineta nueva12 | Precio: 110


### 2.h Cambios que dependen de la URL

In [10]:
URL_BASE_II = "https://scrapepark.org/spanish/contact"

for i in range(1,3):
    URL_FINAL = f'{URL_BASE_II}{i}'
    print(f'URL: {URL_FINAL}')
    r = requests.get(URL_FINAL)
    soup = BeautifulSoup(r.text, 'html.parser')
    print(soup.h5.text)

URL: https://scrapepark.org/spanish/contact1
Texto que cambia entre páginas en contacto 1 :)
URL: https://scrapepark.org/spanish/contact2
Texto que cambia entre páginas en contacto 2 :)


### 2.i Datos que no sabemos en que parte de la pagina se encuentran

In [16]:
# Expresiones regulares
import re

# 1. Obtener el HTML
URL_BASE_III = 'https://scrapepark.org/spanish'
get_order = requests.get(URL_BASE_III)
get_html = get_order.text

# 2. Parsear ese HTML
soup = BeautifulSoup(get_html, 'html.parser')

celphones = soup.find_all(string=re.compile(r'\d+-\d+-\d+'))
print(celphones)

[': 4-444-4444']


### 2.j Moviendonos por el arbol
- Para saber mas: 

In [17]:
copyrights = soup.find_all(string=re.compile('©'))
copyrights

['© 2022 ']

In [18]:
first_copyright = copyrights[0]
first_copyright.parent

<p>© 2022 <span>Todos los derechos reservados</span>.
        <a href="https://html.design/" rel="noopener noreferrer" target="_blank">Creado con Free Html Templates</a>.
      </p>

In [23]:
# Otro ejemplo con elementos al mismo nivel
menu = soup.find(string=re.compile('MENÚ'))
menu.parent

menu.parent.find_next_siblings()

[<ul>
 <li><a href="#">Inicio</a></li>
 <li><a href="#">Acerca</a></li>
 <li><a href="#">Servicios</a></li>
 <li><a href="#">Testimonios</a></li>
 <li><a href="#">Contacto</a></li>
 </ul>]

### 2.k Comentario sobre excepciones


In [25]:
strings_for_search = ['MENÚ', '©', 'carpincho', 'Patineta']

for string in strings_for_search:
    try:
        result = soup.find(string=re.compile(string))
        print(result.text)
    except AttributeError:
        print(f'El string "{string}" no fue encontrado.')

MENÚ
© 2022 
El string "carpincho" no fue encontrado.
Patineta nueva


### 2.l Almacenamiento de los datos


In [26]:
import csv 

productos.insert(0, 'productos')
precios.insert(0,'precios')
datos = dict(zip(productos, precios))
with open('datos.csv', 'w') as f:
    w = csv.writer(f)
    w.writerows(datos.items())

-----------------------------------------------------------------------------

# CHAPTER II: Ejercicios

## Ejercicio I:
- 1.1 Las patinetas que salgan menos que $68.
- 1.2 Las patinetas que en su nombre tengan un numero mayor a 3.
- 1.3 Traer cualquier texto de la pagina que tenga la palabra *descuento* u *oferta*
- 1.4 Genrar un archivo *.csv* con dos columnas. Una conteniendo el nombre del cliente y ota su testimonio.