# Módulo 15: Interacción con Datos de la Web
## Crawling de Data

- Crawling es tomar un sitio web y registrar todos los enlaces que contiene ese sitio web
- Scraping de datos es tomar el sitio web y tomar los datos del sitio web
- Parseo de datos scrapeados de Internet - conversión a estructura de datos

Mas info: [webscraping.pro/crawler-vs-scraper-vs-parser/](webscraping.pro/crawler-vs-scraper-vs-parser/)

In [1]:
# Request
import requests

url = 'https://ebac.mx/analista-de-datos'

# Request para obtener el html del sitio que se le pase dentro del url
data = requests.get(url)

# Imprime el html del sitio
print(data.text)

<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8"/>
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
  <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
  <title>Curso online de ProfesiÃ³n: Analista de Datos - aprenda con EBAC</title>
  
  <meta name="description" content="Curso online de IlustraciÃ³n Tradicional en 12 meses con certificado. EspecialÃ­zate como Analista de Datos e impulsa tu carrera en esta profesiÃ³n emergente." />
  <meta name="keywords" content="" />
  <meta property="og:url" content="https://ebac.mx/analista-de-datos"/>
  <meta property="og:title" content="Curso online de ProfesiÃ³n: Analista de Datos - aprenda con EBAC"/>
  <meta property="og:description" content="Curso online de IlustraciÃ³n Tradicional en 12 meses con certificado. EspecialÃ­zate como Analista de Datos e impulsa tu carrera en esta profesiÃ³n emergente."/>
  <meta property="og:type" content="website"/>
  <meta property="og:image" content="" />
  <lin

In [2]:
# Crawling
from bs4 import BeautifulSoup

# Obtiene todos los links de la página

regs = requests.get(url)
soup = BeautifulSoup(regs.text, 'html.parser')

urls = []

# soup.find_all('a') encuentra todos los tags 'a' (links - anchor) y los asigna a la variable link del loop
# para cada link, se imprime el parámetro href (el link al que dirige el anchor)
for link in soup.find_all('a'):
    urls.append(link.get('href'))

print(urls)

['https://ebac.mx', 'https://ebac.mx/cursos', 'https://ebac.mx/webinars', 'https://ebac.mx/about-us', 'https://ebac.mx/blog', 'tel:+525592252629', 'http://lms.ebac.mx', '#price', None, '#review:3', '#review:4', '#review:5', '#review:6', '#review:7', None, '\\"https://ebac.mx/upload/cms/ebac_tyc_alumnos_pag_cursos.pdf\\"', '\\"https://ebac.mx/upload/cms/ebac_aviso_de_privacidad_integral_alumnos.pdf\\"', 'https://ebac.mx/', 'https://ebac.mx/cursos', 'https://ebac.mx/analista-de-datos', '#price', '#price', 'https://ebac.mx/', 'https://wa.me/525592252629â\x80\x8b', 'tel:+525592252629â\x80\x8b', 'https://ebac.mx/upload/cms/ebac_aviso_de_privacidad_integral_alumnos.pdf', 'https://ebac.mx/upload/cms/ebac_aviso_de_privacidad_integral_profesores.pdf', 'https://ebac.mx/about-us', 'https://ebac.mx/cursos', 'https://ebac.mx/blog', 'https://ebac.mx/cursos-de-design-online', 'https://ebac.mx/about-us', 'https://ebac.mx/career-center-students', 'https://ebac-online.eadbox.com.br/login', 'http://lms.e

In [3]:
# Ejemplo de Scrapping

# Se debe analizar la estructura de HTML que se trate de cada página para entenderla y además poder obtener la información correcta
# Se puede usar desde el navegador utilizando "Developer" F12

import requests
from bs4 import BeautifulSoup
from pprint import pprint

# El siguiente bloque de código se usa para simular que somos humanos para que el sitio no se de cuenta que estamos haciendo scraping
# No se tiene que usar siempre, pero es recomendado
headers = {
    'Access-Control-Allow-Origin': '*',
    'Access-Control-Allow-Methods': 'GET',
    'Access-Control-Allow-Headers': 'Content-Type',
    'Access-Control-Max-Age': '3600',
    'User-Agent': 'Mozilla/5-0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0'
}

url = 'https://notes.ayushsharma.in/technology'
data = requests.get(url, headers)

# Variable para guardar los artículos
url_data = []

html = BeautifulSoup(data.text, 'html.parser')
articles = html.select('a.post-card')

for article in articles:
    title = article.select('.card-title')[0].get_text()
    excerpt = article.select('.card-text')[0].get_text()
    pub_date = article.select('.card-footer small')[0].get_text()

    url_data.append({'title': title, 'excerpt': excerpt, 'pub_date': pub_date})

# url_data queda como una lista de diccionarios. Cada dict corresponde a una noticia encontrada en el sitio web y contiene la descripción que sale en la carta del articulo, el titulo y 
# la fecha de publicación
pprint(url_data)

[{'excerpt': 'Add Jekyll posts into a series with series navigation.',
  'pub_date': 'Feb 2022',
  'title': 'Create a series of posts with navigation in Jekyll'},
 {'excerpt': 'Implementing light and dark mode on your Bootstrap 5 + Jekyll '
             'website.',
  'pub_date': 'Jan 2022',
  'title': 'A practical guide to light and dark mode in Bootstrap 5 and '
           'Jekyll'},
 {'excerpt': 'Celebrate 2022 with a shiny new file manager for Ubuntu!',
  'pub_date': 'Jan 2022',
  'title': 'Nemo - The Ubuntu file manager you didn’t know you needed'},
 {'excerpt': "I've been working on a search engine for Fediverse instances!",
  'pub_date': 'Jan 2022',
  'title': 'Announcing Fediverse.to!'},
 {'excerpt': 'Combine Jekyll and Netlify to create pretty URL redirects as '
             'easy as 1-2-3.',
  'pub_date': 'Nov 2021',
  'title': 'Easy pretty URL redirects with Jekyll and Netlify'},
 {'excerpt': 'Add a link back to the public Git hosting link for any static '
             'Jekyl

In [4]:
# Código para obtener todas las clases presentes en la página
page = requests.get(url, headers)
soup = BeautifulSoup(page.content, 'html.parser')

class_list = set()
tags = {tag.name for tag in soup.find_all()}

for tag in tags:
    for i in soup.find_all(tag):
        if i.has_attr('class'):
            if len(i['class']) != 0:
                class_list.add(' '.join(i['class']))

print(class_list)




In [5]:
{tag.name for tag in soup.find_all()}

{'a',
 'body',
 'button',
 'div',
 'footer',
 'h1',
 'h3',
 'h5',
 'head',
 'html',
 'i',
 'img',
 'link',
 'meta',
 'nav',
 'p',
 'script',
 'small',
 'span',
 'title',
 'ul'}

### Scrapping y Parsing de Datos
Ejemplo

In [11]:
url = 'https://listado.mercadolibre.com.mx/iphone#D[A:iphone]'

data = requests.get(url, headers)
html = BeautifulSoup(data.text, 'html.parser')

title_array = []
price_array = []

for item in html.select('.ui-search-layout__item'):
    try:
        title = item.select('h2')[0].get_text()
        price = item.select('span.price-tag-fraction')[0].get_text()
        
        title_array += [title]      # This is the same as title_array.append(title)
        price_array += [price]

        # print('--------------')
        # print(title)    
        # print(price)    
        
    except Exception as e:
        print('')



In [15]:
# Save the results to a .csv file

import csv

with open('iphone_listings.csv', 'w') as f:
    for i in range(len(title_array)):
        f.write(title_array[i].strip() + ',' + price_array[i] + '\n')

### Obtener información desde una API

- Las APIs se pueden llamar directamente desde la librería requests
- Usar el comando GET para obtener la información
- Otros comandos:
    - POST para añadir información a la API
    - DELETE para borrar información
    - PUT para hacer actualización de la información
- Códigos de retorno:
    - 200: OK, healthy connection with the API
    - 204: Successful connection to the API but did not return any data from the service
    - 401: Authentification failed
    - 403: Access is forbidden by the API service
    - 404: The requested API is not found on the server
    - 500: Internal Server Error has occured
- Hay APIs gratuitas y APIs pagadas. Las APIs pagadas generalmente cobran por request hecha aunque hay planes de developer que te permiten hasta cierto número de accesos gratuitos o a bajo costo

In [17]:
response_API  = requests.get('http://api.open-notify.org/astros.json')

# Asi se regresa el código de status
print(response_API.status_code)



200


In [20]:
pprint(response_API.json())

{'message': 'success',
 'number': 10,
 'people': [{'craft': 'Tiangong', 'name': 'Cai Xuzhe'},
            {'craft': 'Tiangong', 'name': 'Chen Dong'},
            {'craft': 'Tiangong', 'name': 'Liu Yang'},
            {'craft': 'ISS', 'name': 'Sergey Prokopyev'},
            {'craft': 'ISS', 'name': 'Dmitry Petelin'},
            {'craft': 'ISS', 'name': 'Frank Rubio'},
            {'craft': 'ISS', 'name': 'Nicole Mann'},
            {'craft': 'ISS', 'name': 'Josh Cassada'},
            {'craft': 'ISS', 'name': 'Koichi Wakata'},
            {'craft': 'ISS', 'name': 'Anna Kikina'}]}
