# Interacción con Datos de Internet
- Requests de data desde Internet.
- Crawling.
- Scraping de datos.
- Parseo de datos scrapeados de Internet - conversión a estructuras de datos.
- https://webscraping.pro/crawler-vs-scraper-vs-parser/

# Antes de empezar
- Revisar lo que es HTML (https://en.wikipedia.org/wiki/HTML).
- Revisar la configuración del ambiente del trabajo: Anaconda + VS Code.
- Revisar que tengas activa tu conexión a internet (se va a bajar información).
- Tener a la mano la especificación de las librerías a utilizarse: requests (https://requests.readthedocs.io/en/latest/), BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/bs4/doc/), pprint (https://docs.python.org/3/library/pprint.html).

## Requerimiento y Crawling de Data

In [1]:
# Se debe importar la librería requests para poder traer data de Internet
import requests

# Url es el sitio web que se va a scrapear
url = 'https://ebac.mx/analista-de-datos'

data = requests.get(url)

# Se imprime la información del sitio web
print(data.text)

<!DOCTYPE html>
<html>
<head>
  <meta charset="utf-8"/>
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
  <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
  <title>Curso online de ProfesiÃ³n: Analista de Datos - aprenda con EBAC</title>
  
  <meta name="description" content="Curso online de IlustraciÃ³n Tradicional en 12 meses con certificado. EspecialÃ­zate como Analista de Datos e impulsa tu carrera en esta profesiÃ³n emergente." />
  <meta name="keywords" content="" />
  <meta property="og:url" content="https://ebac.mx/analista-de-datos"/>
  <meta property="og:title" content="Curso online de ProfesiÃ³n: Analista de Datos - aprenda con EBAC"/>
  <meta property="og:description" content="Curso online de IlustraciÃ³n Tradicional en 12 meses con certificado. EspecialÃ­zate como Analista de Datos e impulsa tu carrera en esta profesiÃ³n emergente."/>
  <meta property="og:type" content="website"/>
  <meta property="og:image" content="" />
  <lin

In [3]:
from bs4 import BeautifulSoup

# Obtiene todos los links de la página web

reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, "html.parser")

urls = []
for link in soup.find_all('a'):
    print(link.get('href'))
    urls.append(link.get('href'))

None
\"https:\/\/ebac.mx\/upload\/cms\/ebac_tyc_alumnos_pag_cursos.pdf\"
\"https:\/\/ebac.mx\/upload\/cms\/ebac_aviso_de_privacidad_integral_alumnos.pdf\"
\"https:\/\/ebac.mx\/upload\/cms\/proyecto_de_empleabilidad.pdf\"
/
#para-quien
#profesor
#programa
#career
#form
https://ebac.mx/upload/cms/ebac_tyc_alumnos_pag_cursos.pdf
https://ebac.mx/upload/cms/ebac_aviso_de_privacidad_integral_alumnos.pdf
https://ebac.mx/upload/cms/proyecto_de_empleabilidad.pdf
None
None
https://ebac.mx/upload/cms/proyecto_de_empleabilidad.pdf
https://ebac.mx/upload/cms/ebac_tyc_alumnos_pag_cursos.pdf
https://ebac.mx/upload/cms/ebac_aviso_de_privacidad_integral_alumnos.pdf
https://ebac.mx/upload/cms/proyecto_de_empleabilidad.pdf
None
None
None
#review:3
#review:4
#review:5
#review:6
#review:7
None
None
\"https:\/\/ebac.mx\/upload\/cms\/ebac_tyc_alumnos_pag_cursos.pdf\"
\"https:\/\/ebac.mx\/upload\/cms\/ebac_aviso_de_privacidad_integral_alumnos.pdf\"
\"https:\/\/ebac.mx\/upload\/cms\/proyecto_de_empleabilidad.p

In [4]:
# Se debe analizar la estructura del HTML que se trae de cada página para entenderla
# y además poder obtener la información correcta.
# Se puede usar desde el navegador la vista "Developer" para acceder a la estructura y entenderla.

# Se tiene un ejemplo además de usar "requests", se usa la librería BeautifulSoup, que permite
# una impresión más amigable de contenidos de este tipo
import requests
from bs4 import BeautifulSoup
from pprint import pprint

# Esto se usa para simular que somos humanos, y para que el sitio no se dé cuenta de que lo estamos scrapeando
# No siempre se debe utilizar, pero es recomendado
headers = {
    "Access-Control-Allow-Origin": "*",
    "Access-Control-Allow-Methods": "GET",
    "Access-Control-Allow-Headers": "Content-Type",
    "Access-Control-Max-Age": "3600",
    "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"
}

url = "https://notes.ayushsharma.in/technology"
data = requests.get(url, headers)

# Variable para guardar los artículos del sitio web
url_data = []

html = BeautifulSoup(data.text, "html.parser")
articles = html.select("a.post-card")

for article in articles:
    
    title = article.select(".card-title")[0].get_text()
    excerpt = article.select(".card-text")[0].get_text()
    pub_date = article.select(".card-footer small")[0].get_text()
    
    url_data.append({"title": title, "excerpt": excerpt, "pub_date": pub_date})

pprint(url_data)

[]


In [5]:
# Luego la variable my_data se podría imprimir en un CSV, JSON, etc.
# Por ejemplo para ver el número de archivos
print(url_data)
print(type(url_data))

[]
<class 'list'>


In [6]:
# Encuentra todas las clases
page = requests.get(url, headers)
soup = BeautifulSoup(data.content, "html.parser")

class_list = set()
tags = {tag.name for tag in soup.find_all()}

# iterate all tags
for tag in tags:
    
    # find all element of a tag
    for i in soup.find_all(tag):
        
        # if tag has attribute of class
        if i.has_attr("class"):
            if len(i["class"]) != 0:
                class_list.add(" ".join(i["class"]))
                
print(class_list)

{'col', 'fab fa-linkedin-in mx-2', 'muted', 'fab fa-mastodon mx-2', 'article-link', 'excerpt', 'align-middle w-100 text-dark btn px-1 py-2 btn-success', 'fas fa-at mx-2', 'row row-cols-1 row-cols-md-4 g-3', 'xs'}
