# Interaccion con Datos de Internet
- Request de data
- Crawling
- Scraping de datos
- Parseo de datos scrapeados de internet - conversion a estructuras de datos

# Requerimentos y Crawling de Data

## Crawling
- ¿Qué hace el crawling?

El crawling (también llamado "crawleo") es realizado por programas automatizados llamados crawlers o bots (como Googlebot). Estos bots recorren internet siguiendo enlaces de una página a otra, leyendo el contenido y el código HTML de cada sitio que visitan.

- ¿Para qué sirve?

Su objetivo principal es descubrir nuevas páginas o detectar cambios en las existentes, para que los motores de búsqueda puedan indexarlas correctamente. Esto es esencial para que una web aparezca en los resultados de Google, Bing, etc..

- ¿Cómo funciona?

El bot comienza con una lista de URLs conocidas.
Visita esas páginas y analiza su contenido.
Extrae los enlaces que encuentra y los añade a su lista de próximas visitas.
Repite el proceso continuamente.


In [1]:
# Ser debe importar la libreria "requests" para poder traer data de internet
import requests

# Url del sitio web al cual le haremos scraping
url = "https://ebac.mx/analista-de-datos"

data = requests.get(url)

# Se imprime la informacion del sitio web
print(data.text)


<!DOCTYPE html>
<html lang="es">
<head>
  <meta charset="utf-8"/>
  <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
  <meta name="viewport" content="width=device-width, initial-scale=1.0"/>
  <title>Curso online de ProfesiÃ³n: Analista de Datos - aprenda con EBAC</title>
  
  <meta name="description" content="Curso online de IlustraciÃ³n Tradicional en 12 meses con certificado. EspecialÃ­zate como Analista de Datos e impulsa tu carrera en esta profesiÃ³n emergente." />
  <meta name="keywords" content="" />
  <meta property="og:url" content="https://ebac.mx/analista-de-datos"/>
  <meta property="og:title" content="Curso online de ProfesiÃ³n: Analista de Datos - aprenda con EBAC"/>
  <meta property="og:description" content="Curso online de IlustraciÃ³n Tradicional en 12 meses con certificado. EspecialÃ­zate como Analista de Datos e impulsa tu carrera en esta profesiÃ³n emergente."/>
  <meta property="og:type" content="website"/>
  <meta property="og:image" content="

In [2]:
# Para poder extraer la data de las paginas es necesario utilizar la libreria de "Beutifulsouo"
from bs4 import BeautifulSoup

# Obtiene todos los links de la pagina web
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, "html.parser")

urls = []
for link in soup.find_all("a"):
    # print(link.get("href")) 
    urls.append(link.get("href"))# De acuerdo a las estructuras "a", traera las que contengan "href"

In [3]:
urls[15]

'https://ebac.mx/upload/cms/proyecto_de_empleabilidad.pdf'

In [4]:
# Entenderemos la estructura de los HTML que manejaremos, para entender como funcionan
import requests
from bs4 import BeautifulSoup
from pprint import pprint

# Esto se ocupa para simular qie somos humanos, y para que el sitio no se de cuenta que lo estamos scarpping
# No siempre se debe utilziar, pero es recomendado
headers = {
    "Access-Control-Allow-Origin": "*",
    "Access-Control-Allow-Methods": "GET",
    "Access-Control-Allow-Headers": "Content-Type",
    "Access-Control-Max-Age": "3600",
    #"User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 FireFox/52.0"
}

url = "https://www.ayush.nz/technology"
data = requests.get(url, headers)

# Variable para guardar los articulos del sitio web
url_data = []

html = BeautifulSoup(data.text, "html.parser")
articles = html.select(".article-link")

for article in articles:
    title = article.select('a')[0].get_text()
    excerpt = article.select('.excerpt')[0].get_text()
    pub_date = article.select('span.muted')[0].get_text()

    url_data.append({"title":title, "excerpt": excerpt, "pub_date" : pub_date})

pprint(url_data)

[{'excerpt': '\n'
             '            Or: Etiquette and table manners for pinging other '
             "people's servers.\n"
             '            \n'
             '            \n',
  'pub_date': ' / Nov 2022',
  'title': 'Consuming APIs responsibly'},
 {'excerpt': '\n'
             '            Add Jekyll posts into a series with series '
             'navigation.\n'
             '            \n'
             '            \n',
  'pub_date': ' / Feb 2022',
  'title': 'Create a series of posts with navigation in Jekyll'},
 {'excerpt': '\n'
             '            Implementing light and dark mode on your Bootstrap 5 '
             '+ Jekyll website.\n'
             '            \n'
             '            \n',
  'pub_date': ' / Jan 2022',
  'title': 'A practical guide to light and dark mode in Bootstrap 5 and '
           'Jekyll'},
 {'excerpt': '\n'
             '            Celebrate 2022 with a shiny new file manager for '
             'Ubuntu!\n'
             '         

In [5]:
# Para encontrar las clases
page = requests.get(url, headers)
soup = BeautifulSoup(data.content, "html.parser")

class_list = set()
tags = {tag.name for tag in soup.find_all()}

for tag in tags:
    for i in soup.find_all(tag):
        if i.has_attr("class"):
            if len(i["class"]) != 0:
                class_list.add(" ".join(i["class"]))

print(class_list)

{'xs', 'excerpt', 'fas fa-at mx-2', 'align-middle w-100 text-dark btn px-1 py-2 btn-success', 'col', 'row row-cols-1 row-cols-md-4 g-3', 'article-link', 'fab fa-mastodon mx-2', 'fab fa-linkedin-in mx-2', 'muted'}


## Scraping
- ¿Qué es el scraping?

Es un proceso mediante el cual un programa o script accede a una página web, lee su contenido (HTML, texto, tablas, etc.) y extrae datos específicos de forma automática.

Se usa para recopilar grandes volúmenes de información sin necesidad de hacerlo manualmente.

- ¿Para qué se utiliza?

Análisis de mercado: recolectar precios, productos, reseñas o tendencias.

Investigación académica o periodística: extraer datos públicos para estudios.

Monitoreo de competencia: seguir cambios en productos, servicios o estrategias.

Agregadores de contenido: como comparadores de precios o buscadores de vuelos.

- ¿Cómo funciona?

Se identifica la estructura de la página (por ejemplo, con herramientas como BeautifulSoup en Python).
Se escribe un script que navega por la web y extrae los datos deseados.
Los datos se almacenan en formatos como CSV, JSON o bases de datos para su análisis posterior.


In [6]:
headers = {
    "Access-Control-Allow-Origin": "*",
    "Access-Control-Allow-Methods": "GET",
    "Access-Control-Allow-Headers": "Content-Type",
    "Access-Control-Max-Age": "3600",
    "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 FireFox/52.0"
}

# Url
url = "https://listado.mercadolibre.com.mx/iphone#D[A:!phone]"

response = requests.get(url, headers=headers)

print(response.content[0:1000])

b'\n<!DOCTYPE html>\n<html lang="es-MX">\n<head><link rel="preconnect" href="https://www.google-analytics.com"/><link rel="preconnect" href="https://www.google.com"/><link rel="preconnect" href="https://data.mercadolibre.com"/><link rel="preconnect" href="https://http2.mlstatic.com"/><link rel="preconnect" href="https://stats.g.doubleclick.net"/><link rel="preconnect" href="https://www.google.com.mx"/><script type=\'text/javascript\' nonce="jnGz7Qk8Si9sdsQfSpnm2A==">window.NREUM||(NREUM={});NREUM.info = {"agent":"","beacon":"bam.nr-data.net","errorBeacon":"bam.nr-data.net","licenseKey":"NRBR-8547a290c864571ffcc","applicationID":"1729522169","agentToken":null,"applicationTime":771.100323,"transactionName":"bgQDMEcFXkJZBkYNWldOJBxFFlVCSw9BS3J8NU5LHw==","queueTime":0,"ttGuid":"8e5a95d9e39b2449"}; (window.NREUM||(NREUM={})).init={privacy:{cookies_enabled:true},ajax:{deny_list:["bam.nr-data.net"]},distributed_tracing:{enabled:true}};(window.NREUM||(NREUM={})).loader_config={agentID:"1834861

In [29]:
# Ejemplo con BeautifulSoup
import requests
from bs4 import BeautifulSoup

# URL con término de búsqueda
url = "https://listado.mercadolibre.com.mx/iphone"

# Headers para simular navegador
headers = {
    "User-Agent": "Mozilla/5.0"
}

# Obtener HTML
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# Buscar los items
items = soup.select(".ui-search-layout__item")

# Lista para almacenar resultados
productos = []

for item in items:
    try:
        title = item.select_one("h2.ui-search-item__title")
        price = item.select_one(".ui-search-price__part")
        link = item.select_one("a.ui-search-link")

        #
        producto = {
            "Título": title.get_text(strip=True) if title else "No encontrado",
            "Precio": price.get_text(strip=True) if price else "No encontrado",
            "Link": link["href"] if link else "No encontrado"
        }

        print(f"Título: {title.get_text(strip=True) if title else 'No encontrado'}")
        print(f"Precio: {price.get_text(strip=True) if price else 'No encontrado'}")
        print(f"Link: {link['href'] if link else 'No encontrado'}")

        productos.append(producto)

    except Exception as e:
        print(f"Error al extraer datos: {e}")


Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontrado
Link: No encontrado
Título: No encontrado
Precio: No encontr

In [31]:
# Para guardar la informacion
import csv

with open("../../Archivos-Analisis/curso-ad-interaccion con datos/scrapping.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["Título", "Precio", "Link"])
    writer.writeheader()
    writer.writerows(productos)


# Apis Publicas
- La librerias se pueden llamar directam,ente con la libreria "requests"
- User el comando GET para obtener informacion desde la API
- Otros comandos son : 
    - POST(Añade datos a la api),
    - DELETE( Permite eliminar datos de la api),
    - UPDATE(Actualiza la informacion)
- Codigo de entorno
    - 200: significa que se tienen una correcta conexion con la api
    - 204: 
    - 401: La utenticacion fallo
    - 403: El acceso esta prohibido por el servicio de la api
    - 404: No se encontro el servicio
    - 500: Un error interno de servidor ocurrio

In [32]:
import requests

response_API = requests.get("https://ebac.mx/")
response_API.status_code

200

In [33]:
response = requests.get("http://api.open-notify.org/astros.json")
print(response.status_code)

200


In [35]:
print(response.json())

{'people': [{'craft': 'ISS', 'name': 'Oleg Kononenko'}, {'craft': 'ISS', 'name': 'Nikolai Chub'}, {'craft': 'ISS', 'name': 'Tracy Caldwell Dyson'}, {'craft': 'ISS', 'name': 'Matthew Dominick'}, {'craft': 'ISS', 'name': 'Michael Barratt'}, {'craft': 'ISS', 'name': 'Jeanette Epps'}, {'craft': 'ISS', 'name': 'Alexander Grebenkin'}, {'craft': 'ISS', 'name': 'Butch Wilmore'}, {'craft': 'ISS', 'name': 'Sunita Williams'}, {'craft': 'Tiangong', 'name': 'Li Guangsu'}, {'craft': 'Tiangong', 'name': 'Li Cong'}, {'craft': 'Tiangong', 'name': 'Ye Guangfu'}], 'number': 12, 'message': 'success'}


In [36]:
pprint(response.json())

{'message': 'success',
 'number': 12,
 'people': [{'craft': 'ISS', 'name': 'Oleg Kononenko'},
            {'craft': 'ISS', 'name': 'Nikolai Chub'},
            {'craft': 'ISS', 'name': 'Tracy Caldwell Dyson'},
            {'craft': 'ISS', 'name': 'Matthew Dominick'},
            {'craft': 'ISS', 'name': 'Michael Barratt'},
            {'craft': 'ISS', 'name': 'Jeanette Epps'},
            {'craft': 'ISS', 'name': 'Alexander Grebenkin'},
            {'craft': 'ISS', 'name': 'Butch Wilmore'},
            {'craft': 'ISS', 'name': 'Sunita Williams'},
            {'craft': 'Tiangong', 'name': 'Li Guangsu'},
            {'craft': 'Tiangong', 'name': 'Li Cong'},
            {'craft': 'Tiangong', 'name': 'Ye Guangfu'}]}


In [37]:
response = requests.get("http://api.open-notify.org/iss-now.json")
pprint(response.json())

{'iss_position': {'latitude': '37.4369', 'longitude': '-173.8728'},
 'message': 'success',
 'timestamp': 1760402825}


In [40]:
print(response.json()["iss_position"])

{'longitude': '-173.8728', 'latitude': '37.4369'}


In [41]:
print(response.json()["iss_position"]["latitude"])

37.4369


In [44]:
# Otra forma de a
import json
def jprint (obj):
    text = json.dumps(obj, sort_keys=True, indent=4)
    print(text) 

jprint(response.json())

{
    "iss_position": {
        "latitude": "20.2197",
        "longitude": "-155.1172"
    },
    "message": "success",
    "timestamp": 1760403206
}
