# Mineria de datos

**üîé Introducci√≥n a la miner√≠a web**  
¬øSab√≠as que puedes extraer informaci√≥n directamente desde cualquier p√°gina web? üåê La miner√≠a web es una t√©cnica s√∫per √∫til que permite a analistas y desarrolladores obtener datos valiosos de sitios en l√≠nea, especialmente cuando no se cuenta con suficiente informaci√≥n para hacer un buen an√°lisis. A trav√©s de este proceso, podemos complementar nuestros datos, descubrir patrones interesantes y hasta encontrar cosas que no esper√°bamos üéØ. Para hacerlo, es clave entender c√≥mo funciona el HTML, el lenguaje que da estructura a todas las p√°ginas web. Cada t√≠tulo, p√°rrafo, tabla o imagen est√° organizada con etiquetas especiales, ¬°y conocerlas nos abre la puerta a todo ese contenido! üö™üìÑ

**üì¨ Peticiones HTTP y c√≥mo obtener datos**  
Cuando visitas una p√°gina web, tu navegador le manda una "petici√≥n" al servidor usando un protocolo llamado HTTP. A cambio, el servidor responde con el c√≥digo HTML de la p√°gina üßæ. Lo mejor es que podemos imitar ese proceso desde Python usando la librer√≠a `requests` üêç. Al hacerlo, recibimos el contenido de la p√°gina en forma de texto, que luego podemos analizar y filtrar para obtener solo lo que nos interesa: nombres de productos, precios, tablas de datos... lo que sea üìäüõí. Con herramientas como BeautifulSoup, ese texto se convierte en una fuente de informaci√≥n muy poderosa. ¬°Es como tener una lupa para explorar la web! üîç


**üì¨ C√≥digos de respuesta HTTP comunes**

Cuando haces una solicitud a una API (o a cualquier servidor web), recibes una respuesta con un c√≥digo que indica si todo sali√≥ bien o si hubo alg√∫n problema. Aqu√≠ est√°n los m√°s comunes:

| C√≥digo | Significado             | Descripci√≥n breve                                  |
|--------|-------------------------|----------------------------------------------------|
| 200    | OK                      | La solicitud fue exitosa y se devolvieron los datos. |
| 201    | Created                 | El recurso fue creado exitosamente.               |
| 204    | No Content              | La solicitud fue exitosa, pero no hay datos que devolver. |
| 301    | Moved Permanently       | La URL solicitada se ha movido permanentemente.   |
| 302    | Found                   | El recurso est√° temporalmente en otra ubicaci√≥n.  |
| 400    | Bad Request             | La solicitud tiene un error de sintaxis.          |
| 401    | Unauthorized            | Falta autenticaci√≥n o es inv√°lida.                |
| 403    | Forbidden               | Tienes prohibido el acceso al recurso.            |
| 404    | Not Found               | El recurso solicitado no existe.                  |
| 500    | Internal Server Error   | Error inesperado en el servidor.                  |
| 502    | Bad Gateway             | El servidor recibi√≥ una respuesta inv√°lida.       |
| 503    | Service Unavailable     | El servidor est√° sobrecargado o en mantenimiento. |


## üß™ Ejercicios de pr√°ctica: Web scraping con Python üêç

Trabajaremos con el sitio [http://books.toscrape.com/](http://books.toscrape.com/), una p√°gina que simula una tienda de libros. El objetivo ser√° obtener informaci√≥n √∫til desde el c√≥digo HTML usando `requests`, `BeautifulSoup` y expresiones regulares.

---

In [1]:
import re
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd

### üßµ Ejercicio 1: Obtener el c√≥digo HTML  
**Objetivo:** Hacer una solicitud HTTP y visualizar el c√≥digo fuente de la p√°gina.

In [None]:

url = "http://books.toscrape.com/"
res = requests.get(url)

print(res.status_code)  # Deber√≠a imprimir 200
print(res.text[:1000])  # Imprime los primeros 1000 caracteres del HTML

### üîñ Ejercicio 2: Buscar todos los t√≠tulos de los libros en la portada  
**Objetivo:** Usar `BeautifulSoup` para extraer los t√≠tulos de todos los libros listados en la p√°gina de inicio.

---

In [6]:

soup = BeautifulSoup(res.text, "lxml")
books = soup.find_all("h3")

for book in books:
    print(book.find("a")["title"])

A Light in the Attic
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History of Humankind
The Requiem Red
The Dirty Little Secrets of Getting Your Dream Job
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
The Black Maria
Starving Hearts (Triangular Trade Trilogy, #1)
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Rip it Up and Start Again
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
Olio
Mesaerion: The Best Science Fiction Stories 1800-1849
Libertarianism for Beginners
It's Only the Himalayas


### üéØ Ejercicio 3: Buscar libros con 5 estrellas  
**Objetivo:** Filtrar elementos usando atributos de clase para identificar libros con calificaci√≥n de 5 estrellas.


In [None]:
five_star_books = soup.find_all("p", class_="star-rating Five")

for tag in five_star_books:
    title = tag.find_previous("h3").find("a")["title"]
    print(f"üåü {title}")

### üí∞ Ejercicio 4: Extraer precios usando expresiones regulares  
**Objetivo:** Usar `re` para filtrar todos los precios que aparecen en el HTML.

In [None]:

prices = re.findall(r"¬£\d+\.\d{2}", res.text)
print(prices)

### üì¶ Ejercicio 5: Combina t√≠tulo y precio  
**Objetivo:** Crear un peque√±o script que imprima t√≠tulo y precio de cada libro.

In [11]:
books = soup.find_all("article", class_="product_pod")

for book in books:
    title = book.h3.a["title"]
    price = book.find("p", class_="price_color").text
    print(f"{title} - {price}")

A Light in the Attic - √Ç¬£51.77
Tipping the Velvet - √Ç¬£53.74
Soumission - √Ç¬£50.10
Sharp Objects - √Ç¬£47.82
Sapiens: A Brief History of Humankind - √Ç¬£54.23
The Requiem Red - √Ç¬£22.65
The Dirty Little Secrets of Getting Your Dream Job - √Ç¬£33.34
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull - √Ç¬£17.93
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics - √Ç¬£22.60
The Black Maria - √Ç¬£52.15
Starving Hearts (Triangular Trade Trilogy, #1) - √Ç¬£13.99
Shakespeare's Sonnets - √Ç¬£20.66
Set Me Free - √Ç¬£17.46
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1) - √Ç¬£52.29
Rip it Up and Start Again - √Ç¬£35.02
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991 - √Ç¬£57.25
Olio - √Ç¬£23.88
Mesaerion: The Best Science Fiction Stories 1800-1849 - √Ç¬£37.59
Libertarianism for Beginners - √Ç¬£51.33
It's Only the Himalayas - √Ç¬£45.17


### üìÇ Ejercicio 6: Obtener enlaces a detalles de cada libro  
**Objetivo:** Extraer el atributo `href` de cada libro para obtener su URL individual.


In [12]:
base_url = "http://books.toscrape.com/catalogue/"
for book in books:
    relative_link = book.h3.a["href"]
    print(base_url + relative_link.replace('../../../', ''))

http://books.toscrape.com/catalogue/catalogue/a-light-in-the-attic_1000/index.html
http://books.toscrape.com/catalogue/catalogue/tipping-the-velvet_999/index.html
http://books.toscrape.com/catalogue/catalogue/soumission_998/index.html
http://books.toscrape.com/catalogue/catalogue/sharp-objects_997/index.html
http://books.toscrape.com/catalogue/catalogue/sapiens-a-brief-history-of-humankind_996/index.html
http://books.toscrape.com/catalogue/catalogue/the-requiem-red_995/index.html
http://books.toscrape.com/catalogue/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html
http://books.toscrape.com/catalogue/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html
http://books.toscrape.com/catalogue/catalogue/the-boys-in-the-boat-nine-americans-and-their-epic-quest-for-gold-at-the-1936-berlin-olympics_992/index.html
http://books.toscrape.com/catalogue/catalogue/the-black-maria_991/index.html
http://books.toscrape.co

### üßπ Ejercicio 7: Filtrar libros con t√≠tulo que contenga una palabra clave  
**Objetivo:** Usar regex para encontrar libros que contengan, por ejemplo, la palabra "Python".


In [15]:
pattern = re.compile(r"secret", re.IGNORECASE)

for book in books:
    title = book.h3.a["title"]
    if pattern.search(title):
        print(f"üìò {title}")

üìò The Dirty Little Secrets of Getting Your Dream Job


### üî¢ Ejercicio 8: Contar cu√°ntos libros tienen 3, 4 o 5 estrellas  
**Objetivo:** Contar y clasificar libros seg√∫n la cantidad de estrellas.


In [16]:
ratings = ["Three", "Four", "Five"]
for rating in ratings:
    count = len(soup.find_all("p", class_="star-rating " + rating))
    print(f"‚≠ê {rating} stars: {count} libros")

‚≠ê Three stars: 3 libros
‚≠ê Four stars: 4 libros
‚≠ê Five stars: 4 libros


### üìù Ejercicio 9: Guardar los t√≠tulos y precios en un archivo CSV  
**Objetivo:** Practicar exportaci√≥n de datos.


In [17]:
with open("libros.csv", mode="w", newline="") as file:
    writer = csv.writer(file)
    writer.writerow(["T√≠tulo", "Precio"])
    for book in books:
        title = book.h3.a["title"]
        price = book.find("p", class_="price_color").text
        writer.writerow([title, price])

### üßÆ Ejercicio 10: Convertir los datos en un DataFrame  
**Objetivo:** Crear un `DataFrame` con columnas para t√≠tulo, precio y calificaci√≥n.


In [24]:
data = []
for book in books:
    title = book.h3.a["title"]
    price = book.find("p", class_="price_color").text.strip("¬£")
    rating_class = book.find("p")["class"]
    rating = rating_class[1] if len(rating_class) > 1 else "No rating"
    data.append({"T√≠tulo": title, "Precio": price, "Estrellas": rating})

df = pd.DataFrame(data)
df

Unnamed: 0,T√≠tulo,Precio,Estrellas
0,A Light in the Attic,√Ç¬£51.77,Three
1,Tipping the Velvet,√Ç¬£53.74,One
2,Soumission,√Ç¬£50.10,One
3,Sharp Objects,√Ç¬£47.82,Four
4,Sapiens: A Brief History of Humankind,√Ç¬£54.23,Five
5,The Requiem Red,√Ç¬£22.65,One
6,The Dirty Little Secrets of Getting Your Dream...,√Ç¬£33.34,Four
7,The Coming Woman: A Novel Based on the Life of...,√Ç¬£17.93,Three
8,The Boys in the Boat: Nine Americans and Their...,√Ç¬£22.60,Four
9,The Black Maria,√Ç¬£52.15,One



### üìä Ejercicio 10: Calcular el precio promedio de los libros de la portada  
**Objetivo:** Convertir los precios a float y calcular el promedio.

# API's

**üîó ¬øQu√© es una API?**  
Una API (Interfaz de Programaci√≥n de Aplicaciones) es un conjunto de reglas que permite que dos programas se comuniquen entre s√≠. En el contexto del an√°lisis de datos, las APIs permiten acceder a informaci√≥n alojada en servidores externos de forma estructurada, r√°pida y segura, sin tener que extraer datos directamente desde el HTML de una p√°gina web. Usar una API es como hacer una solicitud en un restaurante: t√∫ pides (por ejemplo, el clima de hoy) y el servidor te responde con exactamente lo que necesitas, en un formato limpio como JSON o XML.

---

**üìã Tipos de llamadas HTTP comunes en una API**

| M√©todo | Descripci√≥n | Uso com√∫n |
|--------|-------------|-----------|
| `GET`    | Solicita datos desde el servidor | Obtener informaci√≥n (lectura) |
| `POST`   | Env√≠a datos al servidor | Crear un nuevo recurso |
| `PUT`    | Reemplaza un recurso existente | Actualizar por completo un dato |
| `PATCH`  | Modifica parcialmente un recurso | Editar parte de la informaci√≥n |
| `DELETE` | Elimina un recurso | Borrar datos del servidor |


**üóÇÔ∏è ¬øQu√© es el formato JSON y por qu√© es tan usado en APIs?**  
JSON (JavaScript Object Notation) es un formato ligero y estructurado para intercambiar datos. Se basa en pares clave-valor, muy parecido a los diccionarios en Python o los objetos en JavaScript. Su sintaxis sencilla lo hace f√°cil de leer para los humanos y muy eficiente para las m√°quinas. üåç

JSON se ha convertido en el formato preferido para las respuestas de muchas APIs porque permite transmitir informaci√≥n de forma clara, compacta y estandarizada. Cuando haces una llamada a una API, por ejemplo para obtener datos del clima o los detalles de un producto, el servidor suele responder con un objeto JSON. Esto facilita el procesamiento de los datos en aplicaciones web, m√≥viles o scripts de an√°lisis. Su amplia compatibilidad con casi todos los lenguajes de programaci√≥n modernos ha hecho que JSON sea adoptado de manera masiva en el desarrollo de software y an√°lisis de datos. üîÑüì°


## üß™ Pr√°ctica con JSONPlaceholder API (GET y POST)

Trabajaremos con la API p√∫blica [https://jsonplaceholder.typicode.com](https://jsonplaceholder.typicode.com), que simula el comportamiento de una API REST real. Los recursos disponibles incluyen `posts`, `comments`, `users`, entre otros.

### üîç Ejercicio 1: Obtener todas las publicaciones
**Objetivo:** Usar `requests.get()` para obtener una lista de publicaciones.



In [2]:

url = "https://jsonplaceholder.typicode.com/posts"
res = requests.get(url)

print(res.status_code)
print(res.json()[:3])  # Muestra las primeras 3 publicaciones

200
[{'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}, {'userId': 1, 'id': 2, 'title': 'qui est esse', 'body': 'est rerum tempore vitae\nsequi sint nihil reprehenderit dolor beatae ea dolores neque\nfugiat blanditiis voluptate porro vel nihil molestiae ut reiciendis\nqui aperiam non debitis possimus qui neque nisi nulla'}, {'userId': 1, 'id': 3, 'title': 'ea molestias quasi exercitationem repellat qui ipsa sit aut', 'body': 'et iusto sed quo iure\nvoluptatem occaecati omnis eligendi aut ad\nvoluptatem doloribus vel accusantium quis pariatur\nmolestiae porro eius odio et labore et velit aut'}]


### üí¨ Ejercicio 3: Obtener todos los comentarios de una publicaci√≥n  
**Objetivo:** Usar par√°metros en la URL para filtrar comentarios.

In [3]:
params = {"postId": 1}
res = requests.get("https://jsonplaceholder.typicode.com/comments", params=params)

for comment in res.json():
    print(comment["email"], "-", comment["body"][:40], "...")

Eliseo@gardner.biz - laudantium enim quasi est quidem magnam  ...
Jayne_Kuhic@sydney.com - est natus enim nihil est dolore omnis vo ...
Nikita@garfield.biz - quia molestiae reprehenderit quasi asper ...
Lew@alysha.tv - non et atque
occaecati deserunt quas acc ...
Hayden@althea.biz - harum non quasi et ratione
tempore iure  ...


### üìù Ejercicio 4: Crear una nueva publicaci√≥n (POST)  
**Objetivo:** Simular la creaci√≥n de un post usando `requests.post()`.

In [4]:
payload = {
    "title": "Mi primer post",
    "body": "Este es un post de prueba para la clase.",
    "userId": 1
}

res = requests.post("https://jsonplaceholder.typicode.com/posts", json=payload)
print(res.status_code)
print(res.json())

201
{'title': 'Mi primer post', 'body': 'Este es un post de prueba para la clase.', 'userId': 1, 'id': 101}


### üß™ Ejercicio 5: Crear un comentario en una publicaci√≥n  
**Objetivo:** Simular un comentario nuevo con `POST`.

In [5]:
payload = {
    "postId": 1,
    "name": "Comentario de prueba",
    "email": "ejemplo@email.com",
    "body": "¬°Este es un comentario para practicar!"
}

res = requests.post("https://jsonplaceholder.typicode.com/comments", json=payload)
print(res.json())

{'postId': 1, 'name': 'Comentario de prueba', 'email': 'ejemplo@email.com', 'body': '¬°Este es un comentario para practicar!', 'id': 501}


### üóÉÔ∏è Ejercicio 6: Extraer publicaciones y convertirlas a DataFrame  
**Objetivo:** Obtener publicaciones de un usuario y convertirlas en un DataFrame.

In [7]:

params = {"userId": 2}
res = requests.get("https://jsonplaceholder.typicode.com/posts", params=params)
posts = res.json()

df = pd.DataFrame(posts)
df.head()

Unnamed: 0,userId,id,title,body
0,2,11,et ea vero quia laudantium autem,delectus reiciendis molestiae occaecati non mi...
1,2,12,in quibusdam tempore odit est dolorem,itaque id aut magnam\npraesentium quia et ea o...
2,2,13,dolorum ut in voluptas mollitia et saepe quo a...,aut dicta possimus sint mollitia voluptas comm...
3,2,14,voluptatem eligendi optio,fuga et accusamus dolorum perferendis illo vol...
4,2,15,eveniet quod temporibus,reprehenderit quos placeat\nvelit minima offic...
