<a href="https://colab.research.google.com/github/JorgeLuis820609/PRACTICA/blob/main/08-data-retrieval/16-S8-mineria-de-datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# T√©cnicas para mineria de datos

---

**Objetivos acad√©micos**

1. Comprender los conceptos b√°sicos de la miner√≠a de datos web y su importancia para obtener informaci√≥n de p√°ginas y APIs.
2. Identificar la estructura y los elementos principales del HTML para facilitar la extracci√≥n de datos relevantes.
3. Aplicar t√©cnicas de web scraping utilizando Python, `requests` y `BeautifulSoup` para recolectar y procesar informaci√≥n desde sitios web.
4. Utilizar expresiones regulares y manipulaci√≥n de datos para filtrar, limpiar y organizar la informaci√≥n extra√≠da.
5. Interactuar con APIs REST, comprendiendo los m√©todos HTTP m√°s comunes y el manejo de datos en formato JSON, as√≠ como su integraci√≥n en DataFrames para an√°lisis posterior.

---

## Mineria de datos

**üîé Introducci√≥n a la miner√≠a web**  

---

¬øSab√≠as que puedes extraer informaci√≥n directamente desde cualquier p√°gina web? üåê La miner√≠a web es una t√©cnica s√∫per √∫til que permite a analistas y desarrolladores obtener datos valiosos de sitios en l√≠nea, especialmente cuando no se cuenta con suficiente informaci√≥n para hacer un buen an√°lisis. A trav√©s de este proceso, podemos complementar nuestros datos, descubrir patrones interesantes y hasta encontrar cosas que no esper√°bamos üéØ. Para hacerlo, es clave entender c√≥mo funciona el HTML, el lenguaje que da estructura a todas las p√°ginas web. Cada t√≠tulo, p√°rrafo, tabla o imagen est√° organizada con etiquetas especiales, ¬°y conocerlas nos abre la puerta a todo ese contenido! üö™üìÑ

**üì¨ Peticiones HTTP y c√≥mo obtener datos**  

---

Cuando visitas una p√°gina web, tu navegador le manda una "petici√≥n" al servidor usando un protocolo llamado HTTP. A cambio, el servidor responde con el c√≥digo HTML de la p√°gina üßæ. Lo mejor es que podemos imitar ese proceso desde Python usando la librer√≠a `requests` üêç. Al hacerlo, recibimos el contenido de la p√°gina en forma de texto, que luego podemos analizar y filtrar para obtener solo lo que nos interesa: nombres de productos, precios, tablas de datos... lo que sea üìäüõí. Con herramientas como `BeautifulSoup`, ese texto se convierte en una fuente de informaci√≥n muy poderosa. ¬°Es como tener una lupa para explorar la web! üîç


**üì¨ C√≥digos de respuesta HTTP comunes**

---

Cuando haces una solicitud a una API (o a cualquier servidor web), recibes una respuesta con un c√≥digo que indica si todo sali√≥ bien o si hubo alg√∫n problema. Aqu√≠ est√°n los m√°s comunes:

| C√≥digo | Significado             | Descripci√≥n breve                                  |
|--------|-------------------------|----------------------------------------------------|
| 200    | OK                      | La solicitud fue exitosa y se devolvieron los datos. |
| 201    | Created                 | El recurso fue creado exitosamente.               |
| 204    | No Content              | La solicitud fue exitosa, pero no hay datos que devolver. |
| 301    | Moved Permanently       | La URL solicitada se ha movido permanentemente.   |
| 302    | Found                   | El recurso est√° temporalmente en otra ubicaci√≥n.  |
| 400    | Bad Request             | La solicitud tiene un error de sintaxis.          |
| 401    | Unauthorized            | Falta autenticaci√≥n o es inv√°lida.                |
| 403    | Forbidden               | Tienes prohibido el acceso al recurso.            |
| 404    | Not Found               | El recurso solicitado no existe.                  |
| 500    | Internal Server Error   | Error inesperado en el servidor.                  |
| 502    | Bad Gateway             | El servidor recibi√≥ una respuesta inv√°lida.       |
| 503    | Service Unavailable     | El servidor est√° sobrecargado o en mantenimiento. |


## üèóÔ∏è Estructura b√°sica de una p√°gina HTML

Una p√°gina web est√° construida con HTML (HyperText Markup Language), que es el lenguaje que le da estructura y formato a todo lo que ves en Internet. El HTML organiza el contenido usando **etiquetas** (tags), que indican el prop√≥sito de cada elemento: t√≠tulos, p√°rrafos, im√°genes, tablas, enlaces, etc.  
Las etiquetas pueden tener **atributos** que a√±aden informaci√≥n extra, como identificadores (`id`), clases (`class`), enlaces (`href`), rutas de im√°genes (`src`), entre otros.  
La estructura b√°sica de cualquier p√°gina HTML suele verse as√≠:

```html
<!DOCTYPE html>
<html>
  <head>
    <title>T√≠tulo de la p√°gina</title>
  </head>
  <body>
    <h1 id="principal" class="titulo">Encabezado principal</h1>
    <p class="intro">Este es un p√°rrafo de texto.</p>
    <a href="https://tripleten.com" target="_blank" class="enlace-destacado">Un enlace</a>
    <img src="https://images.squarespace-cdn.com/content/v1/5d1ea2be4d6d79000127d718/e5ed5590-89f1-44ce-a0c0-207d87b0273c/tripleten-que-es-como-funciona-cuanto-cuesta.png" alt="Descripci√≥n de la imagen" class="img-responsive">
    <table class="tabla-datos">
      <tr><th>Columna 1</th><th>Columna 2</th></tr>
      <tr><td data-info="dato1">Dato 1</td><td>Dato 2</td></tr>
    </table>
  </body>
</html>
```

En este ejemplo, puedes ver atributos como `id`, `class`, `href`, `src`, `alt`, `target` y `data-info`, que ayudan a identificar, clasificar o describir los elementos de la p√°gina.

---



## üîñ Etiquetas para la extracci√≥n de datos

Al hacer miner√≠a web o scraping, hay ciertas etiquetas HTML que resultan especialmente √∫tiles para extraer informaci√≥n relevante:

- `<h1>`, `<h2>`, `<h3>`...: Encabezados o t√≠tulos de secciones.
- `<p>`: P√°rrafos de texto.
- `<a>`: Enlaces a otras p√°ginas o recursos (el atributo `href` contiene la URL).
- `<img>`: Im√°genes (el atributo `src` contiene la ruta de la imagen).
- `<table>`, `<tr>`, `<td>`, `<th>`: Tablas y sus celdas, ideales para datos estructurados.
- `<ul>`, `<ol>`, `<li>`: Listas no ordenadas y ordenadas.
- `<div>`, `<span>`: Contenedores gen√©ricos, √∫tiles para agrupar y dar formato a otros elementos.

Conocer estas etiquetas te permitir√° identificar y extraer la informaci√≥n que necesitas de cualquier p√°gina web de manera eficiente y precisa. üïµÔ∏è‚Äç‚ôÇÔ∏èüìÑ

## üß™ Ejercicios de pr√°ctica: Web scraping con Python üêç

Trabajaremos con el sitio [http://books.toscrape.com/](http://books.toscrape.com/), una p√°gina que simula una tienda de libros. El objetivo ser√° obtener informaci√≥n √∫til desde el c√≥digo HTML usando `requests`, `BeautifulSoup` y expresiones regulares.

---

In [7]:
import re
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd

### üßµ Ejercicio 1: Obtener el c√≥digo HTML  
**Objetivo:** Hacer una solicitud HTTP y visualizar el c√≥digo fuente de la p√°gina.

In [8]:

url = "http://books.toscrape.com/"
res = requests.get(url)

print(res.status_code)  # Deber√≠a imprimir 200
print(res.text[:100])  # Imprime los primeros 1000 caracteres del HTML

200
<!DOCTYPE html>
<!--[if lt IE 7]>      <html lang="en-us" class="no-js lt-ie9 lt-ie8 lt-ie7"> <![end


In [5]:
with open('html_content.txt','w') as f:
  f.write(res.text)



### üîñ Ejercicio 2: Buscar todos los t√≠tulos de los libros en la portada  
**Objetivo:** Usar `BeautifulSoup` para extraer los t√≠tulos de todos los libros listados en la p√°gina de inicio.

---

In [6]:

soup = BeautifulSoup(res.text, "lxml")
books = soup.find_all("h3")

for book in books:
    print(book.find("a")["title"])
    #print(book.text)

A Light in the Attic
Tipping the Velvet
Soumission
Sharp Objects
Sapiens: A Brief History of Humankind
The Requiem Red
The Dirty Little Secrets of Getting Your Dream Job
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics
The Black Maria
Starving Hearts (Triangular Trade Trilogy, #1)
Shakespeare's Sonnets
Set Me Free
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
Rip it Up and Start Again
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991
Olio
Mesaerion: The Best Science Fiction Stories 1800-1849
Libertarianism for Beginners
It's Only the Himalayas


### üéØ Ejercicio 3: Buscar libros con 5 estrellas  
**Objetivo:** Filtrar elementos usando atributos de clase para identificar libros con calificaci√≥n de 5 estrellas.


In [None]:
five_star_books = soup.find_all("p", class_="star-rating Five")

for tag in five_star_books:
    title = tag.find_next("h3").find("a")["title"]
    print(f"üåü {title}")

üåü Sapiens: A Brief History of Humankind
üåü Set Me Free
üåü Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)
üåü Rip it Up and Start Again


### üí∞ Ejercicio 4: Extraer precios usando expresiones regulares  
**Objetivo:** Usar `re` para filtrar todos los precios que aparecen en el HTML.

Las **expresiones regulares** son herramientas muy √∫tiles en programaci√≥n que permiten buscar, identificar y extraer patrones espec√≠ficos dentro de textos. Por ejemplo, puedes usarlas para encontrar precios, correos electr√≥nicos o palabras clave dentro del c√≥digo HTML de una p√°gina web. En el web scraping, las expresiones regulares ayudan a filtrar y limpiar la informaci√≥n obtenida, facilitando el an√°lisis de los datos.

| Car√°cter/Patr√≥n | Explicaci√≥n                                      | Ejemplo de uso                  |
|-----------------|--------------------------------------------------|---------------------------------|
| .               | Cualquier car√°cter excepto salto de l√≠nea         | `a.b` encuentra "acb", "a9b"    |
| ^               | Inicio de l√≠nea                                  | `^Hola` encuentra "Hola mundo"  |
| $               | Fin de l√≠nea                                     | `mundo$` encuentra "Hola mundo" |
| *               | Cero o m√°s repeticiones                          | `ab*c` encuentra "ac", "abc", "abbc" |
| +               | Una o m√°s repeticiones                           | `ab+c` encuentra "abc", "abbc"  |
| ?               | Cero o una repetici√≥n (opcional)                 | `colou?r` encuentra "color", "colour" |
| []              | Conjunto de caracteres                           | `[aeiou]` encuentra cualquier vocal |
| [^]             | Cualquier car√°cter excepto los indicados          | `[^0-9]` encuentra no d√≠gitos   |
| {n}             | Exactamente n repeticiones                       | `a{3}` encuentra "aaa"          |
| {n,}            | Al menos n repeticiones                          | `a{2,}` encuentra "aa", "aaa"   |
| {n,m}           | Entre n y m repeticiones                         | `a{2,4}` encuentra "aa", "aaa", "aaaa" |
| \d              | Cualquier d√≠gito (equivale a [0-9])              | `\d+` encuentra "123" en "abc123" |
| \D              | Cualquier no d√≠gito                              | `\D+` encuentra "abc" en "abc123" |
| \w              | Cualquier car√°cter alfanum√©rico o guion bajo     | `\w+` encuentra "abc123"        |
| \W              | Cualquier car√°cter no alfanum√©rico               | `\W+` encuentra "!" en "abc!"   |
| \s              | Cualquier espacio en blanco                      | `\s+` encuentra espacios, tabulaciones |
| \S              | Cualquier car√°cter que no sea espacio en blanco  | `\S+` encuentra "Hola" en "Hola mundo" |
| \               | Car√°cter de escape para s√≠mbolos especiales      | `\.` encuentra el punto "."     |
| ( )             | Agrupaci√≥n y captura                             | `(abc)+` encuentra "abcabc"     |
| \|              | Alternancia (o l√≥gico)                           | `perro\|gato` encuentra "perro" o "gato" |

In [None]:

prices = re.findall(r"¬£\d+\.\d{2}", res.text)
print(prices)

['¬£51.77', '¬£53.74', '¬£50.10', '¬£47.82', '¬£54.23', '¬£22.65', '¬£33.34', '¬£17.93', '¬£22.60', '¬£52.15', '¬£13.99', '¬£20.66', '¬£17.46', '¬£52.29', '¬£35.02', '¬£57.25', '¬£23.88', '¬£37.59', '¬£51.33', '¬£45.17']


### üì¶ Ejercicio 5: Combina t√≠tulo y precio  
**Objetivo:** Crear un peque√±o script que imprima t√≠tulo y precio de cada libro.

In [None]:
books = soup.find_all("article", class_="product_pod")

for book in books:
    title = book.h3.a["title"]
    price = book.find("p", class_="price_color").text
    print(f"{title} - {price}")

A Light in the Attic - √Ç¬£51.77
Tipping the Velvet - √Ç¬£53.74
Soumission - √Ç¬£50.10
Sharp Objects - √Ç¬£47.82
Sapiens: A Brief History of Humankind - √Ç¬£54.23
The Requiem Red - √Ç¬£22.65
The Dirty Little Secrets of Getting Your Dream Job - √Ç¬£33.34
The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull - √Ç¬£17.93
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics - √Ç¬£22.60
The Black Maria - √Ç¬£52.15
Starving Hearts (Triangular Trade Trilogy, #1) - √Ç¬£13.99
Shakespeare's Sonnets - √Ç¬£20.66
Set Me Free - √Ç¬£17.46
Scott Pilgrim's Precious Little Life (Scott Pilgrim #1) - √Ç¬£52.29
Rip it Up and Start Again - √Ç¬£35.02
Our Band Could Be Your Life: Scenes from the American Indie Underground, 1981-1991 - √Ç¬£57.25
Olio - √Ç¬£23.88
Mesaerion: The Best Science Fiction Stories 1800-1849 - √Ç¬£37.59
Libertarianism for Beginners - √Ç¬£51.33
It's Only the Himalayas - √Ç¬£45.17


### üìÇ Ejercicio 6: Obtener enlaces a detalles de cada libro  
**Objetivo:** Extraer el atributo `href` de cada libro para obtener su URL individual.


In [None]:
base_url = "http://books.toscrape.com/"
for book in books:
    relative_link = book.h3.a["href"]
    print(base_url + relative_link.replace('../', '').strip())

http://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html
http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html
http://books.toscrape.com/catalogue/soumission_998/index.html
http://books.toscrape.com/catalogue/sharp-objects_997/index.html
http://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html
http://books.toscrape.com/catalogue/the-requiem-red_995/index.html
http://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html
http://books.toscrape.com/catalogue/the-coming-woman-a-novel-based-on-the-life-of-the-infamous-feminist-victoria-woodhull_993/index.html
http://books.toscrape.com/catalogue/the-boys-in-the-boat-nine-americans-and-their-epic-quest-for-gold-at-the-1936-berlin-olympics_992/index.html
http://books.toscrape.com/catalogue/the-black-maria_991/index.html
http://books.toscrape.com/catalogue/starving-hearts-triangular-trade-trilogy-1_990/index.html
http://books.toscrape.com/cata

### üßπ Ejercicio 7: Filtrar libros con t√≠tulo que contenga una palabra clave  
**Objetivo:** Usar regex para encontrar libros que contengan, por ejemplo, la palabra "Secret".


In [None]:
pattern = re.compile(r"secret", re.IGNORECASE)

for book in books:
    title = book.h3.a["title"]
    if pattern.search(title):
        print(f"üìò {title}")

üìò The Dirty Little Secrets of Getting Your Dream Job


### üî¢ Ejercicio 8: Contar cu√°ntos libros tienen 3, 4 o 5 estrellas  
**Objetivo:** Contar y clasificar libros seg√∫n la cantidad de estrellas.


In [None]:
ratings = ["Three", "Four", "Five"]
for rating in ratings:
    count = len(soup.find_all("p", class_="star-rating " + rating))
    print(f"‚≠ê {rating} stars: {count} libros")

‚≠ê Three stars: 3 libros
‚≠ê Four stars: 4 libros
‚≠ê Five stars: 4 libros


### üìù Ejercicio 9: Guardar los t√≠tulos y precios en un archivo CSV  
**Objetivo:** Practicar exportaci√≥n de datos.


In [None]:
with open("libros.csv", mode="w", newline="") as file:
    writer = csv.writer(file)
    writer.writerow(["T√≠tulo", "Precio"])
    for book in books:
        title = book.h3.a["title"]
        price = book.find("p", class_="price_color").text
        writer.writerow([title, price])

### üßÆ Ejercicio 10: Convertir los datos en un DataFrame  
**Objetivo:** Crear un `DataFrame` con columnas para t√≠tulo, precio y calificaci√≥n.


In [None]:
data = []
for book in books:
    title = book.h3.a["title"]
    price = book.find("p", class_="price_color").text
    price =  re.sub(r'[^0-9.]', '', price)
    rating_class = book.find("p")["class"]
    rating = rating_class[1] if len(rating_class) > 1 else "No rating"
    data.append({"T√≠tulo": title, "Precio": price, "Estrellas": rating})

df = pd.DataFrame(data)
df

Unnamed: 0,T√≠tulo,Precio,Estrellas
0,A Light in the Attic,51.77,Three
1,Tipping the Velvet,53.74,One
2,Soumission,50.1,One
3,Sharp Objects,47.82,Four
4,Sapiens: A Brief History of Humankind,54.23,Five
5,The Requiem Red,22.65,One
6,The Dirty Little Secrets of Getting Your Dream...,33.34,Four
7,The Coming Woman: A Novel Based on the Life of...,17.93,Three
8,The Boys in the Boat: Nine Americans and Their...,22.6,Four
9,The Black Maria,52.15,One



### üìä Ejercicio 10: Calcular el precio promedio de los libros de la portada  
**Objetivo:** Convertir los precios a float y calcular el promedio.

In [None]:
df['Precio'] = pd.to_numeric(df['Precio'], errors='coerce')
(
    df.groupby('Estrellas')['Precio'].mean()
)

Estrellas
Five     39.750000
Four     31.105000
One      40.018333
Three    42.316667
Two      36.830000
Name: Precio, dtype: float64

# API's

**üîó ¬øQu√© es una API?**  
Una API (Interfaz de Programaci√≥n de Aplicaciones) es un conjunto de reglas que permite que dos programas se comuniquen entre s√≠. En el contexto del an√°lisis de datos, las APIs permiten acceder a informaci√≥n alojada en servidores externos de forma estructurada, r√°pida y segura, sin tener que extraer datos directamente desde el HTML de una p√°gina web. Usar una API es como hacer una solicitud en un restaurante: t√∫ pides (por ejemplo, el clima de hoy) y el servidor te responde con exactamente lo que necesitas, en un formato limpio como JSON o XML.

---

**üìã Tipos de llamadas HTTP comunes en una API**

| M√©todo | Descripci√≥n | Uso com√∫n |
|--------|-------------|-----------|
| `GET`    | Solicita datos desde el servidor | Obtener informaci√≥n (lectura) |
| `POST`   | Env√≠a datos al servidor | Crear un nuevo recurso |
| `PUT`    | Reemplaza un recurso existente | Actualizar por completo un dato |
| `PATCH`  | Modifica parcialmente un recurso | Editar parte de la informaci√≥n |
| `DELETE` | Elimina un recurso | Borrar datos del servidor |


**üóÇÔ∏è ¬øQu√© es el formato JSON y por qu√© es tan usado en APIs?**  
JSON (JavaScript Object Notation) es un formato ligero y estructurado para intercambiar datos. Se basa en pares clave-valor, muy parecido a los diccionarios en Python o los objetos en JavaScript. Su sintaxis sencilla lo hace f√°cil de leer para los humanos y muy eficiente para las m√°quinas. üåç

JSON se ha convertido en el formato preferido para las respuestas de muchas APIs porque permite transmitir informaci√≥n de forma clara, compacta y estandarizada. Cuando haces una llamada a una API, por ejemplo para obtener datos del clima o los detalles de un producto, el servidor suele responder con un objeto JSON. Esto facilita el procesamiento de los datos en aplicaciones web, m√≥viles o scripts de an√°lisis. Su amplia compatibilidad con casi todos los lenguajes de programaci√≥n modernos ha hecho que JSON sea adoptado de manera masiva en el desarrollo de software y an√°lisis de datos. üîÑüì°


## üß™ Pr√°ctica con JSONPlaceholder API (GET y POST)

Trabajaremos con la API p√∫blica [https://jsonplaceholder.typicode.com](https://jsonplaceholder.typicode.com), que simula el comportamiento de una API REST real. Los recursos disponibles incluyen `posts`, `comments`, `users`, entre otros.

### üîç Ejercicio 1: Obtener todas las publicaciones
**Objetivo:** Usar `requests.get()` para obtener una lista de publicaciones.



In [None]:

url = "https://jsonplaceholder.typicode.com/posts"
res = requests.get(url)

print(res.status_code)
print(res.json()[:3])  # Muestra las primeras 3 publicaciones

200
[{'userId': 1, 'id': 1, 'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit', 'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'}, {'userId': 1, 'id': 2, 'title': 'qui est esse', 'body': 'est rerum tempore vitae\nsequi sint nihil reprehenderit dolor beatae ea dolores neque\nfugiat blanditiis voluptate porro vel nihil molestiae ut reiciendis\nqui aperiam non debitis possimus qui neque nisi nulla'}, {'userId': 1, 'id': 3, 'title': 'ea molestias quasi exercitationem repellat qui ipsa sit aut', 'body': 'et iusto sed quo iure\nvoluptatem occaecati omnis eligendi aut ad\nvoluptatem doloribus vel accusantium quis pariatur\nmolestiae porro eius odio et labore et velit aut'}]


### üí¨ Ejercicio 3: Obtener todos los comentarios de una publicaci√≥n  
**Objetivo:** Usar par√°metros en la URL para filtrar comentarios.

In [None]:
params = {"postId": 1}
res = requests.get("https://jsonplaceholder.typicode.com/comments", params=params)

for comment in res.json():
    print(comment["email"], "-", comment["body"][:40], "...")

Eliseo@gardner.biz - laudantium enim quasi est quidem magnam  ...
Jayne_Kuhic@sydney.com - est natus enim nihil est dolore omnis vo ...
Nikita@garfield.biz - quia molestiae reprehenderit quasi asper ...
Lew@alysha.tv - non et atque
occaecati deserunt quas acc ...
Hayden@althea.biz - harum non quasi et ratione
tempore iure  ...


### üìù Ejercicio 4: Crear una nueva publicaci√≥n (POST)  
**Objetivo:** Simular la creaci√≥n de un post usando `requests.post()`.

In [None]:
payload = {
    "title": "Mi primer post",
    "body": "Este es un post de prueba para la clase.",
    "userId": 1
}

res = requests.post("https://jsonplaceholder.typicode.com/posts", json=payload)
print(res.status_code)
print(res.json())

201
{'title': 'Mi primer post', 'body': 'Este es un post de prueba para la clase.', 'userId': 1, 'id': 101}


### üß™ Ejercicio 5: Crear un comentario en una publicaci√≥n  
**Objetivo:** Simular un comentario nuevo con `POST`.

In [None]:
payload = {
    "postId": 1,
    "name": "Comentario de prueba",
    "email": "ejemplo@email.com",
    "body": "¬°Este es un comentario para practicar!"
}

res = requests.post("https://jsonplaceholder.typicode.com/comments", json=payload)
print(res.json())

{'postId': 1, 'name': 'Comentario de prueba', 'email': 'ejemplo@email.com', 'body': '¬°Este es un comentario para practicar!', 'id': 501}


### üóÉÔ∏è Ejercicio 6: Extraer publicaciones y convertirlas a DataFrame  
**Objetivo:** Obtener publicaciones de un usuario y convertirlas en un DataFrame.

In [None]:

params = {"userId": 2}
res = requests.get("https://jsonplaceholder.typicode.com/posts", params=params)
posts = res.json()

df = pd.DataFrame(posts)
df.head()

Unnamed: 0,userId,id,title,body
0,2,11,et ea vero quia laudantium autem,delectus reiciendis molestiae occaecati non mi...
1,2,12,in quibusdam tempore odit est dolorem,itaque id aut magnam\npraesentium quia et ea o...
2,2,13,dolorum ut in voluptas mollitia et saepe quo a...,aut dicta possimus sint mollitia voluptas comm...
3,2,14,voluptatem eligendi optio,fuga et accusamus dolorum perferendis illo vol...
4,2,15,eveniet quod temporibus,reprehenderit quos placeat\nvelit minima offic...


## En resumen en esta sesion revisamos:


1. **Introducci√≥n a la miner√≠a de datos web:**  
   Aprendiste qu√© es la miner√≠a de datos web, su importancia y c√≥mo puede ayudarte a obtener informaci√≥n valiosa de p√°ginas y APIs.

2. **Estructura y etiquetas HTML:**  
   Identificaste los elementos principales del HTML (como `<h1>`, `<p>`, `<a>`, `<table>`, etc.) que facilitan la extracci√≥n de datos relevantes en el web scraping.

3. **Web scraping con Python:**  
   Practicaste c√≥mo usar `requests` y `BeautifulSoup` para recolectar, filtrar y organizar informaci√≥n desde sitios web, incluyendo el uso de expresiones regulares para limpiar datos.

4. **Interacci√≥n con APIs REST:**  
   Aprendiste a realizar peticiones HTTP (`GET`, `POST`) a APIs, a manejar respuestas en formato JSON y a integrar estos datos en DataFrames para su an√°lisis.

5. **Ejercicios pr√°cticos y automatizaci√≥n:**  
   Realizaste ejercicios para extraer t√≠tulos, precios, calificaciones y enlaces de libros, as√≠ como para guardar y analizar la informaci√≥n obtenida, aplicando todo lo aprendido en casos reales.



## üöÄ Para seguir aprendiendo :

---

- üìö Vuelve a revisar este notebook y trata resolver por tu cuenta el proyecto nuevamente
- üí¨ Recuerda que en Discord puedes dejar todos tus comentarios y dudas sobre el contenido del sprint en [Sprint 8](https://discord.com/channels/1081207584104656986/1270074133648113694).
    - üìù Si tienes preguntas sobre tu proyecto, usa el canal `#project` para recibir ayuda y compartir ideas.
    - ü§ù Aprovecha el espacio de `CoLearning` para aclarar tus dudas junto con otros estudiantes e instructores: [Co-Learning](https://discord.com/channels/1081207584104656986/1197953851391746119).
- üìÖ ¬øNecesitas ayuda personalizada? Puedes agendar una sesi√≥n `1:1` conmigo aqu√≠: [1:1 Roman Castillo](https://scheduler.zoom.us/roman-castillo/1-1-roman-castillo).

- Por √∫ltimo hazme paro y responde la encuesta al final de la sesi√≥n, me sirve para poder ayudarte mejor

¬°Sigue practicando y no dudes en pedir apoyo cuando lo necesites! üí™‚ú®