<a href="https://colab.research.google.com/github/gianmarcomejia96/UTEC_DATA_DISCOVERY/blob/main/tutorial_webscraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# TUTORIAL WEB SCRAPING

Este tutorial explica los conceptos fundamentales de web scraping:
- Cómo hacer solicitudes HTTP con requests
- Entender la estructura HTML
- Trabajar con tags (etiquetas) HTML
- Extraer información específica

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

### SOLICITUDES HTTP (REQUESTS)

In [None]:
url = "https://quotes.toscrape.com/"
print(f"\n1. URL objetivo: {url}")
response = requests.get(url)

print(f"\n2. Código de respuesta: {response.status_code}")

print(f"   Tamaño del contenido: {len(response.content)} bytes")

print(f"\n4. Texto del HTML:")
print(response.text)


1. URL objetivo: https://quotes.toscrape.com/

2. Código de respuesta: 200
   Tamaño del contenido: 11064 bytes

4. Texto del HTML:
<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css">
    <link rel="stylesheet" href="/static/main.css">
    
    
</head>
<body>
    <div class="container">
        <div class="row header-box">
            <div class="col-md-8">
                <h1>
                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>
                </h1>
            </div>
            <div class="col-md-4">
                <p>
                
                    <a href="/login">Login</a>
                
                </p>
            </div>
        </div>
    

<div class="row">
    <div class="col-md-8">

    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">“The world as we have cre

### ESTRUCTURA HTML Y TAGS (ETIQUETAS)

HTML (HyperText Markup Language) está compuesto de TAGS (etiquetas).

#### ESTRUCTURA BÁSICA:
------------------
- `<tag>contenido</tag>`          # Tag con apertura y cierre
- `<tag atributo="valor">`        # Tag con atributos

#### TAGS COMUNES:
-------------
- `<html>`     - Raíz del documento
- `<head>`     - Información del documento (metadatos)
- `<body>`     - Contenido visible
- `<div>`      - División o contenedor genérico
- `<span>`     - Contenedor en línea
- `<p>`        - Párrafo
- `<a>`        - Enlace (href="url")
- `<img>`      - Imagen (src="url")
- `<h1>-<h6>`  - Encabezados (h1 es el más grande)
- `<ul>/<ol>`  - Listas (no ordenada/ordenada)
- `<li>`       - Item de lista

#### ATRIBUTOS IMPORTANTES:
----------------------
- class="nombre"   - Clase CSS (puede repetirse en múltiples elementos)
- id="nombre"      - Identificador único
- href="url"       - URL de un enlace
- src="url"        - Fuente de una imagen

#### EJEMPLO:
--------
```
<div class="quote">
    <span class="text">"La vida es bella"</span>
    <small class="author">Oscar Wilde</small>
</div>
```

### PARSEAR HTML CON BEAUTIFULSOUP

In [None]:
soup = BeautifulSoup(response.content, "html.parser")
# print(soup.prettify())

title = soup.find("title")
print(f"\nTítulo de la página: {title.text}")

h1 = soup.find("h1")
if h1:
    print(f"\nPrimer encabezado H1: {h1.text}")


Título de la página: Quotes to Scrape

Primer encabezado H1: 
Quotes to Scrape



### BUSCAR ELEMENTOS POR TAG

In [None]:
first_div = soup.find("div")
print(f"\n1. Primer <div> encontrado:")
print(f"   Contenido (primeros 100 chars): {str(first_div)[:100]}...")
all_spans = soup.find_all("span")
print(f"\n2. Total de <span> encontrados: {len(all_spans)}")
print("\n   Primeros 3 spans:")
for i, span in enumerate(all_spans[:3], 1):
    print(f"   {i}. {span.text[:50]}...")


1. Primer <div> encontrado:
   Contenido (primeros 100 chars): <div class="container">
<div class="row header-box">
<div class="col-md-8">
<h1>
<a href="/" style="...

2. Total de <span> encontrados: 32

   Primeros 3 spans:
   1. “The world as we have created it is a process of o...
   2. by Albert Einstein
(about)
...
   3. “It is our choices, Harry, that show what we truly...


### BUSCAR ELEMENTOS POR CLASE

In [None]:
quotes = soup.find_all("div", class_="quote")
print(f"\n1. Total de elementos con class='quote': {len(quotes)}")
if quotes:
    first_quote = quotes[0]
    print("\n2. Estructura del primer quote:")
    print(first_quote.prettify()[:500])
    print("...")



1. Total de elementos con class='quote': 10

2. Estructura del primer quote:
<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
 <span class="text" itemprop="text">
  “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
 </span>
 <span>
  by
  <small class="author" itemprop="author">
   Albert Einstein
  </small>
  <a href="/author/Albert-Einstein">
   (about)
  </a>
 </span>
 <div class="tags">
  Tags:
  <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="ke
...


### EXTRAER DATOS ESPECÍFICOS

In [None]:
print("\n1. Extraer texto de las citas:")
datos_extraidos = []
for i, quote in enumerate(quotes[:3], 1):  # Solo primeros 3 para el ejemplo
    # Extraer el texto de la cita
    texto = quote.find("span", class_="text")
    # Extraer el autor
    autor = quote.find("small", class_="author")
    # Extraer tags (etiquetas de categoría)
    tags = quote.find_all("a", class_="tag")
    tags_list = [tag.text for tag in tags]
    print(f"\n   Quote {i}:")
    print(f"   Texto: {texto.text if texto else 'N/A'}")
    print(f"   Autor: {autor.text if autor else 'N/A'}")
    print(f"   Tags: {', '.join(tags_list) if tags_list else 'N/A'}")
    # Guardar en la lista
    datos_extraidos.append({
        'cita': texto.text if texto else None,
        'autor': autor.text if autor else None,
        'tags': ', '.join(tags_list) if tags_list else None
    })



1. Extraer texto de las citas:

   Quote 1:
   Texto: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
   Autor: Albert Einstein
   Tags: change, deep-thoughts, thinking, world

   Quote 2:
   Texto: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
   Autor: J.K. Rowling
   Tags: abilities, choices

   Quote 3:
   Texto: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
   Autor: Albert Einstein
   Tags: inspirational, life, live, miracle, miracles


### EJERCICIO EN EQUIPO:
a) Extraiga e imprima los top 10 tags que se encuentra al lado derecho de la página

b) Extraiga, de las citas, el nombre de los autores y sus respectivos nacimientos, y conviértalos en un dataframe.

Excluya duplicados. Se muestran los dos primeros registros del resultado esperado.

| Nombre           | Nacimiento                                                     |
|------------------|----------------------------------------------------------------|
| Albert Einstein  | March 14, 1879 in Ulm, Germany                                  |
| J.K. Rowling     | July 31, 1965 in Yate, South Gloucestershire, England, The UK   |

### MÉTODOS ÚTILES DE BEAUTIFULSOUP

#### MÉTODOS PRINCIPALES:
--------------------

1. find(tag, attrs)
   - Encuentra el PRIMER elemento que coincide
   - Ejemplo: soup.find("div", class_="quote")

2. find_all(tag, attrs)
   - Encuentra TODOS los elementos que coinciden
   - Ejemplo: soup.find_all("a", href=True)

3. select(css_selector)
   - Usa selectores CSS
   - Ejemplo: soup.select("div.quote > span.text")

4. get_text() o .text
   - Extrae solo el texto, sin tags
   - Ejemplo: element.get_text(strip=True)

5. get(atributo)
   - Obtiene el valor de un atributo
   - Ejemplo: link.get("href")

In [None]:
example1 = soup.find_all("span", class_="text")
print(f"1. Todos los spans con clase 'text': {len(example1)} encontrados")

links = soup.find_all("a", href=True)
print(f"\n2. Todos los enlaces <a> con href: {len(links)} encontrados")
if links:
    print(f"   Primer link: {links[0].get('href')}")

css_quotes = soup.select("div.quote")
print(f"\n3. Usando selector CSS 'div.quote': {len(css_quotes)} encontrados")

example_quote = quotes[0] if quotes else None
if example_quote:
    # Obtener el padre
    parent = example_quote.parent
    print(f"\n4. Tag padre del primer quote: <{parent.name}>")
    # Obtener hijos
    children = list(example_quote.children)
    print(f"   Número de hijos directos: {len([c for c in children if c.name])}")


1. Todos los spans con clase 'text': 10 encontrados

2. Todos los enlaces <a> con href: 55 encontrados
   Primer link: /

3. Usando selector CSS 'div.quote': 10 encontrados

4. Tag padre del primer quote: <div>
   Número de hijos directos: 3


#### CONVERTIR DATOS A DATAFRAME

In [None]:
print("\n" + "=" * 80)
all_data = []
for quote in quotes:
    texto = quote.find("span", class_="text")
    autor = quote.find("small", class_="author")
    tags = quote.find_all("a", class_="tag")
    tags_list = [tag.text for tag in tags]
    all_data.append({
        'cita': texto.text if texto else None,
        'autor': autor.text if autor else None,
        'tags': ', '.join(tags_list) if tags_list else None
    })
df = pd.DataFrame(all_data)
print(f"\n1. DataFrame creado con {len(df)} registros")
print(f"\n2. Columnas: {list(df.columns)}")
print(f"\n3. Primeras 3 filas:")
print(df.head(3))



1. DataFrame creado con 10 registros

2. Columnas: ['cita', 'autor', 'tags']

3. Primeras 3 filas:
                                                cita            autor  \
0  “The world as we have created it is a process ...  Albert Einstein   
1  “It is our choices, Harry, that show what we t...     J.K. Rowling   
2  “There are only two ways to live your life. On...  Albert Einstein   

                                           tags  
0        change, deep-thoughts, thinking, world  
1                            abilities, choices  
2  inspirational, life, live, miracle, miracles  


#### BUENAS PRÁCTICAS EN WEB SCRAPING

1. RESPETAR robots.txt

2. AGREGAR DELAYS (PAUSAS)
   - No hagas demasiadas solicitudes rápidas
   - Usa time.sleep() entre solicitudes
   - Ejemplo: time.sleep(1)  # Esperar 1 segundo

3. USER AGENT
   - Identifícate correctamente
   - headers = {'User-Agent': 'Mi Bot 1.0'}
   - requests.get(url, headers=headers)

4. MANEJO DE ERRORES
   - Usa try/except para capturar errores
   - Verifica status_code antes de parsear

5. RATE LIMITING
   - Limita el número de solicitudes por minuto
   - Algunos sitios bloquean IPs con muchas solicitudes

6. USAR APIs CUANDO EXISTAN
   - Muchos sitios ofrecen APIs oficiales
   - Son más confiables que el scraping

### Ejemplo

```python
headers = {
    'User-Agent': 'Mozilla/5.0 (Tutorial Bot 1.0)'
}
try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # Lanza excepción si hay error
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, "html.parser")
        # ... tu código de scraping ...
    time.sleep(1)  # Pausa entre solicitudes
except requests.exceptions.RequestException as e:
    print(f"Error en la solicitud: {e}")
```