# **Web Scraping con Python: Extrae datos de cualquier p√°gina en minutos (sin complicarte)**

https://www.youtube.com/watch?v=kMcXdB0fJkE

En este video pr√°ctico te muestro c√≥mo extraer datos de una p√°gina web real utilizando Python, BeautifulSoup y pandas. Aprender√°s paso a paso c√≥mo conectarte a un sitio, identificar el contenido que necesitas, procesarlo y guardarlo en un archivo CSV listo para tus an√°lisis.

üìå Herramientas que usaremos:
`requests` para conectarnos a la web
`BeautifulSoup` para analizar el HTML
`pandas` para estructurar y guardar los datos

üåê Sitio usado en el ejemplo: https://quotes.toscrape.com/  
(P√°gina p√∫blica dise√±ada para practicar scraping legalmente)

‚úÖ Ideal para:
Principiantes que quieren su primer proyecto real de automatizaci√≥n
Analistas que necesitan recolectar datos de forma autom√°tica
Estudiantes que buscan practicar con un caso concreto

# **Librerias que usaremos**

**request** (nos permite hacer peticiones https a la pagina web)
(En otras palabras, conectarnos a la pagina web y traeer todo el cuerpo)

**BeautifulSoup** (nos ayudara a hacer el scraping)

**Pandas** (para convertir esos datos en un data set y poder guardarlo en un excel o csv, etc)

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
# Paso 1: Solicitud a la web
url = "https://quotes.toscrape.com/"
response = requests.get(url)

In [None]:
#¬øQue pasa si imprimimos response?
# todas las respuestas http tienen distintos codigos 
#( 200=Solicitud Exitosa) ( 300=) ( 400= ) ( 500=)
print(response)

<Response [200]>


In [6]:
# Paso 2: Verificar que la solicitud fue exitosa

if response.status_code != 200:
    print(f"Error al acceder a la pagina: {response.status_code}")
    exit()

In [8]:
#¬øQue pasaria si imprimo el response.text?
# R: Muestra todo el codigo fuente de la pagina
print(response.text)

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css">
    <link rel="stylesheet" href="/static/main.css">
    
    
</head>
<body>
    <div class="container">
        <div class="row header-box">
            <div class="col-md-8">
                <h1>
                    <a href="/" style="text-decoration: none">Quotes to Scrape</a>
                </h1>
            </div>
            <div class="col-md-4">
                <p>
                
                    <a href="/login">Login</a>
                
                </p>
            </div>
        </div>
    

<div class="row">
    <div class="col-md-8">

    <div class="quote" itemscope itemtype="http://schema.org/CreativeWork">
        <span class="text" itemprop="text">‚ÄúThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.‚Äù</span>
        <span>by <small class="

# Apartir de aqui, lo que hacemos con BeautifulSoup, es revisar este codigo fuente para traer solo lo que nos interesa

# **¬øQue significa PARSEAR?**
parsear significa analizar el c√≥digo HTML o JSON de una p√°gina web para descomponerlo en sus elementos constituyentes y extraer la informaci√≥n espec√≠fica que necesitas (como textos, precios o enlaces), convirti√©ndola de un formato desestructurado (texto) a una estructura de datos organizada (como una lista o diccionario) que tu programa pueda usar f√°cilmente. Es la fase de organizaci√≥n y filtrado que viene despu√©s de obtener el contenido crudo (scraping). 

In [9]:
# Paso 3: Parsear el contenido HTML
soup = BeautifulSoup(response.text, "html.parser")

In [10]:
# paso 4: Encontrar todas las citas

citas = soup.find_all("div", class_="quote")

#en el html hay muchos div, pero con esto, le estamos diciendo que solo nos traiga todos los div PERO que tengan la clase quote

# citas seria una lista, entonces podemos probar imprimir su primer elemento

In [11]:
citas[0]

<div class="quote" itemscope="" itemtype="http://schema.org/CreativeWork">
<span class="text" itemprop="text">‚ÄúThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.‚Äù</span>
<span>by <small class="author" itemprop="author">Albert Einstein</small>
<a href="/author/Albert-Einstein">(about)</a>
</span>
<div class="tags">
            Tags:
            <meta class="keywords" content="change,deep-thoughts,thinking,world" itemprop="keywords"/>
<a class="tag" href="/tag/change/page/1/">change</a>
<a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>
<a class="tag" href="/tag/thinking/page/1/">thinking</a>
<a class="tag" href="/tag/world/page/1/">world</a>
</div>
</div>

In [12]:
# Paso 5: Extraer texto de la cita y autor
resultados = []

for cita in citas:
   
    texto = cita.find("span", class_="text").get_text(strip=True)
    autor = cita.find("small", class_="author").get_text(strip=True)
    
    resultados.append({"cita": texto, "autor": autor})

In [13]:
resultados

[{'cita': '‚ÄúThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.‚Äù',
  'autor': 'Albert Einstein'},
 {'cita': '‚ÄúIt is our choices, Harry, that show what we truly are, far more than our abilities.‚Äù',
  'autor': 'J.K. Rowling'},
 {'cita': '‚ÄúThere are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.‚Äù',
  'autor': 'Albert Einstein'},
 {'cita': '‚ÄúThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.‚Äù',
  'autor': 'Jane Austen'},
 {'cita': "‚ÄúImperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.‚Äù",
  'autor': 'Marilyn Monroe'},
 {'cita': '‚ÄúTry not to become a man of success. Rather become a man of value.‚Äù',
  'autor': 'Albert Einstein'},
 {'cita': '‚ÄúIt is better to be hated for what you are than to be loved for what you are not.‚Äù',
 

In [None]:
# Paso 6: Guardar como CSV

df = pd.DataFrame(resultados)
df.to_csv("citas_famosas.csv", index=False) #indices = false para que no guarde los indices numericos

print("Citas extraidas y guardadas en citas_famosas.csv ")

Citas extraidas y guardadas en citas_famosas.csv 
