# 📈 Extracción de datos de acciones usando Web Scraping

¡Prepárate para una emocionante misión de análisis financiero! 🕵️‍♂️✨ En este ejercicio, te adentrarás en el fascinante mundo del **web scraping** para obtener datos financieros históricos directamente desde una página web. No todo está disponible a través de una API, así que es hora de poner manos a la obra. 🚀

🛠 ***¿Qué harás?***

📊 1. **Extraer datos históricos de acciones** : Usarás la poderosa biblioteca **BeautifulSoup** para explorar y obtener información relevante desde una página web.

---


¡Listo para el desafío! 🎯


## 📚 Tabla de contenidos

¡Sigue este emocionante recorrido para convertir datos financieros en conocimiento! 🎢💼

1. 🔍 **Extracción de Datos con BeautifulSoup**
   - Descargar una página web usando la biblioteca Requests 🌐
   - Analizar el HTML de una página web con BeautifulSoup 🕵️‍♂️
   - Extraer datos y construir un DataFrame 📊

2. 🐼 **Extracción de Datos usando Pandas**
   - Aprende a manejar datos estructurados directamente con **pandas** para facilitar el análisis. 📜

3. 💪 **Ejercicio**
   - ¡Ponte a prueba! Practica lo aprendido con un desafío interactivo. 🎯


## ✨ **1. Instalación de librerías**  
Ejecuta este bloque en Colab para instalar las dependencias necesarias.  

```python
# Instalar las librerías necesarias
!pip install pandas
!pip install requests
!pip install bs4



In [1]:
!pip install pandas
!pip install requests
!pip install bs4

Collecting bs4
  Downloading bs4-0.0.2-py2.py3-none-any.whl.metadata (411 bytes)
Downloading bs4-0.0.2-py2.py3-none-any.whl (1.2 kB)
Installing collected packages: bs4
Successfully installed bs4-0.0.2


##🐍 **2. Importar las librerías**

Asegúrese de importar las librerías correctamente antes de continuar. También ignoraremos las advertencias para mantener limpio el entorno.

In [2]:
# Importar librerías esenciales
import pandas as pd
import requests
from bs4 import BeautifulSoup
import warnings
import yfinance as yf

# Ignorar advertencias
warnings.filterwarnings("ignore", category=FutureWarning)

##🌐 **3. Definir la URL del Sitio Web**
Vamos a extraer los datos históricos de la acción de Netflix (NFLX) desde Yahoo Finance .

In [40]:
# Definir el símbolo de la acción
ticker = "NFLX"

# Descargar datos históricos de Netflix
data = yf.download(ticker, period="1y", interval="1d")  # 1 año de datos diarios

# Mostrar los primeros 5 datos
print(data.head())


[*********************100%***********************]  1 of 1 completed

Price                       Adj Close       Close        High         Low  \
Ticker                           NFLX        NFLX        NFLX        NFLX   
Date                                                                        
2023-11-28 00:00:00+00:00  479.000000  479.000000  480.500000  475.950012   
2023-11-29 00:00:00+00:00  477.190002  477.190002  480.989990  474.489990   
2023-11-30 00:00:00+00:00  473.970001  473.970001  478.589996  470.420013   
2023-12-01 00:00:00+00:00  465.739990  465.739990  475.230011  464.600006   
2023-12-04 00:00:00+00:00  453.899994  453.899994  461.200012  451.200012   

Price                            Open   Volume  
Ticker                           NFLX     NFLX  
Date                                            
2023-11-28 00:00:00+00:00  478.109985  2890200  
2023-11-29 00:00:00+00:00  479.000000  2855500  
2023-11-30 00:00:00+00:00  475.309998  4287300  
2023-12-01 00:00:00+00:00  473.170013  4338100  
2023-12-04 00:00:00+00:00  460.989990  5




##📋 **4. Enviar una solicitud HTTP**
Usaremos la librería requests para obtener el contenido HTML de la página web.

In [61]:
# Enviar una solicitud HTTP para obtener el contenido HTML
data = requests.get(url).text

# Mostrar parte del contenido HTML (opcional, para inspección)
print(data[:500])  # Imprimir los primeros 500 caracteres

<!DOCTYPE html>
  <html lang="en-us"><head>
  <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <meta charset="utf-8">
      <title>Yahoo</title>
      <meta name="viewport" content="width=device-width,initial-scale=1,minimal-ui">
      <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">
      <style>
  html {
      height: 100%;
  }
  body {
      background: #fafafc url(https://s.yimg.com/nn/img/sad-panda-201402200631.png) 50% 50%;
      background-size: cove


##🧠**5. Analizar el HTML con BeautifulSoup**
El análisis del HTML permite estructurar y manipular los datos de forma efectiva.

In [62]:
# Crear un objeto BeautifulSoup para analizar el HTML
soup = BeautifulSoup(data, 'html.parser')

##🔍 **6. Identificar la Tabla HTML**

Identificaremos las etiquetas <**table**> y <**tbody**> donde se almacenan los datos. Creamos un DataFrame vacío para guardar la información extraída.

In [44]:
# Crear un DataFrame vacío con las columnas necesarias
netflix_data = pd.DataFrame(columns=["Date", "Open", "High", "Low", "Close", "Volume"])

##🛠 **7. Extraer los Datos de la Tabla**
Extraemos las filas ( <tr>) y celdas ( <td>) para completar el DataFrame con los datos relevantes.

In [45]:
# Localizar el cuerpo de la tabla
table_body = soup.find("tbody")

# Iterar sobre las filas de la tabla
for row in table_body.find_all('tr'):
    col = row.find_all('td')
    if len(col) > 1:  # Ignorar filas vacías
        date = col[0].text
        open_ = col[1].text
        high = col[2].text
        low = col[3].text
        close = col[4].text
        volume = col[6].text

        # Agregar datos al DataFrame
        netflix_data = pd.concat([netflix_data, pd.DataFrame({
            "Date": [date],
            "Open": [open_],
            "High": [high],
            "Low": [low],
            "Close": [close],
            "Volume": [volume]
        })], ignore_index=True)

##🖨 **8. Mostrar los datos extraídos**
Verifica los datos extraídos imprimiendo las primeras filas del DataFrame.

In [63]:
# Mostrar las primeras filas del DataFrame
print(netflix_data.head())

Empty DataFrame
Columns: [Date, Open, High, Low, Close, Volume]
Index: []


##🐼 **9. Extracción alternativa con Pandas**
Pandas también permite extraer directamente tablas de una página web utilizando pd.read_html().

In [48]:
# Obtener datos históricos de Netflix usando el símbolo de cotización "NFLX"
nflx = yf.Ticker("NFLX")
nflx_data = nflx.history(period="1y")  # Datos del último año

# Mostrar las primeras 5 filas de los datos históricos
print(nflx_data.head())


                                 Open        High         Low       Close  \
Date                                                                        
2023-11-28 00:00:00-05:00  478.109985  480.500000  475.950012  479.000000   
2023-11-29 00:00:00-05:00  479.000000  480.989990  474.489990  477.190002   
2023-11-30 00:00:00-05:00  475.309998  478.589996  470.420013  473.970001   
2023-12-01 00:00:00-05:00  473.170013  475.230011  464.600006  465.739990   
2023-12-04 00:00:00-05:00  460.989990  461.200012  451.200012  453.899994   

                            Volume  Dividends  Stock Splits  
Date                                                         
2023-11-28 00:00:00-05:00  2890200        0.0           0.0  
2023-11-29 00:00:00-05:00  2855500        0.0           0.0  
2023-11-30 00:00:00-05:00  4287300        0.0           0.0  
2023-12-01 00:00:00-05:00  4338100        0.0           0.0  
2023-12-04 00:00:00-05:00  5157700        0.0           0.0  


In [77]:
# Descargar datos históricos de AMZN
amzn = yf.Ticker("AMZN")
amazon_data = amzn.history(period="1y")  # Puedes cambiar el período según lo necesites

print(data)


                                 Open        High         Low       Close  \
Date                                                                        
2023-11-28 00:00:00-05:00  146.979996  147.600006  145.529999  147.029999   
2023-11-29 00:00:00-05:00  147.850006  148.539993  145.970001  146.320007   
2023-11-30 00:00:00-05:00  144.759995  146.929993  144.330002  146.089996   
2023-12-01 00:00:00-05:00  146.000000  147.250000  145.550003  147.029999   
2023-12-04 00:00:00-05:00  145.250000  145.350006  142.809998  144.839996   
...                               ...         ...         ...         ...   
2024-11-21 00:00:00-05:00  203.490005  203.490005  195.750000  198.380005   
2024-11-22 00:00:00-05:00  198.250000  199.259995  196.750000  197.119995   
2024-11-25 00:00:00-05:00  199.279999  201.949997  199.000000  201.449997   
2024-11-26 00:00:00-05:00  201.899994  208.000000  201.789993  207.860001   
2024-11-27 00:00:00-05:00  206.979996  207.639999  205.050003  205.740005   

**Ejercicio:**

1. ¿Cuáles son los nombres de las columnas en el DataFrame?

In [80]:
# Escribe aqui tu codigo



<details><summary>Haz clic aquí para ver la solución 💡</summary>

```python
print("Nombres de las columnas:", amazon_data.columns.tolist())
```
</details>

2. ¿Cuál es el valor de ***Open*** la última fila del DataFrame?

In [82]:
# Escribe aqui tu codigo


<details><summary>Haz clic aquí para ver la solución 💡</summary>

```python
last_open = amazon_data.iloc[-1]['Open']
print("El valor de 'Open' en la última fila es:", last_open)
```
</details>

**Autor**

<a href="https://www.linkedin.com/in/mbaeduleon/">Ing. David Eduardo León</a> 🌟

## Otros colaboradores

<a href="https://www.linkedin.com"> </a> 🤝

## Registro de cambios

| Fecha (AAAA-MM-DD) | Versión | Cambiado por | Descripción del cambio            |
| ------------------- | ------- | ------------ | --------------------------------- |
|                     |         |              |                                   |
|                     |         |              |                                   |