<a href="https://colab.research.google.com/github/adeth22/TalentoTech_Andres/blob/main/web_scraping2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**WEB Scraping**

### El Web Scraping es una técnica utilizada para extraer datos de sitios web de manera automática. Este proceso implica el uso de programas de software que envían solicitudes a páginas web, recuperan su contenido HTML, y extraen la información deseada, la cual puede ser almacenada y analizada posteriormente. Es una herramienta poderosa para recolectar grandes volúmenes de datos no estructurados que se encuentran en la web y transformarlos en datos estructurados para análisis, investigación, y diversas aplicaciones comerciales.

In [None]:
#Instalación de librerías python necesarias, si es requerido
!pip install requests
!pip install beautifulsoup4
!pip install pandas



In [None]:
#Importar librerías para extracción de datos web
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
#Sitio web de la extracción de datos
url         = "http://books.toscrape.com/"
response    = requests.get(url)
soup        = BeautifulSoup(response.content, 'html.parser')

In [None]:
#ejemplo de lectura y extracción de un html con la librería BeautifulSoup
html_doc    = "<html><head><title>Example</title></head><body><p>Bienvenidos</p></body></html>"
soup        = BeautifulSoup(html_doc, 'html.parser')
print(soup.body.string)

Bienvenidos


In [None]:
#recorriendo los datos y almacenandolos en una lista
books = soup.find_all('article', class_='product_pod')#accede a la etiqueta article y la clase product_pod
book_list = [] #crea una lista vacia

for book in books: #creando estructura repetitiva for
    title = book.h3.a['title']
    price = book.find('p', class_='price_color').text
    book_list.append({"Title": title, "Price": price})

In [None]:
#Crear el dataframe de pandas
df_books = pd.DataFrame(book_list)
print(df_books)

Empty DataFrame
Columns: []
Index: []


In [None]:
#convertir el valor en £ a dolares
# Cantidad en libras
amount_gbp = 51.77

# Tasa de cambio (1 GBP = 1.27 USD)
exchange_rate = 1.27

# Conversión a dólares
amount_usd = amount_gbp * exchange_rate

# Imprimimos el Resultado
print(f"£{amount_gbp} es igual a ${amount_usd:.2f} USD")

£51.77 es igual a $65.75 USD


In [None]:
# convierte todos los valores de la columna Price a dolares
# Elimina el símbolo de la moneda y convierte a float
df_books['Price'] = df_books['Price'].str.replace('£', '').astype(float)

# Convierte a dólares
df_books['Price (USD)'] = df_books['Price'] * exchange_rate

KeyError: 'Price'

In [None]:
# Se redondea el precio en dolares
df_books['Price (USD)'] = df_books['Price (USD)'].round(2)
df_books.head()

In [None]:
#Se guarda el resultado en .csv, queda en el folder temporal del drive
df_books.to_csv('books.csv', index=False)


In [None]:
#Se realiza visualización de los datos con la librería plotly
import plotly.express as px

fig = px.bar(df_books, x='Title', y='Price (USD)', title='Book Prices')
fig.show()

In [None]:
#Se realiza visualización de los datos con la librería matplotlib
import matplotlib.pyplot as plt

df_books.plot(kind='bar', x='Title', y='Price (USD)', legend=False)
plt.ylabel('Price in USD')
plt.title('Book Prices')
plt.xticks(rotation=90)
plt.show()

# Otros ejemplos de páginas para hacer web scraping

In [None]:
url = 'https://www.bbc.com/sport'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

In [None]:
headlines = soup.find_all(class_='ssrcss-1mhwnz8-Promo e1vyq2e80')
news_list = [headline.get_text() for headline in headlines]
print(news_list)

In [None]:
news_df = pd.DataFrame(news_list, columns=['Headline'])
news_df.head()