<a href="https://colab.research.google.com/github/zumaia/python/blob/master/Web_Scraping_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web Scraping con Python: Guía Paso a Paso


## Introducción

El web scraping es una técnica que podría ayudarnos a transformar datos HTML no estructurados en datos estructurados en una hoja de cálculo o base de datos. Además de usar Python para escribir códigos, acceder a los datos del sitio web con API o data extraction herramientas como Octoparse son otras opciones alternativas para el web scraping.

Para algunos sitios web grandes como Airbnb o Twitter, proporcionarían API para que los desarrolladores accedan a sus datos. API significa interfaz de programación de aplicaciones, que es el acceso para que dos aplicaciones se comuniquen entre sí. Para la mayoría de las personas, API es el enfoque más óptimo para obtener datos proporcionados por el propio sitio web.

Sin embargo, la mayoría de los sitios web no tienen servicios API. A veces, incluso si proporcionan API, los datos que podría obtener no son los que desea. Por lo tanto, escribir una secuencia de comandos de Python para crear un rastreador web se convierte en otra solución poderosa y flexible.

Entonces, ¿Por qué deberíamos usar python en lugar de otros idiomas?

    Flexibilidad: Como sabemos, los sitios web se actualizan rápidamente. No solo el contenido sino también la estructura web cambiarían con frecuencia. Python es un lenguaje fácil de usar porque es dinámicamente imputable y altamente productivo. Por lo tanto, las personas pueden cambiar su código fácilmente y mantenerse al día con la velocidad de las actualizaciones web.
    Potente: Python tiene una gran colección de bibliotecas maduras. Por ejemplo, las solicitudes, beautifulsoup4 podrían ayudarnos a obtener URL y extraer información de las páginas web. Selenium podría ayudarnos a evitar algunas técnicas anti-scraping al dar a los rastreadores web la capacidad de imitar comportamientos de navegación humanos. Además, re, numpy y pandas podrían ayudarnos a limpiar y procesar los datos.

¡Ahora comencemos nuestro viaje en web scraping usando Python!

## Paso 1: Importar la biblioteca de Python

En este tutorial, le mostraremos cómo scrape las reseñas de Yelp. Utilizaremos dos bibliotecas: BeautifulSoup en bs4 y request en urllib. Estas dos bibliotecas se usan comúnmente en la construcción de un rastreador web con Python. El primer paso es importar estas dos bibliotecas en Python para que podamos usar las funciones en estas bibliotecas.

In [1]:
# import packages
from bs4 import BeautifulSoup
import urllib.request

# Paso 2: Extraer el HTML de la página web

Necesitamos extraer comentarios de “https://www.yelp.com/biz/milk-and-cream-cereal-bar-new-york?osq=Ice+Cream”. Primero, guardemos la URL en una variable llamada URL. Entonces podríamos acceder al contenido de esta página web y guardar el HTML en “ourUrl” utilizando la función urlopen() en la solicitud.

In [2]:
# the targeted URL
url = "https://www.yelp.com/biz/milk-and-cream-cereal-bar-new-york?osq=Ice+Cream"

In [3]:
#use request to open the URL
ourUrl = urllib.request.urlopen(url)

Luego aplicamos BeautifulSoup para analizar la página.

In [4]:
# create a BeautifulSoup object, which represents the documents as a nested data
# structure parse the page
soup = BeautifulSoup(ourUrl, "html.parser")

Ahora que tenemos la “soup”, que es el HTML sin formato para este sitio web, podríamos usar una función llamada prettify() para limpiar los datos sin procesar e imprimirla para ver la estructura anidada de HTML en la “soup”.

In [5]:
# to see what inside the soup
# print(soup.prettify())

# Paso 3: Ubica y Scraping las reseñas

A continuación, deberíamos encontrar las reseñas HTML en esta página web, extraerlas y almacenarlas. Para cada elemento en la página web, siempre tendrían una “ID” HTML única. Para verificar su ID, necesitaríamos INSPECT en una página web.

Después de hacer clic en “Inspeccionar elemento” (o “Inspeccionar”, depende de diferentes navegadores), podemos ver el HTML de las revisiones.

In [6]:
review=[] # create an empty list to store reviews
for i in soup.find_all("div", {"class":"lemon--div__373c0__1mboc margin-b2__373c0__abANL border-color--default__373c0__3-ifU"}):
  per_review=i.find("p") # extract review
  print(per_review)
  review.append(per_review) # append review

None
None
None
None
<p class="lemon--p__373c0__3Qnnj text__373c0__2Kxyz comment__373c0__3EKjH text-color--normal__373c0__3xep9 text-align--left__373c0__2XGa-"><span class="lemon--span__373c0__3997G raw__373c0__3rKqk" lang="en">One of my favorite cereal icecream places. I'm a huge cereal and icecream/froyo fan so I've tried all the ones in the area, including the famous milk bar cereal soft serve. None compare.<br/>For starters they have every single cereal you could ever want to make a custom sundae. They grind whatever you choose into the soft serve which truly encompasses the flavor throughout. Then if that wasn't already good enough- you get to add more cereal to the top! (And whatever other toppings you choose)<br/>I have also had the pre created sundae combos which are also equally delicious. <br/><br/>Ends up costing around $8 but is a large portion (have shared with my sister). I have/ will continue to go back.</span></p>
None
<p class="lemon--p__373c0__3Qnnj text__373c0__2Kxyz 

Ahora tenemos todas las reseñas de esa página. Veamos cuántas reseñas hemos extraído.

In [7]:
len(review) # how many reviews we collect


45

# Paso 4: Limpia las reseñas

Debe tener en cuenta que todavía hay algunos textos inútiles como “<p lang=’en’>” al comienzo de cada revisión, “<br/>” en el medio de las revisiones y “</p>” en Fin de cada revisión.

“<br/>” representa un salto de línea simple. No necesitamos ningún salto de línea en las revisiones, por lo que tendremos que eliminarlos. Además, “<p lang=’en’>” y “</p>” son el principio y el final del HTML y también debemos eliminarlos.

In [8]:
# Limpieza básica
New_review=[]  # create an empty list to store new reviews
for each in review:
  new_each=str(each).replace("<br>","") #remove <br/> with empy, which means delete
  new_each=str(each).replace("<br/>","")
  new_each=new_each[207:-12]  #elimina los primeros 13 string y los últimos 4,
                            #los cuales son >p lang='en' > y </p>
  print (new_each)
  New_review.append(new_each)





One of my favorite cereal icecream places. I'm a huge cereal and icecream/froyo fan so I've tried all the ones in the area, including the famous milk bar cereal soft serve. None compare.For starters they have every single cereal you could ever want to make a custom sundae. They grind whatever you choose into the soft serve which truly encompasses the flavor throughout. Then if that wasn't already good enough- you get to add more cereal to the top! (And whatever other toppings you choose)I have also had the pre created sundae combos which are also equally delicious. Ends up costing around $8 but is a large portion (have shared with my sister). I have/ will continue to go back

During COVID: I've had Milk &amp; cream on my radar for months now and finally had a chance to stop by. They are open during quarantine. I ordered a vanilla based cone with Cookie Crisp and Reese's puffs with crushed M&amp;M topping (3.5/5). Was it good? Yes. But it wasn't memorable enough for me to crave it a

Finalmente, obtenemos con éxito todas las revisiones limpias con menos de 20 líneas de código.

Aquí hay solo una demostración para scraping 20 comentarios de Yelp. Pero en casos reales, es posible que tengamos que enfrentar muchas otras situaciones. Por ejemplo, necesitaremos pasos como la paginación para ir a otras páginas y extraer los comentarios restantes de esta tienda. O también tendremos que extraer otra información como el nombre del revisor, la ubicación del revisor, el tiempo de revisión, la calificación, el check-in ……

Resource: https://medium.com/@melisa_40349/web-scraping-con-python-guía-paso-a-paso-d209f0dd44e4