# Sprint 10

## Tasca M10 T01

## Ejercicio 1

Realiza web scraping de dos de las tres páginas web propuestas utilizando BeautifulSoup primero y Selenium después.

* http://quotes.toscrape.com

* https://www.bolsamadrid.es

* www.wikipedia.es 

Seleccionamos las páginas web de:

* Quotes to Scrape
* Wikipedia - Rick and Morty

### BeautifulSoup

**Quotes to Scrape: http://quotes.toscrape.com**

In [1]:
from bs4 import BeautifulSoup
import requests

url = 'http://quotes.toscrape.com/'
response_quotes = requests.get(url)
response_quotes.status_code

200

In [2]:
soup_quotes = BeautifulSoup(response_quotes.content)
quote_1 = soup_quotes.find('span')
print(quote_1.text)

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”


In [3]:
author = soup_quotes.find('small', class_='author')
print(author.text)

Albert Einstein


Comenzamos explorando la página web Quotes to Scrape, la cual es una plataforma sencilla que alberga citas de personas famosas, acompañadas de los nombres de los autores y algunos tags emocionales. Esta página fue creada con el propósito de practicar el web scraping, de ahí su nombre.

Para llevar a cabo esta tarea, importamos las librerías necesarias y luego realizamos una solicitud a la página para confirmar su estado. Como resultado, recibimos el código de respuesta 200, lo cual indica que todo está en orden.

In [12]:
quotes = soup_quotes.find_all(class_='text')
authors = soup_quotes.find_all('small', class_='author')

for quote, author in zip(quotes, authors):
    print(quote.text)
    print(author.text) 

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Albert Einstein
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
J.K. Rowling
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Albert Einstein
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Jane Austen
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Marilyn Monroe
“Try not to become a man of success. Rather become a man of value.”
Albert Einstein
“It is better to be hated for what you are than to be loved for what you are not.”
André Gide
“I have not failed. I've just found 10,000 ways that won't work.”
Thomas A. Edison
“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
Eleanor Roosevelt
“A day witho

Para obtener todas las citas junto con los nombres de los autores, se utiliza un bucle que extrae estos elementos de la página web.

**Wikipedia**

In [13]:
url = 'https://en.wikipedia.org/wiki/Rick_and_Morty'
response_wiki = requests.get(url)

In [15]:
soup = BeautifulSoup(response_wiki.text, 'lxml')
table = soup.find('table', class_='wikitable')

episodes = []
first_Aired = []
last_Aired = []

rows = table.find_all('tr')[1:]

for row in rows:
    celdas = row.find_all('td')
    if len(celdas) >= 1:
        episode = celdas[0].text.strip()
        first_aired = celdas [1].text.strip()
        last_aired = celdas [2].text.strip()
    

        episodes.append(episode)
        first_Aired.append(first_aired)
        last_Aired.append(last_aired)
        
import pandas as pd
data = {'Seasons': [1, 2, 3, 4, 5, 6], 'Episodes':episodes, 'First Aired':first_Aired, 'Last Aired':last_Aired}
df = pd.DataFrame(data)
df

Unnamed: 0,Seasons,Episodes,First Aired,Last Aired
0,1,11,"December 2, 2013 (2013-12-02)","April 14, 2014 (2014-04-14)"
1,2,10,"July 26, 2015 (2015-07-26)","October 4, 2015 (2015-10-04)"
2,3,10,"April 1, 2017 (2017-04-01)[a]","October 1, 2017 (2017-10-01)"
3,4,10,"November 10, 2019 (2019-11-10)","May 31, 2020 (2020-05-31)"
4,5,10,"June 20, 2021 (2021-06-20)","September 5, 2021 (2021-09-05)"
5,6,10,"September 4, 2022 (2022-09-04)","December 11, 2022 (2022-12-11)"


Con la página web de Wikipedia - Rick and Morty, se realiza la extracción de la tabla que muestra las fechas de transmisión de las temporadas.

El código extrae la información y la transforma en un dataframe de Pandas para mejorar su visualización. Sin embargo, es importante tener en cuenta que la tabla contiene información repetida que necesita ser limpiada.

In [16]:
df['Last Aired'] = df['Last Aired'].str.replace(r"\([^()]*\)", "", regex=True)
df['First Aired'] = df['First Aired'].str.replace(r"\([^()]*\)", "", regex=True)
df['First Aired'] = df['First Aired'].str.replace(r"\s\[\w\]",  "", regex=True)
df

Unnamed: 0,Seasons,Episodes,First Aired,Last Aired
0,1,11,"December 2, 2013","April 14, 2014"
1,2,10,"July 26, 2015","October 4, 2015"
2,3,10,"April 1, 2017","October 1, 2017"
3,4,10,"November 10, 2019","May 31, 2020"
4,5,10,"June 20, 2021","September 5, 2021"
5,6,10,"September 4, 2022","December 11, 2022"


Una vez que se ha realizado la limpieza del dataframe, se observa que este consta de 6 filas y 4 columnas.

A pesar de ser una tabla de tamaño reducido, se decidió extraerla directamente de la página web para practicar la búsqueda de los elementos necesarios en el código HTML y CSS de la página. 

Durante este proceso, nos encontramos con limitaciones debido al formato de la tabla, lo que requirió agregar manualmente la columna "Seasons". Es importante destacar que esta situación puede plantear complicaciones en proyectos más grandes.

### Selenium

Repetimos el proceso de extracción de datos, pero en esta ocasión utilizamos la biblioteca Selenium. Utilizando Selenium, navegaremos por las mismas páginas web para extraer la misma información de interés. 

Esto nos brinda la oportunidad de comparar los resultados obtenidos con BeautifulSoup y también nos permite adquirir experiencia en el uso de Selenium para la extracción de datos.

In [24]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager

**Quotes to Scrape: http://quotes.toscrape.com**

In [27]:
options = Options()
options.add_argument('--detach')

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), 
                          options = options)
driver.get('http://quotes.toscrape.com//')

In [28]:
quotes = driver.find_elements(By.CSS_SELECTOR, '.quote')
for quote in quotes:
    print(quote.text)

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
by Albert Einstein (about)
Tags: change deep-thoughts thinking world
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
by J.K. Rowling (about)
Tags: abilities choices
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
by Albert Einstein (about)
Tags: inspirational life live miracle miracles
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
by Jane Austen (about)
Tags: aliteracy books classic humor
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
by Marilyn Monroe (about)
Tags: be-yourself inspirational
“Try not to become a man of success. Rather become a man of value.”
by Albert Einstein (about)
Tags: adulthood success value
“It is better to

Hemos observado que la extracción de datos es considerablemente más sencilla y completa al utilizar la biblioteca Selenium, además de requerir menos líneas de código. Un ejemplo notable es la extracción automática de la sección de Tags. También hemos apreciado que el proceso resulta más amigable y fácil de utilizar en comparación con BeautifulSoup.

La simplicidad y completitud de la extracción de datos se deben a la capacidad de Selenium para interactuar directamente con los elementos de la página web, lo cual facilita la automatización de acciones complejas. 

**Wikipedia**

In [29]:
options = Options()
options.add_argument("--headless")

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), 
                            options=options)

driver.get('https://en.wikipedia.org/wiki/Rick_and_Morty')

In [22]:
tabla = driver.find_element(By.CSS_SELECTOR, 'table.wikitable.plainrowheaders')
print(tabla.text)

Season Episodes Originally aired
First aired Last aired
1
11 December 2, 2013 April 14, 2014
2
10 July 26, 2015 October 4, 2015
3
10 April 1, 2017[a] October 1, 2017
4
10 November 10, 2019 May 31, 2020
5
10 June 20, 2021 September 5, 2021
6
10 September 4, 2022 December 11, 2022


De igual manera, al utilizar Selenium para extraer el contenido de la tabla, notamos una notable simplificación del proceso, logrando obtener los datos deseados con tan solo una línea de código.

In [23]:
episodes = []
first_Aired = []
last_Aired = []

rows = tabla.find_elements(By.TAG_NAME, "tr")

for row in rows:
    celdas = row.find_elements(By.TAG_NAME, "td")
    if len(celdas) >= 1:
        episode = celdas[0].text.strip()
        first_aired = celdas[1].text.strip()
        last_aired = celdas[2].text.strip()

        episodes.append(episode)
        first_Aired.append(first_aired)
        last_Aired.append(last_aired)

data = {'Seasons': [1, 2, 3, 4, 5, 6], 'Episodes':episodes, 'First Aired':first_Aired, 'Last Aired':last_Aired}

df_tabla = pd.DataFrame(data)
df_tabla

Unnamed: 0,Seasons,Episodes,First Aired,Last Aired
0,1,11,"December 2, 2013","April 14, 2014"
1,2,10,"July 26, 2015","October 4, 2015"
2,3,10,"April 1, 2017[a]","October 1, 2017"
3,4,10,"November 10, 2019","May 31, 2020"
4,5,10,"June 20, 2021","September 5, 2021"
5,6,10,"September 4, 2022","December 11, 2022"


El código para crear el dataframe es bastante similar utilizando tanto Beautiful Soup como Selenium. Sin embargo, hemos observado que el dataframe producido por Selenium tiende a ser más limpio y estructurado en comparación.

In [24]:
df_tabla['First Aired'] = df_tabla['First Aired'].str.replace(r"\[\w\]", "", regex=True)
df_tabla

Unnamed: 0,Seasons,Episodes,First Aired,Last Aired
0,1,11,"December 2, 2013","April 14, 2014"
1,2,10,"July 26, 2015","October 4, 2015"
2,3,10,"April 1, 2017","October 1, 2017"
3,4,10,"November 10, 2019","May 31, 2020"
4,5,10,"June 20, 2021","September 5, 2021"
5,6,10,"September 4, 2022","December 11, 2022"


In [25]:
driver.quit()

Luego de eliminar el carácter adicional '[a]', logramos obtener el mismo dataframe que con Beautiful Soup, pero de una manera más sencilla y amigable al utilizar Selenium.

Al utilizar Selenium, la extracción de datos se simplifica gracias a su capacidad para interactuar directamente con los elementos de la página web. Esto nos permite obtener los datos deseados de manera más eficiente y precisa, evitando la necesidad de realizar manipulaciones adicionales como en el caso de BeautifulSoup.

Adicionalmente, es importante tener en cuenta que al utilizar Selenium, es necesario asegurarse de cerrar o apagar el driver adecuadamente. Esto se debe a que Selenium controla un navegador web real y es necesario finalizar la instancia del driver después de completar la extracción de datos. Esto puede lograrse mediante la función driver.quit() o similar, para liberar recursos y evitar problemas posteriores.

## Ejercicio 2

**Adjunto se encuentra un archivo en formato PDF en el repositorio, el cual facilitará la lectura y visualización del contenido de manera más conveniente.**

**“Quotes to Scrape”**

About the Website

_Context:_
La página web: http://quotes.toscrape.com contiene citas de personas famosas a lo largo de la historia.

_Content:_
* 10 citas
* 10 autores
* 10 tags


**“Wikipedia – Rick and Morty”**

About the Dataset

_Context:_
La información que contiene el datset es sobre el programa de televisión “Rick and Morty” que es una serie de televisión estadounidense de animación para adultos creada por Justin Roiland y Dan Harmon en 2013 para Adult Swim La serie sigue las desventuras de un científico, Rick Sanchez, y su fácilmente influenciable nieto, Morty, quienes pasan el tiempo entre la vida doméstica y los viajes espaciales, temporales e intergalácticos. 

_Content:_
* 6 filas
* 4 columnas.

Lista de Columnas:
* Seasons – Número de temporadas.
* Episodes – Número de episodios por temporada.
* First Aired – Fecha de cuando se transmitió el primer episodio de la temporada.
* Last Aired – Fecha de cuando se transmitió el último episodio de la temporada.


## Ejercicio 3

**Elige cualquier página web que desees y realiza web scraping utilizando primero la biblioteca Selenium y luego Scrapy.**

Para este ejercicio sólo se pudo usar la librería Selenium.

**Personjes de Rick and Mory**

_About the Dataset_

_Context:_

La información que contiene el datset es sobre el programa de televisión “Rick and Morty” que es una serie de televisión estadounidense de animación para adultos creada por Justin Roiland y Dan Harmon en 2013 para Adult Swim La serie sigue las desventuras de un científico, Rick Sanchez, y su fácilmente influenciable nieto, Morty, quienes pasan el tiempo entre la vida doméstica y los viajes espaciales, temporales e intergalácticos.

_Content:_
* 30 filas
* 3 columnas

_Lista de Columnas:_
* Nombre - Nombre de los personajes del programa Rick and Morty.
* Episodios - Número de episodios en los que aparecen los personajes.
* Detalles - Información adicional en inglés sobre el personaje.

In [30]:
options = Options()
options.add_argument("--headless")

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), 
                            options=options)

driver.get('https://comicvine.gamespot.com/rick-and-morty/4050-81059/characters/')

In [31]:
import pandas as pd

characters = driver.find_elements('xpath', '//a[@href]')

data = []

for character in characters:
    nombre_elements = character.find_elements('xpath', './/h3[contains(@class, "title")]')
    edad_elements = character.find_elements('xpath', './/span[contains(@class, "further-detail")]')
    detalles_elements = character.find_elements('xpath', './/p')

    for nombre_element, edad_element, detalle_element in zip(nombre_elements, edad_elements, detalles_elements):
        nombre = nombre_element.text.strip()
        edad = edad_element.text.strip()
        detalle = detalle_element.text.strip()

        data.append({'Nombre': nombre, 'Episodios': edad, 'Detalles': detalle})

df_characters_selenium = pd.DataFrame(data)
df_characters_selenium


Unnamed: 0,Nombre,Episodios,Detalles
0,Morty Smith,56,"The grandson of Rick Sanchez, who gets roped i..."
1,Rick Sanchez,55,"An eccentric, often drunk, genius scientist wh..."
2,Jerry Smith,31,Morty's underachieving father and son-in-law t...
3,Summer Smith,31,"Daughter of Beth and Jerry, sister to Morty an..."
4,Beth Smith,23,Rick's only daughter and mother to Morty. She'...
5,Jessica,7,A popular girl in Morty Smith's high school. M...
6,Birdperson,4,
7,Brad,4,Typical jock at Harry Herpson High School.
8,Doofus Rick,4,Doofus Rick is an alternate version of Rick Sa...
9,Peacock Jones,3,Interstellar traveller who tries to bed women.


In [33]:
df_characters_selenium.shape

(30, 3)

In [34]:
driver.quit()

**Observaciones Finales**

Utilizando Selenium, se han extraído exitosamente los nombres de los personajes que aparecen en la serie de Rick and Morty. Lo sorprendente de este proceso de extracción es que se obtuvo la información en formato de texto y luego se convirtió en un dataframe para su posterior uso y análisis.

Otra cosa interesante en esta extracción es el uso de expresiones regulares (RegEx) para extraer la información deseada directamente del código CSS de la página. Esta técnica permitió identificar patrones específicos y crear bucles que facilitaron la extracción de los nombres, episodios y detalles de los personajes.

Una vez obtenida la información, se procedió a crear un dataframe utilizando la biblioteca Pandas. Esto proporciona una estructura organizada y manipulable para analizar los datos extraídos.

En resumen, el uso de Selenium, junto con la implementación de RegEx y Pandas, permitió extraer de manera efectiva una base de datos de los personajes de Rick and Morty para su posterior análisis. Esta combinación de técnicas resultó en una extracción de datos eficiente y con un alto potencial de uso en proyectos y análisis posteriores.