##### *Cristina Cosma*

# **DATA SCIENCE**

## **Sprint 10. Web Scraping**

**Objetivos**
* Conocer métodos de web scraping
* Documentar datos recojidos mediante web scraping.

___________
Entrega: Enviar la URL a un repositorio llamado **web_scraping** que contenga la solución.
URL : **https://github.com/CristinaCosma/web_scraping** 
___________

**Introducción :**

Web scraping implica extraer datos de la web para su posterior análisis y se tiene que hacer responsablemente, según los terminos y condiciones de sitio. Antes de proceder, cabe comprobar la presencia de fichero "robots.txt" y de sus términos y condiciones de uso para asegurarse de que nos autorizan a hacer web scraping.

Previamente debemos instalar **BeautifulSoup** y sus **requests** ; para **Selenium**, hace falta un **webdriver** y un **web manager** y si todo va bien, el código abrirá una ventana nueva en el navegador indicado (Chrome en este caso), donde podremos  pedirle que acceda a una web mediante ruta url.

Instalación específica necesaria antes de importar o instanciar las librerías de web scraping :

-> C:\WINDOWS\system32>

                conda install anaconda::beautifulsoup4
                
                conda install anaconda::requests
                
                conda install conda-forge::selenium

                conda install conda-forge::python-chromedriver-binary

                conda install conda-forge::webdriver-manager
                

-> Resultado en el cmd: todo OK. 

-> environment location: C:\Users\User\anaconda3


### **0. Importar las librerías necesarias, cargar el dataset, analizar preparar los datos**

In [88]:
# Importamos las librerías básicas

import time
import pandas as pd
import numpy as np

# visualización
import matplotlib.pyplot as plt
import seaborn as sns

# para web scraping con BeautifulSoup
import requests
from bs4 import BeautifulSoup

# para web scraping con Selenium

import chromedriver_binary
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Install Webdriver
service = Service(ChromeDriverManager().install())

# Create Driver Instance
driver = webdriver.Chrome(service=service)

# para pasar un df de Pandas a Word
from docx import Document


## EXERCICIO 1

### **1. Realizar web scraping de dos de éstas tres páginas web utilizando BeautifulSoup primero y Selenium después**.
 

- http://quotes.toscrape.com

- https://www.bolsamadrid.es

- www.wikipedia.es (fes alguna cerca primer i escrapeja algun contingut)

### **1.a) Análisis de **http://quotes.toscrape.com**.**    

Empezando con la primera web propuesta, donde se quiere obtener las frases célebres y con moraleja que contiene. Personalmente me gustan las biografías y conocer lo que las personas han entendido de sus experiencias vitales y por esta razón, elijo empezar con esta página. 

Dada la página web : http://quotes.toscrape.com, verificamos que no tenga una protección contra el web scraping con un fichero **"robots.txt"**

    Para verificar la existencia de "robots.txt" en una web, podemos simplemente añadir "/robots.txt" a la ruta URL. En este caso, intentamos visitar http://quotes.toscrape.com/robots.txt.
    
    ---> Resultado = 404 Not Found : The requested URL was not found on the server. 
    
    ---> Quiere decir que no hay tal fichero y que en principio la página se puede escrapear.

#### **---> Con BeautifulSoup**

In [6]:
# Probamos primero ver qué devuelve el algorítmo con el código más sencillo posible. 

url = "http://quotes.toscrape.com"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Extract quotes
    quotes = soup.find_all('span', class_='text')
    for quote in quotes:
        print(quote.get_text())

else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
“Try not to become a man of success. Rather become a man of value.”
“It is better to be hated for what you are than to be loved for what you are not.”
“I have not failed. I've just found 10,000 ways that won't work.”
“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
“A day without sunshine is like, you know, night.”


In [8]:
import requests
from bs4 import BeautifulSoup

url = "http://quotes.toscrape.com"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # Locate the quotes and authors
    quotes = soup.find_all('span', class_='text')
    authors = soup.find_all('small', class_='author')

    # Locate the tags for each quote
    for quote, author in zip(quotes, authors):
        print(f"Quote: {quote.get_text()}")
        print(f"Author: {author.get_text()}")

        # Find the tags associated with the current quote
        tags_section = quote.find_next('div', class_='tags')
        if tags_section:
            tags = tags_section.find_all('a', class_='tag')
            tag_words = [tag.get_text() for tag in tags]
            print(f"Tags: {', '.join(tag_words)}")

        print("\n---\n")

else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")


Quote: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Author: Albert Einstein
Tags: change, deep-thoughts, thinking, world

---

Quote: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Author: J.K. Rowling
Tags: abilities, choices

---

Quote: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Author: Albert Einstein
Tags: inspirational, life, live, miracle, miracles

---

Quote: “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Author: Jane Austen
Tags: aliteracy, books, classic, humor

---

Quote: “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Author: Marilyn Monroe
Tags: be-yourself, inspirational

---

Quote: “Try not to become a man of success. Rather become a man of value.”
Auth

In [7]:
url = "http://quotes.toscrape.com"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # Locate the specific section
    tags_section = soup.find('div', class_='col-md-4 tags-box')

    # Extract and print the words Top Ten tags
    if tags_section:
        tag_words = [tag.get_text() for tag in tags_section.find_all('a', class_='tag')]
        print("Words in the specified section as Top Ten tags:", "\n")
        for word in tag_words:
            print(word)

    else:
        print("Unable to find the specified section.")

else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

Words in the specified section as Top Ten tags: 

love
inspirational
life
humor
books
reading
friendship
friends
truth
simile


In [22]:
tag_words

['love',
 'inspirational',
 'life',
 'humor',
 'books',
 'reading',
 'friendship',
 'friends',
 'truth',
 'simile']

#### **---> Con Selenium**

In [None]:
import time
import pandas as pd
import chromedriver_binary
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Install Webdriver
service = Service(ChromeDriverManager().install())

# Create Driver Instance
driver = webdriver.Chrome(service=service)

# Get Web Page
driver.get('http://quotes.toscrape.com')

* Solamente con el código escrito en la sección de arriba hasta ahora y mediante "driver.get('url')" nos **abre la página web** que le pedimos correctamente.
* Ahora que se ha verificado la **efectividad del código y de los paquetes instalados**, vamos a pedirle que **proceda al Web Scraping**.

In [26]:
# Create Driver Instance
driver = webdriver.Chrome(service=service)

# Get Web Page
driver.get('http://quotes.toscrape.com')

# Wait for the page to load (you might need to adjust the time based on the page load time)
time.sleep(2)

# Extract quotes, authors, and tags
quotes = []
authors = []
tags = []

quote_elements = driver.find_elements(By.CLASS_NAME, 'text')
author_elements = driver.find_elements(By.CLASS_NAME, 'author')
tags_elements = driver.find_elements(By.CLASS_NAME, 'tags')

for quote, author, tags_element in zip(quote_elements, author_elements, tags_elements):
    quote_text = quote.text
    author_name = author.text
    tags_text = tags_element.text.replace('Tags:', '').strip().split()

    quotes.append(quote_text)
    authors.append(author_name)
    tags.append(tags_text)

# Create a DataFrame
data = {'Quote': quotes, 'Author': authors, 'Tags': tags}
df = pd.DataFrame(data)

# Print the DataFrame
print(df)

# Close the browser window
driver.quit()


                                               Quote             Author  \
0  “The world as we have created it is a process ...    Albert Einstein   
1  “It is our choices, Harry, that show what we t...       J.K. Rowling   
2  “There are only two ways to live your life. On...    Albert Einstein   
3  “The person, be it gentleman or lady, who has ...        Jane Austen   
4  “Imperfection is beauty, madness is genius and...     Marilyn Monroe   
5  “Try not to become a man of success. Rather be...    Albert Einstein   
6  “It is better to be hated for what you are tha...         André Gide   
7  “I have not failed. I've just found 10,000 way...   Thomas A. Edison   
8  “A woman is like a tea bag; you never know how...  Eleanor Roosevelt   
9  “A day without sunshine is like, you know, nig...       Steve Martin   

                                             Tags  
0        [change, deep-thoughts, thinking, world]  
1                            [abilities, choices]  
2  [inspirational,

In [27]:
df

Unnamed: 0,Quote,Author,Tags
0,“The world as we have created it is a process ...,Albert Einstein,"[change, deep-thoughts, thinking, world]"
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling,"[abilities, choices]"
2,“There are only two ways to live your life. On...,Albert Einstein,"[inspirational, life, live, miracle, miracles]"
3,"“The person, be it gentleman or lady, who has ...",Jane Austen,"[aliteracy, books, classic, humor]"
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe,"[be-yourself, inspirational]"
5,“Try not to become a man of success. Rather be...,Albert Einstein,"[adulthood, success, value]"
6,“It is better to be hated for what you are tha...,André Gide,"[life, love]"
7,"“I have not failed. I've just found 10,000 way...",Thomas A. Edison,"[edison, failure, inspirational, paraphrased]"
8,“A woman is like a tea bag; you never know how...,Eleanor Roosevelt,[misattributed-eleanor-roosevelt]
9,"“A day without sunshine is like, you know, nig...",Steve Martin,"[humor, obvious, simile]"


Acabamos de ver como el web scraping ha funcionado tanto con Beautiful Soup como con Selenium !

### **1.b) Análisis de **https://es.wikipedia.org/wiki/Anexo:Reyes_de_Espa%C3%B1a** -> *Anexo:Reyes_de_España*.**

    Esta página es sobre la historia de la monarquía española, en la que se habla del actual monarca Felipe VI y lo relacionado con éste. Después, en el cuerpo principal de la página a continuación, se despliegan las tablas de todas las casas reales con sus correspondientes monarcas (reinas y reyes), su fecha y lugar de nacimiento como de difunción, su descendencia si tuvieron y cuántos hijos tuvieron, además de si alguno de ellos devino a su vez monarca del país.
    
    Las columnas de la tablas por cada "casa real" o dinastía, son las siguientes : Imagen, Escudo, Nombre, Sobrenombre, Reinado, Nacimiento, Fallecimiento / Sepultura, Consorte y descendencia. Hay variables que cambian ligeramente de nombre según las tablas, como "Consorte y descendencia", que a veces está como "Reina consorte y descendencia".
    
    Se busca obtener los datos de las tablas en un pandas dataframe.
    
    Miramos si está protegido con un fichero robots.txt" y vemos que no lo está, por lo que nos deja libres de efectuar el web scraping. 


#### **---> Con BeautifulSoup**

In [40]:
import requests
from bs4 import BeautifulSoup

# URL of the Wikipedia page
url = "https://es.wikipedia.org/wiki/Anexo:Reyes_de_Espa%C3%B1a"

# Make a request to the URL
response = requests.get(url)

# Parse the HTML content
soup = BeautifulSoup(response.text, 'html.parser')

# Locate the content section
content_section = soup.find('div', {'id': 'mw-content-text'}).find('div', class_='mw-parser-output')

# Extract data from all tables within the content section
tables = content_section.find_all('table', {'width': '100%', 'class': 'wikitable'})

all_table_data = []

for table in tables:
    rows = table.select('tr')[1:]  # Skip the header row

    table_data = []
    for row in rows:
        columns = row.select('td')
        if columns:  # Ensure it's not an empty row
            data = [column.get_text(strip=True) for column in columns]
            table_data.append(data)

    all_table_data.extend(table_data)

# Create a DataFrame
columns = ["Imagen", "Escudo", "Nombre", "Sobrenombre", "Reinado", "Nacimiento", "Fallecimiento", "Consorte y descendencia"]
df_1 = pd.DataFrame(all_table_data, columns=columns)

# Print the DataFrame
print(df_1)


                                        Imagen  \
0                                                
1                                                
2                        Fernando II de Aragón   
3                                                
4   Juana I de Aragónjunto con su hijoCarlos I   
5                                                
6                                                
7                                                
8                                                
9                                                
10                                               
11                                               
12                                               
13                                               
14                                               
15                                               
16                                               
17                                               
18                                               


In [41]:
df_1

Unnamed: 0,Imagen,Escudo,Nombre,Sobrenombre,Reinado,Nacimiento,Fallecimiento,Consorte y descendencia
0,,,Isabel I de Castillajunto con su maridoFernand...,la Católica,13 de diciembrede1474-26 de noviembrede1504(29...,22 de abrilde1451Madrigal de las Altas TorresH...,26 de noviembrede1504Medina del Campo(53 años)...,
1,,,Fernando V de Castillajunto con su mujerIsabel I,el Católico,15 de enerode1475[a]​-26 de noviembrede1504[b]...,10 de marzode1452SosHijo deJuan II de AragónyJ...,23 de enerode1516Madrigalejo(63 años)Capilla R...,
2,Fernando II de Aragón,20 de enerode1479-23 de enerode1516(37 años y ...,Isabel I de Castilla7 hijos,,,,,
3,,,Juana I de Castillajunto con su maridoFelipe(1...,la Loca,26 de noviembrede1504-12 de abrilde1555(50 año...,6 de noviembrede1479ToledoHija de Isabel I y F...,12 de abrilde1555Tordesillas(75 años)Capilla R...,Felipe I de Castilla6 hijos
4,Juana I de Aragónjunto con su hijoCarlos I,23 de enerode1516[c]​-12 de abrilde1555(39 año...,,,,,,
5,,,Felipe I de Castillajunto con su mujerJuana I,el Hermoso,12 de juliode1506[d]​-25 de septiembrede1506(7...,22 de juniode1478BrujasHijo deMaximiliano I de...,25 de septiembrede1506Burgos(28 años)Capilla R...,
6,,,Carlos Ijunto con su madreJuana Ihasta el12 de...,el César,14 de marzode1516[e]​-16 de enerode1556[f]​(39...,24 de febrerode1500GanteHijo de Juana I y Feli...,21 de septiembrede1558Cuacos de Yuste(58 años)...,Isabel de Portugal5 hijos
7,,,Felipe II[g]​,el Prudente,16 de enerode1556-13 de septiembrede1598(42 añ...,21 de mayode1527ValladolidHijo de Carlos I e I...,13 de septiembrede1598San Lorenzo de El Escori...,(1)María I de InglaterraSin descendencia(2)Isa...
8,,,Felipe III,el Piadoso,13 de septiembrede1598-31 de marzode1621[h]​(2...,14 de abrilde1578MadridHijo de Felipe II y Ana...,31 de marzode1621Madrid(42 años)Cripta Real de...,Margarita de Austria8 hijos
9,,,Felipe IV,"el Grande,el Rey Planeta",31 de marzode1621-17 de septiembrede1665(44 añ...,8 de abrilde1605ValladolidHijo de Felipe III y...,17 de septiembrede1665Madrid(60 años)Cripta Re...,(1)Isabel de Borbón10 hijos(2)Mariana de Austr...


#### **---> Con Selenium**

In [86]:
# Create Driver Instance
driver = webdriver.Chrome(service=service)

# URL of the Wikipedia page
url = "https://es.wikipedia.org/wiki/Anexo:Reyes_de_Espa%C3%B1a"

# Get Web Page
driver.get(url)

# Wait for the page to load 
time.sleep(10)

# Extract data from the table
table = driver.find_element(By.XPATH, "//table[@class='wikitable']")
rows = table.find_elements(By.XPATH, ".//tr")[1:]  # Skip the header row

all_table_data = []

for table in tables:
    rows = table.select('tr')[1:]  # Skip the header row

    table_data = []
    for row in rows:
        columns = row.select('td')
        if columns:  # Ensure it's not an empty row
            data = [column.get_text(strip=True) for column in columns]
            table_data.append(data)

    all_table_data.extend(table_data)

# Create a DataFrame
columns = ["Imagen", "Escudo", "Nombre", "Sobrenombre", "Reinado", "Nacimiento", "Fallecimiento", "Consorte y descendencia"]
df = pd.DataFrame(all_table_data, columns=columns)

# Print the DataFrame
print(df)

# Close the browser window
driver.quit()

                                        Imagen  \
0                                                
1                                                
2                        Fernando II de Aragón   
3                                                
4   Juana I de Aragónjunto con su hijoCarlos I   
5                                                
6                                                
7                                                
8                                                
9                                                
10                                               
11                                               
12                                               
13                                               
14                                               
15                                               
16                                               
17                                               
18                                               


In [87]:
df

Unnamed: 0,Imagen,Escudo,Nombre,Sobrenombre,Reinado,Nacimiento,Fallecimiento,Consorte y descendencia
0,,,Isabel I de Castillajunto con su maridoFernand...,la Católica,13 de diciembrede1474-26 de noviembrede1504(29...,22 de abrilde1451Madrigal de las Altas TorresH...,26 de noviembrede1504Medina del Campo(53 años)...,
1,,,Fernando V de Castillajunto con su mujerIsabel I,el Católico,15 de enerode1475[a]​-26 de noviembrede1504[b]...,10 de marzode1452SosHijo deJuan II de AragónyJ...,23 de enerode1516Madrigalejo(63 años)Capilla R...,
2,Fernando II de Aragón,20 de enerode1479-23 de enerode1516(37 años y ...,Isabel I de Castilla7 hijos,,,,,
3,,,Juana I de Castillajunto con su maridoFelipe(1...,la Loca,26 de noviembrede1504-12 de abrilde1555(50 año...,6 de noviembrede1479ToledoHija de Isabel I y F...,12 de abrilde1555Tordesillas(75 años)Capilla R...,Felipe I de Castilla6 hijos
4,Juana I de Aragónjunto con su hijoCarlos I,23 de enerode1516[c]​-12 de abrilde1555(39 año...,,,,,,
5,,,Felipe I de Castillajunto con su mujerJuana I,el Hermoso,12 de juliode1506[d]​-25 de septiembrede1506(7...,22 de juniode1478BrujasHijo deMaximiliano I de...,25 de septiembrede1506Burgos(28 años)Capilla R...,
6,,,Carlos Ijunto con su madreJuana Ihasta el12 de...,el César,14 de marzode1516[e]​-16 de enerode1556[f]​(39...,24 de febrerode1500GanteHijo de Juana I y Feli...,21 de septiembrede1558Cuacos de Yuste(58 años)...,Isabel de Portugal5 hijos
7,,,Felipe II[g]​,el Prudente,16 de enerode1556-13 de septiembrede1598(42 añ...,21 de mayode1527ValladolidHijo de Carlos I e I...,13 de septiembrede1598San Lorenzo de El Escori...,(1)María I de InglaterraSin descendencia(2)Isa...
8,,,Felipe III,el Piadoso,13 de septiembrede1598-31 de marzode1621[h]​(2...,14 de abrilde1578MadridHijo de Felipe II y Ana...,31 de marzode1621Madrid(42 años)Cripta Real de...,Margarita de Austria8 hijos
9,,,Felipe IV,"el Grande,el Rey Planeta",31 de marzode1621-17 de septiembrede1665(44 añ...,8 de abrilde1605ValladolidHijo de Felipe III y...,17 de septiembrede1665Madrid(60 años)Cripta Re...,(1)Isabel de Borbón10 hijos(2)Mariana de Austr...


* **En conclusión** : ha ido igual de bien la búsqueda con **BeautifulSoup** que con **Selenium**, pero con éste hay que tener en cuanta unos pasos previos y se ha conseguido solamente y después de varios intentos. 

__________________________________________________________________________________________________________________________________________

## EXERCICIO 2

### **2. Documentar en un Word el conjunto de datos generado y la información obtenida como se hace en estos archivos.**
Para saber más : a modo de ejemplo de lo que se pide, consultar este enlace: ->https://www.kaggle.com/datasets/vivovinco/20212022-football-team-stats.

#### **2.a) Preparando el documento Word para **http://quotes.toscrape.com**.**


**Generamos un dataframe y un documento Word donde se verá el conjunto de datos con la información obtenida del Web Scraping.**

* Primero generamos el dataframe con los resultados del scraping de la página http://quotes.toscrape.com (obtenidos del primer web scraping, con BeautifulSoup) 
* Después lo plasmamos en un documento Word generado por código Python, donde se vean los resultados obtenidos del scraping 

In [32]:
import pandas as pd

# Creamos las columnas del futuro DataFrame
df_quotes=pd.DataFrame(columns=('Author', 'Quote', 'Tags'))
df_quotes

Unnamed: 0,Author,Quote,Tags


* El siguiente script creará unos DataFrames individuales por cada pareja de citación y autor y los almacenará en una lista. 
* Luego, utilizará la función "pd.concat" para concatenar el listado de los DataFrames en uno sólo, llamado **df_quotes**.

In [42]:
# Creamos las columnas del futuro DataFrame
df_quotes=pd.DataFrame(columns=('Author', 'Quote', 'Tags'))

url = "http://quotes.toscrape.com"
response = requests.get(url)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    # Create an empty list to store DataFrames
    dfs = []

    # Locate the quotes and authors
    quotes = soup.find_all('span', class_='text')
    authors = soup.find_all('small', class_='author')

    # Locate the tags for each quote and create DataFrames
    for quote, author in zip(quotes, authors):
        quote_text = quote.get_text()
        author_name = author.get_text()

        # Find the tags associated with the current quote
        tags_section = quote.find_next('div', class_='tags')
        if tags_section:
            tags = tags_section.find_all('a', class_='tag')
            tag_words = [tag.get_text() for tag in tags]
        else:
            tag_words = []

        # Create a DataFrame for the current quote and author
        df = pd.DataFrame({'Author': [author_name], 'Quote': [quote_text], 'Tags': [tag_words]})
        dfs.append(df)

    # Concatenate the list of DataFrames into a single DataFrame
    df_quotes = pd.concat(dfs, ignore_index=True)

else:
    print(f"Failed to retrieve the page. Status code: {response.status_code}")

# see the resulting DataFrame
df_quotes


Unnamed: 0,Author,Quote,Tags
0,Albert Einstein,“The world as we have created it is a process ...,"[change, deep-thoughts, thinking, world]"
1,J.K. Rowling,"“It is our choices, Harry, that show what we t...","[abilities, choices]"
2,Albert Einstein,“There are only two ways to live your life. On...,"[inspirational, life, live, miracle, miracles]"
3,Jane Austen,"“The person, be it gentleman or lady, who has ...","[aliteracy, books, classic, humor]"
4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and...","[be-yourself, inspirational]"
5,Albert Einstein,“Try not to become a man of success. Rather be...,"[adulthood, success, value]"
6,André Gide,“It is better to be hated for what you are tha...,"[life, love]"
7,Thomas A. Edison,"“I have not failed. I've just found 10,000 way...","[edison, failure, inspirational, paraphrased]"
8,Eleanor Roosevelt,“A woman is like a tea bag; you never know how...,[misattributed-eleanor-roosevelt]
9,Steve Martin,"“A day without sunshine is like, you know, nig...","[humor, obvious, simile]"


Ahora hay que pasar los datos a un nuevo documento Word que se creará desde Python y tenrá un formato estándar.
Previamente hay que instalar **pandas python-docx**.
Para formatos Word más específicos y complejos, sepodría instalar la librería **pandas-to-word** pero en esta tarea, python-docx será suficiente.

    -> C:\WINDOWS\system32>conda install conda-forge::python-docx
    


In [44]:
# Exportar dataframe a Word

import pandas as pd
from docx import Document

# Create a Word document
doc = Document()

# Add a heading to the document
doc.add_heading('Quotes Data', level=1)

# Add the DataFrame to the document
df_quotes_table = doc.add_table(df_quotes.shape[0] + 1, df_quotes.shape[1])

# Add column names to the table
for col_num, col_name in enumerate(df_quotes.columns):
    df_quotes_table.cell(0, col_num).text = col_name

# Add data to the table
for row_num in range(df_quotes.shape[0]):
    for col_num in range(df_quotes.shape[1]):
        df_quotes_table.cell(row_num + 1, col_num).text = str(df_quotes.iloc[row_num, col_num])

# Save the Word document
doc.save('quotes_data.docx')


---> El documento Word **quotes_data.docx** se acaba de generar y guardar en la carpeta del proyecto, donde se puede aumentar o modificar si necesario.

#### **2.b) Preparando el documento Word para **https://es.wikipedia.org/wiki/Anexo:Reyes_de_Espa%C3%B1a** -> *Anexo:Reyes_de_España*.**


In [51]:
df_reyes = df_1
df_reyes.head(3)

Unnamed: 0,Imagen,Escudo,Nombre,Sobrenombre,Reinado,Nacimiento,Fallecimiento,Consorte y descendencia
0,,,Isabel I de Castillajunto con su maridoFernand...,la Católica,13 de diciembrede1474-26 de noviembrede1504(29...,22 de abrilde1451Madrigal de las Altas TorresH...,26 de noviembrede1504Medina del Campo(53 años)...,
1,,,Fernando V de Castillajunto con su mujerIsabel I,el Católico,15 de enerode1475[a]​-26 de noviembrede1504[b]...,10 de marzode1452SosHijo deJuan II de AragónyJ...,23 de enerode1516Madrigalejo(63 años)Capilla R...,
2,Fernando II de Aragón,20 de enerode1479-23 de enerode1516(37 años y ...,Isabel I de Castilla7 hijos,,,,,


Definimos los parámetros para que la información sobre los Reyes de España se pueda plasmar en un documento Word.

In [52]:
import pandas as pd
from docx import Document

columns = ["Imagen", "Escudo", "Nombre", "Sobrenombre", "Reinado", "Nacimiento", "Fallecimiento", "Consorte y descendencia"]
df = pd.DataFrame(all_table_data, columns=columns)

# Create a Word document
doc = Document()

# Add a title to the document
doc.add_heading('Reyes de España a partir del "Anexo:Reyes_de_España" de Wikipedia', level=1)

# Add the DataFrame to the document
table = doc.add_table(df.shape[0]+1, df.shape[1])
table.style = 'Table Grid'

# Add column names to the table
for col_num, column in enumerate(df.columns):
    table.cell(0, col_num).text = column

# Add data to the table
for row_num in range(df.shape[0]):
    for col_num in range(df.shape[1]):
        table.cell(row_num+1, col_num).text = str(df.iloc[row_num, col_num])

# Save the document
doc.save('Reyes_Document.docx')

Los documentos se encuentran ahora en la carpeta donde está el código del proyecto del Sprint 10 - Web Scraping.

---> 'quotes_data.docx'

---> 'Reyes_Document.docx'

__________________________________________________________________________________________________________________________________________

## EXERCICIO 3

### **3. Elige una página web que quieras y realiza web scraping mediante la librería Selenium primero y Scrapy después.**

#### **3.a) A continuación se va "scrapear" la web **https://www.bolsamadrid.es**.**


Me interesa la bolsa y dado que el mercado nacional ya ha cerrado, los precios no se mueven más y se puede hacer web scraping con los valores definitivos del día. Los valores de las tablas están fijos ahora, 15 enero 2024 17:37:30.

La primera idea es hacer que el código me lleve a hacer click en el primer botón situado en la página principal, en la sección con el enlace a <a class="section-buttons-button" href="/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Precios/ibex-35-ES0SI0000005" target="_self"><span>**IBEX 35**</span>. 
    
Después de probar sin éxito, pruebo de escanear directamente la página del enlace y pido ver los valores (filas y columnas con sus nombres correspondientes)

In [55]:
import chromedriver_binary
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys

In [56]:
# Install Webdriver
service = Service(ChromeDriverManager().install())

# Create Driver Instance
driver = webdriver.Chrome(service=service)

# URL of the page
url = "https://www.bolsasymercados.es/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Precios/ibex-35-ES0SI0000005"

# Open the webpage
driver.get(url)

# Wait for the page to load (you might need to adjust the waiting time)
driver.implicitly_wait(10)

# Find the root div
root_div = driver.find_element(By.ID, 'root')

# Get HTML content from the root div
html_root = root_div.get_attribute('outerHTML')

# Print or process the HTML content from the root div
print(html_root)

# Find all sub-sections with class 'table-responsive'
table_sections = driver.find_elements(By.XPATH, '//div[@class="table-responsive"]')

# Iterate through each sub-section
for index, table_section in enumerate(table_sections, 1):
    
    # Get HTML content from the sub-section
    html_sub_section = table_section.get_attribute('outerHTML')
    
    # Print or process the HTML content from the sub-section
    print(f"Sub-Section {index} HTML:\n{html_sub_section}")

# Close the webdriver
driver.quit()

<div id="root"><div class="empty-placeholder loading">&nbsp;<span class="sr-only">Cargando...</span></div></div>
Sub-Section 1 HTML:
<div class="table-responsive" style="display: none !important;"><table role="table" class="index-table"><caption class="sr-only">IBEX 35</caption><thead class=""><tr role="row"><th colspan="1" role="columnheader" rowspan="1" class="">Índice</th><th colspan="1" role="columnheader" rowspan="1" class="">Último</th><th colspan="1" role="columnheader" rowspan="1" class="">% Dif.</th><th colspan="1" role="columnheader" rowspan="1" class="">Máximo</th><th colspan="1" role="columnheader" rowspan="1" class="">Mínimo</th><th colspan="1" role="columnheader" rowspan="1" class="">Fecha</th><th colspan="1" role="columnheader" rowspan="1" class="">Hora</th><th colspan="1" role="columnheader" rowspan="1" class="">% Dif. Año</th></tr></thead><tbody role="rowgroup"><tr role="row" class=""><td role="rowheader" class="text-nowrap "><a href="/bme-exchange/es/Indices/Ficha/Ibe

In [67]:
# Install Webdriver
service = Service(ChromeDriverManager().install())

# Create Driver Instance
driver = webdriver.Chrome(service=service)

# URL of the page
url = "https://www.bolsasymercados.es/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Precios/ibex-35-ES0SI0000005"

# Open the webpage
driver.get(url)

# Wait for the page to load
driver.implicitly_wait(10)

# Find the Shares table
shares_table = driver.find_element(By.CSS_SELECTOR, 'div.table-responsive table.shares-table')

# Find all rows in the table body
rows = shares_table.find_elements(By.TAG_NAME, 'tr')

# Loop through rows and print the content of each cell
for row in rows:
    elements = row.find_elements(By.TAG_NAME, "td")
    row_data = [element.text.strip() for element in elements]
    print(row_data)

# Close the webdriver
driver.quit()


[]
['ACCIONA', '127,7500', '-2,26%', '131,3500', '126,4000', '105.112', '13.463,63', '15/01/2024', 'Cierre']
['ACCIONA ENER', '24,8400', '-2,20%', '25,4800', '24,7000', '287.725', '7.162,97', '15/01/2024', 'Cierre']
['ACERINOX', '10,4000', '1,17%', '10,4350', '10,2750', '665.126', '6.905,63', '15/01/2024', 'Cierre']
['ACS', '40,2600', '0,17%', '40,3900', '39,9900', '426.287', '17.143,72', '15/01/2024', 'Cierre']
['AENA', '168,8000', '-0,03%', '169,6500', '168,0000', '84.994', '14.345,04', '15/01/2024', 'Cierre']
['AMADEUS', '63,9200', '-0,81%', '64,5000', '63,7400', '331.988', '21.220,78', '15/01/2024', 'Cierre']
['ARCELORMIT.', '24,4300', '0,18%', '24,7250', '24,3850', '89.265', '2.188,17', '15/01/2024', 'Cierre']
['B.SANTANDER', '3,7600', '-1,09%', '3,8270', '3,7600', '23.138.604', '87.288,21', '15/01/2024', 'Cierre']
['BA.SABADELL', '1,1525', '0,17%', '1,1665', '1,1475', '9.680.422', '11.174,61', '15/01/2024', 'Cierre']
['BANKINTER', '6,1200', '0,99%', '6,1500', '6,0480', '2.232.588

In [73]:
# Create Driver Instance
driver = webdriver.Chrome(service=service)

# URL of the page
url = "https://www.bolsasymercados.es/bme-exchange/es/Mercados-y-Cotizaciones/Acciones/Mercado-Continuo/Precios/ibex-35-ES0SI0000005"

# Open the webpage
driver.get(url)

# Wait for the page to load (you might need to adjust the waiting time)
driver.implicitly_wait(10)

# Find the Shares table
shares_table = driver.find_element(By.CSS_SELECTOR, 'div.table-responsive table.shares-table')

# Find column names
columns = shares_table.find_elements(By.TAG_NAME, 'th')
column_names = [column.text.strip() for column in columns]

# Find all rows in the table body
rows = shares_table.find_elements(By.TAG_NAME, 'tr')

# Initialize an empty list to store data
data = []

# Loop through rows and append the content of each cell to the data list
for row in rows:
    elements = row.find_elements(By.TAG_NAME, "td")
    row_data = [element.text.strip() for element in elements]
    data.append(row_data)

# Create a pandas DataFrame
df = pd.DataFrame(data, columns=column_names)

# Print the DataFrame
print(df)

# Close the webdriver
driver.quit()


                    Último  % Dif.    Máximo    Mínimo     Volumen  \
0           None      None    None      None      None        None   
1        ACCIONA  127,7500  -2,26%  131,3500  126,4000     105.112   
2   ACCIONA ENER   24,8400  -2,20%   25,4800   24,7000     287.725   
3       ACERINOX   10,4000   1,17%   10,4350   10,2750     665.126   
4            ACS   40,2600   0,17%   40,3900   39,9900     426.287   
5           AENA  168,8000  -0,03%  169,6500  168,0000      84.994   
6        AMADEUS   63,9200  -0,81%   64,5000   63,7400     331.988   
7    ARCELORMIT.   24,4300   0,18%   24,7250   24,3850      89.265   
8    B.SANTANDER    3,7600  -1,09%    3,8270    3,7600  23.138.604   
9    BA.SABADELL    1,1525   0,17%    1,1665    1,1475   9.680.422   
10     BANKINTER    6,1200   0,99%    6,1500    6,0480   2.232.588   
11          BBVA    8,2520  -0,43%    8,3760    8,2160   4.904.142   
12     CAIXABANK    3,9270   0,43%    3,9450    3,8770   5.396.104   
13       CELLNEX   3

In [77]:
# Quitar la fila 0, que no aporta información.

df_ibex35 = df.drop(index=0).reset_index(drop=True)
df_ibex35

Unnamed: 0,Unnamed: 1,Último,% Dif.,Máximo,Mínimo,Volumen,Efectivo (miles €),Fecha,Hora
0,ACCIONA,1277500,"-2,26%",1313500,1264000,105.112,"13.463,63",15/01/2024,Cierre
1,ACCIONA ENER,248400,"-2,20%",254800,247000,287.725,"7.162,97",15/01/2024,Cierre
2,ACERINOX,104000,"1,17%",104350,102750,665.126,"6.905,63",15/01/2024,Cierre
3,ACS,402600,"0,17%",403900,399900,426.287,"17.143,72",15/01/2024,Cierre
4,AENA,1688000,"-0,03%",1696500,1680000,84.994,"14.345,04",15/01/2024,Cierre
5,AMADEUS,639200,"-0,81%",645000,637400,331.988,"21.220,78",15/01/2024,Cierre
6,ARCELORMIT.,244300,"0,18%",247250,243850,89.265,"2.188,17",15/01/2024,Cierre
7,B.SANTANDER,37600,"-1,09%",38270,37600,23.138.604,"87.288,21",15/01/2024,Cierre
8,BA.SABADELL,11525,"0,17%",11665,11475,9.680.422,"11.174,61",15/01/2024,Cierre
9,BANKINTER,61200,"0,99%",61500,60480,2.232.588,"13.652,72",15/01/2024,Cierre


Finalmente, se obtiene un **nuevo y limplio DataFrame** que contiene todos los datos de los **principales valores que cotizan en la Bolsa de Madrid**. 

Desde el mismo Python, se va a exportar a **Excel** y a fromato **Word** :

In [79]:
df_ibex35.to_excel("df_ibex35.xlsx", index=False)

In [82]:
from docx import Document

# Create a new Word document
doc = Document()

# Add a title to the document
doc.add_heading('Valores del IBEX 35 tras el cierre del 15 enero 2024 17:37:30', level=1)

# Add a table to the document
table = doc.add_table(rows=df_ibex35.shape[0] + 1, cols=df_ibex35.shape[1])

# Add column names to the first row of the table
for col_num, col_name in enumerate(df_ibex35.columns):
    table.cell(0, col_num).text = col_name

# Add data to the table
for row_num in range(df_ibex35.shape[0]):
    for col_num in range(df_ibex35.shape[1]):
        table.cell(row_num + 1, col_num).text = str(df_ibex35.iloc[row_num, col_num])

# Save the Word document
doc.save("df_IBEX35_15-01-2024.docx")
