# Tasca M10 T01 - estructures_Dataframe

## Descripció
**Exercicis de Web Scraping.**



## - Exercici 1
**Realitza web scraping de dues de les tres pàgines web proposades utilitzant BeautifulSoup primer i Selenium després.**

- http://quotes.toscrape.com

- https://www.bolsamadrid.es

- www.wikipedia.es (fes alguna cerca primer i escrapeja algun contingut)

### 1.1. Beautiful Soup
1.1.1 Procedeixo a fer web scraping a la pagina http://quotes.toscrape.com 

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
response = requests.get('http://quotes.toscrape.com')
soup = BeautifulSoup(response.text, 'html.parser')

quotes = soup.find_all('span', class_='text')
autors = soup.find_all('small', class_='author')

In [3]:
data = {'Author': [author.text for author in autors],
        'Quote': [quote.text for quote in quotes]}
df = pd.DataFrame(data)
df

Unnamed: 0,Author,Quote
0,Albert Einstein,“The world as we have created it is a process ...
1,J.K. Rowling,"“It is our choices, Harry, that show what we t..."
2,Albert Einstein,“There are only two ways to live your life. On...
3,Jane Austen,"“The person, be it gentleman or lady, who has ..."
4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and..."
5,Albert Einstein,“Try not to become a man of success. Rather be...
6,André Gide,“It is better to be hated for what you are tha...
7,Thomas A. Edison,"“I have not failed. I've just found 10,000 way..."
8,Eleanor Roosevelt,“A woman is like a tea bag; you never know how...
9,Steve Martin,"“A day without sunshine is like, you know, nig..."


1.1.2 Procedeixo a fer web scraping a la pagina www.wikipedia.es 

In [4]:
response = requests.get('https://es.wikipedia.org/wiki/Meteorolog%C3%ADa')
soup = BeautifulSoup(response.content, 'html.parser')

In [5]:
print(soup.find('title').string)

Meteorología - Wikipedia, la enciclopedia libre


In [6]:
# busca tot el contingut de la pagina (main)
text = soup.find('main', {'id': 'content'})
# busca parragrafs
parts_text = text.find_all('p')
# imprimeix paragrafs
for i in parts_text:
    print(i.get_text())

La meteorología (del griego μετέωρον metéōron ‘alto en el cielo’, ‘meteoro’; y λόγος lógos ‘conocimiento’, ‘tratado’) es la ciencia atmosférica interdisciplinaria que estudia el estado del tiempo, el medio atmosférico, los fenómenos meteorológicos y las leyes que los rigen con apoyo de disciplinas auxiliares como la física de la atmósfera y la química de la atmósfera.[1]​[2]​[3]​

La Tierra está constituida por tres partes fundamentales: una parte sólida llamada litosfera, otra cubierta por agua llamada hidrosfera y una tercera, que envuelve a las dos anteriores, conformada por una capa gaseosa denominada atmósfera. Éstas se relacionan entre sí produciendo modificaciones profundas en sus características. La ciencia que estudia estas características, las propiedades y los movimientos de las tres capas fundamentales de la Tierra, es la geofísica. En ese sentido, la meteorología es una rama de la geofísica que tiene por objeto el estudio detallado de la envoltura gaseosa de la Tierra y lo

Procedeixo a fer un dataframe amb el contingut de cada paragraf:

In [7]:
paragrafs = [i.get_text() for i in parts_text]
df = pd.DataFrame({'Paragrafs': paragrafs})
df

Unnamed: 0,Paragrafs
0,La meteorología (del griego μετέωρον metéōron ...
1,La Tierra está constituida por tres partes fun...
2,Se debe distinguir entre las condiciones actua...
3,Desde la más remota antigüedad se tiene consta...
4,Los progresos posteriores en el campo meteorol...
5,El primero en definir de modo correcto la circ...
6,"A inicios del siglo XX, los progresos en la co..."
7,"En los años 1950, los experimentos de cálculo ..."
8,"En los años recientes, se han estado desarroll..."
9,"Así, en el análisis hecho por la NASA de la ol..."


### 1.2. Selenium

1.2.1 Procedeixo a fer web scraping a la pagina http://quotes.toscrape.com

In [8]:
! pip install selenium



In [9]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

In [10]:
# configuració del navegador
driver = webdriver.Chrome() 
# obre la pagina web
driver.get("http://quotes.toscrape.com")

In [11]:
# troba les quotes i els autors
quotes = driver.find_elements(By.CLASS_NAME, "text") 
autors = driver.find_elements(By.CLASS_NAME, "author")

In [12]:
for quote, author in zip(quotes, autors):
    print(quote.text.strip())
    print(author.text.strip())
    print()

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Albert Einstein

“It is our choices, Harry, that show what we truly are, far more than our abilities.”
J.K. Rowling

“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Albert Einstein

“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Jane Austen

“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Marilyn Monroe

“Try not to become a man of success. Rather become a man of value.”
Albert Einstein

“It is better to be hated for what you are than to be loved for what you are not.”
André Gide

“I have not failed. I've just found 10,000 ways that won't work.”
Thomas A. Edison

“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
Eleanor Roosevelt

“A 

## - Exercici 2
**Documenta en un Word el teu conjunt de dades generat amb la informació que tenen els diferents arxius de Kaggle.**

## Quotes to Scrape

### **About Dataset**

**Context**

Aquest dataset  recopila cites de diferents autors famosos.

**Content**

Composat per 10 files i 2 columnes, que representen cadascuna una cita juntament amb el seu autor corresponent.

**Acknowledgements**

Dades de 'http://quotes.toscrape.com'

## Wikipedia - Meteorología

### **About Dataset**

**Context**

Viquipèdia és una enciclopèdia en línia col·laborativa i multilingüe que proporciona contingut gratuït i editat per voluntaris. És una de les fonts de coneixement més grans i àmplies a Internet. La recerca ha estat sobre Meteorología. És la ciència atmosfèrica interdisciplinària que estudia l'estat del temps, el medi atmosfèric, els fenòmens meteorològics i les lleis que els regeixen, amb el suport de disciplines auxiliars com la física de l'atmosfera i la química de l'atmosfera.

**Content**

24 paragrafs informatius sobre historia, branques, equips meteorologics i previsio del temps.

**Acknowledgements**

Dades de 'https://es.wikipedia.org/wiki/Meteorolog%C3%ADa'

## - Exercici 3
**Tria una pàgina web que tu vulguis i realitza web scraping mitjançant la llibreria scrapy**

Fare web scraping amb selenium del rank, nom, equip i temps dels 10 primers corredors classificats del tour de frança 2023.


In [14]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome() 
driver.get("https://www.letour.fr/es") 

for i in range(1, 11): # Iteració sobre els 10 corredors del TOP10
    rank = driver.find_element(By.CLASS_NAME, f'rank-{i}').text
    nom = driver.find_element(By.CSS_SELECTOR, f'.info-{i} strong').text
    equip = driver.find_element(By.CSS_SELECTOR, f'.info-{i} .team').text
    time = driver.find_element(By.CSS_SELECTOR, f'.info-{i} .time').text

    print(f"{rank}\n{nom}\n{equip}\n{time}\n")

driver.quit()

1
Jonas VINGEGAARD
JUMBO-VISMA
82h 05' 42''

2
Tadej POGAČAR
UAE TEAM EMIRATES
+ 00h 07' 29''

3
Adam YATES
UAE TEAM EMIRATES
+ 00h 10' 56''

4
Simon YATES
TEAM JAYCO ALULA
+ 00h 12' 23''

5
Carlos RODRIGUEZ CANO
INEOS GRENADIERS
+ 00h 13' 17''

6
Pello BILBAO LOPEZ
BAHRAIN VICTORIOUS
+ 00h 13' 27''

7
Jai HINDLEY
BORA - HANSGROHE
+ 00h 14' 44''

8
Felix GALL
AG2R CITROEN TEAM
+ 00h 16' 09''

9
David GAUDU
GROUPAMA - FDJ
+ 00h 23' 08''

10
Guillaume MARTIN
COFIDIS
+ 00h 26' 30''



Un cop tenim les dades, procedeixo a millorar el codi per que aquestes es disposin de forma més visual en un dataframe:

In [16]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome() 
driver.get("https://www.letour.fr/es") 

# Llistes per guardar les dades
ranks = []
noms = []
equips = []
temps = []

for i in range(1, 11): 
    rank = driver.find_element(By.CLASS_NAME, f'rank-{i}').text
    nom = driver.find_element(By.CSS_SELECTOR, f'.info-{i} strong').text
    equip = driver.find_element(By.CSS_SELECTOR, f'.info-{i} .team').text
    time = driver.find_element(By.CSS_SELECTOR, f'.info-{i} .time').text

    # Afegeixo les dades a les llistes per fer el df
    ranks.append(rank)
    noms.append(nom)
    equips.append(equip)
    temps.append(time)

driver.quit()

# Dataframe
data = {'Rank': ranks, 'Nom': noms, 'Equip': equips, 'Temps': temps}
df = pd.DataFrame(data)

df

Unnamed: 0,Rank,Nom,Equip,Temps
0,1,Jonas VINGEGAARD,JUMBO-VISMA,82h 05' 42''
1,2,Tadej POGAČAR,UAE TEAM EMIRATES,+ 00h 07' 29''
2,3,Adam YATES,UAE TEAM EMIRATES,+ 00h 10' 56''
3,4,Simon YATES,TEAM JAYCO ALULA,+ 00h 12' 23''
4,5,Carlos RODRIGUEZ CANO,INEOS GRENADIERS,+ 00h 13' 17''
5,6,Pello BILBAO LOPEZ,BAHRAIN VICTORIOUS,+ 00h 13' 27''
6,7,Jai HINDLEY,BORA - HANSGROHE,+ 00h 14' 44''
7,8,Felix GALL,AG2R CITROEN TEAM,+ 00h 16' 09''
8,9,David GAUDU,GROUPAMA - FDJ,+ 00h 23' 08''
9,10,Guillaume MARTIN,COFIDIS,+ 00h 26' 30''
