# Laboratorio de Web Scraping

Encontrarás en este cuaderno algunos ejercicios de web scraping para practicar tus habilidades de scraping usando `requests` y `Beautiful Soup`.

**Consejos:**

- Verifica el [código de estado de la respuesta](https://http.cat/) para cada solicitud para asegurarte de haber obtenido el contenido previsto.
- Observa el código HTML en cada solicitud para entender el tipo de información que estás obteniendo y su formato.
- Busca patrones en el texto de respuesta para extraer los datos/información solicitados en cada pregunta.
- Visita cada URL y echa un vistazo a su fuente a través de Chrome DevTools. Necesitarás identificar las etiquetas HTML, nombres de clases especiales, etc., utilizados para el contenido HTML que se espera extraer.
- Revisa los selectores CSS.

### Recursos Útiles
- Documentación de la [biblioteca Requests](http://docs.python-requests.org/en/master/#the-user-guide)
- [Doc de Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- [Lista de códigos de estado HTTP](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes)
- [Conceptos básicos de HTML](http://www.simplehtmlguide.com/cheatsheet.php)
- [Conceptos básicos de CSS](https://www.cssbasics.com/#page_start)

#### Primero que todo, reuniendo nuestras herramientas.

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json

⚠️ **Nuevamente, recuerda limitar tu salida antes de la entrega para que tu código no se pierda en la salida.**

#### Desafío 1 - Descargar, analizar (usando BeautifulSoup) e imprimir el contenido de la página de Desarrolladores en Tendencia de GitHub:

In [2]:
# Esta es la URL que vas a extraer en este ejercicio
url = 'https://github.com/trending/developers'

In [3]:
github_html=requests.get(url).text
soup = BeautifulSoup(github_html, "html.parser")

#### Muestra los nombres de los desarrolladores en tendencia recuperados en el paso anterior.

Tu salida debe ser una lista de Python con los nombres de los desarrolladores. Cada nombre no debe contener ninguna etiqueta HTML.

**Instrucciones:**

1. Descubre la etiqueta HTML y los nombres de clase usados para los nombres de los desarrolladores. Puedes lograr esto usando Chrome DevTools.

1. Usa BeautifulSoup para extraer todos los elementos HTML que contienen los nombres de los desarrolladores.

1. Utiliza técnicas de manipulación de cadenas para reemplazar espacios en blanco y saltos de línea (es decir, `\n`) en el *texto* de cada elemento HTML. Usa una lista para almacenar los nombres limpios.

1. Imprime la lista de nombres.

Tu salida debería lucir como abajo (con nombres diferentes):

```
['trimstray (@trimstray)',
 'joewalnes (JoeWalnes)',
 'charlax (Charles-AxelDein)',
 'ForrestKnight (ForrestKnight)',
 'revery-ui (revery-ui)',
 'alibaba (Alibaba)',
 'Microsoft (Microsoft)',
 'github (GitHub)',
 'facebook (Facebook)',
 'boazsegev (Bo)',
 'google (Google)',
 'cloudfetch',
 'sindresorhus (SindreSorhus)',
 'tensorflow',
 'apache (TheApacheSoftwareFoundation)',
 'DevonCrawford (DevonCrawford)',
 'ARMmbed (ArmMbed)',
 'vuejs (vuejs)',
 'fastai (fast.ai)',
 'QiShaoXuan (Qi)',
 'joelparkerhenderson (JoelParkerHenderson)',
 'torvalds (LinusTorvalds)',
 'CyC2018',
 'komeiji-satori (神楽坂覚々)',
 'script-8']
 ```

In [4]:
# Resultado a obtener

['Bagheera',
 'Folke Lemaitre',
 'Saúl Ibarra Corretgé',
 'Pontus Abrahamsson',
 'yhirose',
 'yetone',
 'Dan Gohman',
 'Tom Payne',
 'Abubakar Abid',
 'Miles Cranmer',
 'Henry Heng',
 'Victor Berchet',
 'jdx',
 'Bob Nystrom',
 'lauren',
 'Luca Forstner',
 'leogermani',
 'Mark M',
 'tangly1024',
 'Vik Paruchuri',
 'Leonid Bugaev',
 'Sascha Willems',
 'Gal Schlezinger',
 'MelkeyDev',
 'Bo-Yi Wu']

In [None]:
# Tu código aquí

#### Desafío 2 - Mostrar los repositorios de Python en tendencia en GitHub

Los pasos para resolver este problema son similares al anterior, excepto que necesitas encontrar los nombres de los repositorios en lugar de los nombres de los desarrolladores.

In [5]:
# Esta es la URL que vas a extraer en este ejercicio
url2 = 'https://github.com/trending/python?since=daily'

datos2 = requests.get(f"{url2}").text
soup2 = BeautifulSoup(datos2, 'html.parser')

In [6]:
# Resultado a obtener

['bbot',
 'langflow',
 'freqtrade',
 'pytorch',
 'gpt4free',
 'poetry',
 'GitHub520',
 'airflow',
 'AutoRAG',
 'dspy',
 'cvat',
 'mlflow',
 'garak',
 'llama-models']

In [None]:
# Tu código aquí

#### Desafío 3 - Mostrar todos los enlaces de imágenes de la página de Wikipedia de Walt Disney

In [7]:
# Esta es la URL que vas a extraer en este ejercicio
url3 = 'https://en.wikipedia.org/wiki/Walt_Disney'

disney = requests.get(f"{url3}").text
soup3 = BeautifulSoup(disney, 'html.parser')

In [8]:
# Resultado a obtener

['/static/images/icons/wikipedia.png',
 '/static/images/mobile/copyright/wikipedia-wordmark-en.svg',
 '/static/images/mobile/copyright/wikipedia-tagline-en.svg',
 '//upload.wikimedia.org/wikipedia/en/thumb/e/e7/Cscr-featured.svg/20px-Cscr-featured.svg.png',
 '//upload.wikimedia.org/wikipedia/en/thumb/8/8c/Extended-protection-shackle.svg/20px-Extended-protection-shackle.svg.png',
 '//upload.wikimedia.org/wikipedia/commons/thumb/d/df/Walt_Disney_1946.JPG/220px-Walt_Disney_1946.JPG',
 '//upload.wikimedia.org/wikipedia/commons/thumb/8/87/Walt_Disney_1942_signature.svg/150px-Walt_Disney_1942_signature.svg.png',
 '//upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Walt_Disney_Birthplace_Exterior_Hermosa_Chicago_Illinois.jpg/220px-Walt_Disney_Birthplace_Exterior_Hermosa_Chicago_Illinois.jpg',
 '//upload.wikimedia.org/wikipedia/commons/thumb/c/c4/Walt_Disney_envelope_ca._1921.jpg/220px-Walt_Disney_envelope_ca._1921.jpg',
 '//upload.wikimedia.org/wikipedia/commons/thumb/9/95/Walt_Disney_with_M

In [None]:
# Tu código aquí

#### Desafío 4 - Recuperar todos los enlaces a páginas en Wikipedia que se refieren a algún tipo de Python.

In [9]:
# Esta es la URL que vas a extraer en este ejercicio
url4 = 'https://en.wikipedia.org/wiki/Python'

python = requests.get(f"{url4}").text
soup4 = BeautifulSoup(python, 'html.parser')

In [10]:
# Resultado a obtener

['https://af.wikipedia.org/wiki/Python',
 'https://als.wikipedia.org/wiki/Python',
 'https://az.wikipedia.org/wiki/Python_(d%C9%99qiql%C9%99%C5%9Fdirm%C9%99)',
 'https://be.wikipedia.org/wiki/Python',
 'https://cs.wikipedia.org/wiki/Python_(rozcestn%C3%ADk)',
 'https://da.wikipedia.org/wiki/Python',
 'https://de.wikipedia.org/wiki/Python',
 'https://eu.wikipedia.org/wiki/Python_(argipena)',
 'https://fr.wikipedia.org/wiki/Python',
 'https://hr.wikipedia.org/wiki/Python_(razdvojba)',
 'https://id.wikipedia.org/wiki/Python',
 'https://ia.wikipedia.org/wiki/Python_(disambiguation)',
 'https://is.wikipedia.org/wiki/Python_(a%C3%B0greining)',
 'https://it.wikipedia.org/wiki/Python_(disambigua)',
 'https://la.wikipedia.org/wiki/Python_(discretiva)',
 'https://lb.wikipedia.org/wiki/Python',
 'https://hu.wikipedia.org/wiki/Python_(egy%C3%A9rtelm%C5%B1s%C3%ADt%C5%91_lap)',
 'https://nl.wikipedia.org/wiki/Python',
 'https://pt.wikipedia.org/wiki/Python_(desambigua%C3%A7%C3%A3o)',
 'https://ru.wi

In [None]:
# Tu código aquí

#### Desafío 5 - Títulos en el Código de los Estados Unidos desde su lanzamiento

In [11]:
# This is the url you will scrape in this exercise
url = 'http://uscode.house.gov/download/download.shtml'

html = requests.get(url).text
soup5 = BeautifulSoup(html, 'html.parser')

In [12]:
# Resultado a obtener

['Title 1 - General Provisions ٭',
 'Title 2 - The Congress',
 'Title 3 - The President ٭',
 'Title 4 - Flag and Seal, Seat of Government, and the States ٭',
 'Title 5 - Government Organization and Employees ٭',
 'Title 6 - Domestic Security',
 'Title 7 - Agriculture',
 'Title 8 - Aliens and Nationality',
 'Title 9 - Arbitration ٭',
 'Title 10 - Armed Forces ٭',
 'Title 11 - Bankruptcy ٭',
 'Title 12 - Banks and Banking',
 'Title 13 - Census ٭',
 'Title 14 - Coast Guard ٭',
 'Title 15 - Commerce and Trade',
 'Title 16 - Conservation',
 'Title 17 - Copyrights ٭',
 'Title 18 - Crimes and Criminal Procedure ٭',
 'Title 19 - Customs Duties',
 'Title 20 - Education',
 'Title 21 - Food and Drugs',
 'Title 22 - Foreign Relations and Intercourse',
 'Title 23 - Highways ٭',
 'Title 24 - Hospitals and Asylums',
 'Title 25 - Indians',
 'Title 26 - Internal Revenue Code',
 'Title 27 - Intoxicating Liquors',
 'Title 28 - Judiciary and Judicial Procedure ٭',
 'Title 29 - Labor',
 'Title 30 - Mineral

In [None]:
# Tu código aquí

#### Desafío 6 - Una lista y un DataFrame Python con los diez nombres más buscados por el FBI

In [13]:
# Esta es la URL que vas a extraer en este ejercicio
# url7 = 'https://www.fbi.gov/wanted/topten'
url7 = 'https://en.wikipedia.org/wiki/FBI_Ten_Most_Wanted_Fugitives'

wanted = requests.get(f"{url7}").text
soup7 = BeautifulSoup(wanted, 'html.parser')

In [14]:
# Resultado a obtener

[['Alexis Flores', 'June 2, 2007', '487'],
 ['Bhadreshkumar Chetanbhai Patel', 'April 18, 2017', '514'],
 ['Alejandro Castillo', 'October 24, 2017', '516'],
 ['Arnoldo Jimenez', 'May 8, 2019', '522'],
 ['Yulan Adonay Archaga Carias', 'November 3, 2021', '526'],
 ['Ruja Ignatova', 'June 30, 2022', '527'],
 ['Omar Alexander Cardenas', 'July 20, 2022', '528'],
 ['Wilver Villegas-Palomino', 'April 14, 2023', '530'],
 ['Donald Eugene Fields II', 'May 25, 2023', '531'],
 ["Vitel'Homme Innocent", 'November 15, 2023', '532']]

In [15]:
# Resultado a obtener

Unnamed: 0,Name,Date added,Sequence number
0,Alexis Flores,"June 2, 2007",487
1,Bhadreshkumar Chetanbhai Patel,"April 18, 2017",514
2,Alejandro Castillo,"October 24, 2017",516
3,Arnoldo Jimenez,"May 8, 2019",522
4,Yulan Adonay Archaga Carias,"November 3, 2021",526
5,Ruja Ignatova,"June 30, 2022",527
6,Omar Alexander Cardenas,"July 20, 2022",528
7,Wilver Villegas-Palomino,"April 14, 2023",530
8,Donald Eugene Fields II,"May 25, 2023",531
9,Vitel'Homme Innocent,"November 15, 2023",532


In [None]:
# Tu código aquí (lista)

In [None]:
# Tu código aquí (dataframe)

#### Desafío 7 - Listar todos los nombres de idiomas y el número de artículos relacionados en el orden en que aparecen en wikipedia.org

In [16]:
# Esta es la URL que vas a extraer en este ejercicio
url8 = 'https://www.wikipedia.org/'

languages = requests.get(f"{url8}").content
soup8 = BeautifulSoup(languages, 'html.parser')

In [17]:
# Resultado a obtener

[('English', '6902000'),
 ('Русский', '2006000'),
 ('日本語', '1434000'),
 ('Español', '1986000'),
 ('Deutsch', '2954000'),
 ('Français', '2643000'),
 ('中文', '1448000'),
 ('Italiano', '1888000'),
 ('Português', '1136000'),
 ('فارسی', '۱۰۱۷۰۰۰')]

In [None]:
# Tu código aquí

#### Desafío 8 - Una lista con los diferentes tipos de conjuntos de datos disponibles en data.gov.uk

In [18]:
# Esta es la URL que vas a extraer en este ejercicio
url82 = 'https://data.gov.uk/'

dats = requests.get(f"{url82}")
soup8 = BeautifulSoup(dats.content, 'html.parser')

In [19]:
# Resultado a obtener

['Business and economy',
 'Crime and justice',
 'Defence',
 'Education',
 'Environment',
 'Government',
 'Government spending',
 'Health',
 'Mapping',
 'Society',
 'Towns and cities',
 'Transport',
 'Digital service performance',
 'Government reference data']

In [None]:
# Tu código aquí

#### Desafío 9 - Una lista y un DataFrame con los 10 idiomas con más hablantes nativos almacenados en un DataFrame de Pandas

In [20]:
# Esta es la URL que vas a extraer en este ejercicio
url9 = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'

tenlang = requests.get(url9)
soup9 = BeautifulSoup(tenlang.content, "html.parser")

In [21]:
# Resultado a obtener

[['Mandarin Chinese', '941', 'Sino-Tibetan', 'Sinitic'],
 ['Spanish', '486', 'Indo-European', 'Romance'],
 ['English', '380', 'Indo-European', 'Germanic'],
 ['Hindi', '345', 'Indo-European', 'Indo-Aryan'],
 ['Bengali', '237', 'Indo-European', 'Indo-Aryan'],
 ['Portuguese', '236', 'Indo-European', 'Romance'],
 ['Russian', '148', 'Indo-European', 'Balto-Slavic'],
 ['Japanese', '123', 'Japonic', 'Japanese'],
 ['Yue Chinese', '86', 'Sino-Tibetan', 'Sinitic'],
 ['Vietnamese', '85', 'Austroasiatic', 'Vietic']]

In [22]:
# Resultado a obtener

Unnamed: 0,Language,Native Speakers,Language Family,Branch
0,Mandarin Chinese,941,Sino-Tibetan,Sinitic
1,Spanish,486,Indo-European,Romance
2,English,380,Indo-European,Germanic
3,Hindi,345,Indo-European,Indo-Aryan
4,Bengali,237,Indo-European,Indo-Aryan
5,Portuguese,236,Indo-European,Romance
6,Russian,148,Indo-European,Balto-Slavic
7,Japanese,123,Japonic,Japanese
8,Yue Chinese,86,Sino-Tibetan,Sinitic
9,Vietnamese,85,Austroasiatic,Vietic


In [None]:
# Tu código aquí (lista)

In [None]:
# Tu código aquí (dataframe)

### Subiendo el nivel
#### Desafío 10 - La información de los 20 últimos terremotos (fecha, hora, latitud, longitud y nombre de la región) como un DataFrame de pandas

In [23]:
# Esta es la URL que vas a extraer en este ejercicio
url7 = 'http://ds.iris.edu/seismon/eventlist/index.phtml'

response = requests.get(url7)
soup10 = BeautifulSoup(response.content, "html.parser")

In [25]:
# Resultado a obtener

Unnamed: 0,Date-Time,Lat,Lon,Mag,Depth,Location
0,21-NOV-2024 04:59:15,29.31,51.3,4.9,10,SOUTHERN IRAN
1,21-NOV-2024 02:23:43,8.03,-82.88,4.8,10,PANAMA-COSTA RICA BORDER REGION
2,21-NOV-2024 00:26:47,-23.1,-69.07,4.2,96,NORTHERN CHILE
3,20-NOV-2024 21:19:33,-6.53,130.46,4.1,148,BANDA SEA
4,20-NOV-2024 20:56:30,16.74,-100.42,4.3,10,"NEAR COAST OF GUERRERO, MEXICO"
5,20-NOV-2024 18:44:16,-17.22,-174.34,5.1,200,TONGA ISLANDS
6,20-NOV-2024 15:09:02,46.43,136.13,5.1,407,"PRIMOR'YE, RUSSIA"
7,20-NOV-2024 14:55:41,18.19,145.47,4.9,282,MARIANA ISLANDS
8,20-NOV-2024 14:43:53,79.81,1.49,5.7,14,GREENLAND SEA
9,20-NOV-2024 10:42:57,-20.73,-176.27,5.5,228,FIJI ISLANDS REGION


In [None]:
# Tu código aquí

#### Desafío 11 - Datos del Top de peliculas (nombre de la película, lanzamiento inicial, lugar de origen, nombre del director y puntaje) como un DataFrame de pandas

In [26]:
# Esta es la URL que vas a extraer en este ejercicio 
url11 = 'https://www.filmaffinity.com/es/userlist.php?user_id=882839&list_id=1006'

pelis = requests.get(url11)
soup11 = BeautifulSoup(pelis.content, "html.parser")

In [28]:
# Resultado a obtener

Unnamed: 0,Title,Year,Country,Director,Rating
0,12 hombres sin piedad,1957,Estados Unidos,Sidney Lumet,87
1,El padrino,1972,Estados Unidos,Francis Ford Coppola,90
2,El padrino. Parte II,1974,Estados Unidos,Francis Ford Coppola,89
3,La guerra de las galaxias. Episodio V: El impe...,1980,Estados Unidos,Irvin Kershner,81
4,La guerra de las galaxias. Episodio IV: Una nu...,1977,Estados Unidos,George Lucas,79
5,La guerra de las galaxias. Episodio VI: El ret...,1983,Estados Unidos,Richard Marquand,79
6,Indiana Jones y la última cruzada,1989,Estados Unidos,Steven Spielberg,78
7,En busca del arca perdida,1981,Estados Unidos,Steven Spielberg,78
8,Casablanca,1942,Estados Unidos,Michael Curtiz,84
9,Seven,1995,Estados Unidos,David Fincher,83


In [None]:
# Tu código aquí

#### Desafío 12 - Nombre de la película, año, lugar, director, raiting, cast, raiting usuarios y rating count de las 10 películas aleatorias como un DataFrame de pandas.

In [29]:
# Esta es la URL que vas a extraer en este ejercicio
url11 = 'https://www.filmaffinity.com/es/userlist.php?user_id=882839&list_id=1006'

pelis = requests.get(url11)
soup11 = BeautifulSoup(pelis.content, "html.parser")

In [31]:
# Resultado a obtener

Unnamed: 0,Title,Year,Country,Director,Rating,Cast,RatMovieUsrs,RatCount
0,La princesa Mononoke,1997,Japón,Hayao Miyazaki,80,[],8,71.24
1,12 hombres sin piedad,1957,Estados Unidos,Sidney Lumet,87,"[Henry Fonda,, Lee J. Cobb,, Jack Warden,, E.G...",9,72.5
2,Gran Torino,2008,Estados Unidos,Clint Eastwood,82,"[Clint Eastwood,, Christopher Carley,, Bee Van...",8,149.039
3,El show de Truman,1998,Estados Unidos,Peter Weir,77,"[Jim Carrey,, Laura Linney,, Noah Emmerich,, E...",6,127.1
4,Matrix,1999,Estados Unidos,"Lilly Wachowski,",79,"[Lana Wachowski,, Hermanas Wachowski, Keanu Re...",7,197.723
5,Salvar al soldado Ryan,1998,Estados Unidos,Steven Spielberg,78,"[Tom Hanks,, Tom Sizemore,, Edward Burns,, Mat...",6,142.852
6,Cadena perpetua,1994,Estados Unidos,Frank Darabont,86,"[Tim Robbins,, Morgan Freeman,, Bob Gunton,, J...",9,171.112
7,Shutter Island,2010,Estados Unidos,Martin Scorsese,76,"[Leonardo DiCaprio,, Mark Ruffalo,, Ben Kingsl...",7,127.728
8,El castillo ambulante,2004,Japón,Hayao Miyazaki,78,[],8,61.454
9,Toy Story,1995,Estados Unidos,John Lasseter,77,"[Tom Hanks,, Tim Allen,, Don Rickles]",7,160.686


In [None]:
# Tu código aquí

#### Desafío 13 - Encontrar el reporte meteorológico en vivo (temperatura, velocidad del viento, descripción y clima) de una ciudad dada.

In [32]:
# Esta es la URL que vas a extraer en este ejercicio
# https://openweathermap.org/current

# Usa la API oficial con tu clave API real y con tu ciudad

In [33]:
# Posible resultado a obtener

Clima en Barcelona:
{'coord': {'lon': 2.159, 'lat': 41.3888}, 'weather': [{'id': 802, 'main': 'Clouds', 'description': 'scattered clouds', 'icon': '03d'}], 'base': 'stations', 'main': {'temp': 286.86, 'feels_like': 285.98, 'temp_min': 285.73, 'temp_max': 287.41, 'pressure': 1011, 'humidity': 65, 'sea_level': 1011, 'grnd_level': 1003}, 'visibility': 10000, 'wind': {'speed': 0.45, 'deg': 311, 'gust': 2.24}, 'clouds': {'all': 48}, 'dt': 1732172236, 'sys': {'type': 2, 'id': 18549, 'country': 'ES', 'sunrise': 1732171643, 'sunset': 1732206456}, 'timezone': 3600, 'id': 3128760, 'name': 'Barcelona', 'cod': 200}


In [None]:
# Tu código aquí

#### Desafío 14 - Nombre del libro, precio y disponibilidad de stock como un DataFrame de pandas.

In [34]:
# Esta es la URL que vas a extraer en este ejercicio. 
# Es una librería ficticia creada para ser extraída.
url14 = 'http://books.toscrape.com'

In [36]:
# Resultado a obtener

Unnamed: 0,Boock,Price,Stock
0,A Light in the Attic,£51.77,In stock
1,Tipping the Velvet,£53.74,In stock
2,Soumission,£50.10,In stock
3,Sharp Objects,£47.82,In stock
4,Sapiens: A Brief History of Humankind,£54.23,In stock
...,...,...,...
995,Alice in Wonderland (Alice's Adventures in Won...,£55.53,In stock
996,"Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)",£57.06,In stock
997,A Spy's Devotion (The Regency Spies of London #1),£16.97,In stock
998,1st to Die (Women's Murder Club #1),£53.98,In stock


In [None]:
# Tu código aquí