# Laboratorio de Web Scraping

Encontrarás en este cuaderno algunos ejercicios de web scraping para practicar tus habilidades de scraping usando `requests` y `Beautiful Soup`.

**Consejos:**

- Verifica el [código de estado de la respuesta](https://http.cat/) para cada solicitud para asegurarte de haber obtenido el contenido previsto.
- Observa el código HTML en cada solicitud para entender el tipo de información que estás obteniendo y su formato.
- Busca patrones en el texto de respuesta para extraer los datos/información solicitados en cada pregunta.
- Visita cada URL y echa un vistazo a su fuente a través de Chrome DevTools. Necesitarás identificar las etiquetas HTML, nombres de clases especiales, etc., utilizados para el contenido HTML que se espera extraer.
- Revisa los selectores CSS.

### Recursos Útiles
- Documentación de la [biblioteca Requests](http://docs.python-requests.org/en/master/#the-user-guide)
- [Doc de Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- [Lista de códigos de estado HTTP](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes)
- [Conceptos básicos de HTML](http://www.simplehtmlguide.com/cheatsheet.php)
- [Conceptos básicos de CSS](https://www.cssbasics.com/#page_start)

#### Primero que todo, reuniendo nuestras herramientas.

In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json

⚠️ **Nuevamente, recuerda limitar tu salida antes de la entrega para que tu código no se pierda en la salida.**

#### Desafío 1 - Descargar, analizar (usando BeautifulSoup) e imprimir el contenido de la página de Desarrolladores en Tendencia de GitHub:

In [2]:
# This is the url you will scrape in this exercise
url = 'https://github.com/trending/developers'

In [6]:
github_html=requests.get(url).text
soup = BeautifulSoup(github_html, "html.parser")

#### Muestra los nombres de los desarrolladores en tendencia recuperados en el paso anterior.

Tu salida debe ser una lista de Python con los nombres de los desarrolladores. Cada nombre no debe contener ninguna etiqueta HTML.

**Instrucciones:**

1. Descubre la etiqueta HTML y los nombres de clase usados para los nombres de los desarrolladores. Puedes lograr esto usando Chrome DevTools.

1. Usa BeautifulSoup para extraer todos los elementos HTML que contienen los nombres de los desarrolladores.

1. Utiliza técnicas de manipulación de cadenas para reemplazar espacios en blanco y saltos de línea (es decir, `\n`) en el *texto* de cada elemento HTML. Usa una lista para almacenar los nombres limpios.

1. Imprime la lista de nombres.

Tu salida debería lucir como abajo (con nombres diferentes):

```
['trimstray (@trimstray)',
 'joewalnes (JoeWalnes)',
 'charlax (Charles-AxelDein)',
 'ForrestKnight (ForrestKnight)',
 'revery-ui (revery-ui)',
 'alibaba (Alibaba)',
 'Microsoft (Microsoft)',
 'github (GitHub)',
 'facebook (Facebook)',
 'boazsegev (Bo)',
 'google (Google)',
 'cloudfetch',
 'sindresorhus (SindreSorhus)',
 'tensorflow',
 'apache (TheApacheSoftwareFoundation)',
 'DevonCrawford (DevonCrawford)',
 'ARMmbed (ArmMbed)',
 'vuejs (vuejs)',
 'fastai (fast.ai)',
 'QiShaoXuan (Qi)',
 'joelparkerhenderson (JoelParkerHenderson)',
 'torvalds (LinusTorvalds)',
 'CyC2018',
 'komeiji-satori (神楽坂覚々)',
 'script-8']
 ```

In [91]:
names_devp = soup.select('h1.h3 a.Link')

list_name = []
for name in names_devp:
    list_name.append(name.get_text().strip())

list_name

['Sebastian Raschka',
 'LangChain4j',
 'Norman Maurer',
 'doronz88',
 'JJ Kasper',
 'Miguel Beltran',
 'Vik Paruchuri',
 'Arthur',
 'Holt Skinner',
 'Huang Huang',
 'Aliaksandr Valialkin',
 'Massimiliano Pippi',
 'Jack Lloyd',
 'Rich Harris',
 'Tobias Klauser',
 'Lukas Masuch',
 'Charlie Marsh',
 'Steven Silvester',
 'Matthias Seitz',
 'Justin Lebar',
 'Mattias Wadman',
 'David Sherret',
 'Gal Schlezinger',
 'Mitchell Hashimoto',
 'awaelchli']

#### Desafío 2 - Mostrar los repositorios de Python en tendencia en GitHub

Los pasos para resolver este problema son similares al anterior, excepto que necesitas encontrar los nombres de los repositorios en lugar de los nombres de los desarrolladores.

In [75]:
# This is the url you will scrape in this exercise
url2 = 'https://github.com/trending/python?since=daily'
datos2 = requests.get(f"{url2}").text
soup2 = BeautifulSoup(datos2, 'html.parser')

In [97]:
links = soup2.select('h2 a')

repo_names = []
for link in links:
    repo_name = link.get_text().strip()
    repo_names.append(repo_name.split('\n')[2].strip())

repo_names

['cover-agent',
 'khoj',
 'searxng',
 'MiniCPM-V',
 'CVE-2024-21683-RCE',
 'omniglue',
 'ungoogled-chromium',
 'bisheng',
 'nvda',
 'ragflow',
 'seismometer',
 'core',
 'accelerate',
 'taipy',
 'corenet',
 'LaVague',
 'gpt-researcher',
 'krita-ai-diffusion',
 'azure-sdk-for-python',
 'unsloth',
 'TagStudio',
 'pathway',
 'Python',
 'Python-100-Days',
 'sqlmesh']

#### Desafío 3 - Mostrar todos los enlaces de imágenes de la página de Wikipedia de Walt Disney

In [81]:
# This is the url you will scrape in this exercise
url3 = 'https://en.wikipedia.org/wiki/Walt_Disney'
disney = requests.get(f"{url3}").text
soup3 = BeautifulSoup(disney, 'html.parser')

In [92]:
images = soup3.find_all('img')
images_link = []

for image in images:
    if image.has_attr('src'):
        images_link.append(image['src'])

images_link

['/static/images/icons/wikipedia.png',
 '/static/images/mobile/copyright/wikipedia-wordmark-en.svg',
 '/static/images/mobile/copyright/wikipedia-tagline-en.svg',
 '//upload.wikimedia.org/wikipedia/en/thumb/e/e7/Cscr-featured.svg/20px-Cscr-featured.svg.png',
 '//upload.wikimedia.org/wikipedia/en/thumb/8/8c/Extended-protection-shackle.svg/20px-Extended-protection-shackle.svg.png',
 '//upload.wikimedia.org/wikipedia/commons/thumb/d/df/Walt_Disney_1946.JPG/220px-Walt_Disney_1946.JPG',
 '//upload.wikimedia.org/wikipedia/commons/thumb/8/87/Walt_Disney_1942_signature.svg/150px-Walt_Disney_1942_signature.svg.png',
 '//upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Walt_Disney_Birthplace_Exterior_Hermosa_Chicago_Illinois.jpg/220px-Walt_Disney_Birthplace_Exterior_Hermosa_Chicago_Illinois.jpg',
 '//upload.wikimedia.org/wikipedia/commons/thumb/c/c4/Walt_Disney_envelope_ca._1921.jpg/220px-Walt_Disney_envelope_ca._1921.jpg',
 '//upload.wikimedia.org/wikipedia/commons/thumb/c/cd/Walt_Disney_Snow_w

#### Desafío 4 - Recuperar todos los enlaces a páginas en Wikipedia que se refieren a algún tipo de Python.

In [93]:
url4 ='https://en.wikipedia.org/wiki/Python' 
python = requests.get(f"{url4}").text
soup4 = BeautifulSoup(python, 'html.parser')

In [114]:
wiki_links = soup4.select('ul li')
list_link = []

for li in wiki_links:
    a_tag = li.find_all('a')
    
    for a in a_tag:
        herf = a.get('href')

        if herf:
            list_link.append(herf)
        
list_link

['/wiki/Main_Page',
 '/wiki/Wikipedia:Contents',
 '/wiki/Portal:Current_events',
 '/wiki/Special:Random',
 '/wiki/Wikipedia:About',
 '//en.wikipedia.org/wiki/Wikipedia:Contact_us',
 'https://donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_en.wikipedia.org&uselang=en',
 '/wiki/Help:Contents',
 '/wiki/Help:Introduction',
 '/wiki/Wikipedia:Community_portal',
 '/wiki/Special:RecentChanges',
 '/wiki/Wikipedia:File_upload_wizard',
 '/w/index.php?title=Special:CreateAccount&returnto=Python',
 '/w/index.php?title=Special:UserLogin&returnto=Python',
 '/w/index.php?title=Special:CreateAccount&returnto=Python',
 '/w/index.php?title=Special:UserLogin&returnto=Python',
 '/wiki/Special:MyContributions',
 '/wiki/Special:MyTalk',
 '#',
 '#Snakes',
 '#Computing',
 '#People',
 '#Roller_coasters',
 '#Vehicles',
 '#Weaponry',
 '#Other_uses',
 '#See_also',
 'https://af.wikipedia.org/wiki/Python',
 'https://als.wikipedia.org/wiki/Python',
 'https:

#### Desafío 5 - Número de Títulos que han cambiado en el Código de los Estados Unidos desde su último punto de lanzamiento

In [115]:
# This is the url you will scrape in this exercise
url = 'http://uscode.house.gov/download/download.shtml'
indivisual_titles = requests.get(f"{url}").text
soup5 = BeautifulSoup(indivisual_titles , 'html.parser')

In [117]:
changed_files = soup5.find_all('div', class_='usctitlechanged')
len(changed_files)

2

#### Desafío 6 - Una lista de Python con los diez nombres más buscados por el FBI

In [131]:
# This is the url you will scrape in this exercise
url6 = 'https://en.wikipedia.org/wiki/FBI_Ten_Most_Wanted_Fugitives'

In [145]:
wanted = requests.get(f"{url6}").text
soup6 = BeautifulSoup(wanted, 'html.parser')
wantedtag = soup6.find_all('tr')

In [144]:
list_name= []
for item in wantedtag:
    names = item.find('div', class_='center')

    if names is not None:
        for name in names:
            print(name.text)

Alexis Flores
Bhadreshkumar Chetanbhai Patel
Alejandro Castillo
Arnoldo Jimenez
Yulan Adonay Archaga Carias
Ruja Ignatova
Omar Alexander Cardenas
Wilver Villegas-Palomino
Donald Eugene Fields II
Vitel'Homme Innocent


#### Desafío 7 - Listar todos los nombres de idiomas y el número de artículos relacionados en el orden en que aparecen en wikipedia.org

In [167]:
# This is the url you will scrape in this exercise
url7 = 'https://www.wikipedia.org/'

In [168]:
languages = requests.get(f"{url7}")
languages.encoding = 'uft-8'
soup7 = BeautifulSoup(languages.text)
langlist = soup7.find_all("div", {"class": f"central-featured-lang"})

In [169]:
languages_collect = []
for lang in langlist:
     language = lang.find('strong').text.strip()
     articles = ''.join(filter(str.isdigit, lang.find('small').text.strip()))
     languages_collect.append((language, articles))

languages_collect

[('English', '6796000'),
 ('Русский', '1969000'),
 ('日本語', '1407000'),
 ('Español', '1938000'),
 ('Deutsch', '2891000'),
 ('Français', '2598000'),
 ('Italiano', '1853000'),
 ('中文', '1409000'),
 ('فارسی', '۹۹۵۰۰۰'),
 ('Português', '1120000')]

#### Desafío 8 - Una lista con los diferentes tipos de conjuntos de datos disponibles en data.gov.uk

In [170]:
# This is the url you will scrape in this exercise
url82 = 'https://data.gov.uk/'
dats = requests.get(f"{url82}")
soup8 = BeautifulSoup(dats.content, 'html.parser')

In [171]:
dataset_links = soup8.select("h3:nth-child(1) > a:nth-child(1)")
dataset_types = []
for link in dataset_links:
    dataset_types.append(link.text.strip())

dataset_types

['Business and economy',
 'Crime and justice',
 'Defence',
 'Education',
 'Environment',
 'Government',
 'Government spending',
 'Health',
 'Mapping',
 'Society',
 'Towns and cities',
 'Transport',
 'Digital service performance',
 'Government reference data']

#### Desafío 9 - Los 10 idiomas con más hablantes nativos almacenados en un DataFrame de Pandas

In [172]:
# This is the url you will scrape in this exercise
url9 = 'https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers'
tenlang = requests.get(url9)
soup9 = BeautifulSoup(tenlang.content,"html.parser")

In [174]:
langtable = soup9.find("table", class_='wikitable')
langrows = langtable.find_all('tr')
langs = []
for row in langrows[1:11]:
    col=row.find_all('td')
    lang=col[0].text.strip()
    speakers=col[1].text.strip()
    langfamily=col[2].text.strip()
    branch=col[3].text.strip()
    langs.append([lang,speakers,langfamily,branch])

langs

[['Mandarin Chinese', '941', 'Sino-Tibetan', 'Sinitic'],
 ['Spanish', '486', 'Indo-European', 'Romance'],
 ['English', '380', 'Indo-European', 'Germanic'],
 ['Hindi', '345', 'Indo-European', 'Indo-Aryan'],
 ['Bengali', '237', 'Indo-European', 'Indo-Aryan'],
 ['Portuguese', '236', 'Indo-European', 'Romance'],
 ['Russian', '148', 'Indo-European', 'Balto-Slavic'],
 ['Japanese', '123', 'Japonic', 'Japanese'],
 ['Yue Chinese', '86', 'Sino-Tibetan', 'Sinitic'],
 ['Vietnamese', '85', 'Austroasiatic', 'Vietic']]

### Subiendo el nivel
#### Desafío 10 - La información de los 20 últimos terremotos (fecha, hora, latitud, longitud y nombre de la región) por el EMSC como un dataframe de pandas

In [186]:
# This is the url you will scrape in this exercise
#url7 = 'https://www.emsc-csem.org/Earthquake/'
url10 = "http://ds.iris.edu/seismon/eventlist/index.phtml"
response = requests.get(url10)
soup10 = BeautifulSoup(response.content, 'html.parser')

In [192]:
eqtable = soup10.find("table", class_="tablesorter")
eqrows = eqtable.find_all("tr")
earthquakes = []

for row in eqrows[1:21]:
    col=row.find_all("td")
    date =col[0].text.strip()
    lat =col[1].text.strip()
    lon =col[2].text.strip()
    mag=col[3].text.strip()
    depth=col[4].text.strip()
    location=col[5].text.strip()
    earthquakes.append([date,lat,lon,mag,depth,location])

earthquakes

df = pd.DataFrame(earthquakes, columns=["Date-Time", "Lat", "Lon", "Mag","Depth","Location"])
df

Unnamed: 0,Date-Time,Lat,Lon,Mag,Depth,Location
0,25-MAY-2024 14:31:02,36.72,21.66,4.2,48,SOUTHERN GREECE
1,25-MAY-2024 12:02:47,-37.96,-74.0,4.7,12,OFF COAST OF CENTRAL CHILE
2,25-MAY-2024 11:52:45,-4.79,133.9,4.6,10,"IRIAN JAYA REGION, INDONESIA"
3,25-MAY-2024 10:16:33,18.98,-65.48,4.04,54,PUERTO RICO REGION
4,25-MAY-2024 10:10:39,-18.05,-177.9,4.4,557,FIJI ISLANDS REGION
5,25-MAY-2024 08:08:59,56.13,163.72,5.0,32,NEAR EAST COAST OF KAMCHATKA
6,25-MAY-2024 07:52:08,-27.66,-67.81,4.5,141,"CATAMARCA PROVINCE, ARGENTINA"
7,25-MAY-2024 07:37:21,1.15,126.44,4.9,41,NORTHERN MOLUCCA SEA
8,25-MAY-2024 06:56:38,-20.93,-178.52,4.4,539,FIJI ISLANDS REGION
9,25-MAY-2024 05:55:51,0.81,131.7,4.8,10,"IRIAN JAYA REGION, INDONESIA"


#### Desafío 11 - Datos del Top 250 de IMDB (nombre de la película, lanzamiento inicial, nombre del director y estrellas) como un dataframe de pandas

In [193]:
# This is the url you will scrape in this exercise 
url11 = 'https://www.imdb.com/chart/top'
pelis = requests.get(url11)
soup11 = BeautifulSoup(pelis.content,"html.parser")

#### Desafío 12 - Nombre de la película, año y un breve resumen de las 10 películas aleatorias top (IMDB) como un dataframe de pandas.

In [None]:
#This is the url you will scrape in this exercise
url = 'http://www.imdb.com/chart/top'

In [None]:
years = list(soup.find_all("span", {"class": "secondaryInfo"}))

In [None]:
# Tu código aquí

#### Desafío 13 - Encontrar el reporte meteorológico en vivo (temperatura, velocidad del viento, descripción y clima) de una ciudad dada.

In [None]:
#https://openweathermap.org/current

In [None]:
def weather(city):
    pass

#### Desafío 14 - Nombre del libro, precio y disponibilidad de stock como un dataframe de pandas.

In [None]:
# This is the url you will scrape in this exercise. 
# It is a fictional bookstore created to be scraped. 
url14 = 'http://books.toscrape.com/'
books = requests.get(url11)
soup = BeautifulSoup(books.content,"html.parser")

In [None]:
libros = list(soup.select('h1.h3 a[tittle]'))
#nombres = soup.select('h1.h3 a[tittle]')

In [None]:
# Tu código aquí

**Limitates tu output? Gracias! 🙂**