# Web scraping básico

   Descargar el contenido de la página web utilizando la biblioteca requests. Realiza una solicitud GET a la URL de la página y obtén la respuesta.

   Analizar el contenido de la página web utilizando la biblioteca BeautifulSoup. Convierte el contenido HTML de la página en un objeto soup que permite extraer información de manera más sencilla.

   Extraer información de la página utilizando el objeto soup. Ejemplos: encontrar y mostrar todos los enlaces, títulos y párrafos en la página. Personaliza este paso para extraer la información que necesites.
    
   **NOTA:** Copiar el enlace de la página web para ver cuál es el objetivo. En este caso queremos extraer los encabezados de la página.

In [1]:
# Importar las bibliotecas necesarias
import requests
from bs4 import BeautifulSoup

# Paso 1: Descargar el contenido de la página web
url = "https://en.wikipedia.org/wiki/Main_Page"
response = requests.get(url)

# Comprobar que la solicitud se realizó correctamente (código de estado HTTP 200)
if response.status_code == 200:
    print("Solicitud exitosa")
else:
    print("Error en la solicitud:", response.status_code)

# Paso 2: Analizar el contenido con BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")

# Paso 3: Extraer información de la página

# Ejemplo: Encontrar y mostrar todos los encabezados de secciones principales (etiqueta <h2>)
print("\nEncabezados de secciones principales:")
for section_header in soup.find_all("h2"):
    print(section_header.text.strip())

# Ejemplo: Encontrar y mostrar el enlace al artículo destacado del día en la sección "Today's featured article"
print("\nArtículo destacado del día:")
featured_article = soup.find("div", {"id": "mp-tfa"}).find("a")
print(featured_article.text)
print("https://en.wikipedia.org" + featured_article["href"])



Solicitud exitosa

Encabezados de secciones principales:
From today's featured article
Did you know ...
In the news
On this day
Today's featured picture
Other areas of Wikipedia
Wikipedia's sister projects
Wikipedia languages

Artículo destacado del día:

https://en.wikipedia.org/wiki/File:Alexis-Soyer-by-Emma-Soyer.png


# Web scraping de una tabla y conversión a DataFrame de pandas

   Descargar el contenido de la página web utilizando la biblioteca requests. Realiza una solicitud GET a la URL de la página y obtén la respuesta.

   Analizar el contenido de la página web utilizando la biblioteca BeautifulSoup. Convierte el contenido HTML de la página en un objeto soup que permite extraer información de manera más sencilla.

   Extraer la tabla de la página utilizando el objeto soup. Busca la tabla con la clase deseada (por ejemplo, "wikitable") y guarda el resultado en una variable.

   Convertir la tabla extraída en un DataFrame de pandas. Extrae los encabezados y datos de las filas de la tabla, almacénalos en listas y luego crea un DataFrame a partir de ellas.

    
   **NOTA:** Copiar el enlace de la página web para ver cuál es el objetivo. En este ejercicio queremos extraer la tabla de población para guardarlo en un DF y hacer LyM.

In [6]:
# Otro ejemplo, esta vez extraemos tablas y lo convertimos en dataframe para poder usar en nuestro análisis como hacemos en clase:

# Importar las bibliotecas necesarias
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Paso 1: Descargar el contenido de la página web
url = "https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population"
response = requests.get(url)

# Comprobar que la solicitud se realizó correctamente (código de estado HTTP 200)
if response.status_code == 200:
    print("Solicitud exitosa")
else:
    print("Error en la solicitud:", response.status_code)

# Paso 2: Analizar el contenido con BeautifulSoup
soup = BeautifulSoup(response.text, "html.parser")

# Paso 3: Extraer la tabla de la página
table = soup.find("table", {"class": "wikitable"})

# Paso 4: Convertir la tabla en un DataFrame de pandas
table_data = []

header = [th.text.strip() for th in table.find_all("th")[:7]]  # Modificar aquí para extraer solo los primeros 7 encabezados

for row in table.find_all("tr")[1:]:
    row_data = [td.text.strip() for td in row.find_all("td")[:7]]  # Modificar aquí para extraer solo los primeros 7 datos de cada fila
    table_data.append(row_data)

df = pd.DataFrame(table_data, columns=header)

# Mostrar las primeras filas del DataFrame
print(df.head())


Solicitud exitosa
            Rank Country / Dependency     Population         Date  \
0           None                 None           None         None   
1              –                World  8,029,442,000         100%   
2          China        1,411,750,000          17.6%  31 Dec 2022   
3          India        1,392,329,000          17.3%   1 Mar 2023   
4  United States          334,730,000          4.17%   9 May 2023   

  Source (official or from the United Nations)             Notes Numbers  
0                                         None              None    None  
1                                   9 May 2023  UN projection[3]          
2                         Official estimate[4]               [b]    None  
3                       Official projection[5]               [c]    None  
4                 National population clock[7]               [d]    None  


In [7]:
df

Unnamed: 0,Rank,Country / Dependency,Population,Date,Source (official or from the United Nations),Notes,Numbers
0,,,,,,,
1,–,World,8029442000,100%,9 May 2023,UN projection[3],
2,China,1411750000,17.6%,31 Dec 2022,Official estimate[4],[b],
3,India,1392329000,17.3%,1 Mar 2023,Official projection[5],[c],
4,United States,334730000,4.17%,9 May 2023,National population clock[7],[d],
...,...,...,...,...,...,...,...
238,Tokelau (New Zealand),1647,0%,1 Jan 2019,2019 Census [208],,
239,Niue,1549,0%,1 Jul 2021,National annual projection[95],,
240,Vatican City,825,0%,1 Feb 2019,Monthly national estimate[209],[ag],
241,Cocos (Keeling) Islands (Australia),593,0%,30 Jun 2020,2021 Census[210],,
