# Leyendo paginas en HTML

In [1]:
import pandas as pd
import requests
from bs4 import BeautifulSoup


In [15]:
url = "https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies"

# Realizar la solicitud HTTP
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

response = requests.get(url, headers=headers)
response.raise_for_status()  # Verificar que la solicitud fue exitosa

In [16]:
response_text = response.text # Obtener el contenido HTML de la respuesta
soup = BeautifulSoup(response_text, 'html.parser') # Parsear el HTML con BeautifulSoup
tables = soup.find_all('table', {'class': 'wikitable'}) # Encontrar todas las tablas con la clase 'wikitable'
df = pd.read_html(str(tables[0]))[0] # Convertir la primera tabla encontrada en un DataFrame de pandas
df


  df = pd.read_html(str(tables[0]))[0] # Convertir la primera tabla encontrada en un DataFrame de pandas


Unnamed: 0,Film,Release year,Director,Production companies,1998 Rank,2007 Rank
0,Citizen Kane,1941,Orson Welles,RKO Radio Pictures,1,1
1,Casablanca,1942,Michael Curtiz,Warner Bros. Pictures,2,3
2,The Godfather,1972,Francis Ford Coppola,"Paramount Pictures, Alfran Productions",3,2
3,Gone with the Wind,1939,Victor Fleming,Selznick International Pictures,4,6
4,Lawrence of Arabia,1962,David Lean,Horizon Pictures,5,7
...,...,...,...,...,...,...
118,Sophie's Choice,1982,Alan J. Pakula,ITC Entertainment,-,91
119,The Last Picture Show,1971,Peter Bogdanovich,BBS Productions,-,95
120,Do the Right Thing,1989,Spike Lee,40 Acres and a Mule Filmworks,-,96
121,Blade Runner,1982,Ridley Scott,"The Ladd Company, Shaw Brothers",-,97


# Exportar HTML

In [17]:
df.to_html('Top_peliculas.html', index=False)  # Guardar el DataFrame como un archivo HTML sin el índice

In [18]:
pd.read_html('Top_peliculas.html')

[                      Film  Release year              Director  \
 0             Citizen Kane          1941          Orson Welles   
 1               Casablanca          1942        Michael Curtiz   
 2            The Godfather          1972  Francis Ford Coppola   
 3       Gone with the Wind          1939        Victor Fleming   
 4       Lawrence of Arabia          1962            David Lean   
 ..                     ...           ...                   ...   
 118        Sophie's Choice          1982        Alan J. Pakula   
 119  The Last Picture Show          1971     Peter Bogdanovich   
 120     Do the Right Thing          1989             Spike Lee   
 121           Blade Runner          1982          Ridley Scott   
 122              Toy Story          1995         John Lasseter   
 
                               Production companies 1998 Rank 2007 Rank  
 0                               RKO Radio Pictures         1         1  
 1                            Warner Bros. Pic

# Desafío: leer una tabla de una página web

In [21]:
poblacion = pd.read_html('poblacion.html')  # Leer un archivo XML y convertirlo en una lista de DataFrames

In [22]:
type(poblacion)  # Verificar el tipo de la variable 'poblacion'

list

In [34]:
# saber que tipo de archivo es
import mimetypes
mimetypes.guess_type('poblacion.html')

('text/html', None)

In [31]:
len(poblacion)  # Saber cuántas tablas hay en el archivo XML

7

In [35]:
tablas = poblacion[0] # Acceder a la primera tabla de la lista
tablas.head()

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
0,1,India,1 417 492 000,1754,90,12 692 000,1547,78,1 417 492 000,1/07/2025,A,web.archive.org
1,2,China[12]​,1 407 934 000,1743,-5,-1 390 000,-,-,1 408 280 000,31/12/2024,E,www.stats.gov.cn
2,3,Estados Unidos,342 181 000,424,61,2 084 000,254,114,343 094 000,3/01/2026,R,www.census.gov
3,4,Indonesia,284 447 000,352,107,3 043 000,371,65,284 438 782,30/06/2025,E,www.bps.go.id
4,5,Pakistán,256 204 000,317,256,6 567 000,801,27,241 499 431,1/03/2023,C,www.pbs.gov.pk
