# Proyecto de práctica: Extracción y procesamiento de datos del PIB

En este proyecto de práctica, se extraerán datos de un sitio web utilizando web scraping y solicitudes a APIs, y se procesarán utilizando las bibliotecas Pandas y Numpy.
El objetivo es construir un DataFrame con las 10 economías principales, procesar sus valores de PIB, y prepararlo para un análisis o visualización posterior.

## Escenario del Proyecto:
Una empresa internacional que busca expandir su negocio en distintos países del mundo te ha contratado. Has sido contratado como Ingeniero de Datos Junior y se te ha asignado la tarea de crear un script que pueda extraer la lista de las 10 economías más grandes del mundo en orden descendente según su PIB en miles de millones de USD (redondeado a 2 decimales), según lo registrado por el Fondo Monetario Internacional (FMI).

URL: https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29inal%29

## Configuración
Para este laboratorio, utilizaremos las siguientes bibliotecas:

pandas para gestionar los datos.

numpy para realizar operaciones matemáticas.

In [1]:
!pip install pandas numpy
!pip install lxml 



In [3]:
# usar para suprimir las advertencias generadas por tu código:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn
warnings.filterwarnings('ignore')

In [36]:
import numpy as np
import pandas as pd
import os

In [37]:
ruta = r"C:\PROYECTOS\GitHub"
os.chdir(ruta)
os.getcwd()

'C:\\PROYECTOS\\GitHub'

## Ejercicio 1
Extrae los datos necesarios del PIB desde la URL proporcionada usando Web Scraping.

In [38]:
url = 'https://web.archive.org/web/20230902185326/https://en.wikipedia.org/wiki/List_of_countries_by_GDP_%28nominal%29'

In [39]:
# Extraer las tablas de la pagina web usando Pandas. 

try: 
    # Extrae todas las tablas de la página web
    # Retorna una lista de DataFrames, uno por cada tabla encontrada
    tablas_encontradas = pd.read_html(url)
    print(f'Se encontraron {len(tablas_encontradas)} tablas.')
    print('Primeras filas de la primera tabla: ')
    print(tablas_encontradas[0].head())

# Este bloque es necesario para capturar errores
except Exception as e:
    print(f'Ocurrió un error: {e}')
    print('Asegúrate de que la URL sea válida y que la página contenga tablas.')


Se encontraron 8 tablas.
Primeras filas de la primera tabla: 
      0     1     2
0   Aug   SEP   Oct
1   NaN    02   NaN
2  2022  2023  2024


In [40]:
   # Itera sobre cada tabla en la lista para mostrar su información
for i, tabla in enumerate(tablas_encontradas):
    print(f'----Información de la Tabla {i}----')
    print(f'Dimensiones (filas, columnas): {tabla.shape}')
    print('Primeras 5 filas:')
    print(tabla.head())
    print('\n') # Salto de linea para separar la info de cada tabla
          


----Información de la Tabla 0----
Dimensiones (filas, columnas): (3, 3)
Primeras 5 filas:
      0     1     2
0   Aug   SEP   Oct
1   NaN    02   NaN
2  2022  2023  2024


----Información de la Tabla 1----
Dimensiones (filas, columnas): (1, 1)
Primeras 5 filas:
                                                   0
0  Largest economies in the world by GDP (nominal...


----Información de la Tabla 2----
Dimensiones (filas, columnas): (1, 3)
Primeras 5 filas:
                                                   0  \
0  > $20 trillion $10–20 trillion $5–10 trillion ...   

                                                   1  \
0  $750 billion – $1 trillion $500–750 billion $2...   

                                                   2  
0  $50–100 billion $25–50 billion $5–25 billion <...  


----Información de la Tabla 3----
Dimensiones (filas, columnas): (214, 8)
Primeras 5 filas:
  Country/Territory UN region IMF[1][13]            World Bank[14]             \
  Country/Territory UN region

In [41]:
df_pib_nominal = tablas_encontradas[3]
print("DataFrame de PBI Nominal cargado correctamente. Primeras 5 filas: \n")
print(df_pib_nominal.head())

DataFrame de PBI Nominal cargado correctamente. Primeras 5 filas: 

  Country/Territory UN region IMF[1][13]            World Bank[14]             \
  Country/Territory UN region   Estimate       Year       Estimate       Year   
0             World         —  105568776       2023      100562011       2022   
1     United States  Americas   26854599       2023       25462700       2022   
2             China      Asia   19373586  [n 1]2023       17963171  [n 3]2022   
3             Japan      Asia    4409738       2023        4231141       2022   
4           Germany    Europe    4308854       2023        4072192       2022   

  United Nations[15]             
            Estimate       Year  
0           96698005       2021  
1           23315081       2021  
2           17734131  [n 1]2021  
3            4940878       2021  
4            4259935       2021  


In [42]:
print("Nombre de las columnas: \n")
print(df_pib_nominal.columns.tolist()) # Se ven los nombres de columnas como lista de tuplas
                                       # cuando son columnas multinivel (MultiIndex)

Nombre de las columnas: 

[('Country/Territory', 'Country/Territory'), ('UN region', 'UN region'), ('IMF[1][13]', 'Estimate'), ('IMF[1][13]', 'Year'), ('World Bank[14]', 'Estimate'), ('World Bank[14]', 'Year'), ('United Nations[15]', 'Estimate'), ('United Nations[15]', 'Year')]


In [43]:
# Algunas columnas tienen índices de dos niveles (tuplas), otras solo uno.
# Este código aplana columnas con MultiIndex, sin asumir que todas tengan 2 niveles.
# Si la columna es una tupla, une todos sus elementos con "_".
# Si no es una tupla, simplemente la convierte a string.
# Resultado: nombres de columnas planos y seguros para análisis posterior.



# Aplana columnas de MultiIndex uniendo con "_"
df_pib_nominal.columns = [
    '_'.join(map(str, col)) if isinstance(col, tuple) else str(col)
    for col in df_pib_nominal.columns
]
print(df_pib_nominal.columns.tolist())

['Country/Territory_Country/Territory', 'UN region_UN region', 'IMF[1][13]_Estimate', 'IMF[1][13]_Year', 'World Bank[14]_Estimate', 'World Bank[14]_Year', 'United Nations[15]_Estimate', 'United Nations[15]_Year']


In [44]:
print("Información general del DataFrame: \n")
print(df_pib_nominal.info())

Información general del DataFrame: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 214 entries, 0 to 213
Data columns (total 8 columns):
 #   Column                               Non-Null Count  Dtype 
---  ------                               --------------  ----- 
 0   Country/Territory_Country/Territory  214 non-null    object
 1   UN region_UN region                  214 non-null    object
 2   IMF[1][13]_Estimate                  214 non-null    object
 3   IMF[1][13]_Year                      214 non-null    object
 4   World Bank[14]_Estimate              214 non-null    object
 5   World Bank[14]_Year                  214 non-null    object
 6   United Nations[15]_Estimate          214 non-null    object
 7   United Nations[15]_Year              214 non-null    object
dtypes: object(8)
memory usage: 13.5+ KB
None


In [45]:
print("Estadisticas descriptivas: \n")
print(df_pib_nominal.describe())

Estadisticas descriptivas: 

       Country/Territory_Country/Territory UN region_UN region  \
count                                  214                 214   
unique                                 214                   6   
top                                  World              Africa   
freq                                     1                  55   

       IMF[1][13]_Estimate IMF[1][13]_Year World Bank[14]_Estimate  \
count                  214             214                     214   
unique                 193              11                     187   
top                      —            2023                       —   
freq                    22             183                      27   

       World Bank[14]_Year United Nations[15]_Estimate United Nations[15]_Year  
count                  214                         214                     214  
unique                   9                         213                      10  
top                   2022                    

In [46]:
print("Valores faltantes por columna: \n")
print(df_pib_nominal.isnull().sum())

Valores faltantes por columna: 

Country/Territory_Country/Territory    0
UN region_UN region                    0
IMF[1][13]_Estimate                    0
IMF[1][13]_Year                        0
World Bank[14]_Estimate                0
World Bank[14]_Year                    0
United Nations[15]_Estimate            0
United Nations[15]_Year                0
dtype: int64


In [47]:
df_pib_nominal.head()

Unnamed: 0,Country/Territory_Country/Territory,UN region_UN region,IMF[1][13]_Estimate,IMF[1][13]_Year,World Bank[14]_Estimate,World Bank[14]_Year,United Nations[15]_Estimate,United Nations[15]_Year
0,World,—,105568776,2023,100562011,2022,96698005,2021
1,United States,Americas,26854599,2023,25462700,2022,23315081,2021
2,China,Asia,19373586,[n 1]2023,17963171,[n 3]2022,17734131,[n 1]2021
3,Japan,Asia,4409738,2023,4231141,2022,4940878,2021
4,Germany,Europe,4308854,2023,4072192,2022,4259935,2021


In [48]:
columnas_originales = df_pib_nominal.columns

In [49]:
print(columnas_originales)

Index(['Country/Territory_Country/Territory', 'UN region_UN region',
       'IMF[1][13]_Estimate', 'IMF[1][13]_Year', 'World Bank[14]_Estimate',
       'World Bank[14]_Year', 'United Nations[15]_Estimate',
       'United Nations[15]_Year'],
      dtype='object')


In [50]:
# Reemplazar los encabezados de las columnas por números de columna
df_pib_nominal.columns = range(df_pib_nominal.shape[1])
print(df_pib_nominal.columns)

RangeIndex(start=0, stop=8, step=1)


In [51]:
# Conservar las columnas con índice 0 y 2 (nombre del país y valor del PIB según el FMI)
df_columnas_seleccionadas = df_pib_nominal.iloc[:,[0,2]]

In [52]:
df_columnas_seleccionadas

Unnamed: 0,0,2
0,World,105568776
1,United States,26854599
2,China,19373586
3,Japan,4409738
4,Germany,4308854
...,...,...
209,Anguilla,—
210,Kiribati,248
211,Nauru,151
212,Montserrat,—


In [53]:
# Conservar las filas con índice del 1 al 10, que indican las 10 principales economías del mundo.

df_top10 = df_columnas_seleccionadas.iloc[1:11,:]
df_top10

Unnamed: 0,0,2
1,United States,26854599
2,China,19373586
3,Japan,4409738
4,Germany,4308854
5,India,3736882
6,United Kingdom,3158938
7,France,2923489
8,Italy,2169745
9,Canada,2089672
10,Brazil,2081235


In [70]:
# Asignar nombres a las columnas como "País" y "PIB (Millones USD)"

df_top10.columns = ["País", "PIB (Millones USD)"]
df_top10

Unnamed: 0,País,PIB (Millones USD)
1,United States,26854.6
2,China,19373.59
3,Japan,4409.74
4,Germany,4308.85
5,India,3736.88
6,United Kingdom,3158.94
7,France,2923.49
8,Italy,2169.74
9,Canada,2089.67
10,Brazil,2081.24


# Ejercicio 2
Modificá la columna del PIB del DataFrame, convirtiendo el valor disponible en Millones de USD a Billones de USD. Usá el método round() de la biblioteca Numpy para redondear el valor a 2 decimales. Modificá el encabezado del DataFrame a PIB (Billones USD).

In [71]:
df_top10.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 1 to 10
Data columns (total 2 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                10 non-null     object 
 1   PIB (Millones USD)  10 non-null     float64
dtypes: float64(1), object(1)
memory usage: 292.0+ bytes


In [72]:
# Cambiar el tipo de dato de la columna 'PIB (Millones USD)' a entero. Usar el método astype().

df_top10.loc[:,'PIB (Millones USD)'] = df_top10['PIB (Millones USD)'].astype(int)
print(df_top10.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 1 to 10
Data columns (total 2 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   País                10 non-null     object 
 1   PIB (Millones USD)  10 non-null     float64
dtypes: float64(1), object(1)
memory usage: 292.0+ bytes
None


In [73]:
df_top10['PIB (Millones USD)'].dtype # para ser espeífico 

dtype('float64')

In [75]:
# Convertir el valor del PIB de Millones USD a Billones USD (en escala corta)

df_top10 = df_top10.copy() # Creamos copia independiente
df_top10.loc[:,'PIB (Billones USD)'] = df_top10['PIB (Millones USD)'] / 1000 # Modificamos sin warning
df_top10

Unnamed: 0,País,PIB (Millones USD),PIB (Billones USD)
1,United States,26854.0,26.854
2,China,19373.0,19.373
3,Japan,4409.0,4.409
4,Germany,4308.0,4.308
5,India,3736.0,3.736
6,United Kingdom,3158.0,3.158
7,France,2923.0,2.923
8,Italy,2169.0,2.169
9,Canada,2089.0,2.089
10,Brazil,2081.0,2.081


In [76]:
# Usar el método numpy.round() para redondear el valor a 2 decimales.
df_top10.loc[:,'PIB (Billones USD)'] = df_top10['PIB (Billones USD)'].round(2)
df_top10

Unnamed: 0,País,PIB (Millones USD),PIB (Billones USD)
1,United States,26854.0,26.85
2,China,19373.0,19.37
3,Japan,4409.0,4.41
4,Germany,4308.0,4.31
5,India,3736.0,3.74
6,United Kingdom,3158.0,3.16
7,France,2923.0,2.92
8,Italy,2169.0,2.17
9,Canada,2089.0,2.09
10,Brazil,2081.0,2.08


In [78]:
# Eliminar la columna de millones

df_top10 = df_top10.drop(columns=["PIB (Millones USD)"])

# Ejercicio 3
Guardar el DataFrame en un archivo CSV llamado "principales_economias.csv".


In [79]:
df_top10.to_csv("principales_economias.csv", index=False, encoding="utf-8-sig")
print(ruta)

C:\PROYECTOS\GitHub
