# BEDU-Fase2: Proyecto de módulo 2 | Análisis de datos con Python

Este notebook contiene el código necesario para llevar a cabo el análisis de datos asociado con el proyecto del módulo dos de la segunda fase del curso *Data science para profesionistas* ofertado por *Santander-BEDU*.

Nosotros somos el **equipo 5** y nuestro proyecto es un estudio sobre *la relación existente entre la inversión el ciencia y el crecimiento económico de un país*. 

## 1 ) Librerías


Para poder desarrollar este análisis, comenzaremos con importar las librerias de *Pandas* y *NumPy*, las cuales nos proporcionaran las herramientas necesarias para este estudio.

In [1]:
import pandas as pd
import numpy as np

## 2 ) Lectura de bases de datos y análisis exploratorio

**2.1 ) API_GB.XPD.RSDV.GD.ZS_DS2_es_csv_v2_4792337.csv**

Dataset sobre inversión en ciencia como porcentaje del GDP. Es un archivo CSV, usaremos la función `read_csv()` de pandas para cargar esta base de datos.

In [2]:
df_inversion=pd.read_csv("/content/drive/MyDrive/proyecto_python_ciencia_economia/API_GB.XPD.RSDV.GD.ZS_DS2_es_csv_v2_4792337.csv",header=2,sep=",")

Vamos a obtener información respecto al tamaño de nuestro DataFrame:

In [3]:
print(df_inversion.shape)

(266, 67)


Podemos ver que tenemos datos de 266 registros, y un total de 67 columnas. Usando el método `head()`, podemos analizar el contenido de las primeras filas del DataFrame. Podemos ver que las primeras 4 columnas contienen información descriptiva de la base de datos (`"Country Name"`, `"Country Code"`, `"Indicator Name"` y `"Indicator Code"`), el resto de las columnas parecen contener información respecto al porcentaje del PIB invertido en *I+D*, con excepción de la última columna, la cual parece ser una columna sin datos. También se alcanza a percibir que tenemos muchos datos faltantes, pero ya lidiaremos con ello más adelante.

In [4]:
df_inversion.head()
#print(df_inversion.head())

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,1960,1961,1962,1963,1964,1965,...,2013,2014,2015,2016,2017,2018,2019,2020,2021,Unnamed: 66
0,Aruba,ABW,Gasto en investigación y desarrollo (% del PIB),GB.XPD.RSDV.GD.ZS,,,,,,,...,,,,,,,,,,
1,,AFE,Gasto en investigación y desarrollo (% del PIB),GB.XPD.RSDV.GD.ZS,,,,,,,...,,,,,,,,,,
2,Afganistán,AFG,Gasto en investigación y desarrollo (% del PIB),GB.XPD.RSDV.GD.ZS,,,,,,,...,,,,,,,,,,
3,,AFW,Gasto en investigación y desarrollo (% del PIB),GB.XPD.RSDV.GD.ZS,,,,,,,...,,,,,,,,,,
4,Angola,AGO,Gasto en investigación y desarrollo (% del PIB),GB.XPD.RSDV.GD.ZS,,,,,,,...,,,,0.03229,,,,,,


También es importante revisar que el tipo de datos sea el adecuado, para esto usaremos el método `dtypes`.

In [5]:
print(df_inversion.dtypes,"\n")
print("type(df):",type(df_inversion))

Country Name       object
Country Code       object
Indicator Name     object
Indicator Code     object
1960              float64
                   ...   
2018              float64
2019              float64
2020              float64
2021              float64
Unnamed: 66       float64
Length: 67, dtype: object 

type(df): <class 'pandas.core.frame.DataFrame'>


Como era de esperarse, las columnas con información descritiva (*strings*), son identificadas con datos tipo *object* y los registros numéricos como datos tipo *float*.



**2.2 ) Metadata_Country_API_GB.XPD.RSDV.GD.ZS_DS2_es_csv_v2_4792337.csv**

Dataset con la clasificación de los países de acuerdo a sus ingresos y a la región geográfica a la que pertenecen. También es un archivo CSV, por tanto, usaremos la miasma función `read_csv()` de pandas para cargar esta base de datos.

In [6]:
df_clasificacion=pd.read_csv("/content/drive/MyDrive/proyecto_python_ciencia_economia/Metadata_Country_API_GB.XPD.RSDV.GD.ZS_DS2_es_csv_v2_4792337.csv",header=0,sep=",")

Vamos a obtener información respecto al tamaño de nuestro DataFrame:

In [7]:
print(df_clasificacion.shape)

(266, 5)


En acuerdo con el DataFrame anterior, tenemos datos de 266 registros. En este caso, solo tenemos 5 columnas. Usando el método `head()`, podemos analizar el contenido de las primeras filas del `DataFrame`. Podemos ver que tenemos información respecto al `"Country Name"`, `"Country Code"`, `"Region"` e `"Income Group"`. La última columna parece no contener datos. También se alcanza a percibir que tenemos muchos datos faltantes, pero ya lidiaremos con ello más adelante.

In [8]:
df_clasificacion.head()
#print(df_clasificacion.head())

Unnamed: 0,Country Name,Country Code,Region,Income_Group,Unnamed: 4
0,Aruba,ABW,,Ingreso alto,
1,,AFE,,Agregados,
2,Afganistán,AFG,Asia meridional,Países de ingreso bajo,
3,,AFW,,Agregados,
4,Angola,AGO,África al sur del Sahara (excluido altos ingre...,Países de ingreso mediano bajo,


También es importante revisar que el tipo de datos sea el adecuado, para esto usaremos el método `dtypes`.

In [9]:
print(df_clasificacion.dtypes,"\n")
print("type(df):",type(df_inversion))

Country Name     object
Country Code     object
Region           object
Income_Group     object
Unnamed: 4      float64
dtype: object 

type(df): <class 'pandas.core.frame.DataFrame'>


Los tipos de datos asociados con cada columna son los esperados.

**2.3 ) 4.1_Growth_of_Gross_Domestic_Product.xls**

Dataset con el promedio de la razón de crecimiento del PIB de cada país en los periódos 2000-2010 y 2010-2020, entre otros datos. Este es un archivo xls, para cargar la base de datos usaremos la función `read_excel()` de pandas. Para ello primero necesitamos instalar la paqueteria `openpyxl`.

In [10]:
pip install pandas openpyxl

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [11]:
# Marcará error, a pesar de sugerencias de StackOverflow
import openpyxl
df_economia=pd.read_excel("/content/drive/MyDrive/proyecto_python_ciencia_economia/4.1_Growth_of_Gross_Domestic_Product.xls", engine="openpyxl")

BadZipFile: ignored

Por alguna razón, no nos permite leer el archivo. Una alternativa es convertir la base de datos de *xls* a *csv* y usar la misma instrucción que antes:

In [12]:
df_economia=pd.read_csv("/content/drive/MyDrive/proyecto_python_ciencia_economia/Growth_of_Gross_Domestic_Product.csv", header=[3],sep=",")

Revisamos el tamaño y tipo de datos del DataFrame.

In [13]:
print(df_economia.shape)

(296, 11)


In [14]:
print(df_economia.dtypes,"\n")
print("type(df):",type(df_economia))

Unnamed: 0     object
2000-2010      object
2010-2020      object
2000-2010.1    object
2010-2020.1    object
2000-2010.2    object
2010-2020.2    object
2000-2010.3    object
2010-2020.3    object
2000-2010.4    object
2010-2020.4    object
dtype: object 

type(df): <class 'pandas.core.frame.DataFrame'>


De lo anterior podemos observar un par de cosas:

* Hay más elementos que en los `DataFrame` anteriores
* Los tipos de datos son incorrectos

Se deben analizar los primeros y últimos datos del `DataFrame` para ver si nos dice algo al respecto. Esto lo haremos usando las funciones `head()` y `tail()`, respectivamente.

In [15]:
df_economia.head()

Unnamed: 0.1,Unnamed: 0,2000-2010,2010-2020,2000-2010.1,2010-2020.1,2000-2010.2,2010-2020.2,2000-2010.3,2010-2020.3,2000-2010.4,2010-2020.4
0,Afghanistan,9.5,3.2,2.6,2.9,10.1,4.8,3.7,5.7,12.9,3.2
1,Albania,5.6,2.2,3.5,1.8,7.4,1.1,8.7,4.9,5.2,3.2
2,Algeria,3.9,2.3,6.3,4.1,0.9,-1,0.8,-1.3,6.8,4.1
3,American Samoa,-1.2,-0.7,..,..,..,..,-2.4,0.7,..,..
4,Andorra,3.1,0.0,..,..,..,..,..,..,..,..


In [16]:
df_economia.tail()

Unnamed: 0.1,Unnamed: 0,2000-2010,2010-2020,2000-2010.1,2010-2020.1,2000-2010.2,2010-2020.2,2000-2010.3,2010-2020.3,2000-2010.4,2010-2020.4
291,Source,,,,,,,,,,
292,,,,,,,,,,,
293,"World Bank national accounts data, and OECD Na...",,,,,,,,,,
294,,,,,,,,,,,
295,Please see the online table at http://wdi.worl...,,,,,,,,,,


De lo anterior, podemos ver que las anomalias con este dataset persisten. Esto se debe a que a diferencia de los anteriores set de datos, en este se están leyendo los comentarios adicionales al final del DataFrame. Hay que delimitar el número de filas por leer, usando el agumento *nrows* de la función `read_csv()` de pandas.

In [17]:
df_economia=pd.read_csv("/content/drive/MyDrive/proyecto_python_ciencia_economia/Growth_of_Gross_Domestic_Product.csv", header=[3],sep=",",nrows=226)

In [18]:
df_economia.head()

Unnamed: 0.1,Unnamed: 0,2000-2010,2010-2020,2000-2010.1,2010-2020.1,2000-2010.2,2010-2020.2,2000-2010.3,2010-2020.3,2000-2010.4,2010-2020.4
0,Afghanistan,9.5,3.2,2.6,2.9,10.1,4.8,3.7,5.7,12.9,3.2
1,Albania,5.6,2.2,3.5,1.8,7.4,1.1,8.7,4.9,5.2,3.2
2,Algeria,3.9,2.3,6.3,4.1,0.9,-1,0.8,-1.3,6.8,4.1
3,American Samoa,-1.2,-0.7,..,..,..,..,-2.4,0.7,..,..
4,Andorra,3.1,0.0,..,..,..,..,..,..,..,..


In [19]:
df_economia.tail(15)

Unnamed: 0.1,Unnamed: 0,2000-2010,2010-2020,2000-2010.1,2010-2020.1,2000-2010.2,2010-2020.2,2000-2010.3,2010-2020.3,2000-2010.4,2010-2020.4
211,"Yemen, Rep.",4.1,-6.4,2.7,-4.4,1.9,-9.1,..,..,7.1,-4.4
212,Zambia,7.5,3.8,-1.7,-0.4,10.7,3.8,4.9,4.6,9.1,4.4
213,Zimbabwe,-5.5,3.1,-9.8,3.5,-4.0,0.9,-3.7,-0.2,0.1,4.1
214,World,3.2,2.7,2.9,2.9,3.1,2.9,2.4,2,3.2,2.7
215,East Asia & Pacific,5.5,4.6,3.5,3.0,6.3,4.8,..,..,5.2,4.7
216,Europe & Central Asia,2.0,1.5,1.4,1.6,1.3,1.4,1.5,2,2.4,1.6
217,Latin America & Caribbean,3.5,1.1,3.0,2.5,2.7,0.0,2.6,0,3.8,1.6
218,Middle East & North Africa,4.7,2.4,2.7,2.2,3.4,1.3,4.4,1.6,6.3,2.9
219,North America,2.1,2.0,0.6,4.1,0.9,2.0,1.9,1.6,2.2,2.0
220,South Asia,6.5,5.8,2.8,3.4,8.0,5.3,8.3,6.2,7.1,6.7


In [20]:
print(df_economia.shape)

(226, 11)


Con las instrucciones anteriores, podemos ver que los últimos registros válidos corresponden al análisis por regiones y por ingresos. Quedando únicamente 214 registros asociados a países.

Verificaremos que el nuevo DataFrame tenga los tipos de datos correctos:

In [21]:
print(df_economia.dtypes,"\n")
print("type(df):",type(df_economia))

Unnamed: 0     object
2000-2010      object
2010-2020      object
2000-2010.1    object
2010-2020.1    object
2000-2010.2    object
2010-2020.2    object
2000-2010.3    object
2010-2020.3    object
2000-2010.4    object
2010-2020.4    object
dtype: object 

type(df): <class 'pandas.core.frame.DataFrame'>


Todas nuestras columnas están identificadas como datos tipo *object*. Esto se debe a que los registros faltanes se llenaron con `".."`, en vez de `NaN`, a diferencia de los datasets anteriores, el los cuales se hacía de forma automática. El conocimiento de nuestra base de datos nos permite saber que laas columnas de "2000-2010" en adelante deberían ser datos numéricos. Necsitamos hacer la transformación al tipo de datos adecuados. Para ello usaremos la función `to_numeric()`, con el argumento `errors="corce"`, tal que los registros con datos no numéricos se transformen automáticamente en `NaN`. Para simplificar el proceso, crearemos una lista con los nombres de las columnas que requieren el cambio de tipos de datos.

Usaremos el método `columns` para extraer los nombres de las columnas, así como la función `list()` para transformar el arreglo de nombres de columnas en una lista. Posteriormente, usaremos la función `pop()` para eliminar el primer elemento de la lista, ya que no necesitamos reasignar el tipo de datos en ella.

In [22]:
lista_economia=list(df_economia.columns)
lista_economia.pop(0)
lista_economia

['2000-2010',
 '2010-2020',
 '2000-2010.1',
 '2010-2020.1',
 '2000-2010.2',
 '2010-2020.2',
 '2000-2010.3',
 '2010-2020.3',
 '2000-2010.4',
 '2010-2020.4']

Una vez que tenemos esta lista, nos ayudaremos de un *for loop* para realizar el cambio de tipo de datos en cada columna de la lista.

In [23]:
for i in lista_economia:
  df_economia[i]=pd.to_numeric(df_economia[i],errors="coerce")

Verificamos que el tipo de datos sea correcto. También realizamos una visualización de los primeros registros para ver que en efecto se tengan los registros con `NaN`.

In [24]:
df_economia.dtypes

Unnamed: 0      object
2000-2010      float64
2010-2020      float64
2000-2010.1    float64
2010-2020.1    float64
2000-2010.2    float64
2010-2020.2    float64
2000-2010.3    float64
2010-2020.3    float64
2000-2010.4    float64
2010-2020.4    float64
dtype: object

In [25]:
df_economia.head()

Unnamed: 0.1,Unnamed: 0,2000-2010,2010-2020,2000-2010.1,2010-2020.1,2000-2010.2,2010-2020.2,2000-2010.3,2010-2020.3,2000-2010.4,2010-2020.4
0,Afghanistan,9.5,3.2,2.6,2.9,10.1,4.8,3.7,5.7,12.9,3.2
1,Albania,5.6,2.2,3.5,1.8,7.4,1.1,8.7,4.9,5.2,3.2
2,Algeria,3.9,2.3,6.3,4.1,0.9,-1.0,0.8,-1.3,6.8,4.1
3,American Samoa,-1.2,-0.7,,,,,-2.4,0.7,,
4,Andorra,3.1,0.0,,,,,,,,


**2.4 ) Observaciones al momento:**

* Ya se tienen los DataFrame con la información necesaria para nuestro análisis, cada uno de ellos con el tipo de datos correcto.
* Nos hemos percatado de que los DataFrames tienen dimensiones diferentes.
* Nuestra base de datos contiene pocos registros, sin embargo, por la naturaleza del tema, esto es normal.

Tomando lo anterior en consideración, lo suiguiente que harémos será crear DataFrames con la información que será relevante para nuestro estudio, en busca de eliminar aquellos registros y columnas que no poseen información relevante para nuestro estudio, teniendo en cuanta que en caso de alguno de ellos contenga valores `NaN`, al eliminarlos, pueden resultar en pérdida de información relevante.


#3 ) Organización y limpieza de datos

#### 3.1 ) `DataFrame` `df_economia_paises`

A partir del `DataFrame` `df_economia`, crearemos un nuevo DataFrame que contenga únicamente los registros asociados al incremento promedio en la economía de cada país en los periodos `"2000-2010"` y `"2010-2020"`, y renombramos los nombres de las columnas por otros más adecuados: `"nombre_pais"`, `"2001-2010"` y `"2011-2020"`. Para esto harémos uso de los métodos `.loc[]` y `rename()`, respectivamente.

In [26]:
df_economia_paises=df_economia.loc[0:213,["Unnamed: 0","2000-2010","2010-2020"]]
nombres_nuevos={
    "Unnamed: 0":"nombre_pais",
    "2000-2010":"2001-2010",
    "2010-2020":"2011-2020"
}
df_economia_paises=df_economia_paises.rename(columns=nombres_nuevos)
df_economia_paises

Unnamed: 0,nombre_pais,2001-2010,2011-2020
0,Afghanistan,9.5,3.2
1,Albania,5.6,2.2
2,Algeria,3.9,2.3
3,American Samoa,-1.2,-0.7
4,Andorra,3.1,0.0
...,...,...,...
209,Virgin Islands (U.S.),1.5,-2.2
210,West Bank and Gaza,6.1,3.0
211,"Yemen, Rep.",4.1,-6.4
212,Zambia,7.5,3.8


Lo siguiente es eliminar los registros de paises que contengan datos no analizables o no numéricos. Primero verificaremos el tamaño de nuestro DataFrame, después buscaremos si existen registros con `NaN`.

In [27]:
df_economia_paises.shape

(214, 3)

In [28]:
df_economia_paises.isna().sum()

nombre_pais     0
2001-2010      15
2011-2020       8
dtype: int64

De los 214 registros, podemos ver que hay 15 países sin datos para el periodo `"2001-2010"` y 8 para el periodo `"2011-2020"`. Podríamos intentar conseguir los datos de otra fuente, pero por cuestiones de tiempo simplemente los eliminaremos, usando la función `dropna()` con el argumento `axis=0` para eliminar las filas asociadas con los países sin registros en algún periodo. Por último, realizaremos una reindexación mediante la función `reset_index()` de *Pandas*, con el argumento `drop=True` ya que no nos interesa conservar el índice original.

In [29]:
df_economia_paises=df_economia_paises.dropna(axis=0).reset_index(drop=True)
print(df_economia_paises.shape)
df_economia_paises.tail()

(198, 3)


Unnamed: 0,nombre_pais,2001-2010,2011-2020
193,Virgin Islands (U.S.),1.5,-2.2
194,West Bank and Gaza,6.1,3.0
195,"Yemen, Rep.",4.1,-6.4
196,Zambia,7.5,3.8
197,Zimbabwe,-5.5,3.1


### 3.2 )`DataFrame` `df_economia_region`

A partir del `DataFrame` `df_economia` también podemos crear un nuevo `DataFrame` que contenga únicamente los registros asociados al incremento promedio en la economía de cada región geográfica en los periodos `"2000-2010"` y `"2010-2020"`. Así mismo, renombrarémos los nombres de las columnas por otros más adecuados: `"nombre_pais"`, `"2001-2010"` y `"2011-2020"`. Para esto harémos uso de los métodos `.loc[]` y `rename()`, respectivamente.

In [41]:
df_economia_region=df_economia.loc[214:221,["Unnamed: 0","2000-2010","2010-2020"]]
nombres_nuevos={
    "Unnamed: 0":"nombre_pais",
    "2000-2010":"2001-2010",
    "2010-2020":"2011-2020"
}
df_economia_region=df_economia_region.rename(columns=nombres_nuevos)
df_economia_region

Unnamed: 0,nombre_pais,2001-2010,2011-2020
214,World,3.2,2.7
215,East Asia & Pacific,5.5,4.6
216,Europe & Central Asia,2.0,1.5
217,Latin America & Caribbean,3.5,1.1
218,Middle East & North Africa,4.7,2.4
219,North America,2.1,2.0
220,South Asia,6.5,5.8
221,Sub-Saharan Africa,5.5,2.9


En este caso no tenemos datos faltantes, pero si necesitamos reidexar los registros.

In [59]:
df_economia_region=df_economia_region.reset_index(drop=True)
df_economia_region

Unnamed: 0,nombre_pais,2001-2010,2011-2020
0,World,3.2,2.7
1,East Asia & Pacific,5.5,4.6
2,Europe & Central Asia,2.0,1.5
3,Latin America & Caribbean,3.5,1.1
4,Middle East & North Africa,4.7,2.4
5,North America,2.1,2.0
6,South Asia,6.5,5.8
7,Sub-Saharan Africa,5.5,2.9


### 3.2 )`DataFrame` `df_economia_ingresos`

De igual forma, partiendo del `DataFrame` `df_economia` podemos crear uno nuevo que contenga únicamente los registros asociados al incremento promedio en la economía de los países dentro de un mismo rango de ingresos, en los periodos `"2000-2010"` y `"2010-2020"`. Así mismo, renombrarémos los nombres de las columnas siguiendo la nomenclatura de los casos anteriores: `"nombre_pais"`, `"2001-2010"` y `"2011-2020"`. Para esto harémos uso de los métodos `.loc[]` y `rename()`, respectivamente.

In [45]:
df_economia_ingresos=df_economia.loc[222:,["Unnamed: 0","2000-2010","2010-2020"]]
nombres_nuevos={
    "Unnamed: 0":"nombre_pais",
    "2000-2010":"2001-2010",
    "2010-2020":"2011-2020"
}
df_economia_ingresos=df_economia_ingresos.rename(columns=nombres_nuevos)
df_economia_ingresos

Unnamed: 0,nombre_pais,2001-2010,2011-2020
222,Low income,5.6,1.9
223,Lower middle income,5.8,4.6
224,Upper middle income,7.0,4.7
225,High income,2.0,1.7


En este `DataFrame` tampoco hay datos faltantes, pero si se necesita reidexar los registros.

In [60]:
df_economia_ingresos=df_economia_ingresos.reset_index(drop=True)
df_economia_ingresos

Unnamed: 0,nombre_pais,2001-2010,2011-2020
0,Low income,5.6,1.9
1,Lower middle income,5.8,4.6
2,Upper middle income,7.0,4.7
3,High income,2.0,1.7


### 3.4 ) `DataFrame` `df_clasificacion`

Ahora trabajaremos ocn el `df_clasificacion`. Primero seleccionaremos solo las columnas de interés. Luego renombrarémos los nombres de las columnas por otros más adecuados: `"nombre_pais"`, `"codigo_pais"`, `"region"`y `"grupo_ingresos"`. Para esto harémos uso del método `rename()`.

In [46]:
df_clasificacion.head()

Unnamed: 0,Country Name,Country Code,Region,Income_Group,Unnamed: 4
0,Aruba,ABW,,Ingreso alto,
1,,AFE,,Agregados,
2,Afganistán,AFG,Asia meridional,Países de ingreso bajo,
3,,AFW,,Agregados,
4,Angola,AGO,África al sur del Sahara (excluido altos ingre...,Países de ingreso mediano bajo,


In [56]:
df_clasificacion=df_clasificacion[["Country Name","Country Code","Region","Income_Group"]]
nombres_nuevos={
    "Country Name":"nombre_pais",
    "Country Code":"codigo_pais",
    "Region":"region",
    "Income_Group" : "grupo_ingresos"
}
df_clasificacion=df_clasificacion.rename(columns=nombres_nuevos)
df_clasificacion

Unnamed: 0,nombre_pais,codigo_pais,region,grupo_ingresos
0,Aruba,ABW,,Ingreso alto
1,,AFE,,Agregados
2,Afganistán,AFG,Asia meridional,Países de ingreso bajo
3,,AFW,,Agregados
4,Angola,AGO,África al sur del Sahara (excluido altos ingre...,Países de ingreso mediano bajo
...,...,...,...,...
261,Kosovo,XKX,Europa y Asia central (excluido altos ingresos),Ingreso mediano alto
262,"Yemen, Rep. del",YEM,Oriente Medio y Norte de África (excluido alto...,Países de ingreso bajo
263,Sudáfrica,ZAF,África al sur del Sahara (excluido altos ingre...,Ingreso mediano alto
264,Zambia,ZMB,África al sur del Sahara (excluido altos ingre...,Países de ingreso bajo


Lo siguiente es eliminar los registros de paises que contengan datos no analizables. Primero verificaremos el tamaño de nuestro DataFrame, después buscaremos si existen registros con `NaN`.

In [57]:
df_clasificacion.shape

(266, 4)

In [58]:
df_clasificacion.isna().sum()

nombre_pais         2
codigo_pais         0
region            130
grupo_ingresos      0
dtype: int64

De los 266 registros, podemos ver que hay 130 sin datos respeecto a la región geográfica a la que pertenecen y dos sin nombre del país. Podríamos intentar extraer la información sobre la región geográfica de otra fuente, sin embargo, por ahora nos quedarémos únicamente con los registros que si la tienen registrada. Esto lo haremos usando la función `dropna()` con el argumento `axis=0` para eliminar las filas asociadas con los países sin registro de región geográfica o nombre. Por último, realizaremos una reindexación mediante la función `reset_index()` de *Pandas*, con el argumento `drop=True` ya que no nos interesa conservar el índice original.

In [61]:
df_clasificacion=df_clasificacion.dropna(axis=0).reset_index(drop=True)
print(df_clasificacion.shape)
df_clasificacion.tail()

(136, 4)


Unnamed: 0,nombre_pais,codigo_pais,region,grupo_ingresos
131,Kosovo,XKX,Europa y Asia central (excluido altos ingresos),Ingreso mediano alto
132,"Yemen, Rep. del",YEM,Oriente Medio y Norte de África (excluido alto...,Países de ingreso bajo
133,Sudáfrica,ZAF,África al sur del Sahara (excluido altos ingre...,Ingreso mediano alto
134,Zambia,ZMB,África al sur del Sahara (excluido altos ingre...,Países de ingreso bajo
135,Zimbabwe,ZWE,África al sur del Sahara (excluido altos ingre...,Países de ingreso mediano bajo


Podemos ver que los registros de este `DataFrame` no coinciden del todo, a nivel nomenclatura con los registros en los `DataFrame`previos.