## 1.Crear DataFrame

In [466]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd

In [467]:
df = pd.DataFrame(data={
    "Pais": ['Mexico', 'Argentina', 'Espana', 'Colombia', 'Brasil', 'Chile', 'Peru', 'Uruguay', 'Paraguay', 'Bolivia'],
    "Poblacion": [127212000, 45167000, 47099000, 48922000, 213993000, 19116209, 31923150, 3480200, 6800000, 11673000],
    "Capital": ['CDMX', 'Buenos Aires', 'Madrid', 'Bogotá', 'Brasilia', 'Santiago', 'Lima', 'Montevideo', 'Asunción', 'Sucre'],
    "Superficie_km2": [1964375, 2780400, 505992, 1141748, 8515767, 756102, 1285216, 176215, 406752, 1098581],
    "PIB_millones_USD": [12000, 5000, 14000, 4000, 21000, 3500, 5000, 60000, 10000, 7000],
    "Idioma_Principal": ['Español', 'Español', 'Español', 'Español', 'Portugués', 'Español', 'Español', 'Español', 'Español', 'Español'],
    "IDH": [0.779, 0.845, 0.904, 0.761, 0.756, 0.843, 0.777, 0.817, 0.732, 0.703],
    "Region": ['América del Norte', 'América del Sur', 'Europa', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur'],
    "Expectativa_de_Vida": [75, 76, 83, 78, 74, 80, 77, 79, 73, 70],
    "Moneda": ['Peso Mexicano', 'Peso Argentino', 'Euro', 'Peso Colombiano', 'Real Brasileño', 'Peso Chileno', 'Sol Peruano', 'Peso Uruguayo', 'Guaraní', 'Boliviano'],
    "Anio_de_Independencia": [1810, 1816, 1492, 1810, 1822, 1810, 1821, 1825, 1811, 1825]
})
print(df)
print()
print(df.shape)
print()
print(df.dtypes)
print()
print(df.describe())

        Pais  Poblacion       Capital  Superficie_km2  PIB_millones_USD  \
0     Mexico  127212000          CDMX         1964375             12000   
1  Argentina   45167000  Buenos Aires         2780400              5000   
2     Espana   47099000        Madrid          505992             14000   
3   Colombia   48922000        Bogotá         1141748              4000   
4     Brasil  213993000      Brasilia         8515767             21000   
5      Chile   19116209      Santiago          756102              3500   
6       Peru   31923150          Lima         1285216              5000   
7    Uruguay    3480200    Montevideo          176215             60000   
8   Paraguay    6800000      Asunción          406752             10000   
9    Bolivia   11673000         Sucre         1098581              7000   

  Idioma_Principal    IDH             Region  Expectativa_de_Vida  \
0          Español  0.779  América del Norte                   75   
1          Español  0.845    América

## 2.Filtrado de datos

In [468]:
#Filtramos paises donde la poblacion es menor a 48 000 000
filtro = df[df['Poblacion']< 48*(10**6)]
filtro

Unnamed: 0,Pais,Poblacion,Capital,Superficie_km2,PIB_millones_USD,Idioma_Principal,IDH,Region,Expectativa_de_Vida,Moneda,Anio_de_Independencia
1,Argentina,45167000,Buenos Aires,2780400,5000,Español,0.845,América del Sur,76,Peso Argentino,1816
2,Espana,47099000,Madrid,505992,14000,Español,0.904,Europa,83,Euro,1492
5,Chile,19116209,Santiago,756102,3500,Español,0.843,América del Sur,80,Peso Chileno,1810
6,Peru,31923150,Lima,1285216,5000,Español,0.777,América del Sur,77,Sol Peruano,1821
7,Uruguay,3480200,Montevideo,176215,60000,Español,0.817,América del Sur,79,Peso Uruguayo,1825
8,Paraguay,6800000,Asunción,406752,10000,Español,0.732,América del Sur,73,Guaraní,1811
9,Bolivia,11673000,Sucre,1098581,7000,Español,0.703,América del Sur,70,Boliviano,1825


In [469]:
#Localizamos la capital del primer elemento
print(df.loc[0,"Capital"])

CDMX


In [470]:
#Localizamos un registro
df.loc[1]

Pais                           Argentina
Poblacion                       45167000
Capital                     Buenos Aires
Superficie_km2                   2780400
PIB_millones_USD                    5000
Idioma_Principal                 Español
IDH                                0.845
Region                   América del Sur
Expectativa_de_Vida                   76
Moneda                    Peso Argentino
Anio_de_Independencia               1816
Name: 1, dtype: object

In [471]:
df.iloc[0,:]

Pais                                Mexico
Poblacion                        127212000
Capital                               CDMX
Superficie_km2                     1964375
PIB_millones_USD                     12000
Idioma_Principal                   Español
IDH                                  0.779
Region                   América del Norte
Expectativa_de_Vida                     75
Moneda                       Peso Mexicano
Anio_de_Independencia                 1810
Name: 0, dtype: object

## 4.Agrupación y agregación

In [472]:
#group by
pobl_promedio = df.groupby('Region')['Poblacion'].mean()
print(pobl_promedio.apply(lambda x: f"{x:.2f}"))

Region
América del Norte    127212000.00
América del Sur       47634319.88
Europa                47099000.00
Name: Poblacion, dtype: object


## 5.Gestión de datos faltantes (Missing Values)

In [473]:
print(df.isnull())
print(df.isnull().sum())

    Pais  Poblacion  Capital  Superficie_km2  PIB_millones_USD  \
0  False      False    False           False             False   
1  False      False    False           False             False   
2  False      False    False           False             False   
3  False      False    False           False             False   
4  False      False    False           False             False   
5  False      False    False           False             False   
6  False      False    False           False             False   
7  False      False    False           False             False   
8  False      False    False           False             False   
9  False      False    False           False             False   

   Idioma_Principal    IDH  Region  Expectativa_de_Vida  Moneda  \
0             False  False   False                False   False   
1             False  False   False                False   False   
2             False  False   False                False   False   
3    

In [474]:
import numpy as np
df.loc[1,"Poblacion"] = np.nan
df

Unnamed: 0,Pais,Poblacion,Capital,Superficie_km2,PIB_millones_USD,Idioma_Principal,IDH,Region,Expectativa_de_Vida,Moneda,Anio_de_Independencia
0,Mexico,127212000.0,CDMX,1964375,12000,Español,0.779,América del Norte,75,Peso Mexicano,1810
1,Argentina,,Buenos Aires,2780400,5000,Español,0.845,América del Sur,76,Peso Argentino,1816
2,Espana,47099000.0,Madrid,505992,14000,Español,0.904,Europa,83,Euro,1492
3,Colombia,48922000.0,Bogotá,1141748,4000,Español,0.761,América del Sur,78,Peso Colombiano,1810
4,Brasil,213993000.0,Brasilia,8515767,21000,Portugués,0.756,América del Sur,74,Real Brasileño,1822
5,Chile,19116209.0,Santiago,756102,3500,Español,0.843,América del Sur,80,Peso Chileno,1810
6,Peru,31923150.0,Lima,1285216,5000,Español,0.777,América del Sur,77,Sol Peruano,1821
7,Uruguay,3480200.0,Montevideo,176215,60000,Español,0.817,América del Sur,79,Peso Uruguayo,1825
8,Paraguay,6800000.0,Asunción,406752,10000,Español,0.732,América del Sur,73,Guaraní,1811
9,Bolivia,11673000.0,Sucre,1098581,7000,Español,0.703,América del Sur,70,Boliviano,1825


In [475]:
#Llenamos valores faltantes con la media de la columna
df.fillna(df['Poblacion'].mean(),inplace=False)

Unnamed: 0,Pais,Poblacion,Capital,Superficie_km2,PIB_millones_USD,Idioma_Principal,IDH,Region,Expectativa_de_Vida,Moneda,Anio_de_Independencia
0,Mexico,127212000.0,CDMX,1964375,12000,Español,0.779,América del Norte,75,Peso Mexicano,1810
1,Argentina,56690951.0,Buenos Aires,2780400,5000,Español,0.845,América del Sur,76,Peso Argentino,1816
2,Espana,47099000.0,Madrid,505992,14000,Español,0.904,Europa,83,Euro,1492
3,Colombia,48922000.0,Bogotá,1141748,4000,Español,0.761,América del Sur,78,Peso Colombiano,1810
4,Brasil,213993000.0,Brasilia,8515767,21000,Portugués,0.756,América del Sur,74,Real Brasileño,1822
5,Chile,19116209.0,Santiago,756102,3500,Español,0.843,América del Sur,80,Peso Chileno,1810
6,Peru,31923150.0,Lima,1285216,5000,Español,0.777,América del Sur,77,Sol Peruano,1821
7,Uruguay,3480200.0,Montevideo,176215,60000,Español,0.817,América del Sur,79,Peso Uruguayo,1825
8,Paraguay,6800000.0,Asunción,406752,10000,Español,0.732,América del Sur,73,Guaraní,1811
9,Bolivia,11673000.0,Sucre,1098581,7000,Español,0.703,América del Sur,70,Boliviano,1825


In [476]:
df.fillna(df["Poblacion"].mean(),inplace=False)
df_new = df.fillna(df["Poblacion"].mean(), inplace=False) #Crea una copia del origina
print(df_new)
print()

df["Poblacion"].fillna(df["Poblacion"].mean(),inplace=True)
df.head()

        Pais    Poblacion       Capital  Superficie_km2  PIB_millones_USD  \
0     Mexico  127212000.0          CDMX         1964375             12000   
1  Argentina   56690951.0  Buenos Aires         2780400              5000   
2     Espana   47099000.0        Madrid          505992             14000   
3   Colombia   48922000.0        Bogotá         1141748              4000   
4     Brasil  213993000.0      Brasilia         8515767             21000   
5      Chile   19116209.0      Santiago          756102              3500   
6       Peru   31923150.0          Lima         1285216              5000   
7    Uruguay    3480200.0    Montevideo          176215             60000   
8   Paraguay    6800000.0      Asunción          406752             10000   
9    Bolivia   11673000.0         Sucre         1098581              7000   

  Idioma_Principal    IDH             Region  Expectativa_de_Vida  \
0          Español  0.779  América del Norte                   75   
1          Esp

Unnamed: 0,Pais,Poblacion,Capital,Superficie_km2,PIB_millones_USD,Idioma_Principal,IDH,Region,Expectativa_de_Vida,Moneda,Anio_de_Independencia
0,Mexico,127212000.0,CDMX,1964375,12000,Español,0.779,América del Norte,75,Peso Mexicano,1810
1,Argentina,56690951.0,Buenos Aires,2780400,5000,Español,0.845,América del Sur,76,Peso Argentino,1816
2,Espana,47099000.0,Madrid,505992,14000,Español,0.904,Europa,83,Euro,1492
3,Colombia,48922000.0,Bogotá,1141748,4000,Español,0.761,América del Sur,78,Peso Colombiano,1810
4,Brasil,213993000.0,Brasilia,8515767,21000,Portugués,0.756,América del Sur,74,Real Brasileño,1822


In [477]:
#Eliminar nulos
df.loc[5,"Expectativa_de_Vida"] = np.nan
print(df.iloc[5])
df.dropna(inplace=True)
print(df.iloc[5])
#Se elimina el registor como vemos

Pais                               Chile
Poblacion                     19116209.0
Capital                         Santiago
Superficie_km2                    756102
PIB_millones_USD                    3500
Idioma_Principal                 Español
IDH                                0.843
Region                   América del Sur
Expectativa_de_Vida                  NaN
Moneda                      Peso Chileno
Anio_de_Independencia               1810
Name: 5, dtype: object
Pais                                Peru
Poblacion                     31923150.0
Capital                             Lima
Superficie_km2                   1285216
PIB_millones_USD                    5000
Idioma_Principal                 Español
IDH                                0.777
Region                   América del Sur
Expectativa_de_Vida                 77.0
Moneda                       Sol Peruano
Anio_de_Independencia               1821
Name: 6, dtype: object


In [478]:
df.loc[0, 'Pais'] = ''   # Se inserta un valor vacio en la fila 0
print(df['Pais']=='')
print(df[df['Pais']==''])

0     True
1    False
2    False
3    False
4    False
6    False
7    False
8    False
9    False
Name: Pais, dtype: bool
  Pais    Poblacion Capital  Superficie_km2  PIB_millones_USD  \
0       127212000.0    CDMX         1964375             12000   

  Idioma_Principal    IDH             Region  Expectativa_de_Vida  \
0          Español  0.779  América del Norte                 75.0   

          Moneda  Anio_de_Independencia  
0  Peso Mexicano                   1810  


In [479]:
df.loc[df['Pais'] == '', 'Pais'] = 'México'
print(df.iloc[0])

Pais                                México
Poblacion                      127212000.0
Capital                               CDMX
Superficie_km2                     1964375
PIB_millones_USD                     12000
Idioma_Principal                   Español
IDH                                  0.779
Region                   América del Norte
Expectativa_de_Vida                   75.0
Moneda                       Peso Mexicano
Anio_de_Independencia                 1810
Name: 0, dtype: object


## 6. Fusion

In [480]:
df = pd.DataFrame(data={
    "Pais": ['Mexico', 'Argentina', 'Espana', 'Colombia', 'Brasil', 'Chile', 'Peru', 'Uruguay', 'Paraguay', 'Bolivia'],
    "Poblacion": [127212000, 45167000, 47099000, 48922000, 213993000, 19116209, 31923150, 3480200, 6800000, 11673000],
    "Capital": ['CDMX', 'Buenos Aires', 'Madrid', 'Bogotá', 'Brasilia', 'Santiago', 'Lima', 'Montevideo', 'Asunción', 'Sucre'],
    "Superficie_km2": [1964375, 2780400, 505992, 1141748, 8515767, 756102, 1285216, 176215, 406752, 1098581],
    "PIB_millones_USD": [12000, 5000, 14000, 4000, 21000, 3500, 5000, 60000, 10000, 7000],
    "Idioma_Principal": ['Español', 'Español', 'Español', 'Español', 'Portugués', 'Español', 'Español', 'Español', 'Español', 'Español'],
    "IDH": [0.779, 0.845, 0.904, 0.761, 0.756, 0.843, 0.777, 0.817, 0.732, 0.703],
    "Region": ['América del Norte', 'América del Sur', 'Europa', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur'],
    "Expectativa_de_Vida": [75, 76, 83, 78, 74, 80, 77, 79, 73, 70],
    "Moneda": ['Peso Mexicano', 'Peso Argentino', 'Euro', 'Peso Colombiano', 'Real Brasileño', 'Peso Chileno', 'Sol Peruano', 'Peso Uruguayo', 'Guaraní', 'Boliviano'],
    "Anio_de_Independencia": [1810, 1816, 1492, 1810, 1822, 1810, 1821, 1825, 1811, 1825]
})


df2 = pd.DataFrame(data={
    "Pais": ['Mexico', 'Argentina', 'Espana', 'Colombia', 'Brasil', 'Chile', 'Peru', 'Uruguay', 'Paraguay', 'Bolivia'],
    "Capital": ['CDMX', 'Buenos Aires', 'Madrid', 'Bogotá', 'Brasilia', 'Santiago', 'Lima', 'Montevideo', 'Asunción', 'Sucre'],
    "Continente": ['América del Norte', 'América del Sur', 'Europa', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur', 'América del Sur'],
    "Area_Provincias": [32, 23, 17, 33, 26, 15, 25, 19, 17, 9],
    "Idioma_Secundario": ['Náhuatl', 'Guaraní', 'Catalán', 'Wayuu', 'Tupi', 'Mapudungun', 'Quechua', 'Aymara', 'Guaraní', 'Quechua'],
    "Poblacion_Urbana (%)": [80, 92, 81, 76, 87, 87, 79, 95, 60, 70],
    "Moneda_Alternativa": ['Dólar', 'Dólar', 'Peseta', 'Dólar', 'Dólar', 'Dólar', 'Dólar', 'Peso Uruguayo', 'Guaraní', 'Boliviano'],
    "PIB_per_Capita": [9400, 11000, 30000, 8000, 9800, 18000, 6000, 15000, 4000, 6000],
    "Esperanza_de_Vida": [76, 80, 83, 78, 74, 80, 77, 79, 73, 70],
    "Rango_Desarrollo": ['Medio', 'Alto', 'Muy Alto', 'Medio', 'Medio', 'Alto', 'Medio', 'Alto', 'Medio', 'Bajo']
})


df_merged = pd.merge(df, df2, on='Pais', how = 'inner')
df_merged.head(1000)


Unnamed: 0,Pais,Poblacion,Capital_x,Superficie_km2,PIB_millones_USD,Idioma_Principal,IDH,Region,Expectativa_de_Vida,Moneda,Anio_de_Independencia,Capital_y,Continente,Area_Provincias,Idioma_Secundario,Poblacion_Urbana (%),Moneda_Alternativa,PIB_per_Capita,Esperanza_de_Vida,Rango_Desarrollo
0,Mexico,127212000,CDMX,1964375,12000,Español,0.779,América del Norte,75,Peso Mexicano,1810,CDMX,América del Norte,32,Náhuatl,80,Dólar,9400,76,Medio
1,Argentina,45167000,Buenos Aires,2780400,5000,Español,0.845,América del Sur,76,Peso Argentino,1816,Buenos Aires,América del Sur,23,Guaraní,92,Dólar,11000,80,Alto
2,Espana,47099000,Madrid,505992,14000,Español,0.904,Europa,83,Euro,1492,Madrid,Europa,17,Catalán,81,Peseta,30000,83,Muy Alto
3,Colombia,48922000,Bogotá,1141748,4000,Español,0.761,América del Sur,78,Peso Colombiano,1810,Bogotá,América del Sur,33,Wayuu,76,Dólar,8000,78,Medio
4,Brasil,213993000,Brasilia,8515767,21000,Portugués,0.756,América del Sur,74,Real Brasileño,1822,Brasilia,América del Sur,26,Tupi,87,Dólar,9800,74,Medio
5,Chile,19116209,Santiago,756102,3500,Español,0.843,América del Sur,80,Peso Chileno,1810,Santiago,América del Sur,15,Mapudungun,87,Dólar,18000,80,Alto
6,Peru,31923150,Lima,1285216,5000,Español,0.777,América del Sur,77,Sol Peruano,1821,Lima,América del Sur,25,Quechua,79,Dólar,6000,77,Medio
7,Uruguay,3480200,Montevideo,176215,60000,Español,0.817,América del Sur,79,Peso Uruguayo,1825,Montevideo,América del Sur,19,Aymara,95,Peso Uruguayo,15000,79,Alto
8,Paraguay,6800000,Asunción,406752,10000,Español,0.732,América del Sur,73,Guaraní,1811,Asunción,América del Sur,17,Guaraní,60,Guaraní,4000,73,Medio
9,Bolivia,11673000,Sucre,1098581,7000,Español,0.703,América del Sur,70,Boliviano,1825,Sucre,América del Sur,9,Quechua,70,Boliviano,6000,70,Bajo
