<a href="https://colab.research.google.com/github/NatSama2/Bootcamp-Analisis-de-Datos/blob/main/Modulo-4/Data_Wrangling_M4S5_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Fundamentos de Análisis de Datos – Módulo 4 Sesión 05
## Data Wrangling con Python y Pandas

En esta clase trabajaremos con conceptos y técnicas fundamentales para la limpieza, transformación y organización de datos. Utilizaremos `pandas` y `numpy` en Python, y se presentarán tanto ejemplos resueltos como ejercicios prácticos.

---


In [88]:

import pandas as pd
import numpy as np



## ¿Qué es Data Wrangling?
Proceso de limpiar, transformar y estructurar datos para análisis.

### Tareas principales:
- Eliminación de errores y duplicados
- Reemplazo de valores faltantes
- Transformación de estructuras
- Enriquecimiento de datos


## Muestreo aleatorio y permutación

In [89]:

# Creamos un DataFrame de ejemplo
df = pd.DataFrame({
    'Cliente': ['A', 'B', 'C', 'D', 'E'],
    'Ventas': [100, 200, 150, 300, 250]
})

# Muestreo aleatorio
df_sample = df.sample(frac=0.6, random_state=1)
print("Muestreo aleatorio:")
print(df_sample)

# Permutación (shuffle)
df_shuffled = df.sample(frac=1).reset_index(drop=True)
print("\nDatos permutados:")
print(df_shuffled)


Muestreo aleatorio:
  Cliente  Ventas
2       C     150
1       B     200
4       E     250

Datos permutados:
  Cliente  Ventas
0       B     200
1       A     100
2       C     150
3       D     300
4       E     250


## Ejemplos resueltos de Data Wrangling


### Ejemplo: Ordenar datos por una columna

In [90]:

df.sort_values(by='Ventas', ascending=False)


Unnamed: 0,Cliente,Ventas
3,D,300
4,E,250
1,B,200
2,C,150
0,A,100


### Ejemplo: Eliminar registros duplicados

In [91]:

df_duplicates = pd.DataFrame({
    'ID': [1, 2, 2, 3],
    'Nombre': ['Ana', 'Luis', 'Luis', 'Carlos']
})
df_duplicates.drop_duplicates()


Unnamed: 0,ID,Nombre
0,1,Ana
1,2,Luis
3,3,Carlos


### Ejemplo: Reemplazar valores nulos con la media

In [92]:

df_nulls = pd.DataFrame({
    'Edad': [25, np.nan, 30, np.nan, 22]
})
df_nulls['Edad'].fillna(df_nulls['Edad'].mean())


Unnamed: 0,Edad
0,25.0
1,25.666667
2,30.0
3,25.666667
4,22.0


### Ejemplo: Crear columna categórica a partir de edad

In [93]:

df_edad = pd.DataFrame({'Edad': [15, 22, 37, 45, 67]})
df_edad['Grupo'] = pd.cut(df_edad['Edad'], bins=[0, 18, 35, 60, 100], labels=['Adolescente', 'Joven', 'Adulto', 'Mayor'])
df_edad


Unnamed: 0,Edad,Grupo
0,15,Adolescente
1,22,Joven
2,37,Adulto
3,45,Adulto
4,67,Mayor


### Ejemplo: Aplicar una función a una columna

In [94]:

df['Ventas_con_IVA'] = df['Ventas'].apply(lambda x: x * 1.19)
df

Unnamed: 0,Cliente,Ventas,Ventas_con_IVA
0,A,100,119.0
1,B,200,238.0
2,C,150,178.5
3,D,300,357.0
4,E,250,297.5


### Ejemplo: Agregar columna calculada

In [95]:

df['Costo'] = [60, 100, 90, 200, 170]
df['Ganancia'] = df['Ventas'] - df['Costo']
df

Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia
0,A,100,119.0,60,40
1,B,200,238.0,100,100
2,C,150,178.5,90,60
3,D,300,357.0,200,100
4,E,250,297.5,170,80


### Ejemplo: Renombrar columnas

In [96]:

df.rename(columns={'Cliente': 'NombreCliente', 'Ventas': 'MontoVentas'})


Unnamed: 0,NombreCliente,MontoVentas,Ventas_con_IVA,Costo,Ganancia
0,A,100,119.0,60,40
1,B,200,238.0,100,100
2,C,150,178.5,90,60
3,D,300,357.0,200,100
4,E,250,297.5,170,80


### Ejemplo: Resetear el índice

In [97]:

df_reset = df.set_index('Cliente')
df_reset.reset_index()


Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia
0,A,100,119.0,60,40
1,B,200,238.0,100,100
2,C,150,178.5,90,60
3,D,300,357.0,200,100
4,E,250,297.5,170,80


### Ejemplo: Filtrar filas por condición

In [98]:

df[df['Ventas'] > 200]


Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia
3,D,300,357.0,200,100
4,E,250,297.5,170,80


### Ejemplo: Reemplazar valores específicos

In [99]:

df['Cliente'].replace({'A': 'Alfa', 'B': 'Beta'})


Unnamed: 0,Cliente
0,Alfa
1,Beta
2,C
3,D
4,E


### Ejemplo: Convertir tipo de columna

In [100]:

df['Ventas'] = df['Ventas'].astype(float)
df

Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia
0,A,100.0,119.0,60,40
1,B,200.0,238.0,100,100
2,C,150.0,178.5,90,60
3,D,300.0,357.0,200,100
4,E,250.0,297.5,170,80


### Ejemplo: Agregar fila nueva

In [101]:
Fila_n = pd.DataFrame({'Cliente': ['F'], 'Ventas': [180], 'Ventas_con_IVA': [180 * 1.19], 'Costo': [0], 'Ganancia': [180 - 0]})
df = pd.concat([df, Fila_n], ignore_index=True)
df

Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia
0,A,100.0,119.0,60,40
1,B,200.0,238.0,100,100
2,C,150.0,178.5,90,60
3,D,300.0,357.0,200,100
4,E,250.0,297.5,170,80
5,F,180.0,214.2,0,180


### Ejemplo: Eliminar columna

In [102]:

df.drop(columns=['Costo'])


Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Ganancia
0,A,100.0,119.0,40
1,B,200.0,238.0,100
2,C,150.0,178.5,60
3,D,300.0,357.0,100
4,E,250.0,297.5,80
5,F,180.0,214.2,180


### Ejemplo: Discretizar valores con qcut

In [103]:

df['Quintil'] = pd.qcut(df['Ventas'], q=4, labels=False)
df


Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia,Quintil
0,A,100.0,119.0,60,40,0
1,B,200.0,238.0,100,100,2
2,C,150.0,178.5,90,60,0
3,D,300.0,357.0,200,100,3
4,E,250.0,297.5,170,80,3
5,F,180.0,214.2,0,180,1


### Ejemplo: Combinar dataframes

In [104]:

df_extra = pd.DataFrame({'Cliente': ['F'], 'Ventas': [180]})
pd.concat([df, df_extra])


Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia,Quintil
0,A,100.0,119.0,60.0,40.0,0.0
1,B,200.0,238.0,100.0,100.0,2.0
2,C,150.0,178.5,90.0,60.0,0.0
3,D,300.0,357.0,200.0,100.0,3.0
4,E,250.0,297.5,170.0,80.0,3.0
5,F,180.0,214.2,0.0,180.0,1.0
0,F,180.0,,,,


### Ejemplo: Mapeo de valores

In [105]:

df['Segmento'] = df['Cliente'].map({'A': 'Alta', 'B': 'Media', 'C': 'Baja'})
df

Unnamed: 0,Cliente,Ventas,Ventas_con_IVA,Costo,Ganancia,Quintil,Segmento
0,A,100.0,119.0,60,40,0,Alta
1,B,200.0,238.0,100,100,2,Media
2,C,150.0,178.5,90,60,0,Baja
3,D,300.0,357.0,200,100,3,
4,E,250.0,297.5,170,80,3,
5,F,180.0,214.2,0,180,1,


### Ejemplo: Cambiar índice

In [106]:

df.set_index('Cliente', inplace=True)
df


Unnamed: 0_level_0,Ventas,Ventas_con_IVA,Costo,Ganancia,Quintil,Segmento
Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A,100.0,119.0,60,40,0,Alta
B,200.0,238.0,100,100,2,Media
C,150.0,178.5,90,60,0,Baja
D,300.0,357.0,200,100,3,
E,250.0,297.5,170,80,3,
F,180.0,214.2,0,180,1,


### Ejemplo: Filtrar nulos

In [107]:

df_nulls[df_nulls['Edad'].isna()]


Unnamed: 0,Edad
1,
3,


### Ejemplo: Eliminar filas con nulos

In [108]:

df_nulls.dropna()


Unnamed: 0,Edad
0,25.0
2,30.0
4,22.0


## 1. Funciones lambda básicas

In [109]:
# Ejercicio 1: Crear una función lambda que eleve un número al cuadrado
cuadrado = lambda x: x**2
print("5 al cuadrado:", cuadrado(5))

5 al cuadrado: 25


In [110]:
# Ejercicio 2: Función lambda que determine si un número es par
es_par = lambda x: x % 2 == 0
print("¿4 es par?", es_par(4))
print("¿5 es par?", es_par(5))

¿4 es par? True
¿5 es par? False


In [111]:
# Ejercicio 3: Función lambda que concatene dos strings con un espacio entre ellos
concatenar = lambda a, b: f"{a} {b}"
print(concatenar("Hola", "Mundo"))

Hola Mundo


## 2. apply() con Series de pandas

In [112]:
# Crear una Series de ejemplo
s = pd.Series([1, 2, 3, 4, 5])
s

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [113]:
# Ejercicio 4: Aplicar una función lambda para sumar 10 a cada elemento
s.apply(lambda x: x + 10)

Unnamed: 0,0
0,11
1,12
2,13
3,14
4,15


In [114]:
# Ejercicio 5: Aplicar una función lambda para convertir números a strings con prefijo
s.apply(lambda x: f"Valor: {x}")

Unnamed: 0,0
0,Valor: 1
1,Valor: 2
2,Valor: 3
3,Valor: 4
4,Valor: 5


## 3. apply() con DataFrames

In [115]:
# Crear un DataFrame de ejemplo
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [116]:
# Ejercicio 6: Aplicar una función lambda por columnas (sumar 100 a cada valor)
df.apply(lambda col: col + 100)

Unnamed: 0,A,B,C
0,101,104,107
1,102,105,108
2,103,106,109


In [117]:
# Ejercicio 7: Aplicar una función lambda por filas (sumar los valores de cada fila)
df.apply(lambda fila: fila.sum(), axis=1)

Unnamed: 0,0
0,12
1,15
2,18


## 4. Casos prácticos más avanzados

In [118]:
# Crear un DataFrame con datos más complejos
personas = pd.DataFrame({
    'Nombre': ['Ana', 'Juan', 'María', 'Carlos'],
    'Edad': [25, 32, 28, 41],
    'Salario': [45000, 60000, 52000, 75000]
})
personas

Unnamed: 0,Nombre,Edad,Salario
0,Ana,25,45000
1,Juan,32,60000
2,María,28,52000
3,Carlos,41,75000


In [119]:
# Ejercicio 8: Crear una nueva columna con categoría según edad
personas['Categoria_Edad'] = personas['Edad'].apply(
    lambda x: 'Joven' if x < 30 else 'Adulto' if x < 40 else 'Mayor'
)
personas

Unnamed: 0,Nombre,Edad,Salario,Categoria_Edad
0,Ana,25,45000,Joven
1,Juan,32,60000,Adulto
2,María,28,52000,Joven
3,Carlos,41,75000,Mayor


In [120]:
# Ejercicio 9: Aplicar un aumento de salario del 10% a quienes ganan menos de 55000
personas['Salario_Ajustado'] = personas.apply(
    lambda fila: fila['Salario'] * 1.1 if fila['Salario'] < 55000 else fila['Salario'],
    axis=1
)
personas

Unnamed: 0,Nombre,Edad,Salario,Categoria_Edad,Salario_Ajustado
0,Ana,25,45000,Joven,49500.0
1,Juan,32,60000,Adulto,60000.0
2,María,28,52000,Joven,57200.0
3,Carlos,41,75000,Mayor,75000.0


In [121]:
# Ejercicio 10: Crear una columna con información combinada
personas['Info'] = personas.apply(
    lambda fila: f"{fila['Nombre']} ({fila['Edad']} años) - ${fila['Salario']}",
    axis=1
)
personas

Unnamed: 0,Nombre,Edad,Salario,Categoria_Edad,Salario_Ajustado,Info
0,Ana,25,45000,Joven,49500.0,Ana (25 años) - $45000
1,Juan,32,60000,Adulto,60000.0,Juan (32 años) - $60000
2,María,28,52000,Joven,57200.0,María (28 años) - $52000
3,Carlos,41,75000,Mayor,75000.0,Carlos (41 años) - $75000


## 5. Ejercicios para resolver

**Ejercicio 11:** Crea una función lambda que tome tres números y devuelva el mayor de ellos.

In [122]:
# Solución aquí

**Ejercicio 12:** Usa apply() para crear una nueva columna en el DataFrame 'personas' que indique 'Salario Alto' si el salario es mayor a 50000, y 'Salario Bajo' en caso contrario.

In [123]:
# Solución aquí

**Ejercicio 13:** Crea un DataFrame con una columna de strings y usa apply() con una lambda para obtener la longitud de cada string.

In [124]:
# Solución aquí

**Ejercicio 14:** Usa apply() en un DataFrame para normalizar los valores de cada columna (restar la media y dividir por la desviación estándar).

In [125]:
# Solución aquí

**Ejercicio 15:** Crea una función lambda que tome una lista de palabras y devuelva una lista con las palabras en mayúsculas y ordenadas alfabéticamente.

#Ejercicio

In [130]:
poblacion = pd.read_excel('/content/POBLACION.xls', sheet_name='Data')
poblacion.head()

Unnamed: 0,Data Source,Indicadores del desarrollo mundial,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 59,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65,Unnamed: 66,Unnamed: 67,Unnamed: 68
0,Last Updated Date,2025-07-01 00:00:00,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,Country Name,Country Code,Indicator Name,Indicator Code,1960.0,1961.0,1962.0,1963.0,1964.0,1965.0,...,2015.0,2016.0,2017.0,2018.0,2019.0,2020.0,2021.0,2022.0,2023.0,2024.0
3,Aruba,ABW,"Población, total",SP.POP.TOTL,54922.0,55578.0,56320.0,57002.0,57619.0,58190.0,...,107906.0,108727.0,108735.0,108908.0,109203.0,108587.0,107700.0,107310.0,107359.0,107624.0
4,,AFE,"Población, total",SP.POP.TOTL,130075728.0,133534923.0,137171659.0,140945536.0,144904094.0,149033472.0,...,607123269.0,623369401.0,640058741.0,657801085.0,675950189.0,694446100.0,713090928.0,731821393.0,750503764.0,769294618.0


In [127]:
poblacion = poblacion[3:]
poblacion

Unnamed: 0,Data Source,Indicadores del desarrollo mundial,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 59,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65,Unnamed: 66,Unnamed: 67,Unnamed: 68
3,Aruba,ABW,"Población, total",SP.POP.TOTL,54922.0,55578.0,56320.0,57002.0,57619.0,58190.0,...,107906.0,108727.0,108735.0,108908.0,109203.0,108587.0,107700.0,107310.0,107359.0,107624.0
4,,AFE,"Población, total",SP.POP.TOTL,130075728.0,133534923.0,137171659.0,140945536.0,144904094.0,149033472.0,...,607123269.0,623369401.0,640058741.0,657801085.0,675950189.0,694446100.0,713090928.0,731821393.0,750503764.0,769294618.0
5,Afganistán,AFG,"Población, total",SP.POP.TOTL,9035043.0,9214083.0,9404406.0,9604487.0,9814318.0,10036008.0,...,33831764.0,34700612.0,35688935.0,36743039.0,37856121.0,39068979.0,40000412.0,40578842.0,41454761.0,42647492.0
6,,AFW,"Población, total",SP.POP.TOTL,97630925.0,99706674.0,101854756.0,104089175.0,106388440.0,108772632.0,...,418127845.0,429454743.0,440882906.0,452195915.0,463365429.0,474569351.0,485920997.0,497387180.0,509398589.0,521764076.0
7,Angola,AGO,"Población, total",SP.POP.TOTL,5231654.0,5301583.0,5354310.0,5408320.0,5464187.0,5521981.0,...,28157798.0,29183070.0,30234839.0,31297155.0,32375632.0,33451132.0,34532429.0,35635029.0,36749906.0,37885849.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
264,Kosovo,XKX,"Población, total",SP.POP.TOTL,984846.0,1011421.0,1036950.0,1062737.0,1090270.0,1120168.0,...,1788274.0,1777568.0,1791019.0,1797086.0,1788891.0,1790151.0,1786079.0,1768096.0,1682668.0,1527324.0
265,"Yemen, Rep. del",YEM,"Población, total",SP.POP.TOTL,5532301.0,5655232.0,5782221.0,5911135.0,6048006.0,6195593.0,...,31159379.0,32109010.0,33090921.0,34085182.0,35111408.0,36134863.0,37140230.0,38222876.0,39390799.0,40583164.0
266,Sudáfrica,ZAF,"Población, total",SP.POP.TOTL,16440172.0,16908035.0,17418522.0,17954564.0,18511361.0,19089380.0,...,56723537.0,57259551.0,57635162.0,58613001.0,59587885.0,60562381.0,61502603.0,62378410.0,63212384.0,64007187.0
267,Zambia,ZMB,"Población, total",SP.POP.TOTL,3153729.0,3254086.0,3358099.0,3465907.0,3577017.0,3692086.0,...,16399089.0,16914423.0,17441320.0,17973569.0,18513839.0,19059395.0,19603607.0,20152938.0,20723965.0,21314956.0


In [132]:
poblacion = poblacion.drop(index=[0,1])
poblacion

Unnamed: 0,Data Source,Indicadores del desarrollo mundial,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 59,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65,Unnamed: 66,Unnamed: 67,Unnamed: 68
2,Country Name,Country Code,Indicator Name,Indicator Code,1960.0,1961.0,1962.0,1963.0,1964.0,1965.0,...,2015.0,2016.0,2017.0,2018.0,2019.0,2020.0,2021.0,2022.0,2023.0,2024.0
3,Aruba,ABW,"Población, total",SP.POP.TOTL,54922.0,55578.0,56320.0,57002.0,57619.0,58190.0,...,107906.0,108727.0,108735.0,108908.0,109203.0,108587.0,107700.0,107310.0,107359.0,107624.0
4,,AFE,"Población, total",SP.POP.TOTL,130075728.0,133534923.0,137171659.0,140945536.0,144904094.0,149033472.0,...,607123269.0,623369401.0,640058741.0,657801085.0,675950189.0,694446100.0,713090928.0,731821393.0,750503764.0,769294618.0
5,Afganistán,AFG,"Población, total",SP.POP.TOTL,9035043.0,9214083.0,9404406.0,9604487.0,9814318.0,10036008.0,...,33831764.0,34700612.0,35688935.0,36743039.0,37856121.0,39068979.0,40000412.0,40578842.0,41454761.0,42647492.0
6,,AFW,"Población, total",SP.POP.TOTL,97630925.0,99706674.0,101854756.0,104089175.0,106388440.0,108772632.0,...,418127845.0,429454743.0,440882906.0,452195915.0,463365429.0,474569351.0,485920997.0,497387180.0,509398589.0,521764076.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
264,Kosovo,XKX,"Población, total",SP.POP.TOTL,984846.0,1011421.0,1036950.0,1062737.0,1090270.0,1120168.0,...,1788274.0,1777568.0,1791019.0,1797086.0,1788891.0,1790151.0,1786079.0,1768096.0,1682668.0,1527324.0
265,"Yemen, Rep. del",YEM,"Población, total",SP.POP.TOTL,5532301.0,5655232.0,5782221.0,5911135.0,6048006.0,6195593.0,...,31159379.0,32109010.0,33090921.0,34085182.0,35111408.0,36134863.0,37140230.0,38222876.0,39390799.0,40583164.0
266,Sudáfrica,ZAF,"Población, total",SP.POP.TOTL,16440172.0,16908035.0,17418522.0,17954564.0,18511361.0,19089380.0,...,56723537.0,57259551.0,57635162.0,58613001.0,59587885.0,60562381.0,61502603.0,62378410.0,63212384.0,64007187.0
267,Zambia,ZMB,"Población, total",SP.POP.TOTL,3153729.0,3254086.0,3358099.0,3465907.0,3577017.0,3692086.0,...,16399089.0,16914423.0,17441320.0,17973569.0,18513839.0,19059395.0,19603607.0,20152938.0,20723965.0,21314956.0


In [133]:
poblacion.columns = poblacion.iloc[0]
poblacion = poblacion.iloc[1:].reset_index(drop=True)
poblacion

2,Country Name,Country Code,Indicator Name,Indicator Code,1960.0,1961.0,1962.0,1963.0,1964.0,1965.0,...,2015.0,2016.0,2017.0,2018.0,2019.0,2020.0,2021.0,2022.0,2023.0,2024.0
0,Aruba,ABW,"Población, total",SP.POP.TOTL,54922.0,55578.0,56320.0,57002.0,57619.0,58190.0,...,107906.0,108727.0,108735.0,108908.0,109203.0,108587.0,107700.0,107310.0,107359.0,107624.0
1,,AFE,"Población, total",SP.POP.TOTL,130075728.0,133534923.0,137171659.0,140945536.0,144904094.0,149033472.0,...,607123269.0,623369401.0,640058741.0,657801085.0,675950189.0,694446100.0,713090928.0,731821393.0,750503764.0,769294618.0
2,Afganistán,AFG,"Población, total",SP.POP.TOTL,9035043.0,9214083.0,9404406.0,9604487.0,9814318.0,10036008.0,...,33831764.0,34700612.0,35688935.0,36743039.0,37856121.0,39068979.0,40000412.0,40578842.0,41454761.0,42647492.0
3,,AFW,"Población, total",SP.POP.TOTL,97630925.0,99706674.0,101854756.0,104089175.0,106388440.0,108772632.0,...,418127845.0,429454743.0,440882906.0,452195915.0,463365429.0,474569351.0,485920997.0,497387180.0,509398589.0,521764076.0
4,Angola,AGO,"Población, total",SP.POP.TOTL,5231654.0,5301583.0,5354310.0,5408320.0,5464187.0,5521981.0,...,28157798.0,29183070.0,30234839.0,31297155.0,32375632.0,33451132.0,34532429.0,35635029.0,36749906.0,37885849.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
261,Kosovo,XKX,"Población, total",SP.POP.TOTL,984846.0,1011421.0,1036950.0,1062737.0,1090270.0,1120168.0,...,1788274.0,1777568.0,1791019.0,1797086.0,1788891.0,1790151.0,1786079.0,1768096.0,1682668.0,1527324.0
262,"Yemen, Rep. del",YEM,"Población, total",SP.POP.TOTL,5532301.0,5655232.0,5782221.0,5911135.0,6048006.0,6195593.0,...,31159379.0,32109010.0,33090921.0,34085182.0,35111408.0,36134863.0,37140230.0,38222876.0,39390799.0,40583164.0
263,Sudáfrica,ZAF,"Población, total",SP.POP.TOTL,16440172.0,16908035.0,17418522.0,17954564.0,18511361.0,19089380.0,...,56723537.0,57259551.0,57635162.0,58613001.0,59587885.0,60562381.0,61502603.0,62378410.0,63212384.0,64007187.0
264,Zambia,ZMB,"Población, total",SP.POP.TOTL,3153729.0,3254086.0,3358099.0,3465907.0,3577017.0,3692086.0,...,16399089.0,16914423.0,17441320.0,17973569.0,18513839.0,19059395.0,19603607.0,20152938.0,20723965.0,21314956.0


In [135]:
poblacion.columns

Index([  'Country Name',   'Country Code', 'Indicator Name', 'Indicator Code',
                 1960.0,           1961.0,           1962.0,           1963.0,
                 1964.0,           1965.0,           1966.0,           1967.0,
                 1968.0,           1969.0,           1970.0,           1971.0,
                 1972.0,           1973.0,           1974.0,           1975.0,
                 1976.0,           1977.0,           1978.0,           1979.0,
                 1980.0,           1981.0,           1982.0,           1983.0,
                 1984.0,           1985.0,           1986.0,           1987.0,
                 1988.0,           1989.0,           1990.0,           1991.0,
                 1992.0,           1993.0,           1994.0,           1995.0,
                 1996.0,           1997.0,           1998.0,           1999.0,
                 2000.0,           2001.0,           2002.0,           2003.0,
                 2004.0,           2005.0,          

In [136]:
poblacion = poblacion.drop(columns=['Country Code', 'Indicator Name', 'Indicator Code'])
poblacion

2,Country Name,1960.0,1961.0,1962.0,1963.0,1964.0,1965.0,1966.0,1967.0,1968.0,...,2015.0,2016.0,2017.0,2018.0,2019.0,2020.0,2021.0,2022.0,2023.0,2024.0
0,Aruba,54922.0,55578.0,56320.0,57002.0,57619.0,58190.0,58694.0,58990.0,59069.0,...,107906.0,108727.0,108735.0,108908.0,109203.0,108587.0,107700.0,107310.0,107359.0,107624.0
1,,130075728.0,133534923.0,137171659.0,140945536.0,144904094.0,149033472.0,153281203.0,157704381.0,162329396.0,...,607123269.0,623369401.0,640058741.0,657801085.0,675950189.0,694446100.0,713090928.0,731821393.0,750503764.0,769294618.0
2,Afganistán,9035043.0,9214083.0,9404406.0,9604487.0,9814318.0,10036008.0,10266395.0,10505959.0,10756922.0,...,33831764.0,34700612.0,35688935.0,36743039.0,37856121.0,39068979.0,40000412.0,40578842.0,41454761.0,42647492.0
3,,97630925.0,99706674.0,101854756.0,104089175.0,106388440.0,108772632.0,111246953.0,113795019.0,116444636.0,...,418127845.0,429454743.0,440882906.0,452195915.0,463365429.0,474569351.0,485920997.0,497387180.0,509398589.0,521764076.0
4,Angola,5231654.0,5301583.0,5354310.0,5408320.0,5464187.0,5521981.0,5581386.0,5641807.0,5702699.0,...,28157798.0,29183070.0,30234839.0,31297155.0,32375632.0,33451132.0,34532429.0,35635029.0,36749906.0,37885849.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
261,Kosovo,984846.0,1011421.0,1036950.0,1062737.0,1090270.0,1120168.0,1152586.0,1187667.0,1214208.0,...,1788274.0,1777568.0,1791019.0,1797086.0,1788891.0,1790151.0,1786079.0,1768096.0,1682668.0,1527324.0
262,"Yemen, Rep. del",5532301.0,5655232.0,5782221.0,5911135.0,6048006.0,6195593.0,6351494.0,6516444.0,6690524.0,...,31159379.0,32109010.0,33090921.0,34085182.0,35111408.0,36134863.0,37140230.0,38222876.0,39390799.0,40583164.0
263,Sudáfrica,16440172.0,16908035.0,17418522.0,17954564.0,18511361.0,19089380.0,19690087.0,20314066.0,20957287.0,...,56723537.0,57259551.0,57635162.0,58613001.0,59587885.0,60562381.0,61502603.0,62378410.0,63212384.0,64007187.0
264,Zambia,3153729.0,3254086.0,3358099.0,3465907.0,3577017.0,3692086.0,3812003.0,3936343.0,4065593.0,...,16399089.0,16914423.0,17441320.0,17973569.0,18513839.0,19059395.0,19603607.0,20152938.0,20723965.0,21314956.0


In [138]:
poblacion2 = poblacion[poblacion["Country Name"].isin(["Argentina", "Brasil", "Chile"])]
poblacion2

2,Country Name,1960.0,1961.0,1962.0,1963.0,1964.0,1965.0,1966.0,1967.0,1968.0,...,2015.0,2016.0,2017.0,2018.0,2019.0,2020.0,2021.0,2022.0,2023.0,2024.0
9,Argentina,20386045.0,20726276.0,21072538.0,21421705.0,21769453.0,22112629.0,22453893.0,22799059.0,23150583.0,...,43477012.0,43900313.0,44288894.0,44654882.0,44973465.0,45191965.0,45312281.0,45407904.0,45538401.0,45696159.0
29,Brasil,72388126.0,74605447.0,76865323.0,79164235.0,81488595.0,83817583.0,86139359.0,88446124.0,90741240.0,...,201675532.0,203218114.0,204703445.0,206107261.0,207455459.0,208660842.0,209550294.0,210306415.0,211140729.0,211998573.0
39,Chile,8153350.0,8324802.0,8497059.0,8670144.0,8842525.0,9012938.0,9181722.0,9348939.0,9514716.0,...,18047625.0,18267221.0,18558868.0,18893191.0,19197744.0,19370624.0,19456334.0,19553036.0,19658835.0,19764771.0


In [142]:
poblacion_filtrada = poblacion2[poblacion2['Country Name'].isin(['Argentina'])]
poblacion_filtrada

2,Country Name,1960.0,1961.0,1962.0,1963.0,1964.0,1965.0,1966.0,1967.0,1968.0,...,2015.0,2016.0,2017.0,2018.0,2019.0,2020.0,2021.0,2022.0,2023.0,2024.0
9,Argentina,20386045.0,20726276.0,21072538.0,21421705.0,21769453.0,22112629.0,22453893.0,22799059.0,23150583.0,...,43477012.0,43900313.0,44288894.0,44654882.0,44973465.0,45191965.0,45312281.0,45407904.0,45538401.0,45696159.0


In [141]:
poblacion_filtrada.groupby("Año")["Poblacion"].sum()


KeyError: 'Año'