In [1]:
import pandas as pd
import numpy as np

# Remover duplicados

Tambien puedes usar el argumnto `inplace=True`

In [2]:
# Crear un DataFrame con datos duplicados
datos = {'nombre': ['Juan', 'María', 'Ana', 'Juan'],
         'edad': [25, 27, 24, 25],
         'ciudad': ['Bogotá', 'Medellín', 'Cali', 'Bogotá']}
df = pd.DataFrame(datos)
df


Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Bogotá
1,María,27,Medellín
2,Ana,24,Cali
3,Juan,25,Bogotá


In [3]:
df_sin_duplicados = df.drop_duplicates()


# Datos Faltantes

In [4]:
# Crear un DataFrame con datos faltantes
datos = {'nombre': ['Juan', 'María', np.nan, 'Pedro'],
         'edad': [25, 27, np.nan, 30],
         'ciudad': ['Bogotá', None, 'Cali', np.nan]}
df = pd.DataFrame(datos)

# Identificar los valores faltantes
print(df)
print(df.isnull())

# Eliminar las filas con valores faltantes
df_sin_faltantes = df.dropna()

# Rellenar los valores faltantes con un valor específico
df_rellenado = df.fillna('Desconocido')

print(df)
print(df_sin_faltantes)
print(df_rellenado)

  nombre  edad  ciudad
0   Juan  25.0  Bogotá
1  María  27.0    None
2    NaN   NaN    Cali
3  Pedro  30.0     NaN
   nombre   edad  ciudad
0   False  False   False
1   False  False    True
2    True   True   False
3   False  False    True
  nombre  edad  ciudad
0   Juan  25.0  Bogotá
1  María  27.0    None
2    NaN   NaN    Cali
3  Pedro  30.0     NaN
  nombre  edad  ciudad
0   Juan  25.0  Bogotá
        nombre         edad       ciudad
0         Juan         25.0       Bogotá
1        María         27.0  Desconocido
2  Desconocido  Desconocido         Cali
3        Pedro         30.0  Desconocido


In [5]:
df.dtypes

nombre     object
edad      float64
ciudad     object
dtype: object

In [6]:
df_rellenado.dtypes

nombre    object
edad      object
ciudad    object
dtype: object

# Reemplazar Valores

In [7]:
# Crear un DataFrame con valores a reemplazar
datos = {'nombre': ['Juan', 'María', 'Ana', 'Pedro'],
         'edad': [25, 27, 24, 30],
         'ciudad': ['Bogotá', 'Medellín', 'Cali', 'Bogotá']}
df = pd.DataFrame(datos)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Bogotá
1,María,27,Medellín
2,Ana,24,Cali
3,Pedro,30,Bogotá


In [8]:
df['ciudad'].replace({'Bogotá':'Cúcuta'})

0      Cúcuta
1    Medellín
2        Cali
3      Cúcuta
Name: ciudad, dtype: object

In [9]:
# Reemplazar un valor específico en una columna
df['ciudad'] = df['ciudad'].replace('Bogotá', 'Cúcuta')
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Cúcuta
1,María,27,Medellín
2,Ana,24,Cali
3,Pedro,30,Cúcuta


In [10]:
# Reemplazar varios valores en una columna
df['edad'].replace({24:-25, 25:-26}, inplace=True)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-26,Cúcuta
1,María,27,Medellín
2,Ana,-25,Cali
3,Pedro,30,Cúcuta


Modifiquemos un indice nada mas

In [11]:
df.loc[[0],'edad'].replace({-25:25, -26:26})
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-26,Cúcuta
1,María,27,Medellín
2,Ana,-25,Cali
3,Pedro,30,Cúcuta


Al no haber ejecutado `inplace=True`, no modifico el DataFrame original

In [12]:
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-26,Cúcuta
1,María,27,Medellín
2,Ana,-25,Cali
3,Pedro,30,Cúcuta


In [13]:
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-26,Cúcuta
1,María,27,Medellín
2,Ana,-25,Cali
3,Pedro,30,Cúcuta


In [14]:
df.loc[:,['edad']].replace({-25:25, -26:26},inplace=True)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-26,Cúcuta
1,María,27,Medellín
2,Ana,-25,Cali
3,Pedro,30,Cúcuta


In [15]:
df.loc[[0],'edad'].replace({-25:25, -26:26},inplace=True)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-26,Cúcuta
1,María,27,Medellín
2,Ana,-25,Cali
3,Pedro,30,Cúcuta


Porque no lo modifico si usamos `inplace=True`?

In [16]:
# Reemplazar varios valores en una columna
df.loc[[0],['edad']].replace({-25:25, -26:26}, inplace=True)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-26,Cúcuta
1,María,27,Medellín
2,Ana,-25,Cali
3,Pedro,30,Cúcuta


Buscar la solucion es parte de la tarea. Ver final del notebook

# Dividir columnas de strings

In [17]:

# Crear un DataFrame con una columna que tiene valores separados por coma
datos = {'nombre': ['Juan, Pérez', 'María, Gómez', 'Ana, Torres']}
df = pd.DataFrame(datos)
df

Unnamed: 0,nombre
0,"Juan, Pérez"
1,"María, Gómez"
2,"Ana, Torres"


In [18]:
df.values

array([['Juan, Pérez'],
       ['María, Gómez'],
       ['Ana, Torres']], dtype=object)

In [19]:
# Dividir la columna en dos nuevas columnas
df[['primer_nombre','apellido']] = df['nombre'].str.split(', ', expand=True)
df

Unnamed: 0,nombre,primer_nombre,apellido
0,"Juan, Pérez",Juan,Pérez
1,"María, Gómez",María,Gómez
2,"Ana, Torres",Ana,Torres


# Reordenar y nombrar columnas

Eb la medida de lo posible trata que las columnas tengan nombres representativos, explicitos, cortos, caracteres comunes (para guardar los especiales y usarlos en casos especiales ja! #$%), y usa `_` en vez de espacio. Evita usar acentos o cualquer caracter especial.

In [20]:
# Crear un DataFrame con columnas desordenadas
datos = {'nombre': ['Juan', 'María', 'Ana'],
         'edad': [25, 27, 24],
         'ciudad': ['Bogotá', 'Medellín', 'Cali']}
df = pd.DataFrame(datos)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Bogotá
1,María,27,Medellín
2,Ana,24,Cali


In [21]:
# Reordenar y renombrar las columnas
df = df[['nombre', 'ciudad', 'edad']]
df

Unnamed: 0,nombre,ciudad,edad
0,Juan,Bogotá,25
1,María,Medellín,27
2,Ana,Cali,24


In [22]:
df = df.rename(columns={'ciudad': 'ciudad_nacimiento', 'edad': 'edad_actual'})
df

Unnamed: 0,nombre,ciudad_nacimiento,edad_actual
0,Juan,Bogotá,25
1,María,Medellín,27
2,Ana,Cali,24


# Varias Fuentes

In [23]:
# Crear un DataFrame con datos de estudiantes
datos_estudiantes = {'id': [1, 2, 3, 4],
                     'nombre': ['Juan', 'María', 'Ana', 'Pedro']}
df_estudiantes = pd.DataFrame(datos_estudiantes)
df_estudiantes

Unnamed: 0,id,nombre
0,1,Juan
1,2,María
2,3,Ana
3,4,Pedro


In [24]:
# Crear un DataFrame con datos de notas de los estudiantes
datos_notas = {'id': [1, 1, 2, 2, 3, 4],
               'materia': ['matemáticas', 'física', 'matemáticas', 'física', 'matemáticas', 'física'],
               'nota': [3.5, 4.0, 4.2, 3.9, 4.8, 4.5]}
df_notas = pd.DataFrame(datos_notas)
df_notas

Unnamed: 0,id,materia,nota
0,1,matemáticas,3.5
1,1,física,4.0
2,2,matemáticas,4.2
3,2,física,3.9
4,3,matemáticas,4.8
5,4,física,4.5


In [25]:

# Combinar los datos de estudiantes y notas
df = pd.merge(df_estudiantes, df_notas, on='id')
df

Unnamed: 0,id,nombre,materia,nota
0,1,Juan,matemáticas,3.5
1,1,Juan,física,4.0
2,2,María,matemáticas,4.2
3,2,María,física,3.9
4,3,Ana,matemáticas,4.8
5,4,Pedro,física,4.5


Usaremos `groupby`, lo veremos a detalle mas adelante

In [26]:
df.groupby('id')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000028EFAA98CD0>

In [27]:
# Calcular el promedio de notas de cada estudiante
df_promedio = df.groupby('id')['nota'].mean()
df_promedio

id
1    3.75
2    4.05
3    4.80
4    4.50
Name: nota, dtype: float64

In [28]:
# Limpiar los nombres de las materias
df_notas['materia'] = df_notas['materia'].str.capitalize()
df_notas

Unnamed: 0,id,materia,nota
0,1,Matemáticas,3.5
1,1,Física,4.0
2,2,Matemáticas,4.2
3,2,Física,3.9
4,3,Matemáticas,4.8
5,4,Física,4.5


# Groupby

In [29]:
data = {'Producto': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'A', 'B', 'B'],
        'Ciudad': ['Ciudad 1', 'Ciudad 2', 'Ciudad 3', 'Ciudad 1', 'Ciudad 2', 'Ciudad 3', 'Ciudad 1', 'Ciudad 2', 'Ciudad 3', 'Ciudad 1'],
        'Ventas': [100, 200, 150, 120, 170, 220, 130, 140, 180, 190]}

df = pd.DataFrame(data)
df

Unnamed: 0,Producto,Ciudad,Ventas
0,A,Ciudad 1,100
1,B,Ciudad 2,200
2,A,Ciudad 3,150
3,B,Ciudad 1,120
4,A,Ciudad 2,170
5,B,Ciudad 3,220
6,A,Ciudad 1,130
7,A,Ciudad 2,140
8,B,Ciudad 3,180
9,B,Ciudad 1,190


Podemos utilizar el método `groupby` para obtener información agregada sobre las ventas, agrupándolas por producto:

In [30]:
grouped = df.groupby('Producto')
grouped.sum()

Unnamed: 0_level_0,Ciudad,Ventas
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
A,Ciudad 1Ciudad 3Ciudad 2Ciudad 1Ciudad 2,690
B,Ciudad 2Ciudad 1Ciudad 3Ciudad 3Ciudad 1,910


En este caso, groupby agrupó las filas por valores únicos en la columna "Producto" y calculó la suma de las ventas para cada grupo.

También podemos agrupar por más de una columna, para obtener información sobre ventas por producto y ciudad:

In [31]:
grouped = df.groupby(['Producto', 'Ciudad'])
grouped.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Producto,Ciudad,Unnamed: 2_level_1
A,Ciudad 1,230
A,Ciudad 2,310
A,Ciudad 3,150
B,Ciudad 1,310
B,Ciudad 2,200
B,Ciudad 3,400


En este caso, `groupby` agrupó las filas por valores únicos en las columnas "Producto" y "Ciudad" y calculó la suma de las ventas para cada grupo.

In [32]:
grouped = df.groupby('Producto')
grouped.mean()

TypeError: agg function failed [how->mean,dtype->object]

O para calcular tanto la suma como el promedio de ventas por producto usando funciones que ya existe o son aplicables a los DataFrames:

In [None]:
grouped = df.groupby('Producto', as_index=False)
grouped.agg(['sum', 'mean']).index

  grouped.agg(['sum', 'mean']).index


Index(['A', 'B'], dtype='object', name='Producto')

## as_index=False

Podemos utilizar el argumento as_index=False para evitar que el índice de las filas sea reemplazado por el grupo:

In [None]:
grouped = df.groupby('Producto', as_index=False)
grouped.mean()

Unnamed: 0,Producto,Ventas
0,A,138.0
1,B,182.0


## Funciones Personalizadas

In [None]:
data = {'ciudad': ['Lima', 'Lima', 'Arequipa', 'Arequipa', 'Trujillo', 'Trujillo'],
        'producto': ['A', 'B', 'A', 'B', 'A', 'B'],
        'ventas': [100, 200, 150, 250, 120, 180]}

df = pd.DataFrame(data)
df

Unnamed: 0,ciudad,producto,ventas
0,Lima,A,100
1,Lima,B,200
2,Arequipa,A,150
3,Arequipa,B,250
4,Trujillo,A,120
5,Trujillo,B,180


Queremos agrupar los datos por `ciudad` y calcular el porcentaje de ventas de cada producto en cada ciudad. Para ello, podemos definir una función de agregación personalizada que calcule el porcentaje de ventas de un producto en una ciudad:

In [None]:
def porcentaje_ventas(x):
    return x['ventas'] / x['ventas'].sum() * 100

In [None]:
df.groupby(['ciudad']).apply(porcentaje_ventas)

ciudad     
Arequipa  2    37.500000
          3    62.500000
Lima      0    33.333333
          1    66.666667
Trujillo  4    40.000000
          5    60.000000
Name: ventas, dtype: float64

Esto nos dará como resultado un nuevo DataFrame con una fila por cada combinación de ciudad y producto, y una columna con el porcentaje de ventas de ese producto en esa ciudad.

## Con filtros

Supongamos que queremos filtrar nuestro DataFrame anterior para obtener solamente las ciudades donde se vendió más de un determinado número de productos. Podemos hacer esto utilizando groupby junto con la función `filter`:

In [None]:
df.groupby('ciudad').sum()

Unnamed: 0_level_0,ventas
ciudad,Unnamed: 1_level_1
Arequipa,400
Lima,300
Trujillo,300


In [None]:
df.groupby('ciudad').filter(lambda x: x['ventas'].sum() > 300)

Unnamed: 0,ciudad,producto,ventas
2,Arequipa,A,150
3,Arequipa,B,250


Esto nos devolverá un nuevo DataFrame con solamente las filas correspondientes a las ciudades donde se vendió más de 300 unidades en total.

## Varias Funciones a un grupo

In [None]:
# creamos un DataFrame con información sobre altura y peso de varias personas
data = {'altura': [175, 160, 180, 165, 170, 185, 175, 165, 170, 180],
        'peso': [70, 60, 80, 55, 65, 90, 75, 60, 65, 85],
        'genero': ['M', 'F', 'M', 'F', 'M', 'M', 'M', 'F', 'M', 'F']}
df = pd.DataFrame(data)
df

Unnamed: 0,altura,peso,genero
0,175,70,M
1,160,60,F
2,180,80,M
3,165,55,F
4,170,65,M
5,185,90,M
6,175,75,M
7,165,60,F
8,170,65,M
9,180,85,F


Tenemos un DataFrame que contiene información sobre la altura y el peso de varias personas. Queremos agrupar los datos por género y luego calcular la media, la mediana y la desviación estándar de la altura y el peso de cada grupo.

In [None]:
# agrupamos los datos por género y aplicamos varias funciones a cada grupo
resultados = df.groupby('genero').agg({'altura': ['mean', 'median', 'std'],
                                       'peso': ['mean', 'median', 'std']})
resultados

Unnamed: 0_level_0,altura,altura,altura,peso,peso,peso
Unnamed: 0_level_1,mean,median,std,mean,median,std
genero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
F,167.5,165.0,8.660254,65.0,60.0,13.540064
M,175.833333,175.0,5.845226,74.166667,72.5,9.703951


In [None]:
resultados = df.groupby('genero', as_index=False).agg({'altura': ['mean', 'median', 'std'],
                                       'peso': ['mean', 'median', 'std']})
resultados

Unnamed: 0_level_0,genero,altura,altura,altura,peso,peso,peso
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,std,mean,median,std
0,F,167.5,165.0,8.660254,65.0,60.0,13.540064
1,M,175.833333,175.0,5.845226,74.166667,72.5,9.703951


## varias funciones a varias columnas

In [None]:

# creamos un DataFrame con información sobre las ventas de una tienda
data = {'fecha': ['2022-01-01', '2022-01-01', '2022-01-02', '2022-01-02', '2022-01-02', '2022-01-03'],
        'producto': ['A', 'B', 'A', 'B', 'C', 'A'],
        'ventas': [100, 50, 120, 70, 30, 90]}
df = pd.DataFrame(data)
df

Unnamed: 0,fecha,producto,ventas
0,2022-01-01,A,100
1,2022-01-01,B,50
2,2022-01-02,A,120
3,2022-01-02,B,70
4,2022-01-02,C,30
5,2022-01-03,A,90


In [None]:
# agrupamos los datos por fecha y producto y aplicamos varias funciones a cada grupo
resultados = df.groupby(['fecha', 'producto']).agg({'ventas': ['sum', 'mean', 'count']})
resultados

Unnamed: 0_level_0,Unnamed: 1_level_0,ventas,ventas,ventas
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,count
fecha,producto,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2022-01-01,A,100,100.0,1
2022-01-01,B,50,50.0,1
2022-01-02,A,120,120.0,1
2022-01-02,B,70,70.0,1
2022-01-02,C,30,30.0,1
2022-01-03,A,90,90.0,1


In [None]:
# agrupamos los datos por fecha y producto y aplicamos varias funciones a cada grupo
resultados = df.groupby(['fecha', 'producto'], as_index=False).agg({'ventas': ['sum', 'mean', 'count']})
resultados

Unnamed: 0_level_0,fecha,producto,ventas,ventas,ventas
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,sum,mean,count
0,2022-01-01,A,100,100.0,1
1,2022-01-01,B,50,50.0,1
2,2022-01-02,A,120,120.0,1
3,2022-01-02,B,70,70.0,1
4,2022-01-02,C,30,30.0,1
5,2022-01-03,A,90,90.0,1


## Manejar el Multilevel de columnas

In [None]:
data = {'Grupo': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
        'Valor_1': [1, 2, 3, 4, 5, 6, 7, 8, 9],
        'Valor_2': [11, 12, 13, 14, 15, 16, 17, 18, 19]}
df = pd.DataFrame(data)

# Aplicamos la función agg con varias funciones en cadena
df_agg = df.groupby('Grupo').agg({'Valor_1': ['sum', 'mean'], 'Valor_2': ['min', 'max']})
df_agg

Unnamed: 0_level_0,Valor_1,Valor_1,Valor_2,Valor_2
Unnamed: 0_level_1,sum,mean,min,max
Grupo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,6,2.0,11,13
B,15,5.0,14,16
C,24,8.0,17,19


In [None]:
new_colums = []
for l, ll in zip(df_agg.columns.droplevel(1),
df_agg.columns.droplevel(0) ):
    n = f'{l} {ll}'
    print(n)
    new_colums.append(n)

Valor_1 sum
Valor_1 mean
Valor_2 min
Valor_2 max


In [None]:
# Eliminamos el nivel superior del MultiIndex de columnas
df_agg.columns = new_colums
df_agg

Unnamed: 0_level_0,Valor_1 sum,Valor_1 mean,Valor_2 min,Valor_2 max
Grupo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,6,2.0,11,13
B,15,5.0,14,16
C,24,8.0,17,19


In [None]:
df_agg.index

Index(['A', 'B', 'C'], dtype='object', name='Grupo')

In [None]:
df_agg.columns

Index(['sum', 'mean', 'min', 'max'], dtype='object')

# Tarea

In [None]:
# Crear un DataFrame con valores a reemplazar
datos = {'nombre': ['Juan', 'María', 'Ana', 'Pedro'],
         'edad': [25, 27, 24, 30],
         'ciudad': ['Bogotá', 'Medellín', 'Cali', 'Bogotá']}
df = pd.DataFrame(datos)
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Bogotá
1,María,27,Medellín
2,Ana,24,Cali
3,Pedro,30,Bogotá


Busca la forma de realizar `replace` o funciones equivalentes despues de hacer filtering. Osea la forma de modificar/replace algunos valores (edad) `replace({25:-25}`, dada una condicion booleana `df['nombre']=='Juan'`

In [None]:
df.loc[df['nombre'] == 'Juan', ['edad']] = df.loc[df['nombre'] == 'Juan', ['edad']].replace({25: -25})
df

Unnamed: 0,nombre,edad,ciudad
0,Juan,-25,Bogotá
1,María,27,Medellín
2,Ana,24,Cali
3,Pedro,30,Bogotá
