In [1]:
import pandas as pd

# Limpieza de datos

Dataset: https://www.datablist.com/learn/csv/download-sample-csv-files (data 1000 modificado)

In [2]:
# Cargar dataset de ventas de supermercado

csvpath = "data/customers.csv"
df = pd.read_csv(csvpath)

# Verificar valores nulos
print("Valores nulos antes de limpiar:\n", df.isnull().sum())


Valores nulos antes de limpiar:
 Index                 0
Customer Id          65
First Name           81
Last Name            65
Company              81
City                 59
Country              63
Phone 1              63
Phone 2              64
Email                81
Subscription Date    61
Website              78
dtype: int64


In [3]:
# Eliminar las columnas vacías
df_clean = df.dropna()

In [4]:
# Despues de limpiar
# Verificar valores nulos
print("Valores nulos despues de limpiar:\n", df_clean.isnull().sum())

Valores nulos despues de limpiar:
 Index                0
Customer Id          0
First Name           0
Last Name            0
Company              0
City                 0
Country              0
Phone 1              0
Phone 2              0
Email                0
Subscription Date    0
Website              0
dtype: int64


In [5]:
# Guardar en un nuevo CSV limpio
df_clean.to_csv("customers_clean.csv", index=False)

In [6]:
print(df.shape)
print(df_clean.shape)

(1300, 12)
(702, 12)


In [7]:
print("\nDatos después de la limpieza:\n", df_clean.head())


Datos después de la limpieza:
    Index      Customer Id First Name Last Name                     Company  \
0      1  dE014d010c7ab0c     Andrew   Goodman               Stewart-Flynn   
3      4  3b3Aa4aCc68f3Be   Fernando      Ford                Moss-Maxwell   
4      5  D60df62ad2ae41E       Kara     Woods             Mccarthy-Kelley   
5      6  8aaa5d0CE9ee311    Marissa    Gamble             Cherry and Sons   
7      8  DC94CCd993D311b     Lauren     Villa  French, Travis and Hensley   

               City Country                Phone 1              Phone 2  \
0       Rowlandberg   Macao      846-790-4623x4715  (422)787-2331x71127   
3        Leeborough   Macao          (047)752-3122    048.779.5035x9122   
4  Port Jacksonland   Nepal  +1-360-693-4419x19272         163-627-2565   
5         Webertown   Sudan  001-645-334-5514x0786        (751)980-3163   
7       New Yolanda    Fiji       081.226.1797x647     186.540.9690x605   

                              Email Subscription

# Eliminado filas duplicadas

In [8]:
# Cargar dataset de ventas de supermercado

csvpath = "data/customers.csv"
df = pd.read_csv(csvpath)

# Verificar valores nulos
# Verificar valores nulos y duplicados antes de limpiar
print("Duplicados antes de limpiar:", df.duplicated(subset=['Customer Id']).sum())
print("Valores nulos antes de limpiar:\n", df.isnull().sum())



Duplicados antes de limpiar: 340
Valores nulos antes de limpiar:
 Index                 0
Customer Id          65
First Name           81
Last Name            65
Company              81
City                 59
Country              63
Phone 1              63
Phone 2              64
Email                81
Subscription Date    61
Website              78
dtype: int64


In [9]:
# Eliminar duplicados basados en la columna "Customer Id", manteniendo la primera aparición
df_clean = df.drop_duplicates(subset=['Customer Id'], keep='first')

In [10]:
# Verificar nuevamente
print("Duplicados después de limpiar:", df_clean.duplicated(subset=['Customer Id']).sum())
print("Valores nulos después de limpiar:\n", df_clean.isnull().sum())

Duplicados después de limpiar: 0
Valores nulos después de limpiar:
 Index                 0
Customer Id           1
First Name           61
Last Name            53
Company              57
City                 41
Country              49
Phone 1              51
Phone 2              54
Email                61
Subscription Date    46
Website              59
dtype: int64


In [11]:
# Guardar el DataFrame limpio en un nuevo archivo CSV
df_clean.to_csv("customers_cleaned2.csv", index=False)

print(df.shape)
print(df_clean.shape)
print("\nPrimeras filas del DataFrame limpio:\n", df_clean.head())

(1300, 12)
(960, 12)

Primeras filas del DataFrame limpio:
    Index      Customer Id First Name Last Name                      Company  \
0      1  dE014d010c7ab0c     Andrew   Goodman                Stewart-Flynn   
1      2  2B54172c8b65eC3      Alvin       NaN  Terry, Proctor and Lawrence   
2      3  d794Dd48988d2ac      Jenna   Harding                 Bailey Group   
3      4  3b3Aa4aCc68f3Be   Fernando      Ford                 Moss-Maxwell   
4      5  D60df62ad2ae41E       Kara     Woods              Mccarthy-Kelley   

               City           Country                Phone 1  \
0       Rowlandberg             Macao      846-790-4623x4715   
1          Bethside  Papua New Guinea     124-597-8652x05682   
2      Moniquemouth             China     (335)987-3085x3780   
3        Leeborough             Macao          (047)752-3122   
4  Port Jacksonland             Nepal  +1-360-693-4419x19272   

               Phone 2                          Email Subscription Date  \
0  (4

# Reconstruir filas incompletas

Algunas filas incompletas se podrían reconstruir con los datos que tenemos de filas repetidas

* Cargar el dataset (de nuevo)
* Ordenar los datos por "Customer Id" (para aseguramos que los duplicados estén juntos)
* Usa groupby("Customer Id") para agrupar por cliente. Podemos usar las siguientes funciones
    + lambda: Permite definir funciones anónimas en python.
    + apply: Aplica una función a una fila del dataframe.
    + ffill() (forward fill): Rellena valores nulos hacia adelante dentro de cada grupo.
    + bfill() (backward fill): Rellena valores nulos hacia atrás dentro de cada grupo.
* Eliminar duplicados restantes con drop_duplicates(subset=['Customer Id']) después de la reconstrucción.
* Verificar que no queden valores nulos.
* Guarda el dataset reconstruido en un archivo CSV.

In [12]:
# Cargar dataset de ventas de supermercado

csvpath = "data/customers.csv"
df = pd.read_csv(csvpath)

# Verificar valores nulos
# Verificar valores nulos y duplicados antes de limpiar
print("Duplicados antes de limpiar:", df.duplicated(subset=['Customer Id']).sum())
print("Valores nulos antes de limpiar:\n", df.isnull().sum())


Duplicados antes de limpiar: 340
Valores nulos antes de limpiar:
 Index                 0
Customer Id          65
First Name           81
Last Name            65
Company              81
City                 59
Country              63
Phone 1              63
Phone 2              64
Email                81
Subscription Date    61
Website              78
dtype: int64


In [13]:
# Eliminar las filas sin Customer ID
df = df.dropna(subset=['Customer Id'])

In [14]:
# Verificar valores nulos antes de la limpieza
print("Valores nulos antes de reconstrucción:\n", df.isnull().sum())

# Ordenar los datos por 'Customer Id' para asegurar consistencia
df.sort_values(by=['Customer Id'], inplace=True)



Valores nulos antes de reconstrucción:
 Index                 0
Customer Id           0
First Name           75
Last Name            61
Company              76
City                 57
Country              62
Phone 1              60
Phone 2              64
Email                79
Subscription Date    60
Website              72
dtype: int64


### Funciones lambda en python

Las funciones lambda son funciones anónimas en python. Es decir, funciones que declaramos en el momento en el que van a ser usadas.

Recordad que en python se puede pasar una función como parámetro a otra función

In [15]:
lambda x: x+2

<function __main__.<lambda>(x)>

In [16]:
(lambda x: x+2)(4)

6

In [17]:
def aplicar_y_duplicar(fun, num):
    return fun(num) * 2

aplicar_y_duplicar(lambda x: x**2, 3)
    

18

### La función apply de lambda

Toma una función y se la aplica a cada una de las columnas (o filas) del DataFrame o la Serie.

Esta función puede ser una función lambda.

In [18]:
df['First Name'].apply(lambda x: str(x).replace('a', '-'))

547         Leon
703         D-le
1071      Philip
625        Kelli
462     Jeremi-h
          ...   
1058      Jord-n
352      Roberto
452       M-rcus
718      J-smine
131        R-ven
Name: First Name, Length: 1235, dtype: object

In [19]:
# Reconstrucción de filas combinando duplicados usando 'Customer Id'
df_clean = df.groupby('Customer Id').apply(lambda x: x.ffill().bfill()).drop_duplicates(subset=['Customer Id'])

# Verificar valores nulos después de la reconstrucción
print("\nValores nulos después de la reconstrucción:\n", df_clean.isnull().sum())




Valores nulos después de la reconstrucción:
 Index                 0
Customer Id           0
First Name           43
Last Name            35
Company              40
City                 27
Country              37
Phone 1              40
Phone 2              37
Email                47
Subscription Date    28
Website              44
dtype: int64


In [20]:
# Limpiar vacíos
df_clean = df_clean.dropna()

In [21]:
# Guardar en un nuevo archivo CSV limpio
df_clean.to_csv("customers_reconstructed.csv", index=False)

print("\nPrimeras filas del DataFrame reconstruido:\n", df_clean.head())


Primeras filas del DataFrame reconstruido:
                      Index      Customer Id First Name  Last Name  \
Customer Id                                                         
0001fA39dA6D349 547    548  0001fA39dA6D349       Leon  Hendricks   
002c9A213Db0067 703    704  002c9A213Db0067       Dale  Hendricks   
01AEbCbD0cB7cCd 462    463  01AEbCbD0cB7cCd   Jeremiah        May   
024a3d8Df5abFE9 73      74  024a3d8Df5abFE9    Diamond    Barnett   
05CeeD0bFdFf4Ef 869    870  05CeeD0bFdFf4Ef     Kendra     Bishop   

                                         Company               City  \
Customer Id                                                           
0001fA39dA6D349 547                     Hood Inc     South Angelica   
002c9A213Db0067 703                Levine-Larsen           Carrfurt   
01AEbCbD0cB7cCd 462                   Larson LLC      Gabrielleland   
024a3d8Df5abFE9 73   Walker, Andersen and Reeves  New Patriciamouth   
05CeeD0bFdFf4Ef 869                  Vasquez 

In [22]:
df_clean.shape

(656, 12)

# Crear nuevas columnas

Dataset: https://people.sc.fsu.edu/~jburkardt/data/csv/hw_200.csv

Este dataset contiene altura y peso de varias personas, pero están en pulgadas y libras. Hay que cambiarlas a unidades del Sistema Internacional (Centímetros y Kilogramos)

In [23]:
# Cargar dataset de empleados
url = "https://people.sc.fsu.edu/~jburkardt/data/csv/hw_200.csv"
df = pd.read_csv(url)

In [24]:
# Renombrar columnas para facilitar el manejo
df.columns = ['Index', 'Height_Inches', 'Weight_Pounds']

In [25]:
# Convertir altura de pulgadas a centímetros (1 pulgada = 2.54 cm)
df['Height_cm'] = df['Height_Inches'] * 2.54

In [26]:
# Convertir peso de libras a kilogramos (1 libra = 0.453592 kg)
df['Weight_kg'] = df['Weight_Pounds'] * 0.453592

In [27]:
# Mostrar primeras filas del DataFrame con las nuevas columnas
print(df.head())

   Index  Height_Inches  Weight_Pounds  Height_cm  Weight_kg
0      1          65.78         112.99   167.0812  51.251360
1      2          71.52         136.49   181.6608  61.910772
2      3          69.40         153.03   176.2760  69.413184
3      4          68.22         142.34   173.2788  64.564285
4      5          67.79         144.30   172.1866  65.453326


In [28]:
# Redondear a dos decimales
df['Height_cm'] = df['Height_cm'].round(2)
df['Weight_kg'] = df['Weight_kg'].round(2)

In [29]:
print(df.head())

   Index  Height_Inches  Weight_Pounds  Height_cm  Weight_kg
0      1          65.78         112.99     167.08      51.25
1      2          71.52         136.49     181.66      61.91
2      3          69.40         153.03     176.28      69.41
3      4          68.22         142.34     173.28      64.56
4      5          67.79         144.30     172.19      65.45


In [30]:
# Eliminar las columnas en pulgadas y libras
df.drop(columns=['Height_Inches', 'Weight_Pounds'], inplace=True)

In [31]:
print(df.head())

   Index  Height_cm  Weight_kg
0      1     167.08      51.25
1      2     181.66      61.91
2      3     176.28      69.41
3      4     173.28      64.56
4      5     172.19      65.45


### Calcular el Índice de Masa Corporal (ICM)

$$ ICM = \frac{peso}{altura^2} $$

El peso en kilogramos y la altura en metros.

Categorías del IMC:
* Menor a 18.5: Bajo peso
* 18.5 - 24.9: Normal
* 25 - 29.9: Sobrepeso
* 30 o más: Obesidad

In [32]:
df['ICM'] = df['Weight_kg']/(df['Height_cm']/100)**2
df.head()

Unnamed: 0,Index,Height_cm,Weight_kg,ICM
0,1,167.08,51.25,18.358827
1,2,181.66,61.91,18.760404
2,3,176.28,69.41,22.336543
3,4,173.28,64.56,21.501395
4,5,172.19,65.45,22.074649


In [33]:
# Categorizar el ICM usando apply con lambda
df["Categoria"] = df["ICM"].apply(lambda x: 
    "Bajo peso" if x < 18.5 else 
    "Normal" if x < 25 else 
    "Sobrepeso" if x < 30 else 
    "Obesidad"
)

In [34]:
df.head()

Unnamed: 0,Index,Height_cm,Weight_kg,ICM,Categoria
0,1,167.08,51.25,18.358827,Bajo peso
1,2,181.66,61.91,18.760404,Normal
2,3,176.28,69.41,22.336543,Normal
3,4,173.28,64.56,21.501395,Normal
4,5,172.19,65.45,22.074649,Normal


Pero revisando la documentación nos podemos encontrar mejores formas de hacerlo

https://pandas.pydata.org/docs/reference/general_functions.html

In [35]:
df["Categoria"] = pd.cut(
    df["ICM"],
    [0, 18.5, 24.9, 29.9, float("inf")],
    labels=["Bajo peso", "Normal", "Sobrepeso", "Obesidad"]
)
df.head()

Unnamed: 0,Index,Height_cm,Weight_kg,ICM,Categoria
0,1,167.08,51.25,18.358827,Bajo peso
1,2,181.66,61.91,18.760404,Normal
2,3,176.28,69.41,22.336543,Normal
3,4,173.28,64.56,21.501395,Normal
4,5,172.19,65.45,22.074649,Normal


In [36]:
# Guardar el CSV
df.to_csv("empleados_icm.csv", index=False)

# Agrupación de datos

Datasest: https://code.datasciencedojo.com/datasciencedojo/datasets/tree/master/Wholesale%20Customers

Objetivo: Saber si los clientes de hoteles y restaurantes gastan más que los clientes de retail.

In [37]:
# Descargad el dataset y guardarlo
dspath = "./data/wcd.csv"

# Cargar el dataset
df = pd.read_csv(dspath)

# Mostrar las primeras filas del dataset
print(df.head())

   Channel  Region  Fresh  Milk  Grocery  Frozen  Detergents_Paper  Delicassen
0        2       3  12669  9656     7561     214              2674        1338
1        2       3   7057  9810     9568    1762              3293        1776
2        2       3   6353  8808     7684    2405              3516        7844
3        1       3  13265  1196     4221    6404               507        1788
4        2       3  22615  5410     7198    3915              1777        5185


In [38]:
# Agrupar por 'Channel' y calcular la media
gasto_promedio = df.groupby('Channel').mean()

# Mostrar el gasto promedio por categoría y canal
print(gasto_promedio)

           Region         Fresh          Milk       Grocery       Frozen  \
Channel                                                                    
1        2.510067  13475.560403   3451.724832   3962.137584  3748.251678   
2        2.612676   8904.323944  10716.500000  16322.852113  1652.612676   

         Detergents_Paper   Delicassen  
Channel                                 
1              790.560403  1415.956376  
2             7269.507042  1753.436620  


## ¿Y si lo que quiero saber es en qué gastan más proporcionalmente?

In [39]:
# Definir las columnas de gasto
gasto_columnas = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen']

# Calcular el gasto total por cliente
df['Total_Gasto'] = df[gasto_columnas].sum(axis=1)

# Calcular la proporción de gasto en cada categoría
for col in gasto_columnas:
    df[col + '_Proporcion'] = df[col] / df['Total_Gasto']

# Agrupar por "Channel" y calcular el promedio de las proporciones
proporciones_por_canal = df.groupby('Channel')[[col + '_Proporcion' for col in gasto_columnas]].mean()


In [40]:
print(proporciones_por_canal)

         Fresh_Proporcion  Milk_Proporcion  Grocery_Proporcion  \
Channel                                                          
1                0.458876         0.141815            0.173444   
2                0.199028         0.221439            0.347684   

         Frozen_Proporcion  Detergents_Paper_Proporcion  Delicassen_Proporcion  
Channel                                                                         
1                 0.137127                     0.036992               0.051746  
2                 0.039962                     0.152363               0.039524  
