Preparación del Entorno

* Asegúrate de tener instalado Pandas en tu entorno de trabajo.
* Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

Cargar los Datos

* Carga el archivo CSV en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.




In [1]:
import pandas as pd

# Cargar datos desde un archivo CSV
df_ruta = '../trabajos_core/data/coffee_sales.csv' #definir la ruta del archivo

df = pd.read_csv(df_ruta) #transformar csv a dataframe

# Ver las primeras y últimas filas del DataFrame
print("Primeras filas del DataFrame:")
print(df.head(10))
df.shape

Primeras filas del DataFrame:
         date                 datetime cash_type                 card  money  \
0  2024-03-01  2024-03-01 10:15:50.520      card  ANON-0000-0000-0001   38.7   
1  2024-03-01  2024-03-01 12:19:22.539      card  ANON-0000-0000-0002   38.7   
2  2024-03-01  2024-03-01 12:20:18.089      card  ANON-0000-0000-0002   38.7   
3  2024-03-01  2024-03-01 13:46:33.006      card  ANON-0000-0000-0003   28.9   
4  2024-03-01  2024-03-01 13:48:14.626      card  ANON-0000-0000-0004   38.7   
5  2024-03-01  2024-03-01 15:39:47.726      card  ANON-0000-0000-0005   33.8   
6  2024-03-01  2024-03-01 16:19:02.756      card  ANON-0000-0000-0006   38.7   
7  2024-03-01  2024-03-01 18:39:03.580      card  ANON-0000-0000-0007   33.8   
8  2024-03-01  2024-03-01 19:22:01.762      card  ANON-0000-0000-0008   38.7   
9  2024-03-01  2024-03-01 19:23:15.887      card  ANON-0000-0000-0008   33.8   

           coffee_name  
0                Latte  
1        Hot Chocolate  
2        Hot C

(2026, 6)

Exploración Inicial de los Datos

* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().


In [2]:
##Imprime ultimas 5 filas
print("nÚltimas 5 filas del DataFrame:")
print(df.tail(5))
##Imprime informacion del dataframe
print("nInformación del DataFrame:")
print(df.info())
## Imprime estadistica descriptiva del DF
print("nEstadísticas descriptivas del DataFrame:")
print(df.describe())

nÚltimas 5 filas del DataFrame:
            date                 datetime cash_type                 card  \
2021  2024-10-20  2024-10-20 21:14:18.045      card  ANON-0000-0000-0789   
2022  2024-10-20  2024-10-20 21:15:17.780      card  ANON-0000-0000-0790   
2023  2024-10-20  2024-10-20 21:17:26.865      card  ANON-0000-0000-0791   
2024  2024-10-20  2024-10-20 21:25:00.085      card  ANON-0000-0000-0792   
2025  2024-10-20  2024-10-20 22:17:29.041      card  ANON-0000-0000-0550   

      money    coffee_name  
2021  35.76  Hot Chocolate  
2022  25.96        Cortado  
2023  35.76          Cocoa  
2024  35.76          Latte  
2025  35.76     Cappuccino  
nInformación del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2026 entries, 0 to 2025
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   date         2026 non-null   object 
 1   datetime     2026 non-null   object 
 2   cash_type    2026 non-null   o

Limpieza de Datos

* Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
* Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
* Elimina duplicados si los hay.



In [3]:
##identificar columnas con null
nulos_por_columna = df.isnull().sum()
print(nulos_por_columna)

##Se crea metodo para asignar valores por tipo de datos en todos los casos.
def manejar_nulos(datos):
    for column in datos.columns:
        if datos[column].dtype == 'object':
            datos[column] = datos[column].fillna('Desconocido')
        elif datos[column].dtype in ['int64', 'float']:
            datos[column].fillna(datos[column].interpolate())

manejar_nulos(df)

##Imprimir si existen valores nulos por columna
# Esto permite determinar cuántos valores en cada columna tienen datos cargados
qsna = df.shape[0] - df.isnull().sum(axis=0)

# Calcula la cantidad de valores nulos en cada columna del DataFrame
qna = df.isnull().sum(axis=0)

# Calcula el porcentaje de valores nulos en cada columna y redondea a 2 decimales
ppna = round(100 * (df.isnull().sum(axis=0) / df.shape[0]), 2)

# Crea un diccionario auxiliar con la cantidad de datos sin nulos, cantidad de nulos y porcentaje de nulos
aux = {'datos sin NAs en q': qsna, 'Na en q': qna, 'Na en %': ppna}

# Convierte el diccionario en un DataFrame
na = pd.DataFrame(data=aux)

# Ordena el DataFrame por el porcentaje de valores nulos en orden descendente
na.sort_values(by='Na en %', ascending=False)


date            0
datetime        0
cash_type       0
card           89
money           0
coffee_name     0
dtype: int64


Unnamed: 0,datos sin NAs en q,Na en q,Na en %
date,2026,0,0.0
datetime,2026,0,0.0
cash_type,2026,0,0.0
card,2026,0,0.0
money,2026,0,0.0
coffee_name,2026,0,0.0


In [9]:
##Verificacion y ajustes de tipos de datos
df.info()

##Modificar el tipo de dato
df['date'] = pd.to_datetime(df['date']).dt.date ##esto solo extrae la fecha no hora
df['datetime'] = pd.to_datetime(df['datetime'])## mantiene en datetime
#Usando Dic para modificar el tipo de datos. Sacado de sitio web https://www.geeksforgeeks.org/change-data-type-for-one-or-more-columns-in-pandas-dataframe/
convert_dict = {'cash_type': str,
                'card': str,
                'coffee_name':str,
                'money':float
                }
df = df.astype(convert_dict)
df.dtypes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2026 entries, 0 to 2025
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   date               2026 non-null   object        
 1   datetime           2026 non-null   datetime64[ns]
 2   cash_type          2026 non-null   object        
 3   card               2026 non-null   object        
 4   money              2026 non-null   float64       
 5   coffee_name        2026 non-null   object        
 6   Aumento_10%        2026 non-null   float64       
 7   Aumento_50%        2026 non-null   float64       
 8   7%                 2026 non-null   float64       
 9   money_normalizado  2026 non-null   float64       
 10  Clasificacion      2026 non-null   object        
dtypes: datetime64[ns](1), float64(5), object(5)
memory usage: 174.2+ KB


date                         object
datetime             datetime64[ns]
cash_type                    object
card                         object
money                       float64
coffee_name                  object
Aumento_10%                 float64
Aumento_50%                 float64
7%                          float64
money_normalizado           float64
Clasificacion                object
dtype: object

In [10]:
#Deteccion de valores duplicados
print("elementos duplicados: ", df.duplicated().sum())

###No se detectaron elementos duplicados, sin embargo si ubiera alguno
df.drop_duplicates(inplace = True) ## eliminacion de filas duplicadas en filas con afectacion directa al dataframe

elementos duplicados:  0


Transformación de Datos

* Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
* Normaliza o estandariza columnas si es necesario.
* Clasifica los datos en categorías relevantes.



In [11]:
##Agregar columnas
# Calcular el aumento de un 10% y 50% a los precios
df['Aumento_10%'] = df['money'].transform(lambda x: x * (1 + 0.10))
df['Aumento_50%'] = df['money'].transform(lambda x: x * (1 + 0.50))
df['7%'] = df['money'].transform(lambda x: x * 0.07)
##Normalizar columna money
max_value = df['money'].max()
min_value = df['money'].min()
df['money_normalizado'] = df['money'].apply(lambda x: (x - min_value) / (max_value - min_value))
# Clasificar los precios por alto y bajo costo
df['Clasificacion'] = df['money'].apply(lambda x: 'Precio Alto' if x >= 32 else 'Precio Bajo')

print(df.head(10))



         date                datetime cash_type                 card  money  \
0  2024-03-01 2024-03-01 10:15:50.520      card  ANON-0000-0000-0001   38.7   
1  2024-03-01 2024-03-01 12:19:22.539      card  ANON-0000-0000-0002   38.7   
2  2024-03-01 2024-03-01 12:20:18.089      card  ANON-0000-0000-0002   38.7   
3  2024-03-01 2024-03-01 13:46:33.006      card  ANON-0000-0000-0003   28.9   
4  2024-03-01 2024-03-01 13:48:14.626      card  ANON-0000-0000-0004   38.7   
5  2024-03-01 2024-03-01 15:39:47.726      card  ANON-0000-0000-0005   33.8   
6  2024-03-01 2024-03-01 16:19:02.756      card  ANON-0000-0000-0006   38.7   
7  2024-03-01 2024-03-01 18:39:03.580      card  ANON-0000-0000-0007   33.8   
8  2024-03-01 2024-03-01 19:22:01.762      card  ANON-0000-0000-0008   38.7   
9  2024-03-01 2024-03-01 19:23:15.887      card  ANON-0000-0000-0008   33.8   

           coffee_name  Aumento_10%  Aumento_50%     7%  money_normalizado  \
0                Latte        42.57        58.05  2.

Análisis de Datos

* Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
* Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
* Utiliza el método apply para realizar operaciones más complejas y personalizadas.



In [20]:
##Agrupacion y calculos
##Agrupar por cash type
grouped = df.groupby('cash_type')
## suma de agrupacion tipo de pago
total_grouped_payment = grouped['money'].sum()
print("Suma total de ventas por tipo de pago")
print(total_grouped_payment)

##Agrupar por nombre de cafe
grouped_coffee = df.groupby('coffee_name')
##Suma por nombre de cafe
total_grouped_coffee = grouped_coffee['money'].sum()
print("Total ventas por nombre de cafe")
print(total_grouped_coffee)

## Agregacion de sum, mean,count,min,max,std,var
##Agrupar cafe por valor
precio_x_cafe = df.groupby('coffee_name')['money']
# Aplicar múltiples funciones de agregación a 'Money' por 'coffee_name'
agg_result = precio_x_cafe.agg(['sum', 'mean', 'count','min','max','std','var'])
print(agg_result)

##Operaciones complejas con apply

# Calcular el aumento del 7% en los precios 
df['Aumento_7%'] = df.apply(lambda row: row['money'] + row['7%'], axis=1)

##Calcular la diferencia del aumento del 10 y 50 %
df['diferencia_del_10%'] = df.apply(lambda row: row['Aumento_10%'] - row['money'], axis=1)
df['diferencia_del_50%'] = df.apply(lambda row: row['Aumento_50%'] - row['money'], axis=1)

print(df.head(10))

Suma total de ventas por tipo de pago
cash_type
card    60978.28
cash     3186.00
Name: money, dtype: float64
Total ventas por nombre de cafe
coffee_name
Americano               7066.58
Americano with Milk    15023.60
Cappuccino             10739.10
Cocoa                   2670.48
Cortado                 5198.46
Espresso                1698.10
Hot Chocolate           4951.50
Latte                  16816.46
Name: money, dtype: float64
                          sum       mean  count    min   max       std  \
coffee_name                                                              
Americano             7066.58  26.172519    270  23.02  30.0  2.544362   
Americano with Milk  15023.60  30.535772    492  27.92  35.0  2.504103   
Cappuccino           10739.10  36.158586    297  32.82  40.0  2.464334   
Cocoa                 2670.48  35.606400     75  32.82  40.0  2.361438   
Cortado               5198.46  25.734950    202  23.02  30.0  2.582052   
Espresso              1698.10  20.964198    

Documentación

* Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* Asegúrate de que el código sea legible y esté bien comentado