El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

1.1. Carga el archivo CSV en un DataFrame de Pandas.
1.2. Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [1]:
import pandas as pd
df = pd.read_csv('../data/supermarket.csv')

print('Primeras 10 filas:')
print(df.head(10))

Primeras 10 filas:
    Invoice ID Branch       City Customer type  Gender  \
0  750-67-8428      A     Yangon        Member  Female   
1  226-31-3081      C  Naypyitaw        Normal  Female   
2  631-41-3108      A     Yangon        Normal    Male   
3  123-19-1176      A     Yangon        Member    Male   
4  373-73-7910      A     Yangon        Normal    Male   
5  699-14-3026      C  Naypyitaw        Normal    Male   
6  355-53-5943      A     Yangon        Member  Female   
7  315-22-5665      C  Naypyitaw        Normal  Female   
8  665-32-9167      A     Yangon        Member  Female   
9  692-92-5582      B   Mandalay        Member  Female   

             Product line  Unit price  Quantity   Tax 5%     Total       Date  \
0       Health and beauty       74.69         7  26.1415  548.9715   1/5/2019   
1  Electronic accessories       15.28         5   3.8200   80.2200   3/8/2019   
2      Home and lifestyle       46.33         7  16.2155  340.5255   3/3/2019   
3       Health and

2.1. Muestra las últimas 5 filas del DataFrame.
2.2. Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
2.3. Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [2]:
# Mostrando las ultimas 5 filas
print("\nÚltimas 5 filas:")
print(df.tail(5))


Últimas 5 filas:
      Invoice ID Branch       City Customer type  Gender         Product line  \
995  233-67-5758      C  Naypyitaw        Normal    Male    Health and beauty   
996  303-96-2227      B   Mandalay        Normal  Female   Home and lifestyle   
997  727-02-1313      A     Yangon        Member    Male   Food and beverages   
998  347-56-2442      A     Yangon        Normal    Male   Home and lifestyle   
999  849-09-3807      A     Yangon        Member  Female  Fashion accessories   

     Unit price  Quantity   Tax 5%      Total       Date   Time  Payment  \
995       40.35         1   2.0175    42.3675  1/29/2019  13:46  Ewallet   
996       97.38        10  48.6900  1022.4900   3/2/2019  17:16  Ewallet   
997       31.84         1   1.5920    33.4320   2/9/2019  13:22     Cash   
998       65.82         1   3.2910    69.1110  2/22/2019  15:33     Cash   
999       88.34         7  30.9190   649.2990  2/18/2019  13:28     Cash   

       cogs  gross margin percentage  

In [3]:
print("\nInformación del DataFrame:")
print(df.info())


Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 17 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Invoice ID               1000 non-null   object 
 1   Branch                   1000 non-null   object 
 2   City                     1000 non-null   object 
 3   Customer type            1000 non-null   object 
 4   Gender                   1000 non-null   object 
 5   Product line             1000 non-null   object 
 6   Unit price               1000 non-null   float64
 7   Quantity                 1000 non-null   int64  
 8   Tax 5%                   1000 non-null   float64
 9   Total                    1000 non-null   float64
 10  Date                     1000 non-null   object 
 11  Time                     1000 non-null   object 
 12  Payment                  1000 non-null   object 
 13  cogs                     1000 non-null   float64
 1

In [4]:
print("\nEstadísticas descriptivas:")
print(df.describe())


Estadísticas descriptivas:
        Unit price     Quantity       Tax 5%        Total        cogs  \
count  1000.000000  1000.000000  1000.000000  1000.000000  1000.00000   
mean     55.672130     5.510000    15.379369   322.966749   307.58738   
std      26.494628     2.923431    11.708825   245.885335   234.17651   
min      10.080000     1.000000     0.508500    10.678500    10.17000   
25%      32.875000     3.000000     5.924875   124.422375   118.49750   
50%      55.230000     5.000000    12.088000   253.848000   241.76000   
75%      77.935000     8.000000    22.445250   471.350250   448.90500   
max      99.960000    10.000000    49.650000  1042.650000   993.00000   

       gross margin percentage  gross income      Rating  
count             1.000000e+03   1000.000000  1000.00000  
mean              4.761905e+00     15.379369     6.97270  
std               6.131498e-14     11.708825     1.71858  
min               4.761905e+00      0.508500     4.00000  
25%               4

3.1. Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
3.2. Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
3.3. Elimina duplicados si los hay.

In [5]:
# Identificación y manejo de valores faltantes
print("\nValores nulos por columna:")
print(df.isnull().sum())


Valores nulos por columna:
Invoice ID                 0
Branch                     0
City                       0
Customer type              0
Gender                     0
Product line               0
Unit price                 0
Quantity                   0
Tax 5%                     0
Total                      0
Date                       0
Time                       0
Payment                    0
cogs                       0
gross margin percentage    0
gross income               0
Rating                     0
dtype: int64


No posee valores nulos el dataset

4.1. Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
4.2. Normaliza o estandariza columnas si es necesario.
4.3. Clasifica los datos en categorías relevantes.

In [12]:
# Crea una nueva columna 'Ingresos' calculada a partir de 'Ventas' y 'Precio'
df['Ingresos'] = df['Quantity'] * df['Unit price']
print(df['Ingresos'])

0      522.83
1       76.40
2      324.31
3      465.76
4      604.17
        ...  
995     40.35
996    973.80
997     31.84
998     65.82
999    618.38
Name: Ingresos, Length: 1000, dtype: float64


In [13]:
# Normalizar la columna 'Ingresos' a una escala de 0 a 1
df['Ingresos_normalizados'] = (df['Ingresos'] - df['Ingresos'].min()) / (df['Ingresos'].max() - df['Ingresos'].min())
print(df['Ingresos_normalizados'])

0      0.521616
1      0.067387
2      0.319628
3      0.463549
4      0.604377
         ...   
995    0.030707
996    0.980465
997    0.022049
998    0.056622
999    0.618835
Name: Ingresos_normalizados, Length: 1000, dtype: float64


In [11]:
# Crear una columna de categorías en base a los ingresos
df['Categoria_Ingresos'] = pd.cut(df['Ingresos'], bins=[0, 50, 200, float('inf')], labels=['Baja', 'Media', 'Alta'])
print(df['Categoria_Ingresos'])


0       Alta
1      Media
2       Alta
3       Alta
4       Alta
       ...  
995     Baja
996     Alta
997     Baja
998    Media
999     Alta
Name: Categoria_Ingresos, Length: 1000, dtype: category
Categories (3, object): ['Baja' < 'Media' < 'Alta']


5.1. Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
5.2. Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
5.3. Utiliza el método apply para realizar operaciones más complejas y personalizadas.
Documentación


In [14]:
# Agrupación de datos por 'Producto' para obtener el total de ingresos
ventas_por_producto = df.groupby('Product line')['Total'].sum()
print("\nTotal de ingresos por producto:")
print(ventas_por_producto)



Total de ingresos por producto:
Product line
Electronic accessories    54337.5315
Fashion accessories       54305.8950
Food and beverages        56144.8440
Health and beauty         49193.7390
Home and lifestyle        53861.9130
Sports and travel         55122.8265
Name: Total, dtype: float64


In [15]:
# Promedio de ventas y precio por tienda
resumen_tienda = df.groupby('City').agg({'Quantity': 'mean', 'Unit price': 'mean', 'Total': 'sum'})
print("\nPromedio de ventas y precio por tienda:")
print(resumen_tienda)



Promedio de ventas y precio por tienda:
           Quantity  Unit price        Total
City                                        
Mandalay   5.481928   55.659277  106197.6720
Naypyitaw  5.582317   56.609024  110568.7065
Yangon     5.467647   54.780853  106200.3705


In [17]:
# Crear una columna de descuento usando una condición personalizada
df['Descuento'] = df.apply(lambda row: row['Unit price'] * 0.1 if row['Categoria_Ingresos'] == 'Alta' else 0, axis=1)
print(df['Descuento'])

0      7.469
1      0.000
2      4.633
3      5.822
4      8.631
       ...  
995    0.000
996    9.738
997    0.000
998    0.000
999    8.834
Name: Descuento, Length: 1000, dtype: float64


In [18]:
print(df.head())


    Invoice ID Branch       City Customer type  Gender  \
0  750-67-8428      A     Yangon        Member  Female   
1  226-31-3081      C  Naypyitaw        Normal  Female   
2  631-41-3108      A     Yangon        Normal    Male   
3  123-19-1176      A     Yangon        Member    Male   
4  373-73-7910      A     Yangon        Normal    Male   

             Product line  Unit price  Quantity   Tax 5%     Total  ...  \
0       Health and beauty       74.69         7  26.1415  548.9715  ...   
1  Electronic accessories       15.28         5   3.8200   80.2200  ...   
2      Home and lifestyle       46.33         7  16.2155  340.5255  ...   
3       Health and beauty       58.22         8  23.2880  489.0480  ...   
4       Sports and travel       86.31         7  30.2085  634.3785  ...   

    Time      Payment    cogs  gross margin percentage  gross income  Rating  \
0  13:08      Ewallet  522.83                 4.761905       26.1415     9.1   
1  10:29         Cash   76.40           