In [None]:
# Carga el archivo CSV en un DataFrame de Pandas.
# Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

import pandas as pd
df = pd.read_csv('../data/supermarket_sales.csv')

print('Primeras 10 filas:')
print(df.head(10))

In [None]:
# Muestra las últimas 5 filas del DataFrame.
print("\nÚltimas 5 filas:")
print(df.tail(5))

In [None]:
# Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, 
# nombres de las columnas, tipos de datos y memoria utilizada.
print("\nInformación del DataFrame:")
print(df.info())

In [None]:
# Genera estadísticas descriptivas del DataFrame utilizando el método describe().
print("\nEstadísticas descriptivas:")
print(df.describe())

In [5]:
# Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
print("\nValores nulos por columna:")
print(df.isnull().sum())


Valores nulos por columna:
Invoice ID                 0
Branch                     0
City                       0
Customer type              0
Gender                     0
Product line               0
Unit price                 0
Quantity                   0
Tax 5%                     0
Total                      0
Date                       0
Time                       0
Payment                    0
cogs                       0
gross margin percentage    0
gross income               0
Rating                     0
dtype: int64


# Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
# Elimina duplicados si los hay.

no hay valores nulos ni duplicados

In [None]:
# Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
df['Ingresos'] = df['Quantity'] * df['Unit price']
print(df['Ingresos'])

In [13]:
# Normalizar la columna 'Ingresos' a una escala de 0 a 1
df['Ingresos_normalizados'] = (df['Ingresos'] - df['Ingresos'].min()) / (df['Ingresos'].max() - df['Ingresos'].min())
print(df['Ingresos_normalizados'])

0      0.521616
1      0.067387
2      0.319628
3      0.463549
4      0.604377
         ...   
995    0.030707
996    0.980465
997    0.022049
998    0.056622
999    0.618835
Name: Ingresos_normalizados, Length: 1000, dtype: float64


In [11]:
# Clasifica los datos en categorías relevantes.
# Crear una columna de categorías en base a los ingresos
df['Categoria_Ingresos'] = pd.cut(df['Ingresos'], bins=[0, 50, 200, float('inf')], labels=['Baja', 'Media', 'Alta'])
print(df['Categoria_Ingresos'])


0       Alta
1      Media
2       Alta
3       Alta
4       Alta
       ...  
995     Baja
996     Alta
997     Baja
998    Media
999     Alta
Name: Categoria_Ingresos, Length: 1000, dtype: category
Categories (3, object): ['Baja' < 'Media' < 'Alta']


In [14]:
# Agrupación de datos por 'Producto' para obtener el total de ingresos
ventas_por_producto = df.groupby('Product line')['Total'].sum()
print("\nTotal de ingresos por producto:")
print(ventas_por_producto)



Total de ingresos por producto:
Product line
Electronic accessories    54337.5315
Fashion accessories       54305.8950
Food and beverages        56144.8440
Health and beauty         49193.7390
Home and lifestyle        53861.9130
Sports and travel         55122.8265
Name: Total, dtype: float64


In [15]:
# Promedio de ventas y precio por tienda
resumen_tienda = df.groupby('City').agg({'Quantity': 'mean', 'Unit price': 'mean', 'Total': 'sum'})
print("\nPromedio de ventas y precio por tienda:")
print(resumen_tienda)



Promedio de ventas y precio por tienda:
           Quantity  Unit price        Total
City                                        
Mandalay   5.481928   55.659277  106197.6720
Naypyitaw  5.582317   56.609024  110568.7065
Yangon     5.467647   54.780853  106200.3705


In [17]:
# Crear una columna de descuento usando una condición personalizada
df['Descuento'] = df.apply(lambda row: row['Unit price'] * 0.1 if row['Categoria_Ingresos'] == 'Alta' else 0, axis=1)
print(df['Descuento'])

0      7.469
1      0.000
2      4.633
3      5.822
4      8.631
       ...  
995    0.000
996    9.738
997    0.000
998    0.000
999    8.834
Name: Descuento, Length: 1000, dtype: float64


In [18]:
print(df.head())


    Invoice ID Branch       City Customer type  Gender  \
0  750-67-8428      A     Yangon        Member  Female   
1  226-31-3081      C  Naypyitaw        Normal  Female   
2  631-41-3108      A     Yangon        Normal    Male   
3  123-19-1176      A     Yangon        Member    Male   
4  373-73-7910      A     Yangon        Normal    Male   

             Product line  Unit price  Quantity   Tax 5%     Total  ...  \
0       Health and beauty       74.69         7  26.1415  548.9715  ...   
1  Electronic accessories       15.28         5   3.8200   80.2200  ...   
2      Home and lifestyle       46.33         7  16.2155  340.5255  ...   
3       Health and beauty       58.22         8  23.2880  489.0480  ...   
4       Sports and travel       86.31         7  30.2085  634.3785  ...   

    Time      Payment    cogs  gross margin percentage  gross income  Rating  \
0  13:08      Ewallet  522.83                 4.761905       26.1415     9.1   
1  10:29         Cash   76.40           