Preparación del Entorno

* Asegúrate de tener instalado Pandas en tu entorno de trabajo.
* Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.



In [1]:
import pandas as pd

def cargar_datos(ruta_archivo):
    # Carga los datos del archivo CSV
    datos = pd.read_csv(ruta_archivo, delimiter=',')
    return datos
##Se realiza la carga con Pandas ya que numpy no muestra los valores categoricos
if __name__ == "__main__":
    ruta_archivo = '../trabajos_core/data/retail_sales_dataset.csv'
    df = cargar_datos(ruta_archivo)  
    
    print(df.head())

   Transaction ID        Date Customer ID  Gender  Age Product Category  \
0               1  2023-11-24     CUST001    Male   34           Beauty   
1               2  2023-02-27     CUST002  Female   26         Clothing   
2               3  2023-01-13     CUST003    Male   50      Electronics   
3               4  2023-05-21     CUST004    Male   37         Clothing   
4               5  2023-05-06     CUST005    Male   30           Beauty   

   Quantity  Price per Unit  Total Amount  
0         3              50           150  
1         2             500          1000  
2         1              30            30  
3         1             500           500  
4         2              50           100  


Cargar los Datos

* Carga el archivo retail_sales.csv en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.



In [3]:
##Mostrar todo el dataframe
df
##Mostrar las primeras 10 filas
df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


Exploración Inicial de los Datos

* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().



In [5]:
##Mostrar las ultimas 5 filas
print("nÚltimas 5 filas del DataFrame:")
print(df.tail(5))

##Metodo info() para obtener informacion del dataframe
print("nInformación del DataFrame:")
print(df.info())

##Estadistica descriptiva
print("nEstadísticas descriptivas del DataFrame:")
print(df.describe())


nÚltimas 5 filas del DataFrame:
     Transaction ID        Date Customer ID  Gender  Age Product Category  \
995             996  2023-05-16     CUST996    Male   62         Clothing   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Amount  
995         1              50            50  
996         3              30            90  
997         4              25           100  
998         3              50           150  
999         4              30           120  
nInformación del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0  

Inspección de los Datos

* Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
* Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
* Muestra todos los valores únicos en la columna Tienda utilizando el método unique().



In [9]:
## Inspeccionar tipo de datos por columna
print("Tipos de datos de las columnas:")
print(df.dtypes)

##Contar los valores unicos de Producto
print("Contar valores unicos de producto")
print(print(df['Product Category'].value_counts()))

##Valores unicos de la columna Gender
print("Valores unicos de gender")
print(df['Gender'].unique())


Tipos de datos de las columnas:
Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object
Contar valores unicos de producto
Product Category
Clothing       351
Electronics    342
Beauty         307
Name: count, dtype: int64
None
Valores unicos de gender
['Male' 'Female']


Filtrado de Datos

* Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
* Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
* Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.



In [18]:
###Filtrar filas donde las ventas sean mayores a 50 (No existen ventas por lo que se considera quantity mayor a 2)
print("Filas donde ventas son mayores a 2:")
ventas_mayores_2 = df[(df['Quantity'] > 2)]
print(ventas_mayores_2)

###Filtrar filas donde el precio total sea menor a 50
print("Filas donde donde el precio total sea menor a 50:")
precio_menores_50 = df[(df['Total Amount'] < 50)]
print(precio_menores_50)

# Filtrar filas utilizando el método query (no existen manzanas en este dataset por lo que se consideran product category Electornics mayor a 200)
print("Filas donde categoria de producto es Electronics y las ventas totales sean mayor a 200:")
query_result = df.query("`Product Category` == 'Electronics' & `Total Amount` > 200")
print(query_result)


Filas donde ventas son mayores a 2:
     Transaction ID        Date Customer ID  Gender  Age Product Category  \
0                 1  2023-11-24     CUST001    Male   34           Beauty   
7                 8  2023-02-22     CUST008    Male   30      Electronics   
9                10  2023-10-07     CUST010  Female   52         Clothing   
11               12  2023-10-30     CUST012    Male   35           Beauty   
12               13  2023-08-05     CUST013    Male   22      Electronics   
..              ...         ...         ...     ...  ...              ...   
992             993  2023-02-06     CUST993  Female   48      Electronics   
996             997  2023-11-17     CUST997    Male   52           Beauty   
997             998  2023-10-29     CUST998  Female   23           Beauty   
998             999  2023-12-05     CUST999  Female   36      Electronics   
999            1000  2023-04-12    CUST1000    Male   47      Electronics   

     Quantity  Price per Unit  Total Am

Slicing de Datos

* Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
* Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
* Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.



In [28]:
##Dataset no coincide por lo que se selecciona otras columnas
# Seleccionar columnas Product Category y Total amount
print("Seleccionar las columas Product Category y Total amount")
sliced_rows = df[["Product Category","Total Amount"]]
print(sliced_rows)

# Seleccionar filas y columnas específicas con loc (filas del 5 al 10 y Costumer ID y Gender)
print("Seleccionar las columas Customer ID y Gender y filas del 5 al 10")
loc_result = df.loc[5:10, ["Customer ID",'Gender']]
print(loc_result)

# Seleccionar filas y columnas específicas con iloc
print("Seleccionar las 3 primeras columas y filas del 0 al 5")
iloc_result = df.iloc[0:6, 0:3]
print(iloc_result)


Seleccionar las columas Product Category y Total amount
    Product Category  Total Amount
0             Beauty           150
1           Clothing          1000
2        Electronics            30
3           Clothing           500
4             Beauty           100
..               ...           ...
995         Clothing            50
996           Beauty            90
997           Beauty           100
998      Electronics           150
999      Electronics           120

[1000 rows x 2 columns]
Seleccionar las columas Customer ID y Gender y filas del 5 al 10
   Customer ID  Gender
5      CUST006  Female
6      CUST007    Male
7      CUST008    Male
8      CUST009    Male
9      CUST010  Female
10     CUST011    Male
Seleccionar las 3 primeras columas y filas del 0 al 5
   Transaction ID        Date Customer ID
0               1  2023-11-24     CUST001
1               2  2023-02-27     CUST002
2               3  2023-01-13     CUST003
3               4  2023-05-21     CUST004
4        