## Instrucciones

### Preparación del Entorno
- Asegúrate de tener instalado Pandas en tu entorno de trabajo.
- Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.


In [4]:
import pandas as pd

### Cargar los Datos
- Carga el archivo retail_sales.csv en un DataFrame de Pandas.
- Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [5]:
df = pd.read_csv('csv/retail_sales_dataset.csv')
df.head()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


### Exploración Inicial de los Datos
- Muestra las últimas 5 filas del DataFrame.
- Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
- Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [8]:
df.tail(5).T

Unnamed: 0,995,996,997,998,999
Transaction ID,996,997,998,999,1000
Date,2023-05-16,2023-11-17,2023-10-29,2023-12-05,2023-04-12
Customer ID,CUST996,CUST997,CUST998,CUST999,CUST1000
Gender,Male,Male,Female,Female,Male
Age,62,52,23,36,47
Product Category,Clothing,Beauty,Beauty,Electronics,Electronics
Quantity,1,3,4,3,4
Price per Unit,50,30,25,50,30
Total Amount,50,90,100,150,120


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [9]:
df.describe()

Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


### Inspección de los Datos
- Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
- Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
- Muestra todos los valores únicos en la columna Tienda utilizando el método unique().

In [11]:
df.dtypes

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object

In [12]:
df['Product Category'].value_counts()

Product Category
Clothing       351
Electronics    342
Beauty         307
Name: count, dtype: int64

In [15]:
df['Product Category'].unique()

array(['Beauty', 'Clothing', 'Electronics'], dtype=object)

### Filtrado de Datos
- Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
- Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
- Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.

In [18]:
df[df['Total Amount']>50]

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
...,...,...,...,...,...,...,...,...,...
993,994,2023-12-18,CUST994,Female,51,Beauty,2,500,1000
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [21]:
df[df['Price per Unit']< 50]

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
11,12,2023-10-30,CUST012,Male,35,Beauty,3,25,75
...,...,...,...,...,...,...,...,...,...
991,992,2023-08-21,CUST992,Female,57,Electronics,2,30,60
994,995,2023-04-30,CUST995,Female,41,Clothing,1,30,30
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100


In [27]:
df.query('`Product Category` == "Beauty" & `Total Amount` > 30')

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
11,12,2023-10-30,CUST012,Male,35,Beauty,3,25,75
20,21,2023-01-14,CUST021,Female,50,Beauty,1,500,500
24,25,2023-12-26,CUST025,Female,64,Beauty,1,50,50
...,...,...,...,...,...,...,...,...,...
981,982,2023-12-19,CUST982,Female,46,Beauty,3,30,90
989,990,2023-05-25,CUST990,Female,58,Beauty,2,500,1000
993,994,2023-12-18,CUST994,Female,51,Beauty,2,500,1000
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90


### Slicing de Datos
- Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
- Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
- Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.

In [28]:
df[['Product Category', 'Total Amount']]

Unnamed: 0,Product Category,Total Amount
0,Beauty,150
1,Clothing,1000
2,Electronics,30
3,Clothing,500
4,Beauty,100
...,...,...
995,Clothing,50
996,Beauty,90
997,Beauty,100
998,Electronics,150


In [29]:
df.loc[5:10, ['Product Category', 'Total Amount']]

Unnamed: 0,Product Category,Total Amount
5,Beauty,30
6,Clothing,50
7,Electronics,100
8,Electronics,600
9,Clothing,200
10,Clothing,100


In [30]:
df.iloc[0:5, 0:3]

Unnamed: 0,Transaction ID,Date,Customer ID
0,1,2023-11-24,CUST001
1,2,2023-02-27,CUST002
2,3,2023-01-13,CUST003
3,4,2023-05-21,CUST004
4,5,2023-05-06,CUST005
