## Proyecto I- Parte 2 (Core)


### Análisis y Predicción de Ventas en una Tienda de Retail



### Parte II: Análisis Exploratorio con Pandas

En esta segunda parte del proyecto, vamos a utilizar Pandas para realizar un análisis exploratorio más detallado de nuestro dataset de ventas. El objetivo es aplicar técnicas de carga, exploración, filtrado y slicing de datos para obtener una comprensión profunda de los datos y preparar el dataset para futuros análisis y modelados predictivos.
#### Preparación del Entorno
- Asegúrate de tener instalado Pandas en tu entorno de trabajo.
- Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.
#### Cargar los Datos
- Carga el archivo retail_sales.csv en un DataFrame de Pandas.
- Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [54]:
import pandas as pd

df = pd.read_csv('../data/retail_sales_dataset.csv')
df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


#### Exploración Inicial de los Datos
- Muestra las últimas 5 filas del DataFrame.
- Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
- Genera estadísticas descriptivas del DataFrame utilizando el método describe().


In [55]:
print("Últimas 5 filas del DataFrame:")
df.tail(5)

Últimas 5 filas del DataFrame:


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150
999,1000,2023-04-12,CUST1000,Male,47,Electronics,4,30,120


In [56]:
print("Información del DataFrame:")
df.info()

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [57]:
print('Estadísticas descriptivas del DataFrame: ')
df.describe()

Estadísticas descriptivas del DataFrame: 


Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


#### Inspección de los Datos
- Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
- Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
- Muestra todos los valores únicos en la columna Tienda utilizando el método unique().

In [58]:
print('Tipos de datos de las columnas: ')
df.dtypes

Tipos de datos de las columnas: 


Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object

In [59]:
print('Conteo de valores únicos:')  #cambio Product Category
df['Product Category'].value_counts()

Conteo de valores únicos:


Product Category
Clothing       351
Electronics    342
Beauty         307
Name: count, dtype: int64

In [60]:
print('Número de valores únicos en la columna Customer ID: ') #cambio por customer ID
print(df['Customer ID'].nunique()) 

Número de valores únicos en la columna Customer ID: 
1000


#### Filtrado de Datos
- Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
- Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
- Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.

In [61]:
print('Ventas en la cantidad es superior a 3:') #cambio por Quantity mayor a 3 donde el promedio es 2.5 y 50 perc es 3
df[df['Quantity'] > 3]

Ventas en la cantidad es superior a 3:


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200
13,14,2023-01-17,CUST014,Male,64,Clothing,4,30,120
14,15,2023-01-16,CUST015,Female,42,Electronics,4,500,2000
16,17,2023-04-22,CUST017,Female,27,Clothing,4,25,100
...,...,...,...,...,...,...,...,...,...
970,971,2023-12-05,CUST971,Female,27,Electronics,4,50,200
971,972,2023-02-11,CUST972,Male,49,Beauty,4,25,100
974,975,2023-03-30,CUST975,Female,56,Clothing,4,50,200
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100


In [62]:
print('Ventas en donde el precio por unidad es inferior a 180:') #cambio por Price per Unit inferior a 180 donde el promedio es 179.89 y el 50 perc es 50
df[df['Price per Unit'] < 180]

Ventas en donde el precio por unidad es inferior a 180:


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [63]:
print('Donde la categoria es clothing y total de ventas mayores a 450:')  #cambio por Product Category Clothing y Total Amount de 450 que es el promedio
df.query('`Product Category` == "Clothing" & `Total Amount` > 450')

Donde la categoria es clothing y total de ventas mayores a 450:


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
15,16,2023-02-17,CUST016,Male,19,Clothing,3,500,1500
19,20,2023-11-05,CUST020,Male,22,Clothing,3,300,900
41,42,2023-02-17,CUST042,Male,22,Clothing,3,300,900
...,...,...,...,...,...,...,...,...,...
967,968,2023-11-17,CUST968,Female,48,Clothing,3,300,900
968,969,2023-04-19,CUST969,Female,40,Clothing,3,300,900
983,984,2023-08-29,CUST984,Male,56,Clothing,1,500,500
985,986,2023-01-17,CUST986,Female,49,Clothing,2,500,1000


#### Slicing de Datos
- Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
- Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
- Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.


In [64]:
print('Columnas de Categoria de productos y Total de ventas:') #cambio columnas Product Category y Total Amount.

df[['Product Category', 'Total Amount']].groupby('Product Category').sum()

Columnas de Categoria de productos y Total de ventas:


Unnamed: 0_level_0,Total Amount
Product Category,Unnamed: 1_level_1
Beauty,143515
Clothing,155580
Electronics,156905


In [65]:
print('Filas de la 5 a la 10 y las columnas Categoria de productos y Customer ID:') #cambio Product Category y Customer ID
df.loc[5:10, ['Product Category', 'Customer ID']]

Filas de la 5 a la 10 y las columnas Categoria de productos y Customer ID:


Unnamed: 0,Product Category,Customer ID
5,Beauty,CUST006
6,Clothing,CUST007
7,Electronics,CUST008
8,Electronics,CUST009
9,Clothing,CUST010
10,Clothing,CUST011


In [66]:
print('Las primeras 5 filas y las primeras 3 columnas')
df.iloc[:5, :3]

Las primeras 5 filas y las primeras 3 columnas


Unnamed: 0,Transaction ID,Date,Customer ID
0,1,2023-11-24,CUST001
1,2,2023-02-27,CUST002
2,3,2023-01-13,CUST003
3,4,2023-05-21,CUST004
4,5,2023-05-06,CUST005
