<a href="https://colab.research.google.com/github/hectorpilo/bootcamp-ds-sonda/blob/main/Core_Analisis_Ventas_Retail_PartII.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Parte II: Análisis Exploratorio con Pandas**

En esta segunda parte del proyecto, vamos a utilizar Pandas para realizar un análisis exploratorio más detallado de nuestro dataset de ventas. El objetivo es aplicar técnicas de carga, exploración, filtrado y slicing de datos para obtener una comprensión profunda de los datos y preparar el dataset para futuros análisis y modelados predictivos.

In [1]:
# Usamos la biblioteca google para poder usar archivos en nuestro drive.
from google.colab import drive
# Este comando conecta colab con drive.
drive.mount('/content/drive')
# Importamos pandas con el nombre "pd" por buena practica.
import pandas as pd
# Importamos una bbdd en formato excel y lo guardamos en una variable.
path = "/content/drive/MyDrive/BBDD/retail_sales_dataset.csv"
df_1 = pd.read_csv(path)

Mounted at /content/drive


In [2]:
df_1.head(10) #Ver las primeras 10 filas para ver que el archivo se cargó bien.

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


**Exploración Inicial de los Datos**

* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [3]:
df_1.tail(5) #muestra las ultimas 5 filas del DataFrame.

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150
999,1000,2023-04-12,CUST1000,Male,47,Electronics,4,30,120


In [4]:
df_1.info() #información general del DataFrame, cuantas filas hay, cuantas columnas existen, que tipo de dato tienen, cuantos valores faltan, cuanta memoria ocupa.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [5]:
df_1.describe() #genera estadisticas descriptivas.

Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


# **Inspección de los Datos**
* Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
* Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
* Muestra todos los valores únicos en la columna Tienda utilizando el método unique().

In [7]:
df_1.dtypes #para ver si son textos (objet o string), numeros (int64, float64), fehcas(datetime).

Unnamed: 0,0
Transaction ID,int64
Date,object
Customer ID,object
Gender,object
Age,int64
Product Category,object
Quantity,int64
Price per Unit,int64
Total Amount,int64


In [9]:
df_1["Product Category"].value_counts() #Sirve para ver cuantas veces se repite cada tipo de producto, aquí por ejemplo, se puede ver cuantas se venden mas.

Unnamed: 0_level_0,count
Product Category,Unnamed: 1_level_1
Clothing,351
Electronics,342
Beauty,307


In [11]:
df_1["Product Category"].unique() #muestra los valores unicos en la columna tienda, utilizando el metodo unique. (No existe dicha columna, asi que propuse utilizar product category.)

array(['Beauty', 'Clothing', 'Electronics'], dtype=object)

# **Filtrado de Datos**
* Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
* Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
* Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.

In [12]:
df_1[df_1['Total Amount'] > 50] # filtrar donde las ventas sean mayores a 50.

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
...,...,...,...,...,...,...,...,...,...
993,994,2023-12-18,CUST994,Female,51,Beauty,2,500,1000
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [14]:
df_1[df_1['Price per Unit'] < 0.5] #filtrar donde el precio sea menor a 0.5

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount


In [17]:
#como no existe el producto llamado manzana, pero se sabe que quiere saber por los productos cuyas ventas sean mayores a 30, haré el siguiente ejercicio.
#Filtraré todo lo que en ventas, sea mayor a 30.
ventas_mayores_30 = df_1[df_1["Total Amount"]> 30]
#mostraré en pantalla los productos de ventas mayores a 30.
ventas_mayores_30

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [20]:
#Ahora, como tenemos el resultado, mostraré solo los productos unicos en esas filas.
productos_con_ventas_mayores_30 = ventas_mayores_30["Product Category"].unique()
#mostramos los productos con ventas mayores a 30
productos_con_ventas_mayores_30

array(['Beauty', 'Clothing', 'Electronics'], dtype=object)

# **Slicing de Datos**
* Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
* Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
* Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.

In [21]:
df_1[['Product Category', 'Total Amount']] #Selecciona y muestra solo columnas Producto y Ventas del DataFrame

Unnamed: 0,Product Category,Total Amount
0,Beauty,150
1,Clothing,1000
2,Electronics,30
3,Clothing,500
4,Beauty,100
...,...,...
995,Clothing,50
996,Beauty,90
997,Beauty,100
998,Electronics,150


In [22]:
# Usando loc[], muestra filas de la 5 a la 10 (inclusive) y columnas Producto y Tienda. #Recordar que LOC incluye el indicie y el final.
df_1.loc[5:10,["Product Category","Customer ID"]]

Unnamed: 0,Product Category,Customer ID
5,Beauty,CUST006
6,Clothing,CUST007
7,Electronics,CUST008
8,Electronics,CUST009
9,Clothing,CUST010
10,Clothing,CUST011


In [23]:
#Usando iloc[], muestra las primeras 5 filas y las primeras 3 columnas
df_1.iloc[:5,:3]

Unnamed: 0,Transaction ID,Date,Customer ID
0,1,2023-11-24,CUST001
1,2,2023-02-27,CUST002
2,3,2023-01-13,CUST003
3,4,2023-05-21,CUST004
4,5,2023-05-06,CUST005
