# Proyecto I- Parte 2 (Core)

## Análisis y Predicción de Ventas en una Tienda de Retail

### Parte II: Análisis Exploratorio con Pandas

En esta segunda parte del proyecto, vamos a utilizar Pandas para realizar un análisis exploratorio más detallado de nuestro dataset de ventas. El objetivo es aplicar técnicas de carga, exploración, filtrado y slicing de datos para obtener una comprensión profunda de los datos y preparar el dataset para futuros análisis y modelados predictivos.

## Instrucciones

### Preparación del Entorno
* Asegúrate de tener instalado Pandas en tu entorno de trabajo.
* Utiliza el archivo retail_sales.csv del proyecto inicial. Si aún no lo tienes, descarga el archivo correspondiente.
### Cargar los Datos
* Carga el archivo retail_sales.csv en un DataFrame de Pandas.
* Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.
### Exploración Inicial de los Datos
* Muestra las últimas 5 filas del DataFrame.
* Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
* Genera estadísticas descriptivas del DataFrame utilizando el método describe().
### Inspección de los Datos
* Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
* Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
* Muestra todos los valores únicos en la columna Tienda utilizando el método unique().
### Filtrado de Datos
*Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
* Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
* Utilizando el método query(), filtra el DataFrame para mostrar las filas donde el producto sea Manzanas y las ventas sean mayores a 30.
### Slicing de Datos
* Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
* Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
* Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.

### Preparación del Entorno

In [47]:
import pandas as pd

### Cargar los Datos

In [48]:
# Carga el archivo retail_sales.csv en un DataFrame de Pandas.
df = pd.read_csv('../data/retail_sales_dataset.csv')

In [49]:
# Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.
df.head(10)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200


### Exploración Inicial de los Datos

In [50]:
# Muestra las últimas 5 filas del DataFrame.
df.tail()

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150
999,1000,2023-04-12,CUST1000,Male,47,Electronics,4,30,120


In [51]:
# Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [52]:
# Genera estadísticas descriptivas del DataFrame utilizando el método describe().
df.describe()

Unnamed: 0,Transaction ID,Age,Quantity,Price per Unit,Total Amount
count,1000.0,1000.0,1000.0,1000.0,1000.0
mean,500.5,41.392,2.514,179.89,456.0
std,288.819436,13.68143,1.132734,189.681356,559.997632
min,1.0,18.0,1.0,25.0,25.0
25%,250.75,29.0,1.0,30.0,60.0
50%,500.5,42.0,3.0,50.0,135.0
75%,750.25,53.0,4.0,300.0,900.0
max,1000.0,64.0,4.0,500.0,2000.0


### Inspeccion de Datos

In [53]:
# Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.
df.dtypes

Transaction ID       int64
Date                object
Customer ID         object
Gender              object
Age                  int64
Product Category    object
Quantity             int64
Price per Unit       int64
Total Amount         int64
dtype: object

In [54]:
# Cuenta los valores únicos en la columna Producto utilizando el método value_counts().
df["Product Category"].value_counts()

Product Category
Clothing       351
Electronics    342
Beauty         307
Name: count, dtype: int64

In [55]:
# Muestra todos los valores únicos en la columna Tienda utilizando el método unique().
df["Age"].unique()

array([34, 26, 50, 37, 30, 45, 46, 63, 52, 23, 35, 22, 64, 42, 19, 27, 47,
       62, 18, 49, 28, 38, 43, 39, 44, 51, 58, 48, 55, 20, 40, 54, 36, 31,
       21, 57, 25, 56, 29, 61, 32, 41, 59, 60, 33, 53, 24], dtype=int64)

### Filtrado de Datos

In [56]:
# Filtra el DataFrame para mostrar solo las filas donde las ventas (Ventas) sean mayores a 50.
df_filtrado = df[df["Total Amount"] > 50]
# df_filtrado

In [57]:
# Filtra el DataFrame para mostrar solo las filas donde el precio (Precio) sea menor a 0.5.
df_filtrado_2 = df[df["Price per Unit"] < 50]
# df_filtrado_2

In [58]:
# Utilizando el método query(), filtra el DataFrame para mostrar las filas donde la categoría del producto sea "Clothing" y el monto total sea mayor a 30.
df_filtrado_3 = df.query("`Product Category` == 'Clothing' and `Total Amount` > 30")
# df_filtrado_3

### Slicing de Datos

In [62]:
# Selecciona y muestra solo las columnas Producto y Ventas del DataFrame.
# Como no hay producto usamos procduct category y total amount
df_filtrado_4 = df[["Product Category", "Total Amount"]]
# df_filtrado_4

In [60]:
# Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas Producto y Tienda.
df_filtrado_5 = df.loc[5:10, ["Product Category", "Age"]]
# df_filtrado_5

In [61]:
# Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.
df_filtrado_6 = df.iloc[0:5, 0:3]
# df_filtrado_6