### ANALIZANDO RETAIL DATASET

In [141]:
import pandas as pd

In [142]:
df_retail = pd.read_csv('data/retail_sales_dataset.csv', parse_dates=['Date'])


### Introducción al Análisis de Retail

En este ejercicio trabajaremos con una base de datos del sector **retail**, la cual ya ha sido preprocesada y se encuentra limpia. Esto nos permite enfocarnos directamente en el análisis de los datos, sin necesidad de realizar tareas adicionales de limpieza.

A continuación, realizaremos una serie de ejercicios, que irán desde análisis básicos hasta algunos más avanzados, para explorar y comprender mejor la información proporcionada en esta base de datos.


Primero empecemos con validar si tenemos algun dato nulo, para ello usamos el siguiente código.

```python
df_retail.isnull().sum()
```

Donde:  

1. Nos permite saber por cada columna si tenemos algun valor nulo.


In [143]:
df_retail.isnull().sum()

Transaction ID      0
Date                0
Customer ID         0
Gender              0
Age                 0
Product Category    0
Quantity            0
Price per Unit      0
Total Amount        0
dtype: int64

Añadiremos tres nuevas columnas al DataFrame:  
1. **Año**  
2. **Mes**  
3. **Día**  

Estas columnas serán útiles para realizar análisis basados en el tiempo más adelante.
La forma de obtener esos datos es de la siguiente manera:

In [144]:
df_retail["Año"] = df_retail["Date"].dt.year
df_retail["Mes"] = df_retail["Date"].dt.month_name()
df_retail["Dia"] = df_retail["Date"].dt.day

#Una vez realizado la creación de las columnas, se procede a verificar si se crearon correctamente
df_retail


Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Año,Mes,Dia
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,2023,November,24
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,2023,February,27
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,2023,January,13
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,2023,May,21
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,2023,May,6
...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,2023,May,16
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,2023,November,17
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,2023,October,29
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,2023,December,5


Si bien al crear nuestro DataFrame, nos genera una columna de manera automática para nuestro indices. Si revisamos bien la información que tenemos, ya existe una columna que en este caso es Transsaction ID, que la podemos usar como indice, para ello podemos hacer una modificación en el indice de la siguiente manera:

In [145]:
df_retail.set_index('Transaction ID', inplace=True)
df_retail

Unnamed: 0_level_0,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Año,Mes,Dia
Transaction ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,2023,November,24
2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,2023,February,27
3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,2023,January,13
4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,2023,May,21
5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,2023,May,6
...,...,...,...,...,...,...,...,...,...,...,...
996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,2023,May,16
997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,2023,November,17
998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,2023,October,29
999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,2023,December,5



Podemos averiguar por cada Categoria de Producto, cual es la edad mas joven que obtuvieron esos productos
Para ello:

1. Agrupamos por el campo Product Category
2. Luego filtramos por el campo Age
3. Utilizamos la funcion **min()** para obtener el primer registro de la edad joven que encuentre por cada Categoria de Producto
4. reseteamos los indices.
5. Todo eso lo almacenamos en un nuevo dataframe
6. Al nuevo dataframe le modificamos los nombres de las Columnas


In [146]:
df_retail_jovenes = df_retail.groupby("Product Category")["Age"].min().reset_index()
df_retail_jovenes.columns = ["Categoria", "Edad"]
df_retail_jovenes

Unnamed: 0,Categoria,Edad
0,Beauty,18
1,Clothing,18
2,Electronics,18


Así mismo, podemos averiguar por cada Categoria de Producto, cual es la mayor edad que obtuvieron esos productos
Para ello:

1. Agrupamos por el campo Product Category
2. Luego filtramos por el campo Age
3. Utilizamos la funcion **max()** para obtener el primer registro de la edad joven que encuentre por cada Categoria de Producto
4. reseteamos los indices.
5. Todo eso lo almacenamos en un nuevo dataframe
6. Al nuevo dataframe le modificamos los nombres de las Columnas

In [147]:
df_retail_jovenes = df_retail.groupby("Product Category")["Age"].max().reset_index()
df_retail_jovenes.columns = ["Categoria", "Edad"]
df_retail_jovenes

Unnamed: 0,Categoria,Edad
0,Beauty,64
1,Clothing,64
2,Electronics,64


### Obtener por Categoria de producto el total de venta:

1. Agrupa el DataFrame df_retail por la columna 'Product Category' y suma los valores de 'Total Amount'.
2. Renombra las columnas del DataFrame resultante.
3. Ordena el DataFrame por 'Total Ventas' en orden descendente.
4. Restablece el índice del DataFrame ordenado.


In [148]:
df_retail_categoria = df_retail.groupby('Product Category')['Total Amount'].sum().reset_index()
df_retail_categoria.columns = ['Categoria', 'Total Ventas']
#df_retail_categoria
df_retail_categoria.sort_values('Total Ventas', ascending=False, inplace=True)
df_retail_categoria.reset_index(drop=True, inplace=True)
df_retail_categoria

Unnamed: 0,Categoria,Total Ventas
0,Electronics,156905
1,Clothing,155580
2,Beauty,143515


### Obtener por Genero el total de personas:

1. Filtramos por el campo Gender y luego contamos los valores encontrados y reseteamos el índice.  
2. Renombramos las columnas del Nuevo Dataframe.  
3. Mostramos los datos.

In [149]:
df_retail_gender_Persons = df_retail["Gender"].value_counts().reset_index()
df_retail_gender_Persons.columns = ["Genero", "Total Personas"]
df_retail_gender_Persons

Unnamed: 0,Genero,Total Personas
0,Female,510
1,Male,490


### Obtener por Genero el total de venta:

1. Agrupa el DataFrame df_retail por la columna Gender y sumamos los valores de 'Total Amount'.
2. Renombramos las columnas del Nuevo Dataframe.  
3. Mostramos los datos.

In [150]:
df_retail_gender_ventas = df_retail.groupby("Gender")["Total Amount"].sum().reset_index()
df_retail_gender_ventas.columns = ["Genero", "Total Venta"]
df_retail_gender_ventas

Unnamed: 0,Genero,Total Venta
0,Female,232840
1,Male,223160


Ahora como tenemos 2 dataframes De genero cada uno con su respectivo valor calculado, estos 2 Dataframes lo podemos juntar en uno solo ya que en comun tienen la columna Genero, y como tienen tambien las mismas filas, es posible unirlos y tener la información en un DataFrame General por Genero.  

Para ello usamos la funcion **merge()** de pandas.  
Esto seria de la siguiente forma:

In [151]:
df_retail_genero = pd.merge(df_retail_gender_Persons,  df_retail_gender_ventas)
df_retail_genero

Unnamed: 0,Genero,Total Personas,Total Venta
0,Female,510,232840
1,Male,490,223160


#### Método Avanzado:
Hemos visto la forma de generar 2 Dataframe con respecto al Genero y luego unificarlos en uno solo.
Ahora eso mismo lo podemos hacer sin necesidad trabajarlo por separado, sino que En un solo dataFrame podemos hacer lo que hicimos por separado.

Primero agrupamos por el campo Gender:  
Y luego se utiliza una funcion de agregación.  
En ella podemos definir las columnas y que se hará en cada una de ellas  
1. Total_Persona: Podemos a traves del tamaño(size) obtener el total de personas por Genero
2. Total_Venta: Podemos obtener el total de venta a traves del metodo sum.


Para ello se usa la siguiente expresión o código para realizar el mismo análisis que se realizó lineas atrás.

In [152]:
df_genero_retail = df_retail.groupby("Gender").agg(
    Total_Persona = ("Gender", "size"),
    Total_Venta = ("Total Amount", "sum")
).reset_index()

df_genero_retail

Unnamed: 0,Gender,Total_Persona,Total_Venta
0,Female,510,232840
1,Male,490,223160


#### Explicación del Método Avanzado

Si la explicación inicial del método avanzado no quedó clara, a continuación, detallo el proceso:

#### Agrupación por el campo Gender
```python
df_retail.groupby("Gender")
```
Agrupa el DataFrame df_retail por la columna "Gender".  
.agg(...)
Se aplica múltiples funciones de agregación a las columnas especificadas. En ellas, se define qué operación realizar en cada columna.

Definición de columnas y operaciones
1. Total_Persona  
    "Gender", "size":
    Total_Persona: Nombre de la nueva columna.
    Se utiliza la función size para contar el número de ocurrencias de cada género, obteniendo así el total de personas por género.

2. Total_Venta
    "Total Amount", "sum":
    Total_Venta: Nombre de la nueva columna.
    Se utiliza la función sum para sumar los valores de la columna "Total Amount", obteniendo así el total de ventas por género.

#### Obtener el total de Ventas por Mes:

Podemos hacer un análisis más detallado para saber por mes cuanto se vendio.  
Para ello:
1. Agrupamos por el campo Mes y filtramos por el campo Total Amount.
2. Sumanos la venta.
3. reseteamos los indices.
4. Almacenamos este analisis en un nuevo dataframe.  
5. Renombramos algunos nombres de columnas, y las  que se mantienen, se les agrega el mismo nombre.  
6. Podemos ordenar los datos usando las columnas Total Ventas, donde se ordena de manera descendente.   
7. Reseteamos los indices y le aplicamos el inplace=True el cual permite modificar en el mismo DataFrame.

In [156]:
df_retail_month = df_retail.groupby("Mes")["Total Amount"].sum().reset_index()
df_retail_month.columns = ["Mes", "Total Ventas"]
df_retail_month.sort_values(by="Total Ventas", ascending=False, inplace=True)
df_retail_month.reset_index(drop=True, inplace=True)
df_retail_month

Unnamed: 0,Mes,Total Ventas
0,May,53150
1,October,46580
2,December,44690
3,February,44060
4,January,36980
5,August,36960
6,June,36715
7,July,35465
8,November,34920
9,April,33870


#### Obtener el total de Ventas por Año:

Para ello:
1. Agrupamos por el campo Año y filtramos por el campo Total Amount.
2. Sumanos la venta.
3. reseteamos los indices.
4. Almacenamos este analisis en un nuevo dataframe.
5. Renombramos algunos nombres de columnas, y las  que se mantienen, se les agrega el mismo nombre.  

In [154]:
df_retail_year = df_retail.groupby("Año")["Total Amount"].sum().reset_index()
df_retail_year.columns = ["Año", "Total Ventas"]
df_retail_year

Unnamed: 0,Año,Total Ventas
0,2023,454470
1,2024,1530
