# Análisis y Predicción de Ventas en una Tienda de Retail (Core)
## Parte III: Transformación y Análisis Avanzado de Datos con Pandas

# PARTE 3

## Instrucciones

### Introducción al Proyecto.

En esta tercera parte del proyecto, continuaremos trabajando con el dataset de ventas que utilizamos en la Parte II. En esta fase, aplicaremos técnicas avanzadas de transformación y análisis de datos utilizando las nuevas habilidades adquiridas en Pandas, tales como agrupaciones complejas y el uso del método apply. Nos enfocaremos en extraer insights más profundos y preparar los datos para futuros análisis y modelos predictivos.

### Instrucciones:

1. Transformación de Datos
   * Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
   * Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).
2. Agrupación y Agregación
   * Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
   * Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.
3. Análisis Personalizado con apply
   * Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
   * Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.
4. Documentación
   * Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
   * Código legible: Asegúrate de que el código sea legible y esté bien comentado.


## Sobre los campos del dataset

About this file

1. **Transaction ID:** A unique identifier for each transaction, allowing tracking and reference.
2. **Date:** The date when the transaction occurred, providing insights into sales trends over time.
3. **Customer ID:** A unique identifier for each customer, enabling customer-centric analysis.
4. **Gender:** The gender of the customer (Male/Female), offering insights into gender-based purchasing patterns.
5. **Age:** The age of the customer, facilitating segmentation and exploration of age-related influences.
6. **Product Category:** The category of the purchased product (e.g., Electronics, Clothing, Beauty), helping understand product preferences.
7. **Quantity:** The number of units of the product purchased, contributing to insights on purchase volumes.
8. **Price per Unit:** The price of one unit of the product, aiding in calculations related to total spending.
9. **Total Amount:** The total monetary value of the transaction, showcasing the financial impact of each purchase.


*Traducción de los campos del dataset*
1. **Transaction ID:** Un identificador único para cada transacción, que permite su seguimiento y referencia.
2. **Date:** La fecha en que se produjo la transacción, lo que permite conocer las tendencias de las ventas a lo largo del tiempo.
3. **Customer ID:** Un identificador único para cada cliente, que permite un análisis centrado en el cliente.
4. **Gender:** El sexo del cliente (hombre/mujer), que ofrece información sobre las pautas de compra en función del sexo 
5. **Age:** La edad del cliente, que facilita la segmentación y la exploración de las influencias relacionadas con la edad.
6. **Product Category:** La categoría del producto comprado (por ejemplo, electrónica, ropa, belleza), que ayuda a comprender las preferencias de producto.
7. **Quantity:** El número de unidades del producto comprado, lo que contribuye a comprender los volúmenes de compra.
8. **Price per Unit:** El precio de una unidad del producto, lo que ayuda a realizar cálculos relacionados con el gasto total.
9. **Total Amount:** El valor monetario total de la transacción, que muestra el impacto financiero de cada compra.

Cada columna de este conjunto de datos desempeña un papel fundamental a la hora de desentrañar la dinámica de las operaciones minoristas y el comportamiento de los clientes. Al explorar y analizar estos atributos, descubrirá tendencias, patrones y correlaciones que arrojan luz sobre la compleja interacción entre clientes y productos en un entorno minorista.

1. ID de transacción: 
2. Fecha:
3. ID de cliente: 
4. Sexo: 
5. Edad: 
6. Categoría del producto: 
7. Cantidad:
8. Precio por Unidad: 
9. Importe total: 


## Desarrollo

#### **1. Transformación de Datos**
   * Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
   * Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

In [41]:
import pandas as pd
from IPython.display import display #Para Impiimir en formato TABLA

In [42]:
# Cargar datos desde un archivo CSV
df = pd.read_csv(r'C:\Users\GIGABYTE\Documents\tareas_bootcamp_coding_dojo\mod_1_data_fundamentals\2_proyecto_retail_sales_analysis\data\retail_sales.csv')


In [43]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Transaction ID    1000 non-null   int64 
 1   Date              1000 non-null   object
 2   Customer ID       1000 non-null   object
 3   Gender            1000 non-null   object
 4   Age               1000 non-null   int64 
 5   Product Category  1000 non-null   object
 6   Quantity          1000 non-null   int64 
 7   Price per Unit    1000 non-null   int64 
 8   Total Amount      1000 non-null   int64 
dtypes: int64(5), object(4)
memory usage: 70.4+ KB


In [44]:
# Renombrar las columnas del DataFrame
df.columns = df.columns.str.lower().str.replace(' ', '_')
df.dtypes

transaction_id       int64
date                object
customer_id         object
gender              object
age                  int64
product_category    object
quantity             int64
price_per_unit       int64
total_amount         int64
dtype: object

In [45]:
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100


#### **Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.**

In [46]:
# Validar que'Date' esté en formato de fecha
df['date'] = pd.to_datetime(df['date'])

# Extraer el mes y crear una nueva columna 'Mes'
df['mes'] = df['date'].dt.month

# Imprimir el DataFrame actualizado
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,mes
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,11
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,2
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,1
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,5
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,5


In [47]:
# Definir los rangos y etiquetas
bins = [0, 24, 34, 44, 54, 64, float('inf')]  # Los límites de los rangos
labels = ['18-24', '25-34', '35-44', '45-54', '55-64', '65+']  # Las etiquetas para cada rango

# Crear la nueva columna 'Age Range'
df['age_range'] = pd.cut(df['age'], bins=bins, labels=labels, right=True)

# Imprimir el DataFrame actualizado
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,mes,age_range
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,11,25-34
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,2,25-34
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,1,45-54
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,5,35-44
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,5,25-34


#### **Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).**

In [48]:
# Definir una función para clasificar las ventas
def classify_sales(amount):
    if amount <= 100:
        return 'Baja'
    elif amount <= 500:
        return 'Media'
    else:
        return 'Alta'

# Aplicar la función y crear una nueva columna 'Sales Category'
df['sales_category'] = df['total_amount'].apply(classify_sales)

# Imprimir el DataFrame actualizado
df.head()

Unnamed: 0,transaction_id,date,customer_id,gender,age,product_category,quantity,price_per_unit,total_amount,mes,age_range,sales_category
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,11,25-34,Media
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,2,25-34,Alta
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,1,45-54,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,5,35-44,Media
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,5,25-34,Baja


#### **2. Agrupación y Agregación**
   * Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
   * Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.


#### **Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.**

In [49]:
# Agrupar por 'mes' y 'product_category', y sumar 'total_amount'
''' 
Para analizar las tendencias de ventas en diferentes períodos de tiempo y cómo varían según las 
categorías de productos. Esta información puede proporcionar insights valiosos, como identificar 
qué productos son más populares en ciertos meses, lo que puede ayudar en la planificación de inventarios, 
promociones y campañas de marketing.
'''

grouped_result = df.groupby(['mes', 'product_category'])['total_amount'].sum().reset_index()

# Imprimir el resultado
print("Agrupación por Mes y Categoría de Producto:")
display(grouped_result)

Agrupación por Mes y Categoría de Producto:


Unnamed: 0,mes,product_category,total_amount
0,1,Beauty,13930
1,1,Clothing,13125
2,1,Electronics,9925
3,2,Beauty,14035
4,2,Clothing,14560
5,2,Electronics,15465
6,3,Beauty,10545
7,3,Clothing,15065
8,3,Electronics,3380
9,4,Beauty,11905


#### **Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.**

In [50]:
# Agrupar por 'age_range' y 'product_category', y sumar 'total_amount' con observed=True
# Para analizar cómo varían las preferencias de compra según la edad
age_product_preferences = df.groupby(['age_range', 'gender','product_category'], observed=True)['total_amount'].sum().reset_index()

# Imprimir el resultado
print("\nPreferencias de Productos por Rango de Edad:")
display(age_product_preferences)



Preferencias de Productos por Rango de Edad:


Unnamed: 0,age_range,gender,product_category,total_amount
0,18-24,Female,Beauty,12435
1,18-24,Female,Clothing,9625
2,18-24,Female,Electronics,13860
3,18-24,Male,Beauty,16470
4,18-24,Male,Clothing,12535
5,18-24,Male,Electronics,9725
6,25-34,Female,Beauty,16750
7,25-34,Female,Clothing,19975
8,25-34,Female,Electronics,15125
9,25-34,Male,Beauty,11790


#### **3. Análisis Personalizado con apply**
   * Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
   * Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.
.

#### **Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.**

In [51]:
# Función personalizada para calcular la edad promedio por género
def average_age(group):
    return group['age'].mean()

# Aplicar la función personalizada
average_ages = df.groupby('gender').apply(average_age).reset_index(name='average_Age')

# Imprimir el resultado
print(average_ages)


   gender  average_Age
0  Female    41.356863
1    Male    41.428571


  average_ages = df.groupby('gender').apply(average_age).reset_index(name='average_Age')


#### **Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.**

In [52]:
# Función personalizada para encontrar la moda de la categoría de producto
def mode_product_category(group):
    return group['product_category'].mode()[0]

# Aplicar la función personalizada
popular_products = df.groupby('gender').apply(mode_product_category).reset_index(name='most popular product category')

# Imprimir el resultado
print(popular_products)

   gender most popular product category
0  Female                      Clothing
1    Male                      Clothing


  popular_products = df.groupby('gender').apply(mode_product_category).reset_index(name='most popular product category')


#### **4. Documentación**
   * Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
   * Código legible: Asegúrate de que el código sea legible y esté bien comentado