<a href="https://colab.research.google.com/github/Javorai/Coding-Dojo-Core/blob/main/Pandas_para_Ciencia_de_Datos_II_Proyecto_I_Parte_III_(Core).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Análisis y Predicción de Ventas en una Tienda de Retail (Core)**
**Parte III: Transformación y Análisis Avanzado de Datos con Pandas**

En esta tercera parte del proyecto, continuaremos trabajando con el dataset de ventas que utilizamos en la Parte II. En esta fase, aplicaremos técnicas avanzadas de transformación y análisis de datos utilizando las nuevas habilidades adquiridas en Pandas, tales como agrupaciones complejas y el uso del método apply. Nos enfocaremos en extraer insights más profundos y preparar los datos para futuros análisis y modelos predictivos.

**Instrucciones**

1.  **Transformación de Datos**
* **Crea nuevas columnas:** Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
* **Clasifica los datos:** Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).
2. **Agrupación y Agregación**
* **Agrupación por múltiples columnas:** Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
* **Aplicar funciones de agregación:** Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.
3.  **Análisis Personalizado con apply**
* **Función personalizada:** Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
* **Ejemplo de uso avanzado:** Calcula la desviación de cada venta respecto a la media de su grupo.
4.  **Documentación**
* **Comentarios claros:** Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* **Código legible:** Asegúrate de que el código sea legible y esté bien comentado.

In [2]:
#Importación de datos y librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = "/content/drive/MyDrive/Bootcamp Coding Dojo/DataScience/Tareas Core/Archivos CSV-Tareas/retail_sales_dataset.csv"
df = pd.read_csv(url)
df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [8]:
# Transformación de Datos
# Creamos columna de "IVA"
df['IVA'] = df['Total Amount'] / 11
df['IVA']

Unnamed: 0,IVA
0,13.636364
1,90.909091
2,2.727273
3,45.454545
4,9.090909
...,...
995,4.545455
996,8.181818
997,9.090909
998,13.636364


In [21]:
# Clasificación de datos según Categoria de Venta
data = {'Total Amount': [25, 300, 500, 1200, 1500, 2000, 2200]}
df = pd.DataFrame(data)

# Límites de las categorías y las etiquetas
bins = [24, 1000, 1200, float('inf')]
labels = ['Baja', 'Media', 'Alta']
df['categoria_ventas'] = pd.cut(df['Total Amount'], bins=bins, labels=labels)

print(df)


   Total Amount categoria_ventas
0            25             Baja
1           300             Baja
2           500             Baja
3          1200            Media
4          1500             Alta
5          2000             Alta
6          2200             Alta


In [24]:
# Agrupación por Producto y Genero
data = {
    'Product Category': ['Beauty', 'Clothing', 'Electronics', 'Beauty', 'Clothing', 'Electronics'],
    'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female'],
    'Quantity': [1, 2, 3, 4, 1, 2],
}
df = pd.DataFrame(data)

grouped_gender = df.groupby(['Product Category', 'Gender']).agg({
    'Quantity': ['sum', 'mean']
})

print(grouped_gender)


                        Quantity     
                             sum mean
Product Category Gender              
Beauty           Female        4  4.0
                 Male          1  1.0
Clothing         Female        3  1.5
Electronics      Female        2  2.0
                 Male          3  3.0


In [29]:
# Agrupación por Producto y Edad
data = {
    'Product Category': ['Beauty', 'Clothing', 'Electronics', 'Beauty', 'Clothing', 'Electronics'],
    'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female'],
    'Quantity': [1, 2, 3, 4, 1, 2],
    # Add 'Age' column to the data
    'Age': [22, 30, 25, 40, 35, 28]
}

df = pd.DataFrame(data)

bins = [18, 25, 35, 45, 55, 65]
labels = ['18-25', '26-35', '36-45', '46-55', '56-65']

df['Age Group'] = pd.cut(df['Age'], bins=bins, labels=labels)

grouped_age = df.groupby(['Product Category', 'Age Group']).agg({
    'Quantity': 'sum'
})

print(grouped_age)

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

                            Quantity
Product Category Age Group          
Beauty           18-25             1
                 26-35             0
                 36-45             4
                 46-55             0
                 56-65             0
Clothing         18-25             0
                 26-35             3
                 36-45             0
                 46-55             0
                 56-65             0
Electronics      18-25             3
                 26-35             2
                 36-45             0
                 46-55             0
                 56-65             0


In [31]:
# Funciones de Agregación
data = {
    'Product Category': ['Beauty', 'Clothing', 'Electronics', 'Beauty', 'Clothing', 'Electronics'],
    'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female'],
    'Quantity': [1, 2, 3, 4, 1, 2],
    'Age': [18, 25, 32, 45, 22, 64]
}
df = pd.DataFrame(data)

# Aplicación de funciones de agregación
agrupaciones = df.groupby(['Product Category', 'Gender']).agg({
    'Quantity': ['sum', 'mean', 'count', 'min', 'max', 'std', 'var']
})

print(agrupaciones)


                        Quantity                                  
                             sum mean count min max       std  var
Product Category Gender                                           
Beauty           Female        4  4.0     1   4   4       NaN  NaN
                 Male          1  1.0     1   1   1       NaN  NaN
Clothing         Female        3  1.5     2   1   2  0.707107  0.5
Electronics      Female        2  2.0     1   2   2       NaN  NaN
                 Male          3  3.0     1   3   3       NaN  NaN


In [34]:
# Calculo de Rendimiento
def calcular_rendimiento(fila):
    fila['Total Amount'] = fila['Quantity'] * 10
    return fila['Quantity'] * 0.4 + fila['Total Amount'] * 0.6

data = {
    'Product Category': ['Beauty', 'Clothing', 'Electronics', 'Beauty', 'Clothing', 'Electronics'],
    'Gender': ['Male', 'Female', 'Male', 'Female', 'Female', 'Female'],
    'Quantity': [1, 2, 3, 4, 1, 2],
    'Age': [18, 25, 32, 45, 22, 64]
}
df = pd.DataFrame(data)

df['performance_score'] = df.apply(calcular_rendimiento, axis=1)

print(df[['Product Category', 'Gender','Quantity','performance_score']])


  Product Category  Gender  Quantity  performance_score
0           Beauty    Male         1                6.4
1         Clothing  Female         2               12.8
2      Electronics    Male         3               19.2
3           Beauty  Female         4               25.6
4         Clothing  Female         1                6.4
5      Electronics  Female         2               12.8


In [36]:
# Clasificación del Rendimiento
def clasificar_rendimiento(fila):
    if fila['performance_score'] >= 500:
        return 'Alta'
    elif 200 <= fila['performance_score'] < 500:
        return 'Media'
    else:
        return 'Baja'

df['performance_category'] = df.apply(clasificar_rendimiento, axis=1)

print(df[['Product Category', 'Gender', 'performance_score', 'performance_category']])


  Product Category  Gender  performance_score performance_category
0           Beauty    Male                6.4                 Baja
1         Clothing  Female               12.8                 Baja
2      Electronics    Male               19.2                 Baja
3           Beauty  Female               25.6                 Baja
4         Clothing  Female                6.4                 Baja
5      Electronics  Female               12.8                 Baja
