# Transformacion y Analisis Avanzado de Datos con Pandas

#### **Juan Jose Gini Becker**

##### Instrucciones
**Transformación de Datos**
* **Crea nuevas columnas:** Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
* **Clasifica los datos:** Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

**Agrupación y Agregación**
* **Agrupación por múltiples columnas:** Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.
* **Aplicar funciones de agregación:** Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

**Análisis Personalizado con apply**
* **Función personalizada:** Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
* **Ejemplo de uso avanzado:** Calcula la desviación de cada venta respecto a la media de su grupo.

**Documentación**
* **Comentarios claros:** Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
* **Código legible:** Asegúrate de que el código sea legible y esté bien comentado.

In [1]:
import pandas as pd

# Ruta del archivo CSV que contiene los datos a ser analizados
ruta_archivo = '../data/retail_sales_dataset.csv'

df = pd.read_csv(ruta_archivo)

df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100
...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150


In [4]:
# Crear una nueva columna que clasifique las ventas en Alta, Media y Baja

# Funcion pd.cut() sirve para cambiar variables continuas en categorias

df['Categoria Venta'] = pd.cut(
    x=df['Total Amount'],
    bins=3,
    labels=['Baja', 'Media', 'Alta']
)

df.head(30)

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Categoria Venta
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Baja
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Media
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Baja
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Baja
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Baja
5,6,2023-04-25,CUST006,Female,45,Beauty,1,30,30,Baja
6,7,2023-03-13,CUST007,Male,46,Clothing,2,25,50,Baja
7,8,2023-02-22,CUST008,Male,30,Electronics,4,25,100,Baja
8,9,2023-12-13,CUST009,Male,63,Electronics,2,300,600,Baja
9,10,2023-10-07,CUST010,Female,52,Clothing,4,50,200,Baja


In [5]:
# Agrupacion por Categoria de Producto y por Gender

# Total de Ventas por Product Category por genero.

df[['Gender', 'Product Category', 'Total Amount']].groupby(['Product Category', 'Gender']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Amount
Product Category,Gender,Unnamed: 2_level_1
Beauty,Female,74830
Beauty,Male,68685
Clothing,Female,81275
Clothing,Male,74305
Electronics,Female,76735
Electronics,Male,80170


In [6]:
df['Age'].describe()

count    1000.00000
mean       41.39200
std        13.68143
min        18.00000
25%        29.00000
50%        42.00000
75%        53.00000
max        64.00000
Name: Age, dtype: float64

In [8]:
# Usar el metodo apply para aplicar una funcion que no se puede realizar con las funciones de agregacion

# Clasificar las edades de los clientes en categorias:
# - Joven (< 30)
# - Adulto (30 - 50)
# - Mayor (> 50)

def clasificar_cliente(row):
    age = int(row['Age'])
    if age < 30:
        return 'Joven (< 30)'
    elif 30 <= age < 50:
        return 'Adulto (30 - 50)'
    else:
        return 'Mayor (50+)'
    
df['Age Group'] = df.apply(clasificar_cliente, axis=1)

df

Unnamed: 0,Transaction ID,Date,Customer ID,Gender,Age,Product Category,Quantity,Price per Unit,Total Amount,Categoria Venta,Age Group
0,1,2023-11-24,CUST001,Male,34,Beauty,3,50,150,Baja,Adulto (30 - 50)
1,2,2023-02-27,CUST002,Female,26,Clothing,2,500,1000,Media,Joven (< 30)
2,3,2023-01-13,CUST003,Male,50,Electronics,1,30,30,Baja,Mayor (50+)
3,4,2023-05-21,CUST004,Male,37,Clothing,1,500,500,Baja,Adulto (30 - 50)
4,5,2023-05-06,CUST005,Male,30,Beauty,2,50,100,Baja,Adulto (30 - 50)
...,...,...,...,...,...,...,...,...,...,...,...
995,996,2023-05-16,CUST996,Male,62,Clothing,1,50,50,Baja,Mayor (50+)
996,997,2023-11-17,CUST997,Male,52,Beauty,3,30,90,Baja,Mayor (50+)
997,998,2023-10-29,CUST998,Female,23,Beauty,4,25,100,Baja,Joven (< 30)
998,999,2023-12-05,CUST999,Female,36,Electronics,3,50,150,Baja,Adulto (30 - 50)
