## **Parte III:** Transformación y Análisis Avanzado de Datos con Pandas

En esta tercera parte del proyecto, continuaremos trabajando con el dataset de ventas que utilizamos en la Parte II. En esta fase, aplicaremos técnicas avanzadas de transformación y análisis de datos utilizando las nuevas habilidades adquiridas en Pandas, tales como agrupaciones complejas y el uso del método apply. Nos enfocaremos en extraer insights más profundos y preparar los datos para futuros análisis y modelos predictivos.

### **Instrucciones**

1. **Transformación de Datos**
    - Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis. Por ejemplo, calcula el ingreso total por venta y normaliza las ventas.
    - Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).

2. **Agrupación y Agregación**
    - Agrupación por múltiples columnas: Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

    - Aplicar funciones de agregación: Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

3. **Análisis Personalizado con apply**
    - Función personalizada: Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.
    - Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

4. **Documentación**
    - Comentarios claros: Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
    - Código legible: Asegúrate de que el código sea legible y esté bien comentado.


In [6]:
import pandas as pd

# 1. Cargar los datos
ruta_archivo = r'C:\Users\Andy\Documents\Proyecto_1\Data\retail_sales_dataset.csv'
datos = pd.read_csv(ruta_archivo)

# 2. Transformación de Datos
# Crear nuevas columnas: Ingreso total por venta y normalizar las ventas
datos['Total Income'] = datos['Quantity'] * datos['Price per Unit']
datos['Normalized Sales'] = (datos['Total Amount'] - datos['Total Amount'].min()) / (datos['Total Amount'].max() - datos['Total Amount'].min())

# Clasificar las ventas
def clasificar_ventas(total):
    if total > 500:
        return 'Alta'
    elif total > 200:
        return 'Media'
    else:
        return 'Baja'

datos['Sales Category'] = datos['Total Amount'].apply(clasificar_ventas)

# 3. Agrupación y Agregación
# Agrupación por categoría de producto
agrupados_producto = datos.groupby(['Product Category'])['Total Amount'].agg(['sum', 'mean', 'count', 'min', 'max', 'std', 'var']).reset_index()
print("\nEstadísticas por categoría de producto:")
print(agrupados_producto)

# 4. Análisis Personalizado con apply
# Función para calcular la desviación respecto a la media de su grupo
def calcular_desviacion(row):
    grupo = datos[datos['Product Category'] == row['Product Category']]
    media = grupo['Total Amount'].mean()
    return row['Total Amount'] - media

# Aplicar la función personalizada
datos['Deviation from Mean'] = datos.apply(calcular_desviacion, axis=1)

# 5. Documentación

print("\nPrimeras 5 filas con análisis personalizado:")
print(datos[['Product Category', 'Total Amount', 'Deviation from Mean']].head())



Estadísticas por categoría de producto:
  Product Category     sum        mean  count  min   max         std  \
0           Beauty  143515  467.475570    307   25  2000  563.612788   
1         Clothing  155580  443.247863    351   25  2000  550.695917   
2      Electronics  156905  458.786550    342   25  2000  567.540150   

             var  
0  317659.374401  
1  303265.992674  
2  322101.822341  

Primeras 5 filas con análisis personalizado:
  Product Category  Total Amount  Deviation from Mean
0           Beauty           150          -317.475570
1         Clothing          1000           556.752137
2      Electronics            30          -428.786550
3         Clothing           500            56.752137
4           Beauty           100          -367.475570
