    Análisis y Predicción de Ventas en una Tienda de Retail (Core)

Parte III: Transformación y Análisis Avanzado de Datos con Pandas

En esta tercera parte del proyecto, continuaremos trabajando con el dataset de ventas que utilizamos en la Parte II. En esta fase, aplicaremos técnicas avanzadas de transformación y análisis de datos utilizando las nuevas habilidades adquiridas en Pandas, tales como agrupaciones complejas y el uso del método apply. Nos enfocaremos en extraer insights más profundos y preparar los datos para futuros análisis y modelos predictivos.

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('../data/vgsales.csv') # use este dataset ya que el retail_sales_dataset.csv tiene muy pocas columnas utiles
print(df.shape)
df.head(5)


(16598, 11)


Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006.0,Sports,Nintendo,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37


# Transformación de Datos

## Crea nuevas columnas: Basándonos en los datos existentes, crea nuevas columnas que sean útiles para el análisis.
* Por ejemplo el porcentaje que representan cada region del total Global_Sales

In [17]:

df['NA_Porcentaje'] = df['NA_Sales'] / df['Global_Sales'] * 100
print(df['NA_Porcentaje'].round(2))

0         50.15
1         72.27
2         44.25
3         47.73
4         35.93
          ...  
16593    100.00
16594    100.00
16595      0.00
16596      0.00
16597    100.00
Name: NA_Porcentaje, Length: 16598, dtype: float64


In [18]:
df['EU_Porcentaje'] = df['EU_Sales'] / df['Global_Sales'] * 100
print(df['EU_Porcentaje'].round(2))

0         35.07
1          8.90
2         35.96
3         33.36
4         28.34
          ...  
16593      0.00
16594      0.00
16595      0.00
16596    100.00
16597      0.00
Name: EU_Porcentaje, Length: 16598, dtype: float64


In [19]:
df['JP_Porcentaje'] = df['JP_Sales'] / df['Global_Sales'] * 100
print(df['JP_Porcentaje'].round(2))

0         4.56
1        16.92
2        10.58
3         9.94
4        32.58
         ...  
16593     0.00
16594     0.00
16595     0.00
16596     0.00
16597     0.00
Name: JP_Porcentaje, Length: 16598, dtype: float64


In [20]:
df['Other_Porcentaje'] = df['Other_Sales'] / df['Global_Sales'] * 100
print(df['Other_Porcentaje'].round(2))

0        10.22
1         1.91
2         9.24
3         8.97
4         3.19
         ...  
16593     0.00
16594     0.00
16595     0.00
16596     0.00
16597     0.00
Name: Other_Porcentaje, Length: 16598, dtype: float64


In [14]:
# Clasifica los datos: Crea una columna que clasifique las ventas en categorías significativas (e.g., ‘Alta’, ‘Media’, ‘Baja’).
df['sales_category'] = df['Global_Sales'].apply(lambda x: 'Alto' if x > 40 else ('Medio' if x > 10 else 'Bajo'))
print(df['sales_category'])

0         Alto
1         Alto
2        Medio
3        Medio
4        Medio
         ...  
16593     Bajo
16594     Bajo
16595     Bajo
16596     Bajo
16597     Bajo
Name: sales_category, Length: 16598, dtype: object


# Agrupación y Agregación

In [None]:
# Agrupación por múltiples columnas: 
# Realiza agrupaciones por categorías como producto y tienda, producto y mes, etc.

# Agrupo por las ventas totales por genero
sales_by_genre = df.groupby('Genre')['Global_Sales'].sum().reset_index()
print(sales_by_genre)

In [None]:
# Agrupo por 'Genre' y sumar las 'Global_Sales'
Nasales_by_publisher = df.groupby('Publisher')['NA_Sales'].sum().reset_index()
print(Nasales_by_publisher)

In [None]:
# Aplicar funciones de agregación: 
# Utiliza funciones como sum, mean, count, min, max, std, y var para obtener estadísticas descriptivas de cada grupo.

sales_by_genre = df.groupby('Genre')['Global_Sales'].agg(['mean', 'max', 'min', 'std'])

print(sales_by_genre)

In [None]:
sales_by_genre = df.groupby('Publisher')['NA_Sales'].agg(['mean', 'max', 'min', 'std'])

print(sales_by_genre)

Análisis Personalizado con apply

In [8]:
# Función personalizada: 
# Aplica funciones personalizadas para realizar análisis específicos que no se pueden lograr con las funciones de agregación estándar.

# Los juegos de la compañia Activision que hayan superado los 10 millones en ventas a nivel global
juegos_filtrados = df[df.apply(lambda x: x['Publisher'] == 'Activision' and x['Global_Sales'] > 10, axis=1)]

print(juegos_filtrados[['Name', 'Global_Sales']])

                              Name  Global_Sales
29  Call of Duty: Modern Warfare 3         14.76
31         Call of Duty: Black Ops         14.64
33       Call of Duty: Black Ops 3         14.24
34      Call of Duty: Black Ops II         14.03
35      Call of Duty: Black Ops II         13.73
36  Call of Duty: Modern Warfare 2         13.51
37  Call of Duty: Modern Warfare 3         13.46
40         Call of Duty: Black Ops         12.73
55  Call of Duty: Modern Warfare 2         10.69
61            Call of Duty: Ghosts         10.21


In [5]:
# Ejemplo de uso avanzado: Calcula la desviación de cada venta respecto a la media de su grupo.

df['Desviacion_Ventas'] = df.groupby('Genre').apply(
    lambda grupo: grupo['Global_Sales'] - grupo['Global_Sales'].mean()
).reset_index(level=0, drop=True)

# Mostrar algunos resultados
print(df[['Name', 'Global_Sales', 'Desviacion_Ventas']])

                                                   Name  Global_Sales  \
0                                            Wii Sports         82.74   
1                                     Super Mario Bros.         40.24   
2                                        Mario Kart Wii         35.82   
3                                     Wii Sports Resort         33.00   
4                              Pokemon Red/Pokemon Blue         31.37   
...                                                 ...           ...   
16593                Woody Woodpecker in Crazy Castle 5          0.01   
16594                     Men in Black II: Alien Escape          0.01   
16595  SCORE International Baja 1000: The Official Game          0.01   
16596                                        Know How 2          0.01   
16597                                  Spirits & Spells          0.01   

       Desviacion_Ventas  
0              82.172681  
1              39.301659  
2              35.233899  
3              

  df['Desviacion_Ventas'] = df.groupby('Genre').apply(


In [6]:
df.to_csv('vgsales_clonado.csv', index=False)
