# Analisis con Pandas y Kaggle (Core)

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

Instrucciones

1. Preparación del Entorno
- Asegúrate de tener instalado Pandas en tu entorno de trabajo.
- Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.
2. Cargar los Datos
- Carga el archivo CSV en un DataFrame de Pandas.
- Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.
3. Exploración Inicial de los Datos
- Muestra las últimas 5 filas del DataFrame.
- Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
- Genera estadísticas descriptivas del DataFrame utilizando el método describe().
4. Limpieza de Datos
- Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
- Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
- Elimina duplicados si los hay.
5. Transformación de Datos
- Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
- Normaliza o estandariza columnas si es necesario.
- Clasifica los datos en categorías relevantes.
6. Análisis de Datos
- Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
- Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
- Utiliza el método apply para realizar operaciones más complejas y personalizadas.
7. Documentación
- Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
- Asegúrate de que el código sea legible y esté bien comentado.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('/Users/mathiorti/Desktop/Me/Cursos/Data Analisis and Machine Learning/vgsales.csv')
print(df.head(10))

   Rank                       Name Platform    Year         Genre Publisher  \
0     1                 Wii Sports      Wii  2006.0        Sports  Nintendo   
1     2          Super Mario Bros.      NES  1985.0      Platform  Nintendo   
2     3             Mario Kart Wii      Wii  2008.0        Racing  Nintendo   
3     4          Wii Sports Resort      Wii  2009.0        Sports  Nintendo   
4     5   Pokemon Red/Pokemon Blue       GB  1996.0  Role-Playing  Nintendo   
5     6                     Tetris       GB  1989.0        Puzzle  Nintendo   
6     7      New Super Mario Bros.       DS  2006.0      Platform  Nintendo   
7     8                   Wii Play      Wii  2006.0          Misc  Nintendo   
8     9  New Super Mario Bros. Wii      Wii  2009.0      Platform  Nintendo   
9    10                  Duck Hunt      NES  1984.0       Shooter  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  
0     41.49     29.02      3.77         8.46         82.74  
1     29

In [2]:
#Mostras las últimas 5 filas
tail_df = df.tail()
print(tail_df)


        Rank                                              Name Platform  \
16593  16596                Woody Woodpecker in Crazy Castle 5      GBA   
16594  16597                     Men in Black II: Alien Escape       GC   
16595  16598  SCORE International Baja 1000: The Official Game      PS2   
16596  16599                                        Know How 2       DS   
16597  16600                                  Spirits & Spells      GBA   

         Year     Genre   Publisher  NA_Sales  EU_Sales  JP_Sales  \
16593  2002.0  Platform       Kemco      0.01      0.00       0.0   
16594  2003.0   Shooter  Infogrames      0.01      0.00       0.0   
16595  2008.0    Racing  Activision      0.00      0.00       0.0   
16596  2010.0    Puzzle    7G//AMES      0.00      0.01       0.0   
16597  2003.0  Platform     Wanadoo      0.01      0.00       0.0   

       Other_Sales  Global_Sales  
16593          0.0          0.01  
16594          0.0          0.01  
16595          0.0          0

In [7]:
#Info y estadísticas descriptivas
info_df = df.info()
describe_df = df.describe()

print(describe_df)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Rank          16598 non-null  int64  
 1   Name          16598 non-null  object 
 2   Platform      16598 non-null  object 
 3   Year          16327 non-null  float64
 4   Genre         16598 non-null  object 
 5   Publisher     16540 non-null  object 
 6   NA_Sales      16598 non-null  float64
 7   EU_Sales      16598 non-null  float64
 8   JP_Sales      16598 non-null  float64
 9   Other_Sales   16598 non-null  float64
 10  Global_Sales  16598 non-null  float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB
               Rank          Year      NA_Sales      EU_Sales      JP_Sales  \
count  16598.000000  16327.000000  16598.000000  16598.000000  16598.000000   
mean    8300.605254   2006.406443      0.264667      0.146652      0.077782   
std     4791.853933      5.828981

In [8]:
#Maneja los datos faltantes
valores_nulos = df.isnull().sum()
print(valores_nulos)

Rank              0
Name              0
Platform          0
Year            271
Genre             0
Publisher        58
NA_Sales          0
EU_Sales          0
JP_Sales          0
Other_Sales       0
Global_Sales      0
dtype: int64


In [14]:
#Quiere decir que hay 271 valores nulos en años y 58 en publisher
#Podemos usar la media para para completar los años
df['Year'] = df['Year'].fillna(df['Year'].mean())
valores_actualizados1 = df.isnull().sum()
print(valores_actualizados1)

Rank             0
Name             0
Platform         0
Year             0
Genre            0
Publisher       58
NA_Sales         0
EU_Sales         0
JP_Sales         0
Other_Sales      0
Global_Sales     0
dtype: int64


In [15]:
#Para publisher eliminaremos las filas con valores nulos
df = df.dropna()
valores_actualizados2 = df.isnull().sum()
print(valores_actualizados2)


Rank            0
Name            0
Platform        0
Year            0
Genre           0
Publisher       0
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64


In [16]:
#Puedo poner year como entero
df['Year'] = df['Year'].astype(int)
print(df.dtypes)


Rank              int64
Name             object
Platform         object
Year              int64
Genre            object
Publisher        object
NA_Sales        float64
EU_Sales        float64
JP_Sales        float64
Other_Sales     float64
Global_Sales    float64
dtype: object


In [18]:
#Viendo si hay duplicados
duplicados = df.duplicated().sum()
print(duplicados)

0


In [19]:
#Ahora puedo agregar una columna de las ventas totales
df['Total sales'] = df[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales']].sum(axis = 1) #Con axis = 1 sumo las columnas
print(df.head())

   Rank                      Name Platform  Year         Genre Publisher  \
0     1                Wii Sports      Wii  2006        Sports  Nintendo   
1     2         Super Mario Bros.      NES  1985      Platform  Nintendo   
2     3            Mario Kart Wii      Wii  2008        Racing  Nintendo   
3     4         Wii Sports Resort      Wii  2009        Sports  Nintendo   
4     5  Pokemon Red/Pokemon Blue       GB  1996  Role-Playing  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  Total sales  
0     41.49     29.02      3.77         8.46         82.74        82.74  
1     29.08      3.58      6.81         0.77         40.24        40.24  
2     15.85     12.88      3.79         3.31         35.82        35.83  
3     15.75     11.01      3.28         2.96         33.00        33.00  
4     11.27      8.89     10.22         1.00         31.37        31.38  


In [20]:
#Clasificando datos en categorías relevantes
#NA y EU son los más importantes,
df['Important_sales'] = df[['NA_Sales', 'EU_Sales']].sum(axis = 1)
print(df.head())

   Rank                      Name Platform  Year         Genre Publisher  \
0     1                Wii Sports      Wii  2006        Sports  Nintendo   
1     2         Super Mario Bros.      NES  1985      Platform  Nintendo   
2     3            Mario Kart Wii      Wii  2008        Racing  Nintendo   
3     4         Wii Sports Resort      Wii  2009        Sports  Nintendo   
4     5  Pokemon Red/Pokemon Blue       GB  1996  Role-Playing  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  Total sales  \
0     41.49     29.02      3.77         8.46         82.74        82.74   
1     29.08      3.58      6.81         0.77         40.24        40.24   
2     15.85     12.88      3.79         3.31         35.82        35.83   
3     15.75     11.01      3.28         2.96         33.00        33.00   
4     11.27      8.89     10.22         1.00         31.37        31.38   

   Important_sales  
0            70.51  
1            32.66  
2            28.73  
3       

In [22]:
#Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
#Calcularemos cuantas ventas hay por género, por año, por publisher, plataforma 
ventas_por_genre = df.groupby('Genre')['Total sales'].sum()
print(ventas_por_genre)

Genre
Action          1749.30
Adventure        238.55
Fighting         445.73
Misc             801.54
Platform         830.54
Puzzle           244.41
Racing           731.76
Role-Playing     927.20
Shooter         1036.80
Simulation       391.67
Sports          1328.96
Strategy         174.57
Name: Total sales, dtype: float64


In [23]:
ventas_por_año = df.groupby('Year')['Total sales'].sum()
print(ventas_por_año)

Year
1980     11.38
1981     35.68
1982     28.88
1983     16.80
1984     50.35
1985     53.95
1986     37.08
1987     21.70
1988     47.21
1989     73.45
1990     49.37
1991     32.23
1992     76.14
1993     45.99
1994     79.22
1995     88.11
1996    199.15
1997    201.07
1998    256.33
1999    251.12
2000    201.63
2001    331.49
2002    394.97
2003    357.61
2004    413.61
2005    457.97
2006    614.03
2007    609.23
2008    678.49
2009    667.10
2010    600.20
2011    515.74
2012    363.25
2013    367.98
2014    337.08
2015    264.26
2016     70.84
2017      0.05
2020      0.29
Name: Total sales, dtype: float64


In [25]:
ventas_por_publisher = df.groupby('Publisher')['Total sales'].sum()
print(ventas_por_publisher)

Publisher
10TACLE Studios                  0.11
1C Company                       0.10
20th Century Fox Video Games     1.93
2D Boy                           0.04
3DO                             10.15
                                ...  
id Software                      0.02
imageepoch Inc.                  0.04
inXile Entertainment             0.09
mixi, Inc                        0.86
responDESIGN                     0.14
Name: Total sales, Length: 578, dtype: float64


In [26]:
ventas_por_plataforma = df.groupby('Platform')['Total sales'].sum()
print(ventas_por_plataforma)

Platform
2600      96.98
3DO        0.10
3DS      247.34
DC        15.95
DS       821.17
GB       255.46
GBA      309.68
GC       198.93
GEN       28.35
GG         0.04
N64      218.68
NES      251.05
NG         1.44
PC       257.63
PCFX       0.03
PS       729.25
PS2     1252.56
PS3      957.34
PS4      278.16
PSP      296.04
PSV       61.91
SAT       33.59
SCD        1.86
SNES     200.04
TG16       0.16
WS         1.42
Wii      925.70
WiiU      81.79
X360     979.54
XB       257.74
XOne     141.10
Name: Total sales, dtype: float64


In [31]:
#Hallando la maxima y minima venta de cada plataforma
ventas_max_por_plataforma = df.groupby('Platform')['Total sales'].max()
print(ventas_max_por_plataforma)

Platform
2600     7.81
3DO      0.06
3DS     14.35
DC       2.41
DS      30.01
GB      31.38
GBA     15.84
GC       7.06
GEN      6.02
GG       0.04
N64     11.90
NES     40.24
NG       0.25
PC       8.11
PCFX     0.03
PS      10.95
PS2     20.81
PS3     21.39
PS4     14.24
PSP      7.72
PSV      2.26
SAT      1.93
SCD      1.50
SNES    20.62
TG16     0.14
WS       0.51
Wii     82.74
WiiU     6.96
X360    21.82
XB       8.48
XOne     7.29
Name: Total sales, dtype: float64


In [30]:
ventas_min_por_plataforma = df.groupby('Platform')['Total sales'].min()
print(ventas_min_por_plataforma)

Platform
2600    0.07
3DO     0.02
3DS     0.01
DC      0.02
DS      0.01
GB      0.06
GBA     0.01
GC      0.01
GEN     0.03
GG      0.04
N64     0.01
NES     0.06
NG      0.02
PC      0.01
PCFX    0.03
PS      0.01
PS2     0.00
PS3     0.01
PS4     0.01
PSP     0.01
PSV     0.01
SAT     0.02
SCD     0.04
SNES    0.01
TG16    0.02
WS      0.03
Wii     0.01
WiiU    0.01
X360    0.01
XB      0.01
XOne    0.01
Name: Total sales, dtype: float64


In [32]:
#Desviación estándar y varianza de las ventas por genero
desviacion_estandar_genero = df.groupby('Genre')['Total sales'].std()
print(desviacion_estandar_genero)

Genre
Action          1.157602
Adventure       0.514130
Fighting        0.953149
Misc            1.324656
Platform        2.588106
Puzzle          1.562962
Racing          1.663480
Role-Playing    1.708885
Shooter         1.818748
Simulation      1.197690
Sports          2.091008
Strategy        0.522095
Name: Total sales, dtype: float64


In [33]:
varianza_genero = df.groupby('Genre')['Total sales'].var()
print(varianza_genero)

Genre
Action          1.340043
Adventure       0.264329
Fighting        0.908493
Misc            1.754713
Platform        6.698293
Puzzle          2.442851
Racing          2.767165
Role-Playing    2.920287
Shooter         3.307843
Simulation      1.434462
Sports          4.372314
Strategy        0.272583
Name: Total sales, dtype: float64


In [34]:
promedio_por_genre = df.groupby('Genre')['Total sales'].mean()
print(promedio_por_genre)

Genre
Action          0.528649
Adventure       0.186076
Fighting        0.526868
Misc            0.468189
Platform        0.939525
Puzzle          0.420671
Racing          0.586346
Role-Playing    0.623957
Shooter         0.792661
Simulation      0.453847
Sports          0.567204
Strategy        0.257478
Name: Total sales, dtype: float64


In [35]:
#Calculando el rango max - min de ventas por genre
rango_ventas_por_genero = df.groupby('Genre')['Total sales'].apply(lambda x: x.max() - x.min())
print(rango_ventas_por_genero)

Genre
Action          21.38
Adventure       11.17
Fighting        13.03
Misc            29.00
Platform        40.23
Puzzle          30.25
Racing          35.83
Role-Playing    31.37
Shooter         28.30
Simulation      24.74
Sports          82.73
Strategy         5.44
Name: Total sales, dtype: float64


#