## Análisis de datos con Pandas (Core)

Se utilizó el dataset de "Video Game Sales" descargado de la plataforma Kaggle.
Disponible en: https://www.kaggle.com/datasets/gregorut/videogamesales

In [4]:
# 1. Preparación del entorno
# Importar librería
import pandas as pd

# 2. Cargar los datos
# Cargar el archivo CSV en un DataFrame
df = pd.read_csv(r'C:\Users\Andy\Documents\CodingDojo\Pandas_for_DS\vgsales.csv')

# 3. Exploración inicial de los datos
# Mostrar las primeras 10 filas
print("=== Primeras 10 filas del DataFrame ===")
print(df.head(10))
print("\n")

# Mostrar las últimas 5 filas
print("=== Últimas 5 filas del DataFrame ===")
print(df.tail(5))
print("\n")

# Obtener información general sobre el DataFrame
print("=== Información general del DataFrame ===")
df.info()
print("\n")

# Generar estadísticas descriptivas
print("=== Estadísticas descriptivas del DataFrame ===")
print(df.describe())
print("\n")

# 4. Inspección de los datos
# Inspección de los datos
print("=== Tipos de datos por columna ===")
print(df.dtypes)
print("\n")

# Contar valores únicos en la columna Genre
print("=== Conteo de valores únicos en 'Genre' ===")
print(df['Genre'].value_counts())
print("\n")

# Mostrar valores únicos en la columna Platform
print("=== Valores únicos en 'Platform' ===")
print(df['Platform'].unique())
print("\n")

# 5. Filtrado de datos
# Filtrar donde NA_Sales > 1 millón
df_na_sales = df[df['NA_Sales'] > 1]
print("=== Juegos con ventas en Norteamérica mayores a 1 millón ===")
print(df_na_sales)
print("\n")

# Filtrar donde JP_Sales < 0.1 millón
df_jp_sales = df[df['JP_Sales'] < 0.1]
print("=== Juegos con ventas en Japón menores a 0.1 millón ===")
print(df_jp_sales)
print("\n")

# Filtrar con query para género Action y Global_Sales > 2 millones
df_action_sales = df.query("Genre == 'Action' and Global_Sales > 2")
print("=== Juegos de género 'Action' con ventas globales mayores a 2 millones ===")
print(df_action_sales)
print("\n")

# 6. Slicing de datos
# Seleccionar columnas Name y Global_Sales
df_name_global_sales = df[['Name', 'Global_Sales']]
print("=== Columnas 'Name' y 'Global_Sales' ===")
print(df_name_global_sales.head())
print("\n")

# Usar loc[] para filas 5 a 10 y columnas Name y Genre
df_loc_selection = df.loc[5:10, ['Name', 'Genre']]
print("=== Filas 5 a 10 para las columnas 'Name' y 'Genre' ===")
print(df_loc_selection)
print("\n")

# Usar iloc[] para primeras 5 filas y primeras 3 columnas
df_iloc_selection = df.iloc[:5, :3]
print("=== Primeras 5 filas y primeras 3 columnas ===")
print(df_iloc_selection)
print("\n")

=== Primeras 10 filas del DataFrame ===
   Rank                       Name Platform    Year         Genre Publisher  \
0     1                 Wii Sports      Wii  2006.0        Sports  Nintendo   
1     2          Super Mario Bros.      NES  1985.0      Platform  Nintendo   
2     3             Mario Kart Wii      Wii  2008.0        Racing  Nintendo   
3     4          Wii Sports Resort      Wii  2009.0        Sports  Nintendo   
4     5   Pokemon Red/Pokemon Blue       GB  1996.0  Role-Playing  Nintendo   
5     6                     Tetris       GB  1989.0        Puzzle  Nintendo   
6     7      New Super Mario Bros.       DS  2006.0      Platform  Nintendo   
7     8                   Wii Play      Wii  2006.0          Misc  Nintendo   
8     9  New Super Mario Bros. Wii      Wii  2009.0      Platform  Nintendo   
9    10                  Duck Hunt      NES  1984.0       Shooter  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  
0     41.49     29.02      3.