<a href="https://colab.research.google.com/github/oscmoral/Programacion-para-analitica-descriptiva-y-predictiva/blob/main/Evaluacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto Etapa 1: ADD

Nombre: Oscar Morales Martinez

Materia: Programación para analítica descriptiva y predictiva

Carrera: Maestría en Inteligencia Artificial y Analítica de Datos

## Información del dataset

- **Nombre**: Steam Store Games
- **Fuente**: Kaggle
- **Enlace**: https://www.kaggle.com/datasets/nikdavis/steam-store-games

### Tipo de datos

Datos estructurados en formato CSV que contienen información sobre videojuegos publicados en la plataforma Steam.

Incluye variables:

- **Numéricas** (precio, puntuación Metacritic, número de recomendaciones)

- **Categóricas** (género, desarrollador, publisher)

- **Temporales** (fecha de lanzamiento)

### Contexto del problema

La industria de los videojuegos es uno de los sectores de entretenimiento con mayor crecimiento a nivel global. Comprender los factores que influyen en el éxito comercial y crítico de un videojuego es relevante tanto para desarrolladores como para inversionistas.

Este dataset permite analizar patrones de precio, género, fecha de lanzamiento y evaluación crítica en relación con el desempeño de los videojuegos.

## Definición del problema

El análisis se centra en estudiar videojuegos publicados en Steam para identificar patrones relacionados con su éxito comercial y valoración crítica.

### Problema a estudiar

¿Qué factores influyen en el éxito de un videojuego en Steam? Se analizará la relación entre:

- Precio

- Género

- Año de lanzamiento

- Puntuación Metacritic

- Popularidad (owners/recomendaciones)

### Justificación

Comprender estos factores permite:

- Identificar tendencias del mercado

- Detectar características comunes en juegos exitosos

- Generar modelos predictivos simples

- Aplicar técnicas de analítica descriptiva y predictiva sobre datos reales

## Preguntas descriptivas

1. ¿Cuál es la distribución de precios de los videojuegos en Steam?

2. ¿Qué géneros tienen mayor número de juegos publicados?

3. ¿Qué géneros presentan mejores puntuaciones promedio en Metacritic?

4. ¿Existe relación entre el precio y la puntuación del juego?

5. ¿Cómo ha evolucionado el número de lanzamientos por año?

## Análisis de estructura

### Importación de librerias

In [1]:
import pandas as pd

### Acceso a Google Drive

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### Declaración de la ruta del archivo steam.csv

In [3]:
path = "/content/drive/MyDrive/ProjectFiles/steam.csv"

### Cargar dataset

In [4]:
df = pd.read_csv(path)
df.head()

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price
0,10,Counter-Strike,2000-11-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,124534,3339,17612,317,10000000-20000000,7.19
1,20,Team Fortress Classic,1999-04-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,3318,633,277,62,5000000-10000000,3.99
2,30,Day of Defeat,2003-05-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Valve Anti-Cheat enabled,Action,FPS;World War II;Multiplayer,0,3416,398,187,34,5000000-10000000,3.99
3,40,Deathmatch Classic,2001-06-01,1,Valve,Valve,windows;mac;linux,0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,1273,267,258,184,5000000-10000000,3.99
4,50,Half-Life: Opposing Force,1999-11-01,1,Gearbox Software,Valve,windows;mac;linux,0,Single-player;Multi-player;Valve Anti-Cheat en...,Action,FPS;Action;Sci-fi,0,5250,288,624,415,5000000-10000000,3.99


### Dimensiones del dataset

In [5]:
df.shape

(27075, 18)

### Tipos de datos

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27075 entries, 0 to 27074
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   appid             27075 non-null  int64  
 1   name              27075 non-null  object 
 2   release_date      27075 non-null  object 
 3   english           27075 non-null  int64  
 4   developer         27074 non-null  object 
 5   publisher         27061 non-null  object 
 6   platforms         27075 non-null  object 
 7   required_age      27075 non-null  int64  
 8   categories        27075 non-null  object 
 9   genres            27075 non-null  object 
 10  steamspy_tags     27075 non-null  object 
 11  achievements      27075 non-null  int64  
 12  positive_ratings  27075 non-null  int64  
 13  negative_ratings  27075 non-null  int64  
 14  average_playtime  27075 non-null  int64  
 15  median_playtime   27075 non-null  int64  
 16  owners            27075 non-null  object

### Valores faltantes

In [7]:
df.isnull().sum().sort_values(ascending=False)

Unnamed: 0,0
publisher,14
developer,1
name,0
appid,0
english,0
release_date,0
platforms,0
required_age,0
categories,0
genres,0


### Identificación de variables

In [8]:
numericas = df.select_dtypes(include=['int64','float64']).columns
categoricas = df.select_dtypes(include=['object']).columns

print("Variables numéricas:", numericas)
print("\nVariables categóricas:", categoricas)

Variables numéricas: Index(['appid', 'english', 'required_age', 'achievements', 'positive_ratings',
       'negative_ratings', 'average_playtime', 'median_playtime', 'price'],
      dtype='object')

Variables categóricas: Index(['name', 'release_date', 'developer', 'publisher', 'platforms',
       'categories', 'genres', 'steamspy_tags', 'owners'],
      dtype='object')


## Estadística descriptiva (numéricas)

In [9]:
df[numericas].describe()

Unnamed: 0,appid,english,required_age,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,price
count,27075.0,27075.0,27075.0,27075.0,27075.0,27075.0,27075.0,27075.0,27075.0
mean,596203.5,0.981127,0.354903,45.248864,1000.559,211.027147,149.804949,146.05603,6.078193
std,250894.2,0.136081,2.406044,352.670281,18988.72,4284.938531,1827.038141,2353.88008,7.874922
min,10.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,401230.0,1.0,0.0,0.0,6.0,2.0,0.0,0.0,1.69
50%,599070.0,1.0,0.0,7.0,24.0,9.0,0.0,0.0,3.99
75%,798760.0,1.0,0.0,23.0,126.0,42.0,0.0,0.0,7.19
max,1069460.0,1.0,18.0,9821.0,2644404.0,487076.0,190625.0,190625.0,421.99
