# 1. Obtención de datos

![alt text](docs/img/SteamSpy.jpg "Title")

Los datos con los que vamos a trabajar provienen de dos fuentes de un mismo servidor, SteamSpy. La información que nos interesa es: 'ID', 'Name', 'Price', 'Fecha', 'Owners' y 'Tags'. Adicionalmente, conservaremos el nombre del desarrollador y la editora.<br>
Para obtener estos datos, por un lado vamos a descargar los CSVs de los juegos publicados por año desde 2008 a 2022 (15 años) y por otro lado vamos a hacer dos tipos de llamadas a su API para obtener los detalles de cada juego registrado, allpage y appdetails. ¿Por qué no basta sólo con un método? Porque cada fuente cuenta con distinta información:<br><br>

<center>

|            	| ID 	| Fecha 	    | Tags 	|
|------------	|----	|--------------	|------	|
| CSVs       	| NO 	| SÍ           	| NO   	|
| appdetails 	| SÍ 	| NO           	| SÍ   	|
| allpage    	| SÍ 	| NO           	| NO   	|
</center>
<br><br>
Es importante destacar, que para hacer una llamada de tipo appdetails, es necesario conocer el ID del juego, y los IDs no se reparten de manera continua u ordenada, es decir, no siguen un patrón. Por eso no queda más remedio que operar de la siguiente manera:

1. Concatenar los CSV en un dataframe
2. Hacer llamadas tipo allpage (devuelven los datos resumidos de los juegos de mil en mil) para obtener los IDs de los juegos
3. Con los nuevos IDs, hacer llamadas tipo appdetails para obtener los Tags
4. Tomar los Tags y añadirlos al CSV concatenado

## 1.1 Concatenación de CSVs

Descargamos los CSVs y los unimos en un único dataframe que a su vez guardamos como CSV

In [1]:
import numpy as np
import pandas as pd

In [None]:
a = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2008 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
b = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2009 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
c = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2010 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
d = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2011 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
e = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2012 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
f = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2013 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
g = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2014 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
h = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2015 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
i = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2016 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
j = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2017 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
k = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2018 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
l = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2019 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
m = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2020 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
n = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2021 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])
o = pd.read_csv(r'C:\Users\rodri\Documents\TheBridge\Carpeta de trabajo\carpeta_alumno_R\EDA\EDA_RodrigoArribas\YearCSVs\2022 - Year Stats - SteamSpy - All the data and stats about Steam games.csv',
                       usecols=['Game','Release date','Price','Owners','Publisher(s)','Developer(s)'])

In [None]:
main_df = pd.concat([a,b,c,d,e,f,g,h,i,j,k,l,m,n,o],axis=0)
main_df.to_csv('data/raw/DataFrame_part_2008_2022.csv', index=False)

## 1.2 Llamada a API tipo *allpage*

Con cada llamada de este tipo, obtendremos datos de juegos de mil en mil. Sin embargo, estos datos no incluyen la columna Tags, esencial para nuestra exploración. Por ese motivo sólo nos vamos a quedar con los IDs, que posteriormente utilizaremos para hacer llamadas tipo *appdetails* que sí nos devolverán los Tags de cada juego.<br>
El formato que tiene cada llamada es "request=all&page=" más el número de página del cual se desea obtener los datos. Estas páginas, que tienen estructura JSON, no están ordenadas de acuerdo a ningún criterio, y tampoco se especifica cuántas existen. Con algo de ensayo y error, compruebo que hay 68 (incluyendo la página 0).

In [2]:
import requests
import json
import time

In [6]:
# Ejemplo de llamada:
call_example = requests.get(f'https://steamspy.com/api.php?request=all&page=0').json()
call_example

{'570': {'appid': 570,
  'name': 'Dota 2',
  'developer': 'Valve',
  'publisher': 'Valve',
  'score_rank': '',
  'positive': 1745449,
  'negative': 379523,
  'userscore': 0,
  'owners': '200,000,000 .. 500,000,000',
  'average_forever': 36649,
  'average_2weeks': 1346,
  'median_forever': 1003,
  'median_2weeks': 759,
  'price': '0',
  'initialprice': '0',
  'discount': '0',
  'ccu': 522223},
 '730': {'appid': 730,
  'name': 'Counter-Strike: Global Offensive',
  'developer': 'Valve',
  'publisher': 'Valve',
  'score_rank': '',
  'positive': 6816643,
  'negative': 951248,
  'userscore': 0,
  'owners': '100,000,000 .. 200,000,000',
  'average_forever': 32041,
  'average_2weeks': 669,
  'median_forever': 6332,
  'median_2weeks': 292,
  'price': '0',
  'initialprice': '0',
  'discount': '0',
  'ccu': 819289},
 '578080': {'appid': 578080,
  'name': 'PUBG: BATTLEGROUNDS',
  'developer': 'KRAFTON, Inc.',
  'publisher': 'KRAFTON, Inc.',
  'score_rank': '',
  'positive': 1303195,
  'negative': 

In [3]:
# Realizo un bucle for y guardo los ids en la lista ids_dirty
ids_dirty = []
for i in range(69):
    page = requests.get(f'https://steamspy.com/api.php?request=all&page={i}').json()
    for j in page:
        ids_dirty.append(j)

# Transformo la lista ids_dirty en un set para borrar duplicados y la vuelvo a transformar en lista con el nombre ids
ids = list(set(ids_dirty))

# Compruebo la cantidad de IDs únicos obtenidos
len(ids)

En el momento en que se hicieron las llamadas, se obtuvieron un total de **65434 IDs únicos**

## 1.3 Llamada a API tipo *appdetails*

Una vez hemos obtenido los IDs, ya podemos hacer llamadas tipo *appdetails*. Esta petición nos va a devolver datos tipo JSON, de los cuales solo nos interesan la columna Tags y la columna ID (el resto de información ya la tenemos en el CSV concatenado).<br>
El formato que tiene la petición es "request=appdetails&appid=" más el número ID del juego cuyos datos se quieran obtener.

In [7]:
# Ejemplo de llamada. Pedimos los datos del juego cuyo ID es 570
appdetail = requests.get(f'https://steamspy.com/api.php?request=appdetails&appid=570').json()
appdetail

{'appid': 570,
 'name': 'Dota 2',
 'developer': 'Valve',
 'publisher': 'Valve',
 'score_rank': '',
 'positive': 1745449,
 'negative': 379523,
 'userscore': 0,
 'owners': '200,000,000 .. 500,000,000',
 'average_forever': 36649,
 'average_2weeks': 1346,
 'median_forever': 1003,
 'median_2weeks': 759,
 'price': '0',
 'initialprice': '0',
 'discount': '0',
 'ccu': 522223,
 'languages': 'English, Bulgarian, Czech, Danish, Dutch, Finnish, French, German, Greek, Hungarian, Italian, Japanese, Korean, Norwegian, Polish, Portuguese - Portugal, Portuguese - Brazil, Romanian, Russian, Simplified Chinese, Spanish - Spain, Swedish, Thai, Traditional Chinese, Turkish, Ukrainian, Spanish - Latin America, Vietnamese',
 'genre': 'Action, Strategy, Free to Play',
 'tags': {'Free to Play': 59280,
  'MOBA': 19854,
  'Multiplayer': 15047,
  'Strategy': 14002,
  'e-sports': 11524,
  'Team-Based': 10756,
  'Competitive': 8094,
  'Action': 7800,
  'Online Co-Op': 7306,
  'PvP': 5872,
  'Difficult': 5171,
  'Co

Ahora pedimos los datos de **todos** los IDs. Este proceso llevó unas 16 horas.

In [None]:
# Instanciamos una lista vacía en la que guardar los diccionarios JSON y otra para observar qué IDs fracasaron a la hora de hacer la llamada
dic_list = []
failed_ids = []

In [None]:
for i in ids:
    try:
        dic_list.append(requests.get(f'https://steamspy.com/api.php?request=appdetails&appid={i}').json())
        # time.sleep(1)
    except:
        print(f'Unable to call id {i}')
        failed_ids.append(i)

In [None]:
# Guardamos la lista en un JSON
json_string = json.dumps(dic_list)

with open('data/raw/all_calls.json','w') as outfile:
    outfile.write(json_string)

In [None]:
# Comprobamos cuántas llamadas exitosas hemos recogido y qué IDs fracasaron en completar la llamada.
print('Número de resultados exitosos:', len(dic_list))
print('IDs que no se pudieron comunicar con la API:', failed_ids)

En el momento en que se hicieron las llamadas, se obtuvieron **65433 resultados exitosos**. Sólo falló un ID, el 1855610

## 1.4 Unión del JSON al CSV

Ahora que hemos conseguido las columnas con las que queríamos completar nuestro CSV original (el ID del juego y los Tags), ya sólo queda añadirlas a éste desde el JSON.

In [None]:
# Abrimos el CSV y lo guardamos en la variable df
df = pd.read_csv('DataFrame_part_2008_2022.csv')
df

In [None]:
# Creamos nuevas columnas para los datos que vamos a unir
df['ID'] = pd.NA
df['tags'] = pd.NA

Ahora vamos a unir el JSON con el CSV. Idealmente, deberíamos hacer esto a través de una columna con datos únicos para que al juntarlos haya una correspondencia única entre ellos, de lo contrario tendremos **problemas de duplicación**. Por ejemplo, si unimos por la columna Fecha del CSV, al haber varios juegos que se publicaron el mismo día, cuando el código busque en el JSON qué juego se publicó dicho día devolverá el primer resultado que encuentre, independientemente de que el resto de datos coincida.<br>
Por este motivo, la unión se suele hacer a través del ID, caracterizado por ser único para cada dato. Pero por desgracia, en este caso **sólo tenemos la columna ID en una de las tablas** (la tenemos en el JSON pero no el CSV), **por lo que debemos escoger otra columna en común para hacer la unión**. La columna que menos celdas con el mismo dato de la que disponemos es la columna 'Game'.<br>
Esta "mala unión" provocará que los IDs y Tags de los juegos que tengan el mismo nombre sean los mismos.

In [None]:
# Unimos el JSON con el CSV a través del campo Game
for i in df['Game']:
    for j in dic_list:
        if (j['name'] == i):
            try:
                df.loc[(df[df['Game']==i].index.values), 'ID'] = j['appid']
                df.loc[(df[df['Game']==i].index.values), 'tags'] = [j['tags']]
            except:
                pass
        else: pass

In [None]:
# Guardamos el df en un nuevo CSV
df.to_csv('MainDF.csv')

In [10]:
# Comprobamos cuántos IDs duplicados tenemos
main_df = pd.read_csv('MainDF.csv').drop('Unnamed: 0',axis=1)

dup_ids = 0
for i in main_df['ID'].value_counts().values:
    if i != 1:
        dup_ids += i

dup_ids

548

Vamos a ver varios ejemplos de juegos cuyos ID y Tags se han duplicado

In [22]:
main_df['ID'].value_counts().head(10)

ID
464400.0     4
365050.0     4
776080.0     4
915440.0     3
857130.0     3
72500.0      3
465190.0     3
383530.0     3
420360.0     3
1488110.0    3
Name: count, dtype: int64

In [15]:
main_df[main_df['ID']==464400]

Unnamed: 0,Game,Release date,Price,Owners,Developer(s),Publisher(s),ID,tags
9395,Bounce,"Nov 30, 2016",$19.99,"0 .. 20,000",Steel Wool Studios,Steel Wool Studios,464400.0,
17862,Bounce,"Apr 2, 2018",$8.99,"20,000 .. 50,000",Mikhail Melnikov,SA Industry,464400.0,
25476,Bounce,"Jul 23, 2019",$0.99,"20,000 .. 50,000",Xian'Yu,Xian'Yu,464400.0,
42699,Bounce,"Feb 5, 2021",$2.99,"20,000 .. 50,000",Rare Camel Studios,Rare Camel Studios,464400.0,


In [17]:
main_df[main_df['ID']==365050]

Unnamed: 0,Game,Release date,Price,Owners,Developer(s),Publisher(s),ID,tags
3292,Escape,"Apr 20, 2015",Free,"100,000 .. 200,000",Stephane Bottin,Stephane Bottin,365050.0,
18616,Escape,"Jan 29, 2018",,"0 .. 20,000",Ragdoll Inc,Ragdoll Inc,365050.0,
46857,Escape,"May 5, 2021",$3.99,"0 .. 20,000",CheYne_CY,CheYne_CY,365050.0,
56791,Escape,"Feb 7, 2022",$0.99,"0 .. 20,000",criswei,criswei,365050.0,


In [21]:
main_df[main_df['ID']==915440]

Unnamed: 0,Game,Release date,Price,Owners,Developer(s),Publisher(s),ID,tags
3587,Fireflies,"Sep 7, 2015",$1.99,"50,000 .. 100,000",Phanom Games,Phanom Games,915440.0,
18723,Fireflies,"Aug 28, 2018",Free,"0 .. 20,000",Sourabh P Hamigi,Sourabh P Hamigi,915440.0,
34794,Fireflies,"Mar 18, 2020",,"0 .. 20,000",Smart Studio,Smart Flix,915440.0,


In [24]:
main_df[main_df['ID']==383530]

Unnamed: 0,Game,Release date,Price,Owners,Developer(s),Publisher(s),ID,tags
4598,Vortex,"Jul 17, 2015",$4.99,"0 .. 20,000",Displace Media,Displace Media,383530.0,
46119,Vortex,"Sep 9, 2021",$2.99,"0 .. 20,000",Josh Woolley,Josh Woolley,383530.0,
52114,Vortex,"Jun 22, 2022",$1.99,"50,000 .. 100,000",Endless Void Studios,Endless Void Studios,383530.0,


In [23]:
main_df[main_df['ID']==1488110]

Unnamed: 0,Game,Release date,Price,Owners,Developer(s),Publisher(s),ID,tags
9247,Puzzle Box,"Apr 22, 2016",$9.99,"0 .. 20,000",BplusGames,OtakuMaker.com,1488110.0,
47360,Puzzle Box,"Aug 23, 2021",$9.99,"0 .. 20,000",BrainVM Games,BrainVM Games,1488110.0,
57048,Puzzle Box,"Jan 30, 2022",$2.99,"0 .. 20,000",Box Production,Box Production,1488110.0,


Parece ser que **los duplicados no contienen información en el campo tags**, lo cual puede tener la siguiente **explicación**:<br><br>
Steam es una plataforma en la que cualquiera puede subir su videojuego. Por lo tanto, está llena de juegos *amateur* que no ambicionan ser un éxito de ventas. Si un producto sí ambiciona obtener muchas ventas, lo primero que comprueban los desarrolladores es que no exista en el mercado otro con el mismo nombre, o que al menos éste no sea muy popular. Estos juegos se publicaron a pesar de que su nombre ya estaba en uso, y por lo tanto probablemente sean *amateur*.<br>
**Un factor** que apoya esta idea lo observamos en la columna 'Owners': la mayor parte de los juegos de estos ejemplos cae en el rango mínimo de esta columna: 0 .. 20,000. Es decir, no son muy vendidos.<br>
**Otro factor**, aunque menos determinante, lo encontramos en las columnas 'Developer(s)' y 'Publisher(s)'. En estos ejemplos, encontramos nombres propios como Xian'Yu, CheYne_CY, criswei o Josh Woolley. Esto indica que son juegos subidos por particulares, autoeditados. Es decir, no tuvieron la financiación de un estudio y por lo tanto es más difícil que tengan presencia en el mercado.<br><br>
**En resumen**, al ser *amateur* su popularidad es pequeña, y por lo tanto es menos probable que hayan llegado a ser etiquetados con Tags.

##

<hr>

<div style="display: flex; justify-content: space-between; margin-bottom: 10px;">
    <div style="text-align: right;">
        <a href="./2_cleaning_data.ipynb">
            <button>2. Cleaning data &#8594;</button>
        </a>
    </div>
</div>

<hr>