# Práctica 2: Limpieza y análisis de datos
## Autores
Hemos realizado esta práctica:
* Ignacio Such Ballester
* Andrés Isidro Fonts Santana

## 1. Descripción del _dataset_
### 1.1 Contexto
Se pretende sacar al mercado un nuevo juego de mesa lo más existoso posible y convertirlo en un bestseller.

Para ello, hemos escogido el _dataset_ [Board Game Data](https://www.kaggle.com/datasets/mrpantherson/board-game-data?select=bgg_db_2018_01.csv), disponible en la plataforma Kaggle.

Este conjunto de datos se ha extraído mediante la API del portal [Board Games Geek](https://boardgamegeek.com/). El _dataset_ se generó en enero de 2018 y contiene datos sobre los primeros 5000 juegos de mesa del _ranking_ de Board Games Geek. 

A través de este set de datos, podemos realizar un análisis profundo del mismo, obteniendo correlaciones, clasificaciones en incluso predicciones para averigurar cómo diseñar nuestro juego de mesa.

Además, se podrá proceder a crear modelos de regresión que permitan predecir si un juego será un bestseller o no en función de sus características y contrastes de hipótesis que ayuden a identificar propiedades interesantes en las muestras.

### 1.2 Descripción de los atributos 
Cada uno de los 5000 registros con que cuenta al _dataset_ viene determinado por 20 attributos:

| Nombre      | Tipo    | Descripción                         | Ejemplo
|:------------|:--------|:------------------------------------|:-------------------------------------------------------------
| rank        | int     | Posición en el _ranking_ de BGG     | 21
| bgg_url     | string  | Link a url de la reseña en BGG      | https://boardgamegeek.com/boardgame/167791/terraforming-mars
| game_id     | string  | Identificador del juego en BGG      | 25613
| names       | string  | Nombre del juego                    | Terraforming Mars
| min_players | int     | Número mínimo de jugadores          | 2
| max_players | int     | Número máximo de jugadores          | 4
| avg_time    | int     | Tiempo medio de partida (minutos)   | 60
| min_time    | int     | Tiempo mínimo de partida (minutos)  | 30
| max_time    | int     | Tiempo máx de partida (minutos)     | 120
| year        | int     | Año de publicación                  | 2014
| avg_rating  | float   | Puntuación media del juego según usuarios de BGG (sobre 10)| 8.0096
| geek_rating | float   | Puntuació de BGG, obtenida a través de un algoritmo de ponderación bayesiana (algoritmo no público) |8.49837
| num_votes   | int     | Número de usuarios que han dado puntuación al juego | 1779
| image_url   | string  | Enlace a la imagen del juego  | https://cf.geekdo-images.com/images/pic361592.jpg
| age         | int     | Edad mínimia recomendada | 12
| mechanic    | string  | Tipo de Mecánicas del juego, separadas por comas | Area Enclosure, Card Drafting, Hand Management, Variable Player Powers, Worker Placement
| owned       | int     | Número de usuarios de BGG que han notificado que poseen el juego | 18217
| category    | string  | Categorías a las que pertenece el juego, separadas por comas | Ancient, Card Game, City Building, Civilization
| designer    | string  | Diseñador/a del juego. Si más de uno, separados por comas | Jamey Stegmaier
| weight      | float   | Grado de complejidad del juego (sobre 5) | 2.394


## 2. Carga de datos y selección
Utilizaremos la librería `pandas` para trabajar con los datos.

In [101]:
import pandas as pd
from IPython.display import display, HTML

# Llamamos "bgg" al dataframe creado a partir del dataset
bgg = pd.read_csv('../csv/bgg_db_2018_01.csv',sep=',',encoding='latin-1')

Constatamos que los atributos `bgg_url` y `image_url` no nos van a aportar ningún matiz ni información relevante al estudio que queremos realizar sobre los datos. 

Eliminamos estos datos usando el método `.drop()`. 

In [102]:
# Eliminamos las columnas que no utilizaremos para el análisis
bgg.drop('bgg_url'  , inplace=True, axis=1)
bgg.drop('image_url', inplace=True, axis=1)

Por otro lado, según la documentación de BoardGameGeek, para evaluar el _ranking_ global del juego se utiliza el atributo `geek_rating`. Este atributo realiza una ponderación Bayesiana utilizando un algoritmo que BGG no publica.

Sí sabemos que en este algoritmo se compensan aquellos juegos con pocas valoraciones, pudiendo añadir hasta 100 votos _virtuales_ (ver [este enlace](https://boardgamegeek.com/wiki/page/BoardGameGeek_FAQ#toc13)).

Para nuestro estudio, partiremos de aquellos datos que tengan como mínimo 500 valoracion de usuarios.

In [103]:
# Filtrar por mínimo de votos
bgg = bgg[bgg.num_votes > 500]

## 3. Limpieza de los datos

**NOTAS**

Ojo, he visto que avg_time es equivalente a max_time, por lo que habría que recalcular este parámetro como (max-min)/2

Por otro lado, en el dataset no hay valores "NA", pero no quiere decir que no haya valores nulos. Mirando los datos el valor '0' parece indicar el valor nulo o vacío. Hay que tratar esos casos y en vez de poner '0' que ponga 'null' o similar.

También hay al menos 2 entradas que no tienen sentido, como son "Unpublished Prototype" y "Out of the scope of BGG". Fíjate que cuando buscas qué registros tienen valores vacíos te aparecen. Habría que retirarlos del dataset.

Finalmente, sí podemos tener juegos con duración muy extendida, en caso de ser un "Legacy", en que el juego se va desarrollando en modo campaña y se tardan decenas de partidas en acabar el juego. Este tipo de juegos típicamente no tiene rejugabilidad.


In [104]:
# Show 5 rows of the dataframe
bgg.head()

Unnamed: 0,rank,game_id,names,min_players,max_players,avg_time,min_time,max_time,year,avg_rating,geek_rating,num_votes,age,mechanic,owned,category,designer,weight
0,1,174430,Gloomhaven,1,4,150,90,150,2017,9.0131,8.52234,9841,12,"Action / Movement Programming, Co-operative Pl...",18217,"Adventure, Exploration, Fantasy, Fighting, Min...",Isaac Childres,3.772
1,2,161936,Pandemic Legacy: Season 1,2,4,60,60,60,2015,8.66575,8.49837,23489,13,"Action Point Allowance System, Co-operative Pl...",38105,"Environmental, Medical","Rob Daviau, Matt Leacock",2.8056
2,3,182028,Through the Ages: A New Story of Civilization,2,4,240,180,240,2015,8.65702,8.32401,10679,14,"Action Point Allowance System, Auction/Bidding...",14147,"Card Game, Civilization, Economic",Vlaada Chvátil,4.3538
3,4,12333,Twilight Struggle,2,2,180,120,180,2005,8.35188,8.21012,29923,13,"Area Control / Area Influence, Campaign / Batt...",41094,"Modern Warfare, Political, Wargame","Ananda Gupta, Jason Matthews",3.5446
4,5,167791,Terraforming Mars,1,5,120,120,120,2016,8.38331,8.17328,20468,12,"Card Drafting, Hand Management, Tile Placement...",26145,"Economic, Environmental, Industry / Manufactur...",Jacob Fryxelius,3.2465


In [106]:
# Show number of rows in the dataframe
bgg.shape

(2721, 18)

In [107]:
# Show if dataframes has NA values
bgg.isnull().sum()

# Vemos que en el dataset no existen valores nulos

# Show 0 values of the dataframe

rank           0
game_id        0
names          0
min_players    0
max_players    0
avg_time       0
min_time       0
max_time       0
year           0
avg_rating     0
geek_rating    0
num_votes      0
age            0
mechanic       0
owned          0
category       0
designer       0
weight         0
dtype: int64

In [108]:
# Show extreme values with 2 decimals
bgg.describe().round(2)

# Aquí se puede ver que para algunas observaciones, encontramos juegos que tienen valores extremos, como son en las variables avg_time, min_time y max_time. También para la variable max_players, se encuentran valores extremos, como son en el caso de que el valor sea 0.

Unnamed: 0,rank,game_id,min_players,max_players,avg_time,min_time,max_time,year,avg_rating,geek_rating,num_votes,age,owned,weight
count,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0,2721.0
mean,1541.47,76880.33,2.07,4.76,86.05,51.13,86.33,1996.08,6.92,6.35,3267.92,10.51,4794.14,2.29
std,1078.85,71001.19,0.69,1.84,294.31,26.02,294.49,161.6,0.55,0.5,5775.83,2.73,7811.86,0.77
min,1.0,1.0,1.0,1.0,0.0,15.0,0.0,-3000.0,5.77,5.64,501.0,0.0,458.0,0.0
25%,681.0,8668.0,2.0,4.0,30.0,30.0,30.0,2003.0,6.5,5.96,798.0,8.0,1444.0,1.71
50%,1366.0,45986.0,2.0,4.0,60.0,45.0,60.0,2009.0,6.88,6.24,1394.0,10.0,2365.0,2.23
75%,2205.0,144270.0,2.0,6.0,90.0,75.0,90.0,2014.0,7.31,6.65,3075.0,12.0,4695.0,2.81
max,4987.0,236191.0,8.0,10.0,12000.0,90.0,12000.0,2017.0,9.07,8.52,74261.0,18.0,106608.0,4.7


In [109]:
# Show row where is max value of avg_time
bgg[bgg['avg_time']==bgg['avg_time'].max()]

Unnamed: 0,rank,game_id,names,min_players,max_players,avg_time,min_time,max_time,year,avg_rating,geek_rating,num_votes,age,mechanic,owned,category,designer,weight
930,930,254,Empires in Arms,2,7,12000.0,90,12000,1983,7.53768,6.46514,1099,14,"Area Movement, Dice Rolling, Secret Unit Deplo...",1851,"Economic, Napoleonic, Negotiation, Political, ...","Greg Pinder, Harry Rowland",4.4316


In [114]:
# Show rows where max_players equals 0
bgg[bgg['max_time']==0]

Unnamed: 0,rank,game_id,names,min_players,max_players,avg_time,min_time,max_time,year,avg_rating,geek_rating,num_votes,age,mechanic,owned,category,designer,weight
790,791,177524,Ice Cool,2,4,20.0,20,0,2016,6.93164,6.55288,3301,6,"Area Movement, Take That",5181,"Action / Dexterity, Animals, Children's Game",Brian Gomez,1.0
799,800,160902,Dungeons & Dragons Dice Masters: Battle for Fa...,2,2,60.0,60,0,2015,7.42356,6.54724,1265,14,"Deck / Pool Building, Dice Rolling, Variable P...",3295,"Collectible Components, Dice, Fantasy, Fighting","Mike Elliott, Eric M. Lang",2.1636
1359,1359,205046,Capital Lux,2,4,30.0,30,0,2016,7.12118,6.24605,900,10,"Area Control / Area Influence, Card Drafting, ...",1547,"Bluffing, Card Game, Science Fiction","Eilif Svensson, Kristian Amundsen Østby",2.0
1478,1478,193308,Spyfall 2,3,10,10.0,15,0,2017,7.27587,6.19437,712,13,"Acting, Memory, Role Playing, Voting",2065,"Bluffing, Deduction, Party Game, Spies/Secret ...",Alexandr Ushan,1.1667
1802,1802,162559,Smash Up: Munchkin,2,4,45.0,45,0,2015,6.81948,6.07449,884,12,"Area Control / Area Influence, Hand Management...",3566,"Card Game, Fantasy, Humor",none,2.0952
1834,1834,206931,Noch mal!,1,6,20.0,20,0,2016,6.97665,6.06526,659,8,Dice Rolling,1123,Dice,"Inka Brand, Markus Brand",1.2143
1959,1959,174614,Apotheca,1,4,30.0,30,0,2016,6.93168,6.02512,733,13,"Action Point Allowance System, Grid Movement, ...",1583,"Abstract Strategy, Bluffing, Deduction, Puzzle",Andrew Federspiel,1.9524
2164,2165,18291,Unpublished Prototype,1,1,0.0,15,0,0,6.9737,5.96984,577,0,none,881,none,(Uncredited),2.4
2457,2458,180602,Game of Trains,2,4,30.0,30,0,2015,6.39184,5.90795,988,8,Pattern Building,1607,"Card Game, Puzzle, Trains","Alexey Konnov, Alexey Paltsev, Anatoliy Shklyarov",1.2273
2475,2476,23953,Outside the Scope of BGG,1,1,0.0,15,0,0,6.73655,5.90572,516,0,none,2190,none,(Uncredited),1.6582


In [111]:
# Show value table of max_players
bgg.max_players.value_counts()

4     957
5     583
6     467
2     368
8     126
10    110
7      57
3      26
1      21
9       6
Name: max_players, dtype: int64

In [112]:
# Show rows where min_players equals 0
bgg[bgg['min_players']==0]

Unnamed: 0,rank,game_id,names,min_players,max_players,avg_time,min_time,max_time,year,avg_rating,geek_rating,num_votes,age,mechanic,owned,category,designer,weight


In [113]:
# Show value table of min_players
bgg.min_players.value_counts()

2    1861
3     397
1     388
4      58
5       9
8       4
6       4
Name: min_players, dtype: int64

Vemos que en diferentes variables tenemos valores extremos y valores que no concuerdan con el dataset, como por ejemplo que el tiempo medio de una partida sean 27000 minutos.
A continuación, modificamos los valores extremos y los sustituimos por los valores medios de la misma variable.

**NOTA**

Sí podemos tener juegos con duración muy extendida, en caso de ser un "Legacy", en que el juego se va desarrollando en modo campaña y se tardan decenas de partidas en acabar el juego. Este tipo de juegos típicamente no tiene rejugabilidad.

Por otro lado, la columna avg_time es igual a max_time, por lo que la retiraría del data set

In [105]:
# MIN_PLAYERS
# Substitute 0 with min_players mean in min_players column
bgg.min_players.replace(0,1,inplace=True)

#MAX_PLAYERS
# Substitute values higher than 10 with 10 in max_players column
bgg['max_players'].where(bgg['max_players'] < 10, 10, inplace=True)
bgg.max_players.replace(0,1,inplace=True)


#MIN_TIME
bgg['min_time'].where(bgg['min_time'] < 91, 90, inplace=True)
bgg['min_time'].where(bgg['min_time'] > 16, 15, inplace=True)
bgg.min_time.replace(16,15,inplace=True)
bgg.min_time.replace(42,40,inplace=True)

#AVG_TIME

bgg['avg_time'].where(bgg.avg_time.value_counts()==1, bgg.avg_time.mean(), inplace=True)
mask = bgg.avg_time.map(bgg.avg_time.value_counts()) < 5
bgg.avg_time =  bgg.avg_time.mask(mask, bgg.avg_time.mean().round(2))
bgg.avg_time.replace(0,15,inplace=True)

#MAX_TIME
bgg['max_time'].where(bgg['max_time'] < 300, 90, inplace=True)
bgg['max_time'].where(bgg['max_time'] > 10, 10, inplace=True)
bgg['max_time'].where(bgg.max_time.value_counts()==1, bgg.max_time.mean(), inplace=True)
mask = bgg.max_time.map(bgg.max_time.value_counts()) < 5
bgg.max_time =  bgg.max_time.mask(mask, bgg.max_time.mean().round(2))
bgg.max_time.replace(0,15,inplace=True)


#YEAR
bgg['year'].where(bgg['year'] > 1950, 1950, inplace=True)
bgg.year.value_counts()


AttributeError: 'float' object has no attribute 'round'

## 4. Análisis de los datos

*Ideas*
Estudiar la relación entre complejidad (weight) y rating (geek rating y avg rating)

Estudiar la relación entre complejidad (weight) y owned

Estudiar la relación entre rating (geek y avg) y owned

Estudiar qué Mecánicas son las más populares (mechanics vs owned)

Estudiar las categorías más populares (mechanics vs owned)



### 4.x Relación entre Complejidad y Popularidad
Pensamos que la complejidad del juego puede ser un factor clave en cuanto a la popularidad esperada. Analizaremos a continuación la relación entre complejidad (atributo `weight`) y la popularidad (atributo `owned`, esto es, cuántos usuarios han notificado que poseen el juego).

In [3]:
pd.options.plotting.backend = "plotly"
import plotly.express as px

# Filtrar 
#ax1 = bgg.head(250).plot.scatter(x='num_votes', y='weight')



# Zona de test

In [None]:

plot2 = bgg.head(1000).plot.scatter(x="avg_rating", y="weight")
plot2

In [None]:
plot3 = bgg.head(250).plot.scatter(x="owned", y="geek_rating")
plot3

In [None]:
plot4 = bgg.plot.scatter(x="owned", y="num_votes")
plot4

In [96]:
#min_votes = bgg['num_votes'] > 2000
min_weight = bgg['weight'] > 1.5
min_rating = bgg['avg_rating'] > 6

df = bgg[min_weight & min_rating]
fig = px.scatter(df, x='owned', y='num_votes', trendline='ols', log_x=True, log_y=True, color='avg_rating')
#plot4 = bgg[min_votes].plot.scatter(log_x=True, log_y=True, x="owned", y="num_votes", trendline='ols')
#plot4


In [97]:
fig.show()

a = px.get_trendline_results(fig).px_fit_results.iloc[0].rsquared
print(a)


0.9691769629828618


In [None]:
#min_votes = bgg['num_votes'] > 5000

In [None]:
plot5 = bgg[min_votes].plot.scatter(x="weight", y="num_votes", text="game_id")
plot5

In [91]:
fig = px.histogram(df, x="weight", y="num_votes", marginal="box",
                   hover_data=df.columns, nbins=30)
fig.show()

In [None]:
plot7 = bgg[min_votes].plot.distplot(x="avg_rating", y="num_votes")

print(bgg[min_votes].avg_rating.mean())
plot7

In [80]:
#plot6 = bgg[min_votes].plot.scatter(x="num_votes", y="geek_rating")

#Çplot6

fig = px.histogram(df, x="avg_rating", y="num_votes", marginal="box",
                   hover_data=df.columns)
fig.show()

In [None]:
import pandas as pd

# Assuming that dataframes df1 and df2 are already defined:

print( "Dataframe 2:")
display(HTML(bgg.head().to_html()))


#bgg=pd.read_csv('../csv/bgg_db_2018_01.csv',sep=',',encoding='latin-1')


## Referencias consultadas


Board Game Rank \[en línea\] \[fecha de consulta: 30 de mayo de 2022\]. Disponible en: https://boardgamegeek.com/browse/boardgame?sort=rank&sortdir=desc

BoardGameGeek FAQ \[en línea\] \[fecha de consulta: 31 de mayo de 2022\]. Disponible en: https://boardgamegeek.com/wiki/page/BoardGameGeek_FAQ#toc13

BoardGameWiki. Weight \[en línea\] \[fecha de consulta: 31 de mayo de 2022\]. Disponible en: https://boardgamegeek.com/wiki/page/Weight

How to delete a column in pandas \[en línea\] \[fecha de consulta: 01 de junio de 2022\]. Disponible en: https://www.educative.io/edpresso/how-to-delete-a-column-in-pandas

Pandas Plotting Backend in Python \[en línea\] \[fecha de consulta: 02 de junio de 2022\]. Disponible en: https://plotly.com/python/pandas-backend/

Working with Markdown tables in GitHub \[en línea\] \[fecha de consulta: 03 de junio de 2022\]. Disponible en: https://www.pluralsight.com/guides/working-tables-github-markdown

Practical Business Python. Overview of Pandas Data Types \[en línea\] \[fecha de consulta: 3 de junio de 2022\]. Disponible en: https://pbpython.com/pandas_dtypes.html

