In [1]:
## Importamos las librerias para el analisis y la visualizacion
import pandas as pd
from sqlalchemy import create_engine
import cufflinks as cf

engine = create_engine('mysql+pymysql://root:toor@localhost/popular_videogames') ##Conexion a la base de datos "popular_videogames" ya creada en workbrench
cf.set_config_file(sharing='public',theme='henanigans',offline=True,dimensions=(800,500)) ## Configuracion general para la graficacion de datos

***
- ## Analisis  Exploratorio de los datos (EDA)
***

Con la data ya limpia y preparada, ya podemos intentar resolver nuestras dudas sobre los registros que se encuentran en la base de datos, en este informe nos centraremos en estas preguntas:  
- ¿Cual es el genero mas popular?  
- ¿Cual es el videojuego mas popular por genero?  
- ¿Existe alguna relacion entre la popularidad del juego y el año en que fue lanzado?

***
- ### *Cual es el genero mas popular?*
  - La popularidad la basaremos cuantitativamente como la suma de todas las personas que fueron registradas en cada parte del proceso de jugar un videojuego (wishlist, backlogs, playing, played)

In [2]:
connection = engine.raw_connection() ## Coneccion donde sacaremos el cursor
cursor = connection.cursor() 

cursor.execute('SELECT gen.name AS Genre,(SUM(g.plays)+SUM(g.playing)+SUM(g.backlogs)+SUM(g.wishlist)) AS Populatity FROM games_genres AS gg INNER JOIN games AS g ON g.id=gg.id_game INNER JOIN genres AS gen ON gen.id = gg.id_genre GROUP BY 1 ;') ## Hacemos la consulta
genre_populatity = cursor.fetchall() ## Los almacenamos en una lista iterable
genre_data = []

for x in genre_populatity: 
  row = {  
    'Genre':x[0],
    'Populatity':x[1]
  }

  genre_data.append(row) ## Se agregan a la lista
genre_populatity = pd.DataFrame(genre_populatity,columns=['Genre','Populatity']) ## Se castea esa lista de diccionarios a un df
cursor.close() ## Cerramos la conexion del cursor con la db

In [3]:
genre_populatity.iplot(kind='line',x='Genre', xTitle='Genres',y='Populatity',yTitle='Populatity',title='Videogames Genres',mode='lines+markers')

<img src='./Charts/Line.png' height='500'>

- Miremos la distribucion en porcentaje.

In [4]:
genre_populatity.sort_values(by='Populatity')[-10:].iplot(kind='pie',labels='Genre',values='Populatity', textinfo='percent+label',hole=.4,title='Top 10 most popular genres', colors=['red'],textcolor='white')

<img src='./Charts/Pie.png' height='500' >

- #### Ya ordenados y graficados los datos podemos concluir que el genero mas famoso es el de **Adventure**, que como podemos apreciar representa un *32.5%* del total de la muestra, esto seguido por los generos **RPG (Rol-Playing-Game)** con un porcentaje del *16.3%* y **Shooter** con un *12.7%*.

***
- ### *¿Cual es el juego mas popular dentro de cada genero?*

In [5]:
cursor = connection.cursor() 
cursor.execute("SET @@sql_mode = SYS.LIST_DROP(@@sql_mode, 'ONLY_FULL_GROUP_BY');")
cursor.execute('SELECT a.genre,a.title,a.populatity FROM( SELECT g.title,gen.name AS Genre,(SUM(g.plays)+SUM(g.playing)+SUM(g.backlogs)+SUM(g.wishlist)) AS Populatity FROM games_genres AS gg INNER JOIN games AS g ON g.id=gg.id_game INNER JOIN genres AS gen ON gen.id = gg.id_genre GROUP BY 1,2 ORDER BY 2,3 DESC) AS a GROUP BY 1 HAVING a.populatity = MAX(a.populatity) ORDER BY 1 DESC; ') ## Hacemos la consulta
best_game_per_genre = cursor.fetchall() ## Los almacenamos en una lista iterable
query_data = []

for x in best_game_per_genre: 
  row = {  
    'Genre':x[0],
    'Game':x[1],
    'Populatity':x[2]
  }

  query_data.append(row) ## Se agregan a la lista
best_game_per_genre = pd.DataFrame(query_data,columns=['Game','Genre','Populatity']) ## Se castea esa lista de diccionarios a un df
cursor.close() ## Cerramos la conexion del cursor con la db

In [6]:
best_game_per_genre.iplot('barh', x=['Genre','Game'],y='Populatity',dimensions=(1000,1000),bargap=.6,title='Best Game Per Genre',color='dodgerblue')

<img src='./Charts/Barh.png' height='800'>

***
- ### *¿Existe alguna relacion entre la popularidad del juego y el año en que fue lanzado?*

In [7]:
cursor = connection.cursor() 
cursor.execute("SET @@sql_mode = SYS.LIST_DROP(@@sql_mode, 'ONLY_FULL_GROUP_BY');")
cursor.execute('SELECT g.title,g.rating,g.release_date,(SUM(g.plays)+SUM(g.playing)+SUM(g.backlogs)+SUM(g.wishlist)) AS Populatity FROM games_genres AS gg INNER JOIN games AS g ON g.id=gg.id_game INNER JOIN genres AS gen ON gen.id = gg.id_genre where gen.name="Adventure" GROUP BY 1 ORDER BY 4 DESC;') ## Hacemos la consulta
best_adventure_games = cursor.fetchall() ## Los almacenamos en una lista iterable
adventure_data = []

for x in best_adventure_games: 
  row = {  
    'Game':x[0],
    'Rating':x[1],
    'Release_date':x[2],
    'Populatity':x[3]
  }

  adventure_data.append(row) ## Se agregan a la lista
best_adventure_games = pd.DataFrame(adventure_data,columns=['Game','Rating','Release_date','Populatity']) ## Se castea esa lista de diccionarios a un df
cursor.close() ## Cerramos la conexion del cursor con la db

In [8]:
best_adventure_games.sort_values(by='Populatity').iplot(kind='line',x='Release_date',y='Populatity',xTitle='Age',yTitle='Populatity',color='red',title='Games in the Adventure Genre', mode='markers',size=5)
best_adventure_games.sort_values(by='Populatity').iplot(kind='line',x='Release_date',y='Rating',xTitle='Age',yTitle='Rating',title='Games in the Adventure Genre', mode='markers',size=5)

<img src='./Charts/Scatter.png' height='800'>

- #### Algunos detalles que podemos notar dentro de la primera grafica es que la media de los juegos se concentran en años mayores al 2000, los videojuegos lanzados con anterioridad son pocos y nisiquiera logran alcanzar llegar a los 25mil usuarios, se podria concluir apresuradamente que en ese entonces no se fabricaban juegos de buena calidad, pero si vemos la segunda grafica que relaciona los años con la valoracion, podemos ver que, de hecho, existen muchos mas juegos con una valoracion menor a 2.5 mientras mas nos vamos acercando a años reciente.
- #### Lo que podriamos decir para explicar el comportamiento es que por las epocas, los juegos antiguos no tenian mucha cobertura donde hacer marketing asi que no todo el mundo podia probarlo o siquiera saber de su existencia, hecho que cambio por la aparicion las redes sociales por los años 2000.
- #### Con los datos que tenemos podriamos decir dos cosas:
  - ##### Mientras pasan los años los juegos tenderán a llegar a mas publico
  - ##### Mientras pasan los años las empresas tenderan a crear juegos que sean valorados cerca a los extremos (con un rating de 0 o de 5).

***

###### Final del EDA