 # 🎲 ANÁLISE E LIMPEZA DE DADOS - GAMES 🎲
 
 Por Evelyn Rosa

<h3> Agenda: </h3>

1. Informações gerais sobre o DataFrame;
2. Importando as bibliotecas eo DataFrame;
3. Checando as informações do DataFrame;
4. Visualizando os dados;
5. Limpando os dados;
6. Analisando os dados;
7. Conclusão.

 <H3> 1. Informações Gerais Sobre o DataFrame </H3>

O Dataframe possui informações sobre os jogos avaliados na plataforma de games Metric. Os detalhes sobre cada coluna são:

1. name - nome do jogo;
2. platform - plataforma do jogo;
3. developer - desenvolvedora do jogo;
4. publisher - publicadora do jogo;
5. genre(s) - gênero do jogo;
6. players - número de jogadores;
7. rating - avaliação ESRB;
8. attribute - informação adicional do jogo;
9. release_date - data de lançamento do jogo;
10. link - url da página do jogo;
11. critic_positive - número de reviews positivas da crítica;
12. critic_neutral - número de reviews neutras da crítica;
13. critic_negative - número de reviews negativas da crítica;
14. metascore - média do score da crítica;
15. user_positive - número de reviews positivas dos usuários
16. user_neutral - número de reviews neutras dos usuários;
17. user_negative - número de reviews negativas dos usuários;
18. user_score - média do score dos usuários.


<h3>2. Importando as Bibliotecas eo DataFrame</h3>

O primeiro passo em um projeto de Limpeza e Análise de dados é importar as bibliotecas que utilizaremos durante o trabalho.

In [15]:
# Bibliotecas
import pandas as pd # para visualizar e printar os dados
import matplotlib.pyplot as plt # para construir e customizar gráficos
import seaborn as sns  # para visualizar gráficos
import numpy as np # para operações matemáticas

Em seguida, é necessário importar o dataset de onde as informações serão extraídas para limpeza e analize.

In [16]:
# DataFrame
games = pd.read_csv("games.csv")

<h3>3. Checando as informações do DataFrame</h3>
Analisando as Features

In [88]:
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20422 entries, 0 to 20421
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             20422 non-null  object 
 1   platform         20422 non-null  object 
 2   developer        20363 non-null  object 
 3   publisher        20392 non-null  object 
 4   genre(s)         20422 non-null  object 
 5   players          13193 non-null  object 
 6   rating           18138 non-null  object 
 7   attribute        324 non-null    object 
 8   release_date     20422 non-null  object 
 9   link             20422 non-null  object 
 10  critic_positive  20422 non-null  int64  
 11  critic_neutral   20422 non-null  int64  
 12  critic_negative  19084 non-null  float64
 13  metascore        20422 non-null  int64  
 14  user_positive    20422 non-null  int64  
 15  user_neutral     20409 non-null  float64
 16  user_negative    20422 non-null  int64  
 17  user_score  

- O DataFrame possui 20422 linhas e 18 colunas.

- Há 20422 entradas mas nem todas as colunas apresentam esse valor, o que significa que existem dados faltantes (quantidade de dados nulos).

- Existem 11 colunas com dados categóricos (object) e 7 com dados numéricos (int e float).

Como foi observado, existem dados que não estão de acordo com o dataset. Na coluna Plataform e na coluna Genre(s) é possível notar os respectivos dados " quando vai ser o churrasturing?" e "agora eu sou solteira e ninguém vai me segurar" que não se encaixam nas informações da coluna. 
Para que possamos fazer uma boa análise de dados é preciso antes verificar a consistência das informações e remover o que é dispensável. A melhor forma de fazer isso é visualizando e limpando os dados.

   <h3>4. Visualizando os dados </h3>

Para enxergar melhor as informações de cada coluna e assim perceber inconsistencias, basta importar as primeiras linhas para que assim seja possível ter um panorama inicial dos dados:


In [89]:
games.head()

Unnamed: 0,name,platform,developer,publisher,genre(s),players,rating,attribute,release_date,link,critic_positive,critic_neutral,critic_negative,metascore,user_positive,user_neutral,user_negative,user_score
0,Command & Conquer,quando vai ser o churrasturing?,,,AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR...,1-4,aceitas pix,,"Aug 31, 1995",/game/pc/command-conquer,5,0,,94,47,,1,8.9
1,Full Throttle,PC,LucasArts,LucasArts,Adventure,,,,"Apr 30, 1995",/game/pc/full-throttle,6,2,0.0,86,18,1.0,0,8.7
2,Battle Arena Toshinden,PS,Tamsoft,SCEA,Action,1-2,T,,"Sep 9, 1995",/game/playstation/battle-arena-toshinden,1,3,0.0,69,1,0.0,1,5.8
3,Sid Meier's Civilization II,PC,MPS Labs,MicroProse,Strategy,1 Player,K-A,,"Feb 29, 1996",/game/pc/sid-meiers-civilization-ii,7,0,0.0,94,46,0.0,1,8.9
4,Quake,PC,id Software,id Software,Action,1-16,M,,"Jun 22, 1996",/game/pc/quake,9,0,0.0,94,84,4.0,1,8.8


Outra boa alternativa para a viasualização de erros é mudar a ordem do dataframe elencando as informações de acordo com a sua popularidade, essa opção ajuda a ver mais rapidamente dados destoantes.

Usaremos a coluna Genre(s) afim de ordenar as entradas do maior até o menor. Ou seja, do gênero mais popular até o menos popular.

In [79]:
# Mostra na tela os gêneros em ordem decrescente
games.sort_values('genre(s)', ascending=False, inplace=False).head(15) 

Unnamed: 0,name,platform,developer,publisher,genre(s),players,rating,attribute,release_date,link,critic_positive,critic_neutral,critic_negative,metascore,user_positive,user_neutral,user_negative,user_score
15665,Arcania: The Complete Tale,PS4,Nordic Games Publishing,Nordic Games Publishing,Western-Style,,T,,"May 12, 2015",/game/playstation-4/arcania-the-complete-tale,0,2,,42,2,4.0,4,4.8
10514,Combat Mission: Battle for Normandy,PC,Battlefront.com,Battlefront.com,Wargame,,,,"May 17, 2011",/game/pc/combat-mission-battle-for-normandy,3,1,0.0,81,16,4.0,7,5.4
12316,Damage Inc.: Pacific Squadron WWII,X360,Mad Catz,Mad Catz,WWII,,T,,"Aug 28, 2012",/game/xbox-360/damage-inc-pacific-squadron-wwii,1,12,11.0,49,0,0.0,1,5.5
13837,IL-2 Sturmovik: Battle of Stalingrad,PC,1C Game Studios,Excalibur Publishing Limited,WWI,,T,,"Aug 14, 2014",/game/pc/il-2-sturmovik-battle-of-stalingrad,3,4,0.0,74,85,23.0,63,6.0
13992,The Sims 4,PC,Maxis,Electronic Arts,Virtual Life,No Online Multiplayer,T,,"Sep 2, 2014",/game/pc/the-sims-4,31,41,2.0,70,189,146.0,496,4.1
13949,Tropico 5,X360,"Haemimont, Haemimont Games",Kalypso,Tycoon,,T,,"Nov 11, 2014",/game/xbox-360/tropico-5,1,3,0.0,71,0,2.0,1,7.4
13000,Zoo Tycoon,XONE,Frontier Developments,Microsoft Game Studios,Tycoon,Up to 4,E,,"Nov 22, 2013",/game/xbox-one/zoo-tycoon,12,32,,68,7,9.0,10,3.1
13787,Tropico 5,PC,"Haemimont, Haemimont Games",Kalypso,Tycoon,,T,,"May 23, 2014",/game/pc/tropico-5,31,19,1.0,75,28,23.0,26,7.0
17122,RollerCoaster Tycoon World,PC,Nvizzio Creations,Atari,Tycoon,No Online Multiplayer,E,,"Nov 16, 2016",/game/pc/rollercoaster-tycoon-world,0,2,5.0,43,4,1.0,20,2.1
14832,Tropico 5,PS4,"Haemimont, Haemimont Games",Kalypso,Tycoon,Up to 4,T,,"Apr 28, 2015",/game/playstation-4/tropico-5,12,5,0.0,76,11,7.0,6,7.1


Agora que ordenamos a visualização do dataframe pelos gêneros mais populares, aplicaremos as modificações no dataset original:

In [80]:
# Altera o dataFrame original
games.sort_values('genre(s)', ascending=True, inplace=True)

Com essa organização das informações é possível notar que algumas coisas saltam aos olhos. Podemos observar que existe uma diferenciação entre os valores 'Wargame', 'WWI' e 'WWII'. Entretanto, 'WWI' e 'WWII' pertencem a mesma categoria de 'Wargame'.

<h3> 5.  Limpando os Dados </h3>

<h4> 5.1 Duplicadas </h4>

Um passo importante durante a limpeza de um DataFrame é a remoção de linhas duplicadas

In [17]:
games[games.duplicated()]

Unnamed: 0,name,platform,developer,publisher,genre(s),players,rating,attribute,release_date,link,critic_positive,critic_neutral,critic_negative,metascore,user_positive,user_neutral,user_negative,user_score
8258,Bookworm,DS,PopCap,PopCap,Miscellaneous,,E,,"Nov 30, 2009",/game/ds/bookworm,2,4,0.0,80,0,0.0,0,tbd
8260,Bookworm,DS,PopCap,PopCap,Miscellaneous,,E,,"Nov 30, 2009",/game/ds/bookworm,2,4,0.0,71,0,0.0,0,tbd


Após ter certeza sobre quais linhas estão duplicadas, é possível removê-las: 

In [18]:
games.drop_duplicates(inplace = True)

<h4>5.2  Removendo Colunas Desnecessárias </h4>

Existem algumas colunas em nosso dataFrame que possuem informações que não serão tão úteis durante a análise. É o caso da coluna 'link', que contém links para as páginas dos jogos, e da coluna 'attribute', que contém informações adicionais.
A maneira heterogênea como são apresentados e a grande quantidade de dados dados faltantes, sobretudo na coluna 'attribute', impede que façamos agrupamentos e possam ser feitas comparações com as demais colunas.

In [19]:
# Removendo as colunas "link" e "attribute"
games.drop(columns=['link', 'attribute'], inplace=True)

<h4> 5.2 Limpando as Features </h4>
Limpando Dados Categóricos:

In [46]:
# limpando a coluna genre(s)

Já que observamos erros anteriormente na coluna Genre(s), iniciaremos a limpeza das colunas por ela. Vamos renomear a coluna para 'genre' afim de evitar possíveis erros na hora de ultilizarmos algumas funções.

In [87]:
# Renomeando a coluna genre(s)
games.rename(columns={'genre(s)': 'genre'}, inplace = True)

Agora veremos os valores unicos existentes na coluna. Isso é particularmente útil para verificar os diferentes valores em um campo categórico.

In [85]:
# verificando os valores da coluna genre
games['genre'].unique()

array(['2D', '3D', '4X',
       'AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO',
       'Action', 'Action Adventure', 'Action RPG', 'Adventure',
       'Alternative', 'Arcade', "Beat-'Em-Up", 'Board Games',
       'Breeding/Constructing', 'Card Battle', 'City Building',
       'Compilation', 'Console-style RPG', 'Dancing', 'Driving',
       'Edutainment', 'Fantasy', 'Fighting', 'First-Person', 'Flight',
       'Formula One', 'Futuristic', 'GT / Street', 'General', 'Historic',
       'Horror', 'Ice Hockey', 'Japanese-Style', 'MOBA',
       'Massively Multiplayer Online', 'Military', 'Miscellaneous',
       'Modern', 'Music', 'Music Maker', 'Olympic Sports', 'Other',
       'PC-style RPG', 'Party', 'Pinball', 'Platformer', 'Puzzle',
       'Racing', 'Rail', 'Rally / Offroad', 'Real-Time', 'Role-Playing',
       'Sci-Fi', 'Scrolling', 'Shooter', 'Sim', 'Simulation', 'Sports',
       'Strategy', 'Street', 'Tactical', 'Third-Person', 'Traditional',
       'Turn-Based', 'T

 faremos então a substituição dos valores 'WWI' e 'WWII' por 'Wargame':

In [88]:
#Substituir WWI por Wargame:
games["genre"].replace("WWI", "Wargame", inplace = True)

#Substitui WWII por Wargame:
games["genre"].replace("WWII", "Wargame", inplace = True)

Há também na coluna, informações como 'AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO' e 'Sim' que precisam ser tratadas, seguiremos os seguintes passos:
-   contar as ocorrências de 'AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO' na coluna gênero
-  verificar qual a melhor maneira de tratar a informação 'AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO'
- Substituir 'Sim' por 'Simulator' para corigir a diferenciação entre os valores e uniformiza-los

In [89]:
# contando as ocorrências de "AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO" na coluna genre
freq_solteira = games["genre"].str.contains('AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO').value_counts()
print(freq_solteira)

False    20415
True         5
Name: genre, dtype: int64


Como existe pouca ocorrência (apenas 5) de 'AGORA EU SOU SOULTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO' optamos por excluir as linhas, de modo que não impactará em nossa análise.

In [90]:
# Excluindo as linhas em que "AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO" aparece na coluna genre
genre_solteira = games[games['genre'] == 'AGORA EU SOU SOLTEIRA E NINGUEM VAI ME SEGURAR, DAQUELE JEEEEITO'].index
games.drop(genre_solteira, inplace=True)

In [91]:
# Substituindo 'Sim' por 'Simulation'
games["genre"].replace("Sim", "Simulation", inplace = True)

In [22]:
# Limpando a Coluna Name

In [93]:
print("name column unique values:")
print(pd.Series(games.name.unique()), end = "\n\n")

name column unique values:
0        Dragon Quest Heroes: The World Tree's Woe and ...
1                                       Super Lucky's Tale
2                                              Rad Rodgers
3                                                 Deadpool
4                      Sengoku Jidai: Shadow of the Shogun
                               ...                        
13241                                        Atlas Reactor
13242                                            Tropico 5
13243                           RollerCoaster Tycoon World
13244                 IL-2 Sturmovik: Battle of Stalingrad
13245                  Combat Mission: Battle for Normandy
Length: 13246, dtype: object



As informações da coluna 'name' são consistentes, não precisamos fazer alterações.

In [50]:
# Limpando a Coluna Platform

In [55]:
# Verificando a ocorrência dos valores na coluna platform
games["platform"].value_counts()

PC                                 4372
X360                               1826
PS4                                1818
PS2                                1528
PS3                                1476
XONE                               1310
pc                                 1060
DS                                  988
WII                                 872
Switch                              812
XBOX                                664
PSP                                 607
GBA                                 597
3DS                                 539
GC                                  512
VITA                                408
WIIU                                319
PS                                  256
xBoX                                173
DC                                  143
N64                                  89
quando vai ser o churrasturing?      48
Name: platform, dtype: int64

 Há 48 linhas em que'quando vai ser o churrasturing' aparece no dataFrame. Como não se encaixam na coluna, e são poucas as ocorrências, decidimos substitui-las pela moda.
Além disso, há outras informações que precisam ser reparadas, é possível notar que há uma diferenciação entre os valores 'xBOX' e 'XBOX' e também 'pc'e 'PC' que rementem à mesma informação.

Substituiremos para uniformizar os dados:

In [92]:
# Substituindo 'quando vai ser o churrasturing' pela moda
games['platform'].replace('quando vai ser o churrasturing?', games['platform'].mode()[0], inplace=True)

# Substituindo 'xBOX' por 'XBOX'
games["platform"].replace("xBOX", "XBOX", inplace = True)

# Substituindo 'pc' por 'PC'
games["platform"].replace("pc", "PC", inplace = True)

In [24]:
# Limpando a Coluna Developer

In [66]:
# Verificando os valores existentes na coluna developer
print("developer column unique values:")
print(pd.Series(games.developer.unique()), end = "\n\n")

developer column unique values:
0                         NaN
1                   LucasArts
2                     Tamsoft
3                    MPS Labs
4                 id Software
                ...          
4737                     MMEU
4738     Reversed Interactive
4739            Deeli network
4740              Undercoders
4741    Snap Finger Click Ltd
Length: 4742, dtype: object



Não verificamos nenhuma informação incorreta na coluna 'developer'. Entretanto, há dados faltantes que corrigiremos posteriormente.

In [26]:
# Limpando a Coluna Publisher

In [75]:
# Verificando os valores existentes na coluna publisher
print(" column publisher unique values:")
print(pd.Series(games.publisher.unique()), end = "\n\n")

 column publisher unique values:
0                     LucasArts
1                          SCEA
2                    MicroProse
3                   id Software
4        Blizzard Entertainment
                 ...           
2223                Lion Castle
2224    OtherSide Entertainment
2225              Deeli network
2226                Undercoders
2227      Snap Finger Click Ltd
Length: 2228, dtype: object



No caso da coluna 'publisher' também há dezenas de dados faltantes que substituiremos posteriormente. Não há nenhuma informação inconsistente. 

In [28]:
# Limpando a Coluna Players

In [93]:
# Verificando os valores existentes na coluna players
games["players"].value_counts()

No Online Multiplayer    3884
1 Player                 2590
1-2                      1488
1-4                      1169
2  Online                 420
Up to 4                   388
4  Online                 364
Online Multiplayer        331
1-8                       330
2                         303
8  Online                 262
Up to 8                   235
Massively Multiplayer     146
16  Online                136
Up to 6                   108
1-16                       99
Up to 16                   89
Up to 12                   89
6  Online                  86
1-6                        73
Up to 10                   65
1-32                       50
32  Online                 47
10  Online                 42
12  Online                 41
1-3                        33
24  Online                 32
Up to 18                   28
Up to 22                   24
1-5                        23
1-12                       18
Up to 64                   18
Up to 24                   18
Up to 3   

Verificamos que há alguns problemas na padronização dos dados da coluna "Player", os quais apresentam informações semelhantes, ora em números, ora em caracteres alfanuméricos. Portanto, iremos padronizar os dados dessa coluna, além de remover os espaços em branco adicionais.

In [94]:
# Padrozinando as informações da coluna players
games["players"] = games["players"].str.strip()
games["players"].replace({"1-4":"Up to 4", "1-2":"Up to 2", "1-16":"Up to 16", "1-6":"Up to 6", "1-8": "Up to 8", "1-5": "Up to 5", "1-32":"Up to 32", "1-10":"Up to 10","1-3":"Up to 3", "1-12": "Up to 12", "1-64":"Up to 64", "1-24": "Up to 24"}, inplace=True)

In [30]:
# Limpando a Coluna Rating

In [71]:
# Verificando os valores existentes na coluna rating
print("rating column unique values:")
print(pd.Series(games.rating.unique()), end = "\n\n")

rating column unique values:
0    aceitas pix
1            NaN
2              T
3            K-A
4              M
5              E
6           E10+
7             AO
8             EC
9             RP
dtype: object



É possível notar o valor 'aceitas pix' que não se encaixa na coluna rating. Vamos verificar sua ocorrência:

In [95]:
freq_pix = games['rating'].str.contains('aceitas pix').value_counts()
print(freq_pix)

False    18094
True        37
Name: rating, dtype: int64


Como existe pouca ocorrência (apenas 37) de 'aceitas pix' optamos por excluir as linhas, de modo que não impactará em nossa análise.

In [96]:
# Excluindo as linhas em que "aceitas pix" aparece na coluna rating
rating_pix = games[games['rating'] == 'aceitas pix'].index
games.drop(rating_pix, inplace=True)

In [32]:
# Limpando a Coluna Release_date

In [61]:
print("release_date column unique values:")
print(pd.Series(games.release_date.unique()), end = "\n\n")

release_date column unique values:
0       Aug 31, 1995
1       Apr 30, 1995
2       Sep  9, 1995
3       Feb 29, 1996
4       Jun 22, 1996
            ...     
4318    Apr  9, 2018
4319    Nov 23, 2018
4320    Oct  4, 2018
4321    Nov 14, 2018
4322    Sep  3, 2018
Length: 4323, dtype: object



Pensando em uma análise de dados ao longo dos anos, decidiamos manter apenas as informações referentes ao ano de lançamento dos jogos.

In [106]:
# transformaando os dados da coluna 'release_date' em objetos do tipo datetime
games['release_date'] =  pd.to_datetime(games['release_date'], infer_datetime_format=True)

# convertendo a data completa em ano
games['release_date'] = pd.DatetimeIndex(games['release_date']).year

<h4>Limpando Dados Numéricos:</h4>

In [34]:
# Limpando a Coluna Critic_positive

In [64]:
games['critic_positive'].unique()

array([  5,   6,   1,   7,   9,  12,  13,   8,   3,  11,   2,  21,  20,
        15,  10,   4,   0,  22,  24,  16,  19,  18,  14,  17,  30,  27,
        34,  25,  37,  32,  28,  33,  29,  26,  23,  56,  68,  42,  53,
        50,  59,  35,  43,  38,  31,  70,  62,  36,  46,  40,  60,  41,
        39,  80,  72,  45,  51,  44,  49,  55,  81,  79,  89,  76,  52,
        74,  48,  58,  63,  65,  86,  61,  77,  64,  54,  47,  82,  69,
        66,  57,  73,  88,  90,  67,  85,  83,  78,  93, 105, 100,  75,
        71,  84,  87,  98,  96, 101,  92,  99,  94,  97, 111, 106, 113,
       110, 118], dtype=int64)

In [16]:
games["critic_positive"].value_counts()

0      3070
1      2202
2      1785
3      1490
4      1276
       ... 
92        1
111       1
106       1
113       1
118       1
Name: critic_positive, Length: 106, dtype: int64

In [35]:
# Limpando a  Coluna Critic_neutral

In [66]:
games['critic_neutral'].unique()

array([ 0,  2,  3,  1,  4,  6,  5,  8,  7, 11,  9, 12, 14, 13, 10, 15, 17,
       16, 18, 23, 20, 21, 19, 24, 22, 25, 28, 30, 27, 38, 33, 31, 26, 29,
       37, 32, 34, 35, 36, 40, 46, 41, 53, 43, 39, 49, 50, 45, 51, 54, 48,
       44, 58, 42, 47, 60, 55], dtype=int64)

In [36]:
# Limpando a Coluna Critic_negative

In [69]:
games['critic_negative'].unique()

array([nan,  0.,  1.,  4.,  2.,  3.,  5.,  9.,  7.,  8., 10.,  6., 15.,
       11., 14., 12., 21., 13., 18., 16., 23., 19., 17., 20., 22., 25.,
       36., 26., 33., 30., 31., 27., 24., 38., 34., 32., 39., 51., 28.,
       43.])

In [37]:
# Limpando a Coluna Metascore

In [71]:
games['metascore'].unique()

array([94, 86, 69, 93, 92, 91, 90, 89, 85, 84, 83, 80, 79, 77, 74, 70, 59,
       53, 96, 88, 82, 73, 72, 71, 56, 99, 87, 81, 78, 76, 75, 67, 65, 61,
       58, 98, 66, 60, 49, 43, 97, 95, 68, 64, 63, 62, 57, 55, 54, 52, 51,
       50, 48, 47, 46, 44, 42, 41, 40, 39, 38, 37, 35, 34, 32, 30, 29, 28,
       27, 26, 25, 24, 45, 36, 33, 31, 22, 19, 23, 18,  8, 16, 12, 21, 20,
       17, 11, 13, 14, 15], dtype=int64)

In [38]:
# Limpando a Coluna User_positive

In [73]:
games['user_positive'].unique()

array([  47,   18,    1,   46,   84,  220,    4,   15,   31,   52,   25,
         39,    5,    8,    0,    2,    6,    3,   10,  122,  106,  365,
         13,   19,  111,   37,   45,   38,   20,   23,   61,    9,   11,
        918,   48,  502,   17,  205,   71,   93,   43,   55,  107,   79,
        134,   12,  121,   14,   63,   42,   28,   65,   16,   40,   97,
         92,   58,  141,  131,   21,   68,   41,    7,   80,   33,  210,
        202,  168,   81,   30,   44,   22,   72,  242,   26,   29,  512,
        117,   27,   49,  112,   24,   91,   50,  195,  419,  249,  105,
        116,   36,   87,  234,  232,  118,   78,   73,   85,   35,  133,
        136,   88,   56,   67,  267,  198,   83,   51,   59,  123,  135,
         34,  203,   32,  171,  124,  289,  109,   57,  143,  254,  110,
         70,   66,   60,   76,  104,   74,   53,  149,  207, 1758,  442,
        382,  297,   69,  169,   90,  206,  139, 1257,  157,  103,   86,
         54,  151,   64,  359,  237,  209,  230,  1

In [39]:
# Limpando a Coluna User_neutral

In [74]:
games['user_neutral'].unique()

array([ nan,   1.,   0.,   4.,   8.,  14.,   2.,   7.,   3.,  11.,  34.,
         9.,   5.,  12.,  42.,  32.,  10.,  18.,   6.,  15.,  17.,  23.,
        13.,  16.,  48.,  31.,  19.,  24.,  20.,  22.,  40.,  21.,  27.,
       140.,  86.,  81.,  84.,  82.,  28.,  29.,  30.,  26.,  25.,  50.,
        38.,  62.,  79.,  87.,  35.,  63., 103.,  45.,  36.,  41.,  39.,
        37.,  52.,  46.,  54., 135., 215.,  43.,  77., 110., 113.,  83.,
        97.,  44., 142., 178.,  51.,  71.,  70., 130.,  89.,  76.,  66.,
        58., 139., 126.,  55.,  33.,  64.,  95., 207.,  93., 188.,  78.,
       164.,  67., 150., 100., 146., 120., 132.,  47.,  57.,  72.,  90.,
        75., 101.,  68.,  73.,  53., 108., 324.,  88., 105., 112., 192.,
        59., 464.,  65., 260., 131., 216., 111., 293.,  98., 149., 143.,
       170.,  60.,  61., 200., 134., 121., 336., 118.,  49., 507., 196.,
       124., 106., 204., 127.,  85.,  69.,  56., 141., 303., 122., 171.,
       123.,  99., 173., 222., 184., 153.,  80.,  9

In [40]:
# Limpando a Coluna User_negative

In [76]:
games['user_negative'].unique()

array([   1,    0,    7,   10,    3,    6,    2,    4,   15,    5,   37,
         13,   12,   11,    8,   14,    9,   18,   23,   38,   26,   25,
         16,   31,   21,   27,   46,   17,   22,  251,  110,   53,  144,
         29,   96,   55,   35,   20,   42,   28,   34,   24,   33,  622,
        621,   83,   48,   47,   67,   62,   78,   58,   41,  106,   73,
         39,   30,   19,  133,   54,   87,  184,   64,   61,   97,   80,
         76,  101,  194,   32,  192,  371,   44,   36,  149,  202,   66,
        317,  832,   68,   56,   45,   51,  379,   81,  130,   91,  139,
        103,   43,   52,  125,   57,  154,  295,   50,   89,  147,  104,
        452,  479,  270, 2546, 1275,   77,  120,  490,  117, 1021,  204,
         82,  347,  320,  465, 1179,   65,   40,   79,   60,   84,   98,
        123,  119,   69,  523,  141,  155,   88, 1037,   86, 3001,  166,
        138,   71,  390,  169,  226,  145,  146,  240,   49,   59,  171,
       1304,  150, 1675,   90,  341,   99,  450,   

In [41]:
# Limpando a Coluna User_score

In [34]:
#Verificando os valores únicos da coluna
games["user_score"].unique()

array(['7.6', '6.8', '7.2', '5.9', '7.4', '5.7', '6.5', '8.4', '8.9',
       '7.5', '7.3', '7.1', '4.8', '7.7', '8.1', '5.8', '8.5', '8.0',
       '7.8', '8.3', '6.9', '3.4', '3.2', '8.2', '6.0', '6.7', '7.9',
       '6.3', '5.6', 'tbd', '6.6', '8.6', '5.0', '6.4', '3.3', '3.8',
       '5.1', '4.4', '6.2', '7.0', '4.3', '4.1', '2.4', '2.1', '2.6',
       '4.6', '9.0', '8.7', '3.6', '3.7', '3.0', '4.0', '5.4', '1.7',
       '6.1', '1.9', '4.5', '2.0', '4.9', '5.5', '5.3', '5.2', '2.8',
       '8.8', '9.2', '9.1', '2.5', '4.2', '3.9', '3.5', '1.4', '4.7',
       '2.3', '1.8', '1.3', '1.2', '2.7', '2.2', '2.9', '1.5', '3.1',
       '1.1', '1.6', '0.4', '0.5', '1.0', '9.4', '0.8', '0.7', '9.3',
       '0.1'], dtype=object)

<h4> 5.3 Inconsistências </h4>

Vamos então utilizar o `np.nan` para declarar valores faltantes nos dados, de modo que substituiremos  informações numéricas que não fazem sentido por NaN que significa "Not a Number".Ele permite decodificar um valor faltante mas ainda assim ser lido como um numeral, pois é definido como float.

O valor 'tbd' não faz sentido para a nossa análise considerando que a coluna User_score recebe apenas valores referentes a média do score dos usuários. Vamos então utilizar o `np.nan` para declarar valores faltantes nos dados, substituindo 'tbd' por NaN, em seguida, ajustaremos o datatype de 'objet' para 'int'.

In [35]:
# Substituir 'tbd' por 'NaN'
games  = games.replace(['tbd'], np.nan)

<h4> 5.4 Ajustando os Datatypes </h4> 

Pode occorrer de algumas colunas estarem armazenando a informação com o tipo de variavél incorreta.Por exemplo, uma coluna com dados numéricos deve ser armazenada como int ou float, e não como object, que é como o pandas guarda strings, ou seja, valores de texto.
Para verificar os tipos de variáveis, basta utilizar a função `.info()`

mudaremos então o datatype da coluna user_score de 'objetc' para 'float':

In [36]:
# Substituindo o datatype da coluna user_score
games["user_score"] = games["user_score"].astype("float")

<h4>5.5 Dados faltantes</h4>

Não existe uma maneira específica mais correta de preencher dados faltantes em um dataFrame, em todas as altervativas há ganhos e recusas.
Durante a limpeza nós optamos por fazer algumas substituições, nos dados numéricos utilizamos o NaN e nos categóricos trocamos insconsistências pela moda, que representa o resultado que mais se repete em determinado conjunto de dados.
Agora, passaremos um "pente fino" para verificar quais colunas ainda nao foram preenchedias e escolheremos qual a melhor maneira de completá-las. 

In [20]:
# Verificando as colunas com mais valores ausentes
games.isnull().sum().sort_values(ascending=False) [:18]

players            7227
rating             2284
critic_negative    1338
developer            59
publisher            30
user_neutral         13
name                  0
platform              0
genre(s)              0
release_date          0
critic_positive       0
critic_neutral        0
metascore             0
user_positive         0
user_negative         0
user_score            0
dtype: int64