# Periodo 1

## Limpeza de Datasets

A limpeza de Datasets é um passo fundamental para a ciência de dados pois dados faltantes, ou distoantes do formato utilizado por padrão no dataset pode acarretar em mal funcionamento ou até mesmo o não funcionamento de funções chave para o tratemento e entendimento daqueles dados.

Essa limpeza pode ser feita de diversas formas e algumas delas serão apresentadas e exemplificadas a seguir utilizando o dataset Video Games List (https://www.kaggle.com/amoghrrao2/video-games-list). Note que para diferente datasets, ou até mesmo diferentes abordagens de um mesmo dataset, algumas formas de lidar com esses valores faltantes ou distoantes podem ser mais ou menos úteis.

In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv('Windows_Games_List.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3817 entries, 0 to 3816
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   titles      3817 non-null   object
 1   released    3817 non-null   object
 2   developers  3813 non-null   object
 3   publishers  3749 non-null   object
 4   genres      3817 non-null   object
dtypes: object(5)
memory usage: 149.2+ KB


Unnamed: 0,titles,released,developers,publishers,genres
0,101 Dalmatians: Escape from DeVil Manor,1999,DreamForge Intertainment,Disney Interactive,"Puzzle, Strategy, Adventure"
1,102 Dalmatians: Puppies to the Rescue,2000,Crystal Dynamics,Eidos Interactive,"Platform, Adventure"
2,140,2016,Double Fine Productions,Abstraction Games,"Music, Platform, Puzzle, Strategy, Indie"
3,1001 Spikes,2014,8bits Fanatics,Nicalis,"Platform, Adventure, Indie"
4,The 11th Hour,1995,Trilobyte,Virgin Interactive,"Point-and-click, Puzzle, Adventure"


### Remoção
Remove uma linha ou coluna do dataset.

<h4 color = "blue"> Remoção de linha: </h4>
É melhor utilizada quando o dataset possui uma quantidade muito grande de dados, de forma que algumas poucas linhas a menos não interfira no tratamento dos dados.

<h4 color = "blue"> Remoção de coluna: </h4>
Pode ser utilizada quando a coluna em questão não será utilizada no processamento dos dados. Podendo ser removida sem maiores prejuízos.

In [4]:
# Remocao Linha
dftemp = df.dropna()
dftemp.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3748 entries, 0 to 3816
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   titles      3748 non-null   object
 1   released    3748 non-null   object
 2   developers  3748 non-null   object
 3   publishers  3748 non-null   object
 4   genres      3748 non-null   object
dtypes: object(5)
memory usage: 175.7+ KB


In [9]:
#Porcentagem de Perda:
df.isnull().sum()/df.shape[0]*100

titles        0.000000
released      0.000000
developers    0.104794
publishers    1.781504
genres        0.000000
dtype: float64

Note que houve uma perda de aproximadamente 1,8% em uma das colunas, oque em determinados casos pode ser considerado um valor elevado.

Outra possível abordagem pode ser a retirada das colunas com valores faltantes, para isso bastaria alterar a linha df.dropna() para df.dropna(1), que ao invés de apagar cada linha com um valora faltante, iria apagar a coluna por completo. Mas neste caso a perda de informações seria muito grande, dado o tamanho e a possível importância das colunas.

### Substituição
Existem algumas formas de se substituir um valor faltante para prossegui com o processamento dos dados. As mais simples de se aplicar são as Substituições por média, mediana, moda ou um valor predefinido. Contudo, essa forma de lidar com valores faltantes deve ser aplicada com cuidado pois pode deixar o processamento dos dados tendencioso 

Neste exemplo podemos observar que existem algumas linhas do dataset com os valores das colunas 'developers' e 'publishers' ausentes. Contudo, analisando o contexto não faria sentido preencher com um valor de moda ou mediana, sendo a opção mais viável a de preencher os campos vazios com "desconhecido".

In [12]:
dftemp = df.fillna("desconhecido")
dftemp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3817 entries, 0 to 3816
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   titles      3817 non-null   object
 1   released    3817 non-null   object
 2   developers  3817 non-null   object
 3   publishers  3817 non-null   object
 4   genres      3817 non-null   object
dtypes: object(5)
memory usage: 149.2+ KB


Neste caso mantivemos a quantidade de linhas e os dados não foram alterados drásticamente. Portanto esta seria a melhor abordagem para manter ao máximo a integridade dos dados