# Tratamento e limpeza de dados 

# Imports

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

# Sobre os dados



### Contexto

A coleta de dados de aplicativos da Apple App Store é relativamente fácil devido à estrutura bem organizada de suas páginas, o que facilita a raspagem de dados. No entanto, a obtenção de dados do Google Play Store é mais desafiadora porque a loja utiliza técnicas modernas, como carregamento dinâmico de páginas com JQuery, que complicam o processo de raspagem.

Esse contexto explica as dificuldades em obter dados do Google Play Store, justificando a raridade desses datasets em comparação aos dados da Apple App Store.

Colunas do dataframe:

* App (nome dos aplicativos)	
* Translated_Review (Comentário do usuário a respeito do app)
* Sentiment (Classificação categórica do sentimento do usuário em positivo, negativo e neutro)
* Sentiment_Polarity (polaridade de sentimento. Nota próxima de 1 representa sentimento positivo e próxima de zero representa sentimento neutro e próximo de -1 sentimento negativo)
* Sentiment_Subjectivity (Equivalente a `Sentiment_Polarity` no entanto apenas com valores de 0 a 1)

### Objetivo 

Neste notebook, meu principal objetivo é realizar uma análise criteriosa do conjunto de dados, identificando e corrigindo possíveis inconsistências e anomalias. Este processo de limpeza e preparação dos dados é essencial para garantir que a posterior análise exploratória seja precisa e confiável, permitindo insights robustos e relevantes a partir dos dados tratados

### Fonte dos dados
O dataset foi obtido do seguinte repositório do Kaggle:
https://www.kaggle.com/datasets/lava18/google-play-store-apps?resource=download&select=googleplaystore_user_reviews.csv


# Data Loading

In [26]:
path_ = '../dataset/googleplaystore_user_reviews.csv'

In [27]:
df = pd.read_csv(path_)

## Data exploration

In [28]:
df

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
0,10 Best Foods for You,I like eat delicious food. That's I'm cooking ...,Positive,1.00,0.533333
1,10 Best Foods for You,This help eating healthy exercise regular basis,Positive,0.25,0.288462
2,10 Best Foods for You,,,,
3,10 Best Foods for You,Works great especially going grocery store,Positive,0.40,0.875000
4,10 Best Foods for You,Best idea us,Positive,1.00,0.300000
...,...,...,...,...,...
64290,Houzz Interior Design Ideas,,,,
64291,Houzz Interior Design Ideas,,,,
64292,Houzz Interior Design Ideas,,,,
64293,Houzz Interior Design Ideas,,,,


In [5]:
df.columns

Index(['App', 'Translated_Review', 'Sentiment', 'Sentiment_Polarity',
       'Sentiment_Subjectivity'],
      dtype='object')

In [6]:
df.shape

(64295, 5)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64295 entries, 0 to 64294
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   App                     64295 non-null  object 
 1   Translated_Review       37427 non-null  object 
 2   Sentiment               37432 non-null  object 
 3   Sentiment_Polarity      37432 non-null  float64
 4   Sentiment_Subjectivity  37432 non-null  float64
dtypes: float64(2), object(3)
memory usage: 2.5+ MB


# Identificando inconsistências

## Valores duplicados

In [8]:
df.duplicated().sum()

33616

## Valores únicos

In [9]:
for col in df.columns:
    print(f"Coluna: {col}")
    print(df[col].unique())
    print("-" * 30)

Coluna: App
['10 Best Foods for You' '104 找工作 - 找工作 找打工 找兼職 履歷健檢 履歷診療室' '11st' ...
 'Hotwire Hotel & Car Rental App' 'Housing-Real Estate & Property'
 'Houzz Interior Design Ideas']
------------------------------
Coluna: Translated_Review
['I like eat delicious food. That\'s I\'m cooking food myself, case "10 Best Foods" helps lot, also "Best Before (Shelf Life)"'
 'This help eating healthy exercise regular basis' nan ...
 'Dumb app, I wanted post property rent give option. Website work. Waste time space phone.'
 'I property business got link SMS happy performance still guys need raise bar guys Cheers'
 'Useless app, I searched flats kondapur, Hyderabad . None number reachable I know flats unavailable would keep posts active']
------------------------------
Coluna: Sentiment
['Positive' nan 'Neutral' 'Negative']
------------------------------
Coluna: Sentiment_Polarity
[ 1.          0.25               nan ... -0.52857143 -0.37777778
  0.17333333]
------------------------------
Coluna: 

## Valores nulos

In [10]:
df.isna().sum()

App                           0
Translated_Review         26868
Sentiment                 26863
Sentiment_Polarity        26863
Sentiment_Subjectivity    26863
dtype: int64

In [29]:
df[df['Translated_Review'].isna()]

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
2,10 Best Foods for You,,,,
7,10 Best Foods for You,,,,
15,10 Best Foods for You,,,,
102,10 Best Foods for You,,,,
107,10 Best Foods for You,,,,
...,...,...,...,...,...
64290,Houzz Interior Design Ideas,,,,
64291,Houzz Interior Design Ideas,,,,
64292,Houzz Interior Design Ideas,,,,
64293,Houzz Interior Design Ideas,,,,


## Outliers

In [11]:
df.describe()

Unnamed: 0,Sentiment_Polarity,Sentiment_Subjectivity
count,37432.0,37432.0
mean,0.182146,0.492704
std,0.351301,0.259949
min,-1.0,0.0
25%,0.0,0.357143
50%,0.15,0.514286
75%,0.4,0.65
max,1.0,1.0


# Inconsistências encontradas:

O conjunto de dados não possuim muitas inconsistências, podemos citar apenas duas: I- alto número de valores duplicados e nulos e II- a coluna `Sentiment_Subjectivity` possui valores que a princípio indicam a mesma coisa que a coluna `Sentiment_Polarity`. Então pretendo remove-la do dataframe, mas antes quero utilizar como discriminante para excluir linhas duplicadas. A maior parte das linhas duplicadas são compostas de valores nulos, então lidar com as linhas duplicadas é também lidar com as linhas com valores nulos. Dessa forma `Sentiment_Polarity` pode ser mais um discriminante para não removermos linhas pertinentes.

# Corrigindo as inconsistências

## Valores duplicados

In [12]:
df_sem_duplicatas = df.drop_duplicates().reset_index(drop=True).copy()

In [13]:
df_sem_duplicatas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30679 entries, 0 to 30678
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   App                     30679 non-null  object 
 1   Translated_Review       29692 non-null  object 
 2   Sentiment               29697 non-null  object 
 3   Sentiment_Polarity      29697 non-null  float64
 4   Sentiment_Subjectivity  29697 non-null  float64
dtypes: float64(2), object(3)
memory usage: 1.2+ MB


## Valores nulos

In [14]:
df_sem_duplicatas.isna().sum()

App                         0
Translated_Review         987
Sentiment                 982
Sentiment_Polarity        982
Sentiment_Subjectivity    982
dtype: int64

Reduzimos muito a quantidade de linhas com valores nulos, mas ainda há linhas a serem tratadas

In [37]:
df.head()

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
0,10 Best Foods for You,I like eat delicious food. That's I'm cooking ...,Positive,1.0,0.533333
1,10 Best Foods for You,This help eating healthy exercise regular basis,Positive,0.25,0.288462
2,10 Best Foods for You,,,,
3,10 Best Foods for You,Works great especially going grocery store,Positive,0.4,0.875
4,10 Best Foods for You,Best idea us,Positive,1.0,0.3


In [16]:
colunas = ['Translated_Review','Sentiment','Sentiment_Polarity','Sentiment_Subjectivity']

In [17]:
df_sem_duplicatas[colunas]

Unnamed: 0,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
0,I like eat delicious food. That's I'm cooking ...,Positive,1.000000,0.533333
1,This help eating healthy exercise regular basis,Positive,0.250000,0.288462
2,,,,
3,Works great especially going grocery store,Positive,0.400000,0.875000
4,Best idea us,Positive,1.000000,0.300000
...,...,...,...,...
30674,"If photos posted portal load, fit purpose. I'm...",Positive,0.225000,0.447222
30675,"Dumb app, I wanted post property rent give opt...",Negative,-0.287500,0.250000
30676,I property business got link SMS happy perform...,Positive,0.800000,1.000000
30677,"Useless app, I searched flats kondapur, Hydera...",Negative,-0.316667,0.400000


Podemos perceber que quando uma linha apresenta valores nulos, ela apresenta valores nulos em TODAS as colunas que representam as avaliações de usuários. Para ter certeza disso vamos validar essa hipótese

In [18]:
# Verifica se todas as colunas especificadas têm valores nulos nas mesmas linhas
nulos = df_sem_duplicatas[colunas].isnull()

# Conta o número de linhas onde todas as 4 colunas são nulas
todas_nulas = nulos.all(axis=1).sum()

# Conta o número total de linhas onde há ao menos um valor nulo nas 4 colunas
alguma_nula = nulos.any(axis=1).sum()

# Valida se todas as linhas com nulos têm nulos em todas as 4 colunas
if todas_nulas == alguma_nula:
    print("A hipótese está correta: todas as linhas com nulos têm nulos em todas as 4 colunas.")
else:
    print("A hipótese está incorreta: existem linhas com nulos que não têm nulos em todas as 4 colunas.")


A hipótese está incorreta: existem linhas com nulos que não têm nulos em todas as 4 colunas.


In [19]:
print(todas_nulas)
print(alguma_nula)

982
987


A hipótese intá incorreta, ainda assim é massivo o número de linhas que possuem as 4 colunas preenchidas com valores nulos. Não há razão para carregar essas linhas no dataframe então a melhor opção é removê-las 

In [20]:
df_sem_nulos = df_sem_duplicatas.dropna(subset=colunas, how='all').reset_index(drop=True).copy()

In [21]:
df_sem_nulos.isna().sum()

App                       0
Translated_Review         5
Sentiment                 0
Sentiment_Polarity        0
Sentiment_Subjectivity    0
dtype: int64

Sobrou apenas 5 linhas com valores nulos na coluna que representa o comentário do usuário. Podemos assumir que o usuário apenas avaliou o aplicativo sem fazer comentários. Por tanto vamos preencher esses valores com a seguinte resposta "Sem comentários do usuário"

In [22]:
df_nulos_preenchidos = df_sem_nulos.copy()

In [23]:
df_nulos_preenchidos['Translated_Review'] = df_nulos_preenchidos['Translated_Review'].fillna('Sem comentários do usuário')

In [24]:
df_nulos_preenchidos.isna().sum()

App                       0
Translated_Review         0
Sentiment                 0
Sentiment_Polarity        0
Sentiment_Subjectivity    0
dtype: int64

# Salvando os dados tratados

Agora que os dados foram tratados, basta salva-los em um novo arquivo, mas antes as colunas numéricas estão com casas decimais demais então vamos primeiro fazer uma aproximação

In [43]:
df_nulos_preenchidos['Sentiment_Polarity'] = df_nulos_preenchidos['Sentiment_Polarity'].round(1)
df_nulos_preenchidos['Sentiment_Subjectivity'] = df_nulos_preenchidos['Sentiment_Subjectivity'].round(1)

In [44]:
df_nulos_preenchidos.head(30)

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
0,10 Best Foods for You,I like eat delicious food. That's I'm cooking ...,Positive,1.0,0.5
1,10 Best Foods for You,This help eating healthy exercise regular basis,Positive,0.2,0.3
2,10 Best Foods for You,Works great especially going grocery store,Positive,0.4,0.9
3,10 Best Foods for You,Best idea us,Positive,1.0,0.3
4,10 Best Foods for You,Best way,Positive,1.0,0.3
5,10 Best Foods for You,Amazing,Positive,0.6,0.9
6,10 Best Foods for You,"Looking forward app,",Neutral,0.0,0.0
7,10 Best Foods for You,It helpful site ! It help foods get !,Neutral,0.0,0.0
8,10 Best Foods for You,good you.,Positive,0.7,0.6
9,10 Best Foods for You,Useful information The amount spelling errors ...,Positive,0.2,0.1


In [45]:
df_nulos_preenchidos.to_csv('../processed data/google_play_reviews.csv', index=False)