<a href="https://colab.research.google.com/github/janairacs/hacktion/blob/main/V1_One_SentimentAPI_%E2%80%94_An%C3%A1lise_de_Sentimentos_de_Feedbacks.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
'''Dicionário de dados:

review_id: Identificador único da avaliação.
order_id: Identificador do pedido associado à avaliação.
review_score: Nota da avaliação (presumivelmente de 1 a 5).
review_comment_title: Título do comentário da avaliação (aparentemente com valores nulos em alguns casos).
review_comment_message: Mensagem detalhada do comentário da avaliação.
review_creation_date: Data em que a avaliação foi criada.
review_answer_timestamp: Data e hora em que a resposta à avaliação foi dada.'''

# Extração

In [2]:
import pandas as pd

# Atualize o caminho para onde o arquivo foi salvo no seu computador
file_path = '/content/olist_order_reviews_dataset.csv'

# Importar o arquivo CSV
df = pd.read_csv(file_path)

# Verificar as primeiras linhas do DataFrame
print(df.head())


                          review_id                          order_id  \
0  7bc2406110b926393aa56f80a40eba40  73fc7af87114b39712e6da79b0a377eb   
1  80e641a11e56f04c1ad469d5645fdfde  a548910a1c6147796b98fdf73dbeba33   
2  228ce5500dc1d8e020d8d1322874b6f0  f9e4b658b201a9f2ecdecbb34bed034b   
3  e64fb393e7b32834bb789ff8bb30750e  658677c97b385a9be170737859d3511b   
4  f7c4243c7fe1938f181bec41a392bdeb  8e6bfb81e283fa7e4f11123a3fb894f1   

   review_score review_comment_title  \
0             4                  NaN   
1             5                  NaN   
2             5                  NaN   
3             5                  NaN   
4             5                  NaN   

                              review_comment_message review_creation_date  \
0                                                NaN  2018-01-18 00:00:00   
1                                                NaN  2018-03-10 00:00:00   
2                                                NaN  2018-02-17 00:00:00   
3           

# Transformação

In [3]:
# Verificar informações gerais sobre os dados
df_info = df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43144 entries, 0 to 43143
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                43144 non-null  object
 1   order_id                 43144 non-null  object
 2   review_score             43144 non-null  int64 
 3   review_comment_title     5162 non-null   object
 4   review_comment_message   17851 non-null  object
 5   review_creation_date     43144 non-null  object
 6   review_answer_timestamp  43144 non-null  object
dtypes: int64(1), object(6)
memory usage: 2.3+ MB


In [4]:
# Verificar a quantidade de valores ausentes por coluna
missing_values = df.isnull().sum()
df_info, missing_values

(None,
 review_id                      0
 order_id                       0
 review_score                   0
 review_comment_title       37982
 review_comment_message     25293
 review_creation_date           0
 review_answer_timestamp        0
 dtype: int64)

In [5]:
# Calcular a quantidade de dados faltantes por coluna
missing_values_count = df.isnull().sum()

# Calcular a porcentagem de dados faltantes por coluna
missing_values_percentage = (missing_values_count / len(df)) * 100

# Criar um DataFrame para exibir a quantidade e a porcentagem de valores ausentes
missing_data_summary = pd.DataFrame({
    'Quantidade de Valores Faltantes': missing_values_count,
    'Porcentagem de Valores Faltantes': missing_values_percentage
})

# Exibir a volumetria dos dados faltantes
missing_data_summary.sort_values(by='Porcentagem de Valores Faltantes', ascending=False)


Unnamed: 0,Quantidade de Valores Faltantes,Porcentagem de Valores Faltantes
review_comment_title,37982,88.035416
review_comment_message,25293,58.624606
review_id,0,0.0
review_score,0,0.0
order_id,0,0.0
review_creation_date,0,0.0
review_answer_timestamp,0,0.0


In [7]:
# Substituir valores ausentes na coluna 'review_comment_title' com "Sem título"
df['review_comment_title'] = df['review_comment_title'].fillna('Sem título')

# Verificar a alteração: garantir que não há valores ausentes
missing_values_after_fill = df['review_comment_title'].isnull().sum()

# Visualizar as primeiras linhas para confirmar a modificação
df.head(), missing_values_after_fill



(                          review_id                          order_id  \
 0  7bc2406110b926393aa56f80a40eba40  73fc7af87114b39712e6da79b0a377eb   
 1  80e641a11e56f04c1ad469d5645fdfde  a548910a1c6147796b98fdf73dbeba33   
 2  228ce5500dc1d8e020d8d1322874b6f0  f9e4b658b201a9f2ecdecbb34bed034b   
 3  e64fb393e7b32834bb789ff8bb30750e  658677c97b385a9be170737859d3511b   
 4  f7c4243c7fe1938f181bec41a392bdeb  8e6bfb81e283fa7e4f11123a3fb894f1   
 
    review_score review_comment_title  \
 0             4           Sem título   
 1             5           Sem título   
 2             5           Sem título   
 3             5           Sem título   
 4             5           Sem título   
 
                               review_comment_message review_creation_date  \
 0                                                NaN  2018-01-18 00:00:00   
 1                                                NaN  2018-03-10 00:00:00   
 2                                                NaN  2018-02-17 00:00:

In [9]:
# Contar quantos valores NaN existem na coluna 'review_comment_title'
nan_count = df['review_comment_title'].isnull().sum()

# Exibir o resultado
nan_count

np.int64(0)

In [10]:
# Contar quantos valores NaN existem em cada coluna do DataFrame
nan_count_all_columns = df.isnull().sum()

# Exibir o resultado
nan_count_all_columns


Unnamed: 0,0
review_id,0
order_id,0
review_score,0
review_comment_title,0
review_comment_message,25293
review_creation_date,0
review_answer_timestamp,0


In [13]:
# Exibir as colunas com valores NaN
nan_columns = nan_count_all_columns[nan_count_all_columns > 0]

# Exibir as colunas com valores NaN e a quantidade
nan_columns


Unnamed: 0,0
review_comment_message,25293


In [19]:
# Substituir valores ausentes por "Sem título"
df['review_comment_title'] = df['review_comment_title'].fillna('Sem título')

# Substituir valores ausentes por um valor numérico (ex: 0 ou média)
df['review_score'] = df['review_score'].fillna(df['review_score'].mean())


In [21]:
# Contar quantos valores NaN existem nas colunas 'review_comment_title' e 'review_score'
nan_in_review_comment_title = df['review_comment_title'].isnull().sum()
nan_in_review_score = df['review_score'].isnull().sum()

# Exibir o número de NaNs
print(f"Valores NaN em 'review_comment_title': {nan_in_review_comment_title}")
print(f"Valores NaN em 'review_score': {nan_in_review_score}")


Valores NaN em 'review_comment_title': 0
Valores NaN em 'review_score': 0


In [32]:
# Substituir valores ausentes na coluna 'review_comment_title' com "Sem título"
df['review_comment_title'] = df['review_comment_title'].fillna('Sem título')

# Substituir valores ausentes na coluna 'review_score' com a média
df['review_score'] = df['review_score'].fillna(df['review_score'].mean())





In [35]:
# Exibir as primeiras linhas do DataFrame tratado
print(df_tratado_carregado.head())


                          review_id                          order_id  \
0  7bc2406110b926393aa56f80a40eba40  73fc7af87114b39712e6da79b0a377eb   
1  80e641a11e56f04c1ad469d5645fdfde  a548910a1c6147796b98fdf73dbeba33   
2  228ce5500dc1d8e020d8d1322874b6f0  f9e4b658b201a9f2ecdecbb34bed034b   
3  e64fb393e7b32834bb789ff8bb30750e  658677c97b385a9be170737859d3511b   
4  f7c4243c7fe1938f181bec41a392bdeb  8e6bfb81e283fa7e4f11123a3fb894f1   

   review_score review_comment_title  \
0             4           Sem título   
1             5           Sem título   
2             5           Sem título   
3             5           Sem título   
4             5           Sem título   

                              review_comment_message review_creation_date  \
0                                                     2018-01-18 00:00:00   
1                                                     2018-03-10 00:00:00   
2                                                     2018-02-17 00:00:00   
3           

In [36]:
# Substituir NaN por uma string vazia
df_tratado_carregado['review_comment_message'] = df_tratado_carregado['review_comment_message'].fillna('')

# Exibir as primeiras linhas do DataFrame tratado
print(df_tratado_carregado.head())


                          review_id                          order_id  \
0  7bc2406110b926393aa56f80a40eba40  73fc7af87114b39712e6da79b0a377eb   
1  80e641a11e56f04c1ad469d5645fdfde  a548910a1c6147796b98fdf73dbeba33   
2  228ce5500dc1d8e020d8d1322874b6f0  f9e4b658b201a9f2ecdecbb34bed034b   
3  e64fb393e7b32834bb789ff8bb30750e  658677c97b385a9be170737859d3511b   
4  f7c4243c7fe1938f181bec41a392bdeb  8e6bfb81e283fa7e4f11123a3fb894f1   

   review_score review_comment_title  \
0             4           Sem título   
1             5           Sem título   
2             5           Sem título   
3             5           Sem título   
4             5           Sem título   

                              review_comment_message review_creation_date  \
0                                                     2018-01-18 00:00:00   
1                                                     2018-03-10 00:00:00   
2                                                     2018-02-17 00:00:00   
3           

In [37]:
# Salvar o DataFrame tratado em um arquivo CSV
df.to_csv('df_tratado.csv', index=False)

# Confirmar que o DataFrame foi salvo corretamente
print("DataFrame tratado salvo como 'df_tratado.csv'.")

DataFrame tratado salvo como 'df_tratado.csv'.


In [38]:
# Exibir as primeiras linhas do DataFrame tratado
print(df_tratado_carregado.head())


                          review_id                          order_id  \
0  7bc2406110b926393aa56f80a40eba40  73fc7af87114b39712e6da79b0a377eb   
1  80e641a11e56f04c1ad469d5645fdfde  a548910a1c6147796b98fdf73dbeba33   
2  228ce5500dc1d8e020d8d1322874b6f0  f9e4b658b201a9f2ecdecbb34bed034b   
3  e64fb393e7b32834bb789ff8bb30750e  658677c97b385a9be170737859d3511b   
4  f7c4243c7fe1938f181bec41a392bdeb  8e6bfb81e283fa7e4f11123a3fb894f1   

   review_score review_comment_title  \
0             4           Sem título   
1             5           Sem título   
2             5           Sem título   
3             5           Sem título   
4             5           Sem título   

                              review_comment_message review_creation_date  \
0                                                     2018-01-18 00:00:00   
1                                                     2018-03-10 00:00:00   
2                                                     2018-02-17 00:00:00   
3           

# Carga e análise exploratória de dados

# Relatório de viabilidade


# Pré-processamento de dados para Machine Learning


# Construção e avaliação de modelos preditivos

# Insights e interpretação dos resultados

# Comunicação técnica estratégica