In [19]:
#importações das bibliotecas
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
import json

In [20]:
#Converte planilha CSV para DataFrame
df = pd.read_csv("dataset_feedback_realista.csv")

In [21]:
df.columns.tolist() #listar colunas

['id', 'idade', 'renda', 'cidade', 'categoria', 'nota', 'feedback']

In [22]:
# Tratamento de NaN(nulos) - converter para 0
df['idade'] = df['idade'].fillna(0)
df['renda'] = df['renda'].fillna(0)
df['cidade'] = df['cidade'].fillna(0)
df['categoria'] = df['categoria'].fillna(0)
df['nota'] = df['nota'].fillna(0)
df['feedback'] = df['feedback'].fillna(0)

In [23]:
#feedbackisualização de tabela tratada
display(df.head(5000))

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,63.0,7288.84,Natal,B,1.5,Ruim
1,2,44.0,11775.40,Recife,A,3.8,Ruim
2,3,17.0,8816.41,Belo Horizonte,A,9.3,Ruim
3,4,41.0,0.00,Campo Grande,A,9.0,Bom
4,5,42.0,14643.01,Sao Paulo,B,3.2,Ruim
...,...,...,...,...,...,...,...
4995,4996,33.0,9461.43,Brasilia,B,8.7,Regular
4996,4997,52.0,12607.64,Teresina,B,0.9,Ruim
4997,4998,0.0,1569.24,Aracaju,B,4.9,Regular
4998,4999,41.0,10855.27,Joao Pessoa,B,4.6,Regular


In [24]:
# Média, mínimo, máximo, quartis, margem de erro, contagem
print("\n### Descrição Estatística ###")
print(df.describe())


### Descrição Estatística ###
                id        idade         renda        nota
count  5000.000000  5000.000000   5000.000000  5000.00000
mean   2500.500000    40.575800   7967.585016     4.74174
std    1443.520003    18.021954   4290.327357     3.01476
min       1.000000     0.000000      0.000000     0.00000
25%    1250.750000    27.000000   4400.605000     2.10000
50%    2500.500000    41.000000   7970.370000     4.70000
75%    3750.250000    56.000000  11651.862500     7.40000
max    5000.000000    70.000000  15418.860000    10.00000


In [25]:
# Cálculos Estatísticos de idade
media_idade = sum(df['idade'])/len(df['idade'])
mediana_idade = df['idade'].median()
desvio_padrao_idade = df['idade'].std()
maximo_idade = df['idade'].max()
minimo_idade = df['idade'].min()

print('Média de Idade:',round(media_idade,0))
print('Mediana de Idade:',round(mediana_idade,0))
print('Desvio Padrão de Idade:',round(desvio_padrao_idade,0))
print('Maior Valor de Idade:',round(maximo_idade,0))
print('Menor Valor de Idade:',round(minimo_idade,0))

Média de Idade: 41.0
Mediana de Idade: 41.0
Desvio Padrão de Idade: 18.0
Maior Valor de Idade: 70.0
Menor Valor de Idade: 0.0


In [26]:
# Cálculos Estatísticos de renda
media_renda = sum(df['renda'])/len(df['renda'])
mediana_renda = df['renda'].median()
desvio_padrao_renda = df['renda'].std()
maximo_renda = df['renda'].max()
minimo_renda = df['renda'].min()

print('Média de Renda: R$',round(media_renda,2))
print('Mediana de Renda: R$',round(mediana_renda,2))
print('Desvio Padrão de Renda: R$',round(desvio_padrao_renda,2))
print('Maior Valor de Venda de Renda: R$',round(maximo_renda,2))
print('Menor Valor de Venda de Renda: R$',round(minimo_renda,2))

Média de Renda: R$ 7967.59
Mediana de Renda: R$ 7970.37
Desvio Padrão de Renda: R$ 4290.33
Maior Valor de Venda de Renda: R$ 15418.86
Menor Valor de Venda de Renda: R$ 0.0


In [27]:
# Cálculos Estatísticos de nota
media_nota = sum(df['nota'])/len(df['nota'])
mediana_nota = df['nota'].median()
desvio_padrao_nota = df['nota'].std()
maximo_nota = df['nota'].max()
minimo_nota = df['nota'].min()

print('Média de Nota:',round(media_nota,1))
print('Mediana de Nota:',round(mediana_nota,1))
print('Desvio Padrão de Nota:',round(desvio_padrao_nota,1))
print('Maior Valor de Nota:',round(maximo_nota,1))
print('Menor Valor de  Nota:',round(minimo_nota,1))

Média de Nota: 4.7
Mediana de Nota: 4.7
Desvio Padrão de Nota: 3.0
Maior Valor de Nota: 10.0
Menor Valor de  Nota: 0.0


In [28]:
#Calculando o IQR e identificando os limites

In [29]:
Q1_renda = df['renda'].quantile(0.25)
Q3_renda = df['renda'].quantile(0.75)
IQR_renda = Q3_renda - Q1_renda
limite_inferior_renda = Q1_renda - 1.5 * IQR_renda
limite_superior_renda = Q3_renda + 1.5 * IQR_renda

print (f"\n\n\t IQR - Campo Renda\n\n")
print(f"Quartis -> Q1: {Q1_renda:-8.2f}  ->  Q3: {Q3_renda:-8.2f}")
print(f"IQR ----- {IQR_renda}")
print(f"Limites - Inf: {limite_inferior_renda:-8.2f}  -> Sup: {limite_superior_renda:-8.2f}")
print(f"\n\n")



	 IQR - Campo Renda


Quartis -> Q1:  4400.60  ->  Q3: 11651.86
IQR ----- 7251.2575
Limites - Inf: -6476.28  -> Sup: 22528.75





In [30]:
Q1_idade = df['idade'].quantile(0.25)
Q3_idade = df['idade'].quantile(0.75)
IQR_idade = Q3_idade - Q1_idade
limite_inferior_idade = Q1_idade - 1.5 * IQR_idade
limite_superior_idade = Q3_idade + 1.5 * IQR_idade

print (f"\n\n\t IQR - Campo Idade\n\n")
print(f"Quartis -> Q1: {Q1_idade:-8.2f}  ->  Q3: {Q3_idade:-8.2f}")
print(f"IQR ----- {IQR_idade}")
print(f"Limites - Inf: {limite_inferior_idade:-8.2f}  -> Sup: {limite_superior_idade:-8.2f}")
print(f"\n\n")



	 IQR - Campo Idade


Quartis -> Q1:    27.00  ->  Q3:    56.00
IQR ----- 29.0
Limites - Inf:   -16.50  -> Sup:    99.50





In [31]:
Q1_nota = df['nota'].quantile(0.25)
Q3_nota = df['nota'].quantile(0.75)
IQR_nota = Q3_nota - Q1_nota
limite_inferior_nota = Q1_nota - 1.5 * IQR_nota
limite_superior_nota = Q3_nota + 1.5 * IQR_nota

print (f"\n\n\t IQR - Campo Nota\n\n")
print(f"Quartis -> Q1: {Q1_nota:-8.2f}  ->  Q3: {Q3_nota:-8.2f}")
print(f"IQR ----- {IQR_nota}")
print(f"Limites - Inf: {limite_inferior_nota:-8.2f}  -> Sup: {limite_inferior_nota:-8.2f}")
print(f"\n\n")



	 IQR - Campo Nota


Quartis -> Q1:     2.10  ->  Q3:     7.40
IQR ----- 5.300000000000001
Limites - Inf:    -5.85  -> Sup:    -5.85





In [32]:
# Criação de Outliers

In [33]:
outliers_renda = df[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda)]
print(f"\n### Possíveis Outliers em 'renda' ###\n\n{outliers_renda}\n")


### Possíveis Outliers em 'renda' ###

Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



In [34]:
outliers_idade = df[(df['idade'] < limite_inferior_idade) | (df['idade'] > limite_superior_idade)]
print(f"\n### Possíveis Outliers em 'idade' ###\n\n{outliers_idade}\n")


### Possíveis Outliers em 'idade' ###

Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



In [35]:
outliers_nota = df[(df['nota'] < limite_inferior_nota) | (df['nota'] > limite_superior_nota)]
print(f"\n### Possíveis Outliers em 'nota' ###\n\n{outliers_nota}\n")


### Possíveis Outliers em 'nota' ###

Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



In [37]:
#Conversão da planilha tratada para csv e compactada
df.to_csv('Realista5000_Tratado_Compactado.csv.gz', compression='gzip', index=False)
df.to_csv('Realista5000_Tratado.csv', index=False)

In [38]:
# Converter para lista de dicionários (documentos MongoDB)
dados_mongo = df.to_dict(orient='records')

# Salvar como JSON
with open('dados_mongo_Realista5000.json', 'w', encoding='utf-8') as f:
    json.dump(dados_mongo, f, ensure_ascii=False, indent=2)

print("Arquivo salvo com sucesso para importação no MongoDB Atlas!")

Arquivo salvo com sucesso para importação no MongoDB Atlas!


In [39]:
# Converter para Mongo JSON sem ID
dados_mongo_v2 = [
    {chave: valor for chave, valor in documento.items() if chave != 'id'} 
    for documento in df.to_dict(orient='records')
]
with open('dados_mongo_Realista5000_sem_id.json', 'w', encoding='utf-8') as f:
    json.dump(dados_mongo_v2, f, ensure_ascii=False, indent=2)

print("Arquivo salvo com sucesso para importação no MongoDB Atlas sem ID!")

Arquivo salvo com sucesso para importação no MongoDB Atlas sem ID!


In [40]:
#Conversão para planilha do Excell XLSX
with pd.ExcelWriter('dados_completos_Realista5000.xlsx') as writer:
    df.to_excel(writer, sheet_name='Dados_Originais', index=False)          
    df.to_excel(writer, sheet_name='Dados_Codificados', index=False)