### Código em Python para detecção de fraude em anúncios de celulares na OLX


#### Etapa 1

Adquirindo um arquivo CSV com os dados

In [90]:
from sklearn import preprocessing
import pandas as pd

# Abrir a base de dados
tabela = pd.read_csv('data.csv')
tabela = tabela.astype(str)
display(tabela)

# tabela.info()

Unnamed: 0,Titulo,Descricao,Marca,Modelo,Condicao,Memoria,Cor,Bateria,Preco,Localizacao,Contato,Golpe
0,LG K10 Power,"Celular LG K10 Semi Novo,bateria 100%,tudo cer...",LG,K10 Power,Usado - Bom,32GB,Dourado,Perfeita (95% até 100%),400.0,28620-330,(22) 998779458,Sim
1,Samsung Galaxy S20,Celular Samsung Galaxy S20 Usado em Ótimo Estado.,Samsung,Galaxy S20,Usado - Ótimo,128GB,Preto,Perfeita (95% até 100%),500.0,10001-100,(11) 123456789,Não
2,iPhone 11,"iPhone 11 em perfeito estado, com poucos meses...",Apple,iPhone 11,Usado - Excelente,64GB,Prateado,Perfeita (95% até 100%),600.0,20002-200,(22) 987654321,Não
3,Xiaomi Redmi Note 8,"Xiaomi Redmi Note 8, 64GB, tela sem riscos.",Xiaomi,Redmi Note 8,Usado - Bom,64GB,Azul,Boa (80% até 95%),250.0,30003-300,(33) 55556666,Não
4,OnePlus 7T,"Vendo OnePlus 7T em excelente estado, 128GB.",OnePlus,7T,Usado - Excelente,128GB,Cinza,Perfeita (95% até 100%),450.0,40004-400,(44) 11112222,Não
...,...,...,...,...,...,...,...,...,...,...,...,...
76,Sony Xperia XA5,Sony Xperia XA5 em perfeitas condições.,Sony,Xperia XA5,Usado - Excelente,64GB,Vermelho,Perfeita (95% até 100%),300.0,76076-760,(76) 77778888,Não
77,Huawei P20 Lite,"Huawei P20 Lite, 128GB, em excelente estado.",Huawei,P20 Lite,Usado - Excelente,128GB,Dourado,Perfeita (95% até 100%),490.0,77077-770,(77) 99990000,Sim
78,Google Pixel 4 XL,"Google Pixel 4 XL em bom estado, 64GB.",Google,Pixel 4 XL,Usado - Bom,64GB,Preto,Boa (80% até 95%),270.0,78078-780,(78) 11113333,Não
79,Nokia 1.4,"Nokia 1.4, 32GB, em ótimas condições.",Nokia,1.4,Usado - Ótimo,32GB,Verde,Perfeita (95% até 100%),230.0,79079-790,(79) 44445555,Sim


#### Etapa 2

Codificando os dados em uma matriz de números inteiros, que irão ser utilizados nos algoritmos de classificação

In [91]:
from sklearn.feature_extraction.text import CountVectorizer

# create the transform
vectorizer = [CountVectorizer() for i in range(12)]
# tokenize and build vocab
for index, col in enumerate(tabela.columns):
    vectorizer[index].fit(tabela[col])

# for eachVector in vectorizer:
#     print(eachVector.vocabulary_)

def transformData (value, index):
    vector = vectorizer[index].transform(value).toarray()

    return vector


resultData = pd.DataFrame(
    {
        "Titulo": [data for data in transformData(tabela["Titulo"], 0)],
        "Descricao": [data for data in transformData(tabela["Descricao"], 1)],
        "Marca": [data for data in transformData(tabela["Marca"], 2)],
        "Modelo": [data for data in transformData(tabela["Modelo"], 3)],
        "Condicao": [data for data in transformData(tabela["Condicao"], 4)],
        "Memoria": [data for data in transformData(tabela["Memoria"], 5)],
        "Cor": [data for data in transformData(tabela["Cor"], 6)],
        "Bateria": [data for data in transformData(tabela["Bateria"], 7)],	
        "Preco": [data for data in transformData(tabela["Preco"], 8)],
        "Localizacao": [data for data in transformData(tabela["Localizacao"], 9)],
        "Contato": [data for data in transformData(tabela["Contato"], 10)],
        "Golpe": [data for data in transformData(tabela["Golpe"], 11)]
    }
)


#### Continuação - Etapa 2

Mostrando os dados transformados

In [92]:
import seaborn as sns
import matplotlib.pyplot as plt

print(resultData)

# Análise preliminar
# sns.heatmap(resultData.corr(), annot=True, cmap="Wistia")
# plt.show()

                                               Titulo  \
0   [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
1   [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
2   [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
3   [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
4   [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, ...   
..                                                ...   
76  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
77  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
78  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
79  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
80  [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, ...   

                                            Descricao  \
0   [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
1   [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
2   [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
3   [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...   
4   [0, 0, 0, 0, 0, 1, 0, 0, 0

#### Etapa 3

Criando um conjunto de teste e um de validação, usando a base de dados original.

In [93]:
# Machine learning
from sklearn.model_selection import train_test_split

# Dividir a base de dados em x e y de treino e de teste
y = resultData["Golpe"]
x = resultData[["Titulo", "Descricao", "Marca", "Modelo", "Condicao", "Memoria", "Cor", "Bateria", "Preco", "Localizacao", "Contato" ]]


x_treino, x_teste, y_treino, y_teste = train_test_split(x, y)

#### Etapa 4

Usando os algoritmos de Regressão Linear e de Randon Forest para aprender os padrões dos dados utilizados

In [94]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier, AdaBoostRegressor
from sklearn import metrics
import numpy as np

# Criar os dois modelos de IAs
# modelo_RegressãoLinear = LinearRegression()
modelo_RandomForest = RandomForestClassifier()
modelo_AdaBoost = AdaBoostRegressor()

# Treinar as duas IAs com o x e y de treino
# modelo_RegressãoLinear.fit(x_treino, y_treino)
modelo_RandomForest.fit(x_treino, y_treino)
modelo_AdaBoost.fit(x_treino, y_treino)

# Testar as duas IAs e ver qual tem melhor desempenho no indice R²
# previsao_RegressãoLinear = modelo_RegressãoLinear.predict(x_teste)
previsao_RandomForest = modelo_RandomForest.predict(x_teste)
previsao_AdaBoost = modelo_AdaBoost.predict(x_teste)

# print(f'R² da Regressão Linear: {metrics.r2_score(y_teste, previsao_RegressãoLinear)}')
print(f'R² da Random Forest: {metrics.r2_score(y_teste, previsao_RandomForest)}') # Maior R² é RandomForest
print(f'R² da Ada Boost: {metrics.r2_score(y_teste, previsao_AdaBoost)}')

ValueError: setting an array element with a sequence.

In [None]:
# Usar o modelo para prever novos dados
tabela_previsao = pd.read_csv('newData1.csv')

transformedData2 = codes.transform(tabela_previsao)
resultData2 = pd.DataFrame(
    {
        "Titulo": transformedData2[:, 0],
        "Descricao": transformedData2[:, 1],
        "Marca": transformedData2[:, 2],
        "Modelo": transformedData2[:, 3],
        "Condicao": transformedData2[:, 4],
        "Memoria": transformedData2[:, 5],
        "Cor": transformedData2[:, 6],
        "Bateria": transformedData2[:, 7],	
        "Preco": transformedData2[:, 8],
        "Localizacao": transformedData2[:, 9],
        "Contato": transformedData2[:, 10],
        "Golpe": transformedData2[:, 11]
    }
)

tabela_previsao['Golpe'] = modelo_RandomForest.predict(resultData2[["Titulo", "Descricao", "Marca", "Modelo", "Condicao", "Memoria", "Cor", "Bateria", "Preco", "Localizacao", "Contato"]])
display(tabela_previsao)


ValueError: If using all scalar values, you must pass an index