### PROJETO 01: DETECÇÃO DE FRAUDES NO TRÁFEGO DE CLIQUES EM PROPAGANDAS DE APLICAÇÕES MOBILE

![<caption>](TalkingData.PNG)

A TalkingData (https://www.talkingdata.com), a maior plataforma de big data independente da china, cobre mais de 70% dos dispositivos móveis ativos em todo o país. Eles lidam com 3 bilhões de cliques por dia, dos quais 90% são potencialmente fraudulentos. Sua abordagem atual para impedir fraudes de cliques para desenvolvedores de aplicativos é medir a jornada do clique de um usuário em todo o portifólio e sinalizar endereços ip que produzem muitos cliques, mas nunca acabam instalando aplicativos. Com essas informações, eles criaram uma lista negra de ips e uma lista negra de dispositivos. Embora bem-sucedidos, eles querem estar sempre um passo à frente dos fraudadores e pretedem desenvolver ainda mais a solução. Então, neste projeto, o objetivo é construir um modelo de aprendizado de máquina para determinar se um clique é fraudulento ou não.


**Descrição dos Dados**

Dados de Treino:

Cada linha dos dados de treinamento contém um registro de cliques, com os seguintes recursos.

- ip: ip endereço de clique.
- app: id de aplicativo para marketing.
- device: identificação do tipo de dispositivo do celular do usuário (por exemplo, iphone 6 plus, iphone 7, huawei mate 7, etc.)
- os: id versão do sistema operacional do celular do usuário
- channel: id do canal da editora de anúncios móveis
- click_time: fuso de hora em hora (UTC)
- attributed_time: se o usuário baixar o aplicativo para depois de clicar em um anúncio, esta é a hora do download do aplicativo
- is_attributed: o alvo a ser previsto, indicando que o aplicativo foi baixado

Os dados do teste são semelhantes, com as seguintes diferenças:

- click_id: referência para fazer previsões
- is_attributed: não incluído

#### **DIRETÓRIO DE TRABALHO E CARREGAMENTO DE BIBLIOTECAS**

In [None]:
# DIRETÓRIO DE TRABALHO
setwd('C:/FCD/DataScienceAcademy/BigDataRAzure/Projeto1')
getwd()

In [None]:
# DESATIVAR MENSAGENS DE WARNINGS (warn = -1) E ATIVAR (warn = 0)
options(warn = -1)

In [None]:
# CARREGANDO BIBLIOTECAS 
suppressPackageStartupMessages({
library(data.table)
library(dplyr)  
library(readr)

})

#### DADOS TREINO

In [None]:
# CARREGANDO train_csv (184.903.890 LINHAS)
treino_csv <- fread('train.csv')

In [None]:
# RENOMEANDO DATASET
names(treino_csv) <- c("IP", "App", "Dispositivo", "SO", "Canal", "Horario_clique", "Horario_download", "Classe")

In [None]:
# 1 - COLETANDO DADOS DE CLIQUES QUE BAIXARAM O APLICATIVO - FOI COLETADO O TOTAL DO DATASET 456.846
amostra_treino_csv_1 <- treino_csv[treino_csv$Classe == 1,]
glimpse(amostra_treino_csv_1)

In [None]:
write.csv(amostra_treino_csv_1, "amostra_treino_csv_1.csv")

In [None]:
# 1.1 - CARREGANDO DADOS DA AMOSTRA COLETADA
amostra_treino_csv_1 <- fread("amostra_treino_csv_1.csv", select = c(2:9))
glimpse(amostra_treino_csv_1)

In [None]:
treino_csv_1 <- sample_n(amostra_treino_csv_1, size = 120000)
glimpse(treino_csv_1)

In [None]:
write_csv(treino_csv_1, "treino_csv_1.csv")

In [None]:
treino_csv_1 <- fread("treino_csv_1.csv")
glimpse(treino_csv_1)

In [None]:
# 2 - COLETANDO AMOSTRA DE DADOS DE CLIQUES QUE NÃO BAIXARAM O APLICATIVO 
amostra_treino_csv_0 <- sample_n(treino_csv[treino_csv$Classe == 0,], size = 800000)

In [None]:
write.csv(amostra_treino_csv_0, "amostra_treino_csv_0.csv")

In [None]:
# 2.1 -CARREGANDO DADOS DA AMOSTRA COLETADA
amostra_treino_csv_0 <- fread("amostra_treino_csv_0.csv", select = c(2:9))
glimpse(amostra_treino_csv_0)

In [None]:
treino_csv_0 <- sample_n(amostra_treino_csv_0, size = 120000)
glimpse(treino_csv_0)

In [None]:
write_csv(treino_csv_0, "treino_csv_0.csv")

In [None]:
treino_csv_0 <- fread("treino_csv_0.csv")
glimpse(treino_csv_0)

In [None]:
# 3 - COMBINANDO OS DADOS PARA CRIAR UM DATASET BALANCEADO
unir_dataframe <- rbind(treino_csv_1, treino_csv_0)
unir_dataframe <-as.data.frame(cunir_dataframe)

df_Talking_Data <- combinacao_linha[sample(1:nrow(unir_dataframe)), ]
glimpse(df_Talking_Data)

In [None]:
# SALVANDO O DATASET
write_csv(df_Talking_Data, "df_Talking_Data.csv")

Nas etapas acima foram realizadas:

- Carregamento do dataset original train.csv do Kaggle.
- Coleta de uma amostra de dados de cliques (amostra_treino_1.csv) que baixaram o aplicativo. Foram coletados todas as 456.846 observações do dataset train.csv.
- Coleta dos dados de cliques (treino_1.csv) que baixaram o aplicativo.  
- Coleta de uma amostra de dados de cliques (amostra_treino_0.csv) que não baixaram o aplicativo. Foram coletados 800.000 observações do dataset train.csv. 
- Coleta dos dados de cliques (treino_0.csv) que não baixaram o aplicativo. Foram coletados dados de amostra_treino_0.csv.
- União de **treino_1.csv** e **treino_0.csv** formando o **df_Talking_Data.csv**.