# Uso de drogas ilícitas por alunos da rede nacional

#### Autor: Caroline Santos Marques da Silva

## Introdução

O uso de drogas ilícitas por jovens é uma questão de saúde pública com relevantes consequências para a sociedade. Inúmeros jovens perdem a oportunidade de desenvolvimento profissional devido ao uso de drogas e por vezes, embarcam na criminalidade. Com isso, a sociedade perde profissionais capacitados que poderiam compor um país economicamente forte e com maior qualidade de vida. Por isso, ações preventivas para reduzir a incidência de jovens no mundo das drogas é relevante.

## Objetivo

O objetivo do presente estudo é desenvolver um modelo preditivo para identificar os alunos que farão o uso de drogas ilícitas. Assim, ações preventivas podem ser determinadas para diminuir o consumo de drogas por alunos.

## Metodologia

O primeiro passo para atingir o objetivo desse relatório é filtrar da base de dados os alunos que afirmaram o contato com drogas ilícitas. Após essa filtragem, podemos verificar o perfil dos alunos usuários de drogas e, assim, determinar similaridade e diferenças entre eles. Todos esses tópicos são feitos utilizando a análise e exploração de dados com a biblioteca pandas da linguagem python.


In [1]:
##Bibliotecas 
import numpy as np
import pandas as pd
import matplotlib as plt
from collections import Counter


In [2]:
dados_alunos = pd.read_csv("arquivos_csv/PENSE_AMOSTRA1_ALUNO.CSV",sep=';')
dados_alunos.head(10)
total_de_alunos = dados_alunos.shape[0]

In [3]:
selecao = dados_alunos['VB06001'] == 1
selecao2 = dados_alunos['VB06001'] == 2
alunos_usuarios = dados_alunos[selecao]
alunos_nao_usuarios=dados_alunos[selecao2]
num_alunos_usuarios = alunos_usuarios.shape[0]
num_alunos_nao_usuarios = alunos_nao_usuarios.shape[0]

In [4]:
porcentagem_de_alunos_usuarios = (num_alunos_usuarios/total_de_alunos)*100
porcentagem_de_alunos_nao_usuarios = (num_alunos_nao_usuarios/total_de_alunos)*100

print("Porcentagem de alunos que utilizaram drogas é de {:.2f}".format(porcentagem_de_alunos_usuarios))
print("Porcentagem de alunos que não utilizaram drogas é de {:.2f}".format(porcentagem_de_alunos_nao_usuarios))


Porcentagem de alunos que utilizaram drogas é de 8.48
Porcentagem de alunos que não utilizaram drogas é de 91.25


De posse dos alunos usuários de drogas, precisamos conhecer estes alunos, ou seja, explicitar as similaridades entre eles e, assim definir um grupo alvo de alunos propícios ao uso de drogas ilícitas.

### Perfil dos alunos usuários de drogas

A partir da base de dados foram selecionadas perguntas que possivelmente podem ter conexão com uso de drogas pelos alunos. Essas perguntas são:

- A ausência materna ou paterna influenciam?
- Estuda em regime integral?
- Consumo de cigarro ?
- Consumo de bebidas alcoolicas?


Assim, antes de gerar o modelo com base nessas perguntas, uma análise dos dados é feita para verificar a relevância dessas perguntas com o estudo.


## Ausência de paterna ou materna

In [5]:

## 1 - ALUNOS USUARIOS

mae_ausente = (alunos_usuarios['VB01006'] == 2) 
pai_ausente = (alunos_usuarios['VB01007'] == 2)
pai_e_mae_ausente = (alunos_usuarios['VB01006'] == 2) & (alunos_usuarios['VB01007'] == 2)
num_pai_e_mae_ausente = alunos_usuarios[pai_e_mae_ausente].shape[0]
num_mae_ausente = alunos_usuarios[mae_ausente].shape[0] - num_pai_e_mae_ausente
num_pai_ausente = alunos_usuarios[pai_ausente].shape[0] - num_pai_e_mae_ausente

## 2 - ALUNOS NAO USUARIOS

mae_ausente2 = (alunos_nao_usuarios['VB01006'] == 2) 
pai_ausente2 = (alunos_nao_usuarios['VB01007'] == 2)
pai_e_mae_ausente2 = (alunos_nao_usuarios['VB01006'] == 2) & (alunos_nao_usuarios['VB01007'] == 2)
num_pai_e_mae_ausente2 = alunos_nao_usuarios[pai_e_mae_ausente2].shape[0]
num_mae_ausente2 = alunos_nao_usuarios[mae_ausente2].shape[0] - num_pai_e_mae_ausente2
num_pai_ausente2 = alunos_nao_usuarios[pai_ausente2].shape[0] - num_pai_e_mae_ausente2



In [6]:
porcentagem_pai = (num_pai_ausente/num_alunos_usuarios)*100
porcentagem_mae = (num_mae_ausente/num_alunos_usuarios)*100
print("Porcentagem de alunos usuarios que não moram com o pai {:.2f}".format(porcentagem_pai))
print("Porcentagem de alunos usuarios que não moram com a mae {:.2f}".format(porcentagem_mae))
porcentagem_pai2 = (num_pai_ausente2/num_alunos_nao_usuarios)*100
porcentagem_mae2 = (num_mae_ausente2/num_alunos_nao_usuarios)*100
print("Porcentagem de alunos não usuarios que não moram com o pai {:.2f}".format(porcentagem_pai2))
print("Porcentagem de alunos não usuarios que não moram com a mae {:.2f}".format(porcentagem_mae2))

Porcentagem de alunos usuarios que não moram com o pai 38.71
Porcentagem de alunos usuarios que não moram com a mae 7.28
Porcentagem de alunos não usuarios que não moram com o pai 30.38
Porcentagem de alunos não usuarios que não moram com a mae 4.59


Embora, tenha-se obtido resultados próximos, a ausência paterna ou materna é maior em alunos que usam drogas. Portanto, essa questão é relevante para a nossa análise. 

## Estuda em regime integral

In [7]:
## 1 - Alunos usuários

estuda_integral = alunos_usuarios['VB01023'] == 1
num_alunos_usuarios_integral = alunos_usuarios[estuda_integral].shape[0]

## 2 - Alunos não usuários

estuda_integral2 = alunos_nao_usuarios['VB01023'] == 1
num_alunos_nao_usuarios_integral = alunos_nao_usuarios[estuda_integral2].shape[0]

porcentagem_int1 = (num_alunos_usuarios_integral/num_alunos_usuarios)*100
porcentagem_int2 = (num_alunos_nao_usuarios_integral/num_alunos_nao_usuarios)*100

print("Porcentagem de alunos usuários que estudam integralmente {:.2f}".format(porcentagem_int1))
print("Porcentagem de alunos não usuários que estudam integralmente {:.2f}".format(porcentagem_int2))



Porcentagem de alunos usuários que estudam integralmente 22.03
Porcentagem de alunos não usuários que estudam integralmente 22.41


Percebe-se que a proporção de alunos usuários que não estudam integralmente é a mesma de alunos não usuários que  não estudam integralmente, logo essa característica não apresenta relevância estatística quando analisada isolada, porém quando associada a outras características, a mesma pode vir a ter relevância estatística. Por isso, considera-se esta pergunta para o desenvolvimento do modelo.

## Consumo de Cigarros 

In [8]:
## 1 - Alunos usuários

cigarro = alunos_usuarios['VB04001'] == 1
num_alunos_usuarios_cigarro = alunos_usuarios[cigarro].shape[0]

## 2 - Alunos não usuários

cigarro2 = alunos_nao_usuarios['VB04001'] == 1
num_alunos_nao_usuarios_cigarro = alunos_nao_usuarios[cigarro2].shape[0]

porcentagem_int1 = (num_alunos_usuarios_cigarro/num_alunos_usuarios)*100
porcentagem_int2 = (num_alunos_nao_usuarios_cigarro/num_alunos_nao_usuarios)*100

print("Porcentagem de alunos usuarios que já experimentaram cigarro {:.2f}".format(porcentagem_int1))
print("Porcentagem de alunos não usuarios que já experimentaram cigarro {:.2f}".format(porcentagem_int2))

Porcentagem de alunos usuarios que já experimentaram cigarro 80.04
Porcentagem de alunos não usuarios que já experimentaram cigarro 12.60


Percebe-se que o consumo de cigarro é relevante para determinar o grupo alvo, por isso, consideramos essa questão para gerar o modelo.

## Consumo de bebidas alcoolicas

In [9]:
## 1 - Alunos usuários

alcool = alunos_usuarios['VB05002'] == 1
num_alunos_usuarios_alcool = alunos_usuarios[alcool].shape[0]

## 2 - Alunos não usuários

alcool2 = alunos_nao_usuarios['VB05002'] == 1
num_alunos_nao_usuarios_alcool = alunos_nao_usuarios[alcool2].shape[0]

porcentagem_int1 = (num_alunos_usuarios_alcool/num_alunos_usuarios)*100
porcentagem_int2 = (num_alunos_nao_usuarios_alcool/num_alunos_nao_usuarios)*100

print("Porcentagem de alunos usuarios que já experimentaram bebidas alcoólicas {:.2f}".format(porcentagem_int1))
print("Porcentagem de alunos não usuarios que já experimentaram bebidas alcoólicas {:.2f}".format(porcentagem_int2))

Porcentagem de alunos usuarios que já experimentaram bebidas alcoólicas 94.58
Porcentagem de alunos não usuarios que já experimentaram bebidas alcoólicas 47.71


Percebe-se que o consumo de bebidas alcoólicas é relevante para determinar o grupo alvo, por isso, consideramos essa questão para gerar o modelo.

## Criação do novo data frame 

Definidas as perguntas relevantes para gerar o modelo, uma novo data frame contendo apenas as informações necessários foi criado.

In [11]:
selecao3 = (dados_alunos['VB06001'] == 1)|(dados_alunos['VB06001'] == 2)
df_dados_alunos_aux = dados_alunos[selecao3]  

df_dados_alunos_aux =df_dados_alunos_aux.reset_index()
#df_dados_alunos
df_dados_alunos = df_dados_alunos_aux[["VB01006","VB01007",'VB01023',"VB04001","VB05002","VB06001"]]


In [12]:
df_dados_alunos.columns = ['Ausência materna','Ausência paterna',"Estudo Integral","Consumo de tabaco","Consumo alcoólico","Fez uso de drogas?"]

In [15]:
df_dados_alunos.head()


Unnamed: 0,Ausência materna,Ausência paterna,Estudo Integral,Consumo de tabaco,Consumo alcoólico,Fez uso de drogas?
0,1,2,2,2,1,2
1,1,1,1,2,2,2
2,1,1,2,2,2,2
3,1,2,2,2,1,2
4,2,1,2,2,2,2


In [16]:
df_dados_alunos.to_csv('data_model.csv',index=False) #Salva data frame com as informacoes de interesse em um novo arquivo

Assim, para o desenvolvimento do modelo consideramos as variáveis 'Ausência materna','Ausência paterna',"Consumo de tabaco","Consumo alcoólico" como X e o Y, a variavel "Fez uso de drogas?".

## Modelo preditor

O modelo preditor é gerado a partir de dois métodos, inferência Baysiana e AdaBoost. Para isso, utiliza-se uma parte dos dados para treinar o modelo. Em seguida, outra parcela dos dados é utilizada para testar os modelos e verificar suas taxas de acerto e, assim, escolher o modelo com maior taxa de acerto. O modelo escolhido é validado com o restante dos dados e sua taxa de acerto é comparada com a taxa de acerto de um modelo "dummy". O modelo "dummy" chuta para qualquer combinação das variáveis X um valor para Y, ou seja, 1 ou 2.

In [17]:
X_df = df_dados_alunos[['Ausência materna','Ausência paterna',"Estudo Integral","Consumo de tabaco","Consumo alcoólico"]]
Y_df = df_dados_alunos['Fez uso de drogas?']
X = X_df.values
Y = Y_df.values

In [18]:
# Treinamento do modelo
porcentagem_de_treino = 0.8
porcentagem_de_teste = 0.1


tamanho_de_treino = int(porcentagem_de_treino * len(Y))
tamanho_de_teste = int(porcentagem_de_teste * len(Y))
tamanho_de_validacao = len(Y) - tamanho_de_treino - tamanho_de_teste

#0 até 81440

treino_dados = X[0:tamanho_de_treino]
treino_marcacoes = Y[0  :tamanho_de_treino]

#81440 até 91620

fim_de_teste = tamanho_de_treino + tamanho_de_teste
teste_dados = X[tamanho_de_treino:fim_de_teste]
teste_marcacoes = Y[tamanho_de_treino:fim_de_teste]

#91620 até final
validacao_dados = X[fim_de_teste:]
validacao_marcacoes = Y[fim_de_teste:]



In [19]:
def fit_and_predict(nome, modelo, treino_dados, treino_marcacoes, teste_dados, teste_marcacoes):
    modelo.fit(treino_dados, treino_marcacoes)

    resultado = modelo.predict(teste_dados)
    acertos = (resultado == teste_marcacoes)
    total_de_acertos = sum(acertos)
    total_de_elementos = len(teste_dados)

    taxa_de_acerto = 100.0 * total_de_acertos / total_de_elementos

    msg = "Taxa de acerto do algoritmo {0}: {1:.4}".format(nome, taxa_de_acerto)
    print(msg)

    return taxa_de_acerto

In [20]:
from sklearn.naive_bayes import MultinomialNB
modeloMultinomial = MultinomialNB()
resultadoMultinomial = fit_and_predict("MultinomialNB", modeloMultinomial, treino_dados, treino_marcacoes, teste_dados, teste_marcacoes)

Taxa de acerto do algoritmo MultinomialNB: 86.6


In [21]:
from sklearn.ensemble import AdaBoostClassifier
modeloAdaBoost = AdaBoostClassifier()
resultadoAdaBoost = fit_and_predict("AdaBoostClassifier", modeloAdaBoost, treino_dados, treino_marcacoes, teste_dados, teste_marcacoes)

Taxa de acerto do algoritmo AdaBoostClassifier: 86.83


In [22]:
if resultadoMultinomial > resultadoAdaBoost:
    vencedor = modeloMultinomial
else:
    vencedor = modeloAdaBoost

resultado = vencedor.predict(validacao_dados)
acertos = (resultado == validacao_marcacoes)
total_de_acertos = sum(acertos)
total_de_elementos = len(validacao_marcacoes)
taxa_de_acerto = 100.0 * total_de_acertos / total_de_elementos

msg = "Taxa de acerto do vencedor entre os dois algoritmos no mundo real: {0:.3}".format(taxa_de_acerto)
print(msg)

Taxa de acerto do vencedor entre os dois algoritmos no mundo real: 88.8


No entanto, não basta analisar somente a taxa de acerto do modelo obtido. É interessante comparar a taxa de acerto do nosso modelo como um modelo mais simples, o modelo "dummy". O modelo "dummy" escolhe sempre o mesmo valor para variável Y independente da combinação de respostas de X.

In [23]:
# A eficácia do algoritmo que chuta tudo um único valor

acerto_base = max(Counter(validacao_marcacoes).values()) #Busca o valor (1 ou 2) que aparece mais.
taxa_de_acerto_base = 100.0 * acerto_base / len(validacao_marcacoes)
print("Taxa de acerto base: %f" % taxa_de_acerto_base)

total_de_elementos = len(validacao_dados)
print("Total de teste: %d" % total_de_elementos)



Taxa de acerto base: 88.781925
Total de teste: 10180


# Conclusão

A análise exploratória de dados iniciais mostrou que o consumo de cigarro e bebidas alcoólicas são mais frequentes em alunos que declararam o uso de drogas ilícitas

Embora o resultado do modelo preditor tenha obtido uma alta taxa de acerto, o resultado do modelo preditor baseado no método de Ada Boost foi equivalente ao modelo "dummy". Isto é justificado pois há um número muito maior de alunos que não declararam o uso de drogas. Portanto, dados com distribuição homogênea entre alunos usuários e não usuários devem ser utilizados para comparar o modelo desenvolvido com o modelo 'dummy'. O ideal é que o modelo dummy acerte em torno de 50% em um problema de classificação, pois assim, mostra que os dados não estão tendenciosos, ou seja, há uma distribuição uniforme dos dados.

