# Trafficking People Data set
Application of data mining process as a final project for *Data mining* course at _Universidad Nacional de Colombia_.</br>
Profesor on charge _[ELizabeth León Guzmán](https://github.com/elizleon)_ PH. D. at University of Louisville.

Authors of the project
* Juan Manuel Correa Lombana
* Julio Ernesto Quintero Peña

# Classification


In [11]:
import numpy as np
import pandas as pd
import ipywidgets as widgets

from sklearn.preprocessing import OneHotEncoder

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

from utils import (
    load_data,
    rules_display,
    items_sets_display,
    scatter_rules,
    variance_columns)
from utils.constants import MAPPER_FEATURES, CATEGORICAL_COLUMNS


In [2]:
imputed_data = load_data('../data/imputed_data.zip', use_cols=False)


In [4]:
# Taking features to make association rules
oht = OneHotEncoder(
    sparse_output=False,
    dtype=np.bool_,
    feature_name_combiner=lambda feature, category: MAPPER_FEATURES.get(feature, '{}').format(category)
)

classification_data_prepared = oht.fit_transform(imputed_data[CATEGORICAL_COLUMNS])
classification_data_prepared = pd.DataFrame(
    classification_data_prepared,
    columns=oht.get_feature_names_out())

classification_data_prepared.sample(10)


Unnamed: 0,Age 0--8,Age 18--20,Age 21--23,Age 24--26,Age 27--29,Age 30--38,Age 39--47,Age 48+,Age 9--17,Female,...,Exploitation TT,Exploitation TW,Exploitation TZ,Exploitation UA,Exploitation UG,Exploitation US,Exploitation UZ,Exploitation VN,Exploitation VU,Exploitation ZA
43449,True,False,False,False,False,False,False,False,False,True,...,False,False,False,False,False,True,False,False,False,False
10594,False,False,False,False,False,True,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
44591,False,False,False,False,False,True,False,False,False,True,...,False,False,False,False,False,True,False,False,False,False
39420,False,False,False,False,False,False,False,False,True,True,...,False,False,False,False,False,True,False,False,False,False
9826,False,False,False,False,False,False,True,False,False,True,...,False,False,False,False,False,False,False,False,False,False
13132,False,False,False,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
39707,False,False,False,False,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,False,False
34476,False,False,False,False,True,False,False,False,False,True,...,False,False,False,False,False,True,False,False,False,False
28030,False,False,False,False,False,True,False,False,False,True,...,False,False,False,False,False,True,False,False,False,False
677,False,False,True,False,False,False,False,False,False,True,...,False,False,False,False,False,True,False,False,False,False


In [15]:

# prediciendo meansOfControlDebtBondage
X = classification_data_prepared.drop('Female', axis=1)
y = classification_data_prepared['Female']

X = X.fillna(0)
y = y.fillna(0)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Regresión logística

In [16]:

# Inicializar y entrenar el modelo de regresión logística
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
predictions = logistic_model.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, predictions)
print(f'Precisión del modelo: {accuracy}')
print('\nInforme de clasificación:')
print(classification_report(y_test, predictions))


Precisión del modelo: 1.0

Informe de clasificación:
              precision    recall  f1-score   support

       False       1.00      1.00      1.00      2619
        True       1.00      1.00      1.00      8098

    accuracy                           1.00     10717
   macro avg       1.00      1.00      1.00     10717
weighted avg       1.00      1.00      1.00     10717



## Árboles de decisión

In [17]:


# Inicializar y entrenar el modelo de árbol de decisión
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
predictions = tree_model.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, predictions)
print(f'Precisión del modelo: {accuracy}')
print('\nInforme de clasificación:')
print(classification_report(y_test, predictions))

Precisión del modelo: 1.0

Informe de clasificación:
              precision    recall  f1-score   support

       False       1.00      1.00      1.00      2619
        True       1.00      1.00      1.00      8098

    accuracy                           1.00     10717
   macro avg       1.00      1.00      1.00     10717
weighted avg       1.00      1.00      1.00     10717



## Random Forest

In [18]:


# Inicializar y entrenar el modelo de bosque aleatorio
forest_model = RandomForestClassifier()
forest_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
predictions = forest_model.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, predictions)
print(f'Precisión del modelo: {accuracy}')
print('\nInforme de clasificación:')
print(classification_report(y_test, predictions))

Precisión del modelo: 1.0

Informe de clasificación:
              precision    recall  f1-score   support

       False       1.00      1.00      1.00      2619
        True       1.00      1.00      1.00      8098

    accuracy                           1.00     10717
   macro avg       1.00      1.00      1.00     10717
weighted avg       1.00      1.00      1.00     10717

