# Importación de librerías

In [1]:
from tqdm import tqdm
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
import filters_and_features as ff
import data_processor as dp

# Importación de datos

In [2]:
df = dp.lectura()

Se crean los dos tipos de dataframes

In [7]:
df_global = dp.create_df_global(df)
df_pure = dp.create_df_pure(df)

Se crea el dataframe df_block (otra celda porque es pesado)

In [3]:
df_block = dp.create_df_block(df)
del df

In [None]:
df_block['stimulus'].value_counts()

Visualización comparativa

In [None]:
dp.raw_viewer(df)
dp.simple_viewer(df_global,5,0)
dp.simple_viewer(df_pure,10,0)
dp.simple_viewer(df_pure,11,0)
dp.simple_viewer(df_block,130,0)

# Filtro

Se filtran ambos tipos de dataframes

In [None]:
df_pure_filtered = dp.filtrar(df_pure)
df_global_filtered = dp.filtrar(df_global)

Se filtra solo el dataframe de bloques

In [None]:
df_block_filtered = dp.filtrar(df_block)
del df_block

Visualización comparativa dataframe sin filtro y con filtro

In [None]:
dp.simple_viewer(df_block,130,0)
dp.simple_viewer(df_block_filtered,130,0)

# Extracción de características

Dtaframes pure y global

In [None]:
df_pure_features = dp.gen_carac(df_pure_filtered)
df_global_features = dp.gen_carac(df_global_filtered)

Dataframe de bloques

In [None]:
df_block_features = dp.gen_carac(df_block_filtered)

In [None]:
df_block_features.describe()

# Normalización

In [14]:
df_pure_normalized = dp.normalizar(df_pure_features)
df_global_normalized = dp.normalizar(df_global_features)

In [15]:
df_block_normalized = dp.normalizar(df_block_features)

In [None]:
df_block_normalized.describe()

# Creación de dataframes de entrenamiento y testeo

Para el dataframe df_global

In [17]:
y_global = df_global_normalized.iloc[:, -1]
X_global = df_global_normalized.iloc[:, :-1]
X_train_g, X_test_g, y_train_g, y_test_g = train_test_split(X_global, y_global,
                                                    random_state=100,
                                                    test_size=0.30,
                                                    shuffle=True)

Para el dataframe df_pure

In [18]:
y_pure = df_pure_normalized.iloc[:, -1]
X_pure = df_pure_normalized.iloc[:, :-1]
X_train_p, X_test_p, y_train_p, y_test_p = train_test_split(X_pure, y_pure,
                                                    random_state=100,
                                                    test_size=0.30,
                                                    shuffle=True)

Para el dataframe df_block

In [19]:
y_block = df_block_normalized.iloc[:, -1]
X_block = df_block_normalized.iloc[:, :-1]
X_train_b, X_test_b, y_train_b, y_test_b = train_test_split(X_block, y_block,
                                                    random_state=100,
                                                    test_size=0.30,
                                                    shuffle=True)

In [None]:
print(X_train_g.shape,y_train_g.shape)
print(X_train_p.shape,y_train_p.shape)
print(X_train_b.shape,y_train_b.shape)

# Entrenamiento y testeo del modelo

In [21]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

Entrenamiento

Modelo global

In [None]:
rf_g = RandomForestClassifier(
    max_depth=20,             # Profundidad máxima de los árboles
    criterion='entropy',      # Criterio de medida para la calidad de la división ('entropy' o 'gini')
    min_samples_split=4,      # Número mínimo de muestras requeridas para dividir un nodo
    random_state=99,          # Para reproducibilidad del modelo
    n_estimators=3000,        # Número de árboles en el bosque
    verbose=1,                # Imprimir información durante el entrenamiento
    oob_score=True,           # Calcular la precisión del modelo fuera de la bolsa (OOB)
    n_jobs=-1                 # Usar todos los procesadores disponibles para acelerar el entrenamiento
)
rf_g.fit(X_train_g, y_train_g)

Modelo puro

In [None]:
rf_p = RandomForestClassifier(
    max_depth=20,             # Profundidad máxima de los árboles
    criterion='entropy',      # Criterio de medida para la calidad de la división ('entropy' o 'gini')
    min_samples_split=4,      # Número mínimo de muestras requeridas para dividir un nodo
    random_state=99,          # Para reproducibilidad del modelo
    n_estimators=3000,        # Número de árboles en el bosque
    verbose=1,                # Imprimir información durante el entrenamiento
    oob_score=True,           # Calcular la precisión del modelo fuera de la bolsa (OOB)
    n_jobs=-1                 # Usar todos los procesadores disponibles para acelerar el entrenamiento
)
rf_p.fit(X_train_p, y_train_p)

Modelo bloque

In [None]:
rf_b = RandomForestClassifier(
    max_depth=20,             # Profundidad máxima de los árboles
    criterion='entropy',      # Criterio de medida para la calidad de la división ('entropy' o 'gini')
    min_samples_split=4,      # Número mínimo de muestras requeridas para dividir un nodo
    random_state=99,          # Para reproducibilidad del modelo
    n_estimators=3000,        # Número de árboles en el bosque
    verbose=1,                # Imprimir información durante el entrenamiento
    oob_score=True,           # Calcular la precisión del modelo fuera de la bolsa (OOB)
    n_jobs=-1                 # Usar todos los procesadores disponibles para acelerar el entrenamiento
)
rf_b.fit(X_train_b, y_train_b)

Testeo

Global

In [None]:
y_pred_g = rf_g.predict(X_test_g)

Puro

In [None]:
y_pred_p = rf_p.predict(X_test_p)

Bloque

In [None]:
y_pred_b = rf_b.predict(X_test_b)

# Resultados

Matriz de confusión

Global

In [None]:
confusion_matrix(y_test_g, y_pred_g)

Puro

In [None]:
confusion_matrix(y_test_p, y_pred_p)

Bloque

In [None]:
confusion_matrix(y_test_b, y_pred_b)

Precisión

Global

In [None]:
accuracy_score(y_pred_g, y_test_g)

Puro

In [None]:
accuracy_score(y_pred_p, y_test_p)

Bloque

In [None]:
accuracy_score(y_pred_b, y_test_b)

In [None]:
print(classification_report(y_pred_g, y_test_g))
print(classification_report(y_pred_p, y_test_p))
print(classification_report(y_pred_b, y_test_b))