In [6]:
using CSV
using DataFrames
using Statistics
using ScikitLearn
using ScikitLearn.Pipelines: Pipeline
using ScikitLearn.CrossValidation: train_test_split
@sk_import feature_selection: (SelectKBest, f_classif)
@sk_import preprocessing: (MinMaxScaler, LabelEncoder)
@sk_import decomposition: (PCA, FastICA)
@sk_import discriminant_analysis: LinearDiscriminantAnalysis
@sk_import manifold: (Isomap, LocallyLinearEmbedding)
@sk_import linear_model: LogisticRegression
using RDatasets
using Random
using StatsBase 
using CategoricalArrays


# Ruta al archivo CSV
file_path = "Datos_Práctica_Evaluación_1.csv"

# Cargar los datos
data = CSV.read(file_path, DataFrame)

# Descripción de los datos
println("Descripción de los datos:")
println("Número de variables (columnas): ", size(data, 2)-2)
println("Número de instancias (filas): ", size(data, 1))
println("Número de individuos únicos: ", length(unique(data.subject)))
println("Número de clases de salida: ", length(unique(data.Activity)))
missing_percentage_per_column = map(col -> mean(ismissing, col) * 100, eachcol(data))
println("Porcentaje de nulos por variable:", missing_percentage_per_column)
println("Media de todos los porcentajes de nulo: ",sum(missing_percentage_per_column) / length(missing_percentage_per_column))


Descripción de los datos:
Número de variables (columnas): 561
Número de instancias (filas): 10299
Número de individuos únicos: 30
Número de clases de salida: 6




Porcentaje de nulos por variable:[0.0, 0.0, 0.0, 0.0, 0.01941936110301971, 0.0, 0.01941936110301971, 0.01941936110301971, 0.029129041654529564, 0.029129041654529564, 0.01941936110301971, 0.0, 0.009709680551509855, 0.0, 0.0, 0.0, 0.009709680551509855, 0.0, 0.0, 0.0, 0.029129041654529564, 0.009709680551509855, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.009709680551509855, 0.0, 0.0, 0.03883872220603942, 0.03883872220603942, 0.01941936110301971, 0.009709680551509855, 0.0, 0.0, 0.0, 0.0, 0.0, 0.029129041654529564, 0.009709680551509855, 0.009709680551509855, 0.0, 0.0, 0.029129041654529564, 0.01941936110301971, 0.01941936110301971, 0.009709680551509855, 0.009709680551509855, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,

In [7]:
for col in names(data)
    if eltype(data[!, col]) <: Union{Missing, Real}
        col_mean = mean(skipmissing(data[!, col]))
        data[!, col] = coalesce.(data[!, col], col_mean)
    end
end
missing_percentage_per_column = map(col -> mean(ismissing, col) * 100, eachcol(data))

println("Media de todos los porcentajes de nulo: ",sum(missing_percentage_per_column) / length(missing_percentage_per_column))

Media de todos los porcentajes de nulo: 0.0


In [8]:

# 3. Codificar variables categóricas
categorical_cols = filter(col -> eltype(data[!, col]) <: AbstractString, names(data))
println("Variables categóricas detectadas: ", categorical_cols)
for col in categorical_cols
    data[!, col] = categorical(data[!, col])  # Convertir a tipo categórico
end

# 4. Escalar variables numéricas
numerical_cols = filter(col -> eltype(data[!, col]) <: Number, names(data))
for col in numerical_cols
    col_values = data[!, col]
    data[!, col] = (col_values .- mean(col_values)) ./ std(col_values)  # Z-score
end

println("Transformación de datos completada.")

# 5. Verificar los datos transformados
println("Primeras filas de los datos:")
println(first(data, 5))


Variables categóricas detectadas: ["Activity"]
Transformación de datos completada.
Primeras filas de los datos:
[1m5×563 DataFrame[0m
[1m Row [0m│[1m subject  [0m[1m tBodyAcc-mean()-X [0m[1m tBodyAcc-mean()-Y [0m[1m tBodyAcc-mean()-Z [0m[1m tBodyAcc-std()-X [0m[1m tBodyAcc-std()-Y [0m[1m tBodyAcc-std()-Z [0m[1m tBodyAcc-mad()-X [0m[1m tBodyAcc-mad()-Y [0m[1m tBodyAcc-mad()-Z [0m[1m tBodyAcc-max()-X [0m[1m tBodyAcc-max()-Y [0m[1m tBodyAcc-max()-Z [0m[1m tBodyAcc-min()-X [0m[1m tBodyAcc-min()-Y [0m[1m tBodyAcc-min()-Z [0m[1m tBodyAcc-sma() [0m[1m tBodyAcc-energy()-X [0m[1m tBodyAcc-energy()-Y [0m[1m tBodyAcc-energy()-Z [0m[1m tBodyAcc-iqr()-X [0m[1m tBodyAcc-iqr()-Y [0m[1m tBodyAcc-iqr()-Z [0m[1m tBodyAcc-entropy()-X [0m[1m tBodyAcc-entropy()-Y [0m[1m tBodyAcc-entropy()-Z [0m[1m tBodyAcc-arCoeff()-X,1 [0m[1m tBodyAcc-arCoeff()-X,2 [0m[1m tBodyAcc-arCoeff()-X,3 [0m[1m tBodyAcc-arCoeff()-X,4 [0m[1m tBodyAcc-arCoeff()-Y,1 [0m

In [4]:
using Random
using DataFrames
using StatsBase  

# Semilla para reproducibilidad
seed = 172
Random.seed!(seed)

# Supongamos que los datos están cargados en un DataFrame llamado `data`
# Y que la columna `subject` identifica a cada individuo.

# Obtener la lista única de individuos
individuos = unique(data.subject)

# Seleccionar el 10% de los individuos al azar
num_holdout = ceil(Int, length(individuos) * 0.1)  # Redondeo hacia arriba para asegurar al menos 1
holdout_individuos = StatsBase.sample(individuos, num_holdout, replace=false)
# Dividir los datos en train y holdout
holdout_data = filter(row -> row.subject in holdout_individuos, data)
train_data = filter(row -> !(row.subject in holdout_individuos), data)

# Mostrar los individuos seleccionados para el holdout
println("Individuos en el conjunto de holdout: ", holdout_individuos)

# Mostrar resumen de los conjuntos resultantes
println("Número de filas en el conjunto de entrenamiento: ", nrow(train_data))
println("Número de filas en el conjunto de holdout: ", nrow(holdout_data))


Individuos en el conjunto de holdout: [-1.6299473741119903, -0.36252999202505987, -0.1320904680092543]
Número de filas en el conjunto de entrenamiento: 9342
Número de filas en el conjunto de holdout: 957


In [5]:
using Random
using DataFrames
using MLJ

# Asegurar reproducibilidad
Random.seed!(172)

# Asumimos que 'train_data' es el DataFrame que contiene los datos de entrenamiento
# después de haber separado el holdout

# Obtener la lista única de participantes en el conjunto de entrenamiento
participantes = unique(train_data.subject)

# Crear un vector para almacenar los índices de los folds
folds = Vector{Vector{Int}}(undef, 5)

# Dividir los participantes en 5 grupos
participantes_shuffled = shuffle(participantes)
grupos_participantes = [participantes_shuffled[i:5:end] for i in 1:5]

# Asignar las instancias a los folds basándose en los grupos de participantes
for (i, grupo) in enumerate(grupos_participantes)
    folds[i] = findall(x -> x in grupo, train_data.subject)
end

# Verificar que cada instancia está en exactamente un fold
total_instancias = sum(length.(folds))
@assert total_instancias == nrow(train_data) "Error en la división de folds"

# Imprimir información sobre los folds
for (i, fold) in enumerate(folds)
    println("Fold $i: $(length(fold)) instancias, $(length(unique(train_data.subject[fold]))) participantes")
end

# Función para realizar el entrenamiento y evaluación en cada fold
function evaluar_fold(modelo, X, y, train_indices, test_indices)
    # Entrenar el modelo
    mach = machine(modelo, X, y)
    fit!(mach, rows=train_indices)
    
    # Evaluar el modelo
    y_pred = predict(mach, rows=test_indices)
    
    # Calcular y retornar la métrica de evaluación (por ejemplo, accuracy)
    return accuracy(y[test_indices], y_pred)
end

function comprobar_individuos_unicos(folds, data)
    for i in 1:length(folds)
        individuos_fold_i = Set(data.subject[folds[i]])
        for j in (i+1):length(folds)
            individuos_fold_j = Set(data.subject[folds[j]])
            if !isempty(intersect(individuos_fold_i, individuos_fold_j))
                println("Error: Los folds $i y $j comparten individuos.")
                return false
            end
        end
    end
    println("Verificación exitosa: No hay individuos compartidos entre los folds.")
    return true
end
# Después de crear tus folds
if comprobar_individuos_unicos(folds, train_data)
    println("La división en folds es correcta.")
else
    println("Hay un problema con la división en folds.")
end



Fold 1: 2170 instancias, 6 participantes
Fold 2: 2132 instancias, 6 participantes
Fold 3: 1688 instancias, 5 participantes
Fold 4: 1733 instancias, 5 participantes
Fold 5: 1619 instancias, 5 participantes
Verificación exitosa: No hay individuos compartidos entre los folds.
La división en folds es correcta.


In [6]:
# Contar participantes originales
total_participantes_original = length(unique(data.subject))

# Contar participantes en el conjunto de entrenamiento
participantes_train = length(unique(train_data.subject))

# Contar participantes en el holdout
participantes_holdout = length(unique(holdout_data.subject))

println("Participantes originales: ", total_participantes_original)
println("Participantes en train: ", participantes_train)
println("Participantes en holdout: ", participantes_holdout)


Participantes originales: 30
Participantes en train: 27
Participantes en holdout: 3


In [7]:
using DataFrames

function minmax_scale(x)
    min_val, max_val = extrema(x)
    return (x .- min_val) ./ (max_val - min_val)
end

function aplicar_minmaxscaler(data::DataFrame)
    numeric_columns = names(data)[eltype.(eachcol(data)) .<: Number]
    
    normalized_df = copy(data)
    
    for col in numeric_columns
        normalized_df[!, col] = minmax_scale(data[!, col])
    end
    
    return normalized_df
end

# Aplicar MinMaxScaler a cada fold
normalized_folds = [aplicar_minmaxscaler(train_data[fold, :]) for fold in folds]

# Verificar la normalización
for (i, fold) in enumerate(normalized_folds)
    println("Fold $i normalizado:")
    numeric_columns = names(fold)[eltype.(eachcol(fold)) .<: Number]
    for col in numeric_columns
        min_val = minimum(fold[!, col])
        max_val = maximum(fold[!, col])
        println("  Columna $col: min = $min_val, max = $max_val")
    end
    println()
end


Fold 1 normalizado:
  Columna subject: min = 0.0, max = 1.0
  Columna tBodyAcc-mean()-X: min = 0.0, max = 1.0
  Columna tBodyAcc-mean()-Y: min = 0.0, max = 1.0
  Columna tBodyAcc-mean()-Z: min = 0.0, max = 1.0
  Columna tBodyAcc-std()-Y: min = 0.0, max = 1.0
  Columna tBodyAcc-max()-Y: min = 0.0, max = 1.0
  Columna tBodyAcc-min()-X: min = 0.0, max = 1.0
  Columna tBodyAcc-min()-Y: min = 0.0, max = 1.0
  Columna tBodyAcc-min()-Z: min = 0.0, max = 1.0
  Columna tBodyAcc-energy()-X: min = 0.0, max = 1.0
  Columna tBodyAcc-energy()-Y: min = 0.0, max = 1.0
  Columna tBodyAcc-energy()-Z: min = 0.0, max = 1.0
  Columna tBodyAcc-iqr()-Z: min = 0.0, max = 1.0
  Columna tBodyAcc-entropy()-X: min = 0.0, max = 1.0
  Columna tBodyAcc-entropy()-Y: min = 0.0, max = 1.0
  Columna tBodyAcc-entropy()-Z: min = 0.0, max = 1.0
  Columna tBodyAcc-arCoeff()-X,1: min = 0.0, max = 1.0
  Columna tBodyAcc-arCoeff()-X,2: min = 0.0, max = 1.0
  Columna tBodyAcc-arCoeff()-X,3: min = 0.0, max = 1.0
  Columna tBodyA

EJERCICIO 2


In [8]:
using ScikitLearn
using DataFrames

@sk_import feature_selection: (SelectKBest, f_classif, mutual_info_classif, RFE)
@sk_import linear_model: LogisticRegression

# Definimos un diccionario con las técnicas de reducción de dimensionalidad
techniques = Dict(
    "Sin reducción" => nothing,
    "Filtrado ANOVA" => SelectKBest(score_func=f_classif, k=2),
    "Filtrado Mutual Information" => SelectKBest(score_func=mutual_info_classif, k=2),
    "Filtrado RFE" => RFE(estimator=LogisticRegression(), n_features_to_select=0.5, step=0.5)
)

# Aplicamos cada técnica de reducción
for (name, reducer) in techniques
    if isnothing(reducer)
        println("Técnica: $name - No se aplica reducción")
        continue
    end
    
    # Aplicamos la reducción
    X_reduced = fit_transform(reducer, X_train, y_train)
    
    println("Técnica: $name")
    println("Dimensiones después de la reducción: $(size(X_reduced))")
    println()
end




LoadError: UndefVarError: `fit_transform` not defined

In [None]:
function apply_dimension_reduction(X, y, method)
    if method == "ANOVA"
        reducer = SelectKBest(score_func=f_classif, k=2)
    elseif method == "Mutual Information"
        reducer = SelectKBest(score_func=mutual_info_classif, k=2)
    elseif method == "RFE"
        reducer = RFE(estimator=LogisticRegression(), n_features_to_select=Int(size(X, 2) * 0.5), step=0.5)
    else
        return X
    end
    return fit_transform!(reducer, X, y)
end

# Aplicar reducciones a cada fold
for (i, fold) in enumerate(normalized_folds)
    X = Matrix(select(fold, Not(:Activity)))
    y = fold.Activity
    
    println("Fold $i:")
    println("Sin reducción: ", size(X, 2), " características")
    
    for method in ["ANOVA", "Mutual Information", "RFE"]
        X_reduced = apply_dimension_reduction(X, y, method)
        println("$method: ", size(X_reduced, 2), " características")
    end
    println()
end