In [20]:
## lo básico
import pandas as pd
import numpy as np

## visualización
import matplotlib.pyplot as plt
%matplotlib inline

import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

## pre procesado
from sklearn.model_selection import train_test_split
#from ydata_profiling import ProfileReport

## modelado
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression


## métricas
from pandas.plotting import scatter_matrix
from sklearn.metrics import accuracy_score, auc, confusion_matrix, f1_score, precision_score, recall_score, roc_curve, roc_auc_score
from sklearn.metrics import classification_report
from sklearn.preprocessing import label_binarize

## mejora de modelos
from sklearn.feature_selection import VarianceThreshold
from sklearn.feature_selection import SelectKBest
from sklearn.model_selection import GridSearchCV
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import cross_val_score


## automatización
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer

# 1. Carga de datos

In [21]:
url = "https://raw.githubusercontent.com/Valeriavinasl/ucm-tfm/main/data/Limpieza_Encuesta.csv"

df = pd.read_csv(url, encoding="utf-8-sig",sep=None, engine="python")
df.head()

Unnamed: 0,edad,genero,pais,is_condicion_fisica,detalle_condicion,nivel_expereincia_previo,condicion_previa,motivo,n_acompañantes,epoca,...,is_tr_mochila,is_reserva_aloj,alojamiento,hace_cuanto,is_volver_a_hacer,etapa_ideal,nota,is_lesion,consejos,modo_realizacion
0,32.0,Mujer,España,0,No,Básica (≤ 10 km ocasionalmente),Media,"Religioso, Deportivo, Cultural/turístico, Pers...",3.0,Verano,...,0,1,"Albergues privados, Hostales / Hoteles",Más de 2 años,Sí,Medias (~20 km con algo de desnivel),9,"Sí, leve",Sin respuesta,A pie
1,32.0,Hombre,España,0,No,Avanzada (rutas largas con mochila/montaña),Media,"Deportivo, Cultural/turístico, Personal/reflexivo",3.0,Verano,...,0,1,"Albergues públicos, Albergues privados, Hostal...",Más de 2 años,Sí,Medias (~20 km con algo de desnivel),9,No,Hacer etapas parecidas en distancia y terreno ...,A pie
2,32.0,Hombre,España,0,No,Moderada (10–20 km regularmente),Media,"Religioso, Cultural/turístico",6.0,Primavera,...,1,1,Hostales / Hoteles,Más de 2 años,Sí,Medias (~20 km con algo de desnivel),8,"Sí, leve",Sin respuesta,A pie
3,32.0,Mujer,Colombia,0,Migrañas tensionales,Básica (≤ 10 km ocasionalmente),Media,Personal/reflexivo,Desconocido,Primavera,...,1,1,"Albergues privados, Hostales / Hoteles",Este año,Sí,Medias (~20 km con algo de desnivel),9,No,Sin respuesta,A pie
4,21.0,Mujer,España,0,No,Básica (≤ 10 km ocasionalmente),Media,"Religioso, Cultural/turístico, Personal/reflexivo",6.0,Verano,...,1,1,Albergues privados,En los últimos 2 años,Sí,Medias (~20 km con algo de desnivel),10,"Sí, leve",Prefiero no revelar y que cada uno viva su cam...,A pie


# 2. Exploración de variables

In [22]:
df.head()

Unnamed: 0,edad,genero,pais,is_condicion_fisica,detalle_condicion,nivel_expereincia_previo,condicion_previa,motivo,n_acompañantes,epoca,...,is_tr_mochila,is_reserva_aloj,alojamiento,hace_cuanto,is_volver_a_hacer,etapa_ideal,nota,is_lesion,consejos,modo_realizacion
0,32.0,Mujer,España,0,No,Básica (≤ 10 km ocasionalmente),Media,"Religioso, Deportivo, Cultural/turístico, Pers...",3.0,Verano,...,0,1,"Albergues privados, Hostales / Hoteles",Más de 2 años,Sí,Medias (~20 km con algo de desnivel),9,"Sí, leve",Sin respuesta,A pie
1,32.0,Hombre,España,0,No,Avanzada (rutas largas con mochila/montaña),Media,"Deportivo, Cultural/turístico, Personal/reflexivo",3.0,Verano,...,0,1,"Albergues públicos, Albergues privados, Hostal...",Más de 2 años,Sí,Medias (~20 km con algo de desnivel),9,No,Hacer etapas parecidas en distancia y terreno ...,A pie
2,32.0,Hombre,España,0,No,Moderada (10–20 km regularmente),Media,"Religioso, Cultural/turístico",6.0,Primavera,...,1,1,Hostales / Hoteles,Más de 2 años,Sí,Medias (~20 km con algo de desnivel),8,"Sí, leve",Sin respuesta,A pie
3,32.0,Mujer,Colombia,0,Migrañas tensionales,Básica (≤ 10 km ocasionalmente),Media,Personal/reflexivo,Desconocido,Primavera,...,1,1,"Albergues privados, Hostales / Hoteles",Este año,Sí,Medias (~20 km con algo de desnivel),9,No,Sin respuesta,A pie
4,21.0,Mujer,España,0,No,Básica (≤ 10 km ocasionalmente),Media,"Religioso, Cultural/turístico, Personal/reflexivo",6.0,Verano,...,1,1,Albergues privados,En los últimos 2 años,Sí,Medias (~20 km con algo de desnivel),10,"Sí, leve",Prefiero no revelar y que cada uno viva su cam...,A pie


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 28 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   edad                      2000 non-null   float64
 1   genero                    2000 non-null   object 
 2   pais                      2000 non-null   object 
 3   is_condicion_fisica       2000 non-null   int64  
 4   detalle_condicion         2000 non-null   object 
 5   nivel_expereincia_previo  2000 non-null   object 
 6   condicion_previa          2000 non-null   object 
 7   motivo                    2000 non-null   object 
 8   n_acompañantes            2000 non-null   object 
 9   epoca                     2000 non-null   object 
 10  is_camino_realizado_prev  2000 non-null   int64  
 11  ruta                      2000 non-null   object 
 12  dias                      2000 non-null   float64
 13  inicio                    2000 non-null   object 
 14  distanci

# 3. Nuevas variables

In [24]:
df["intensidad_km_dia"] = df["distancia"] / df["dias"]

In [25]:
df["grupo_edad"] = pd.cut(
    df["edad"],
    bins=[18,29,39,49,59,70],
    labels=["18-29","30-39","40-49","50-59","60-70"]
)

In [26]:
df["temporada"] = df["epoca"].replace({
    "verano": "alta",
    "primavera": "media",
    "otoño": "media",
    "invierno": "baja"
})

In [27]:
df["is_experto_senderismo"] = (df["nivel_expereincia_previo"] == "alto").astype(int)

# 4. Codificación de categóricas y booleanas

In [28]:
df_fe = df.copy()

In [29]:
v_categoricas = ["genero", "pais", "ruta", "epoca", "calzado", "modo_realizacion", "alojamiento", "is_volver_a_hacer", "is_lesion", "alojamiento", "motivo"]

In [30]:
targets = ['ruta', 'epoca']
c_simples = [c for c in v_categoricas if c in df_fe.columns and c not in targets]

df_fe = pd.get_dummies(
    df_fe,
    columns=c_simples,
    prefix=c_simples,
    drop_first=True
)
if 'ruta' in df_fe.columns:
    df_fe['ruta'] = df_fe['ruta'].astype('category')
if 'epoca' in df_fe.columns:
    df_fe['epoca'] = df_fe['epoca'].astype('category')

In [31]:
d = ["lesion_tipo", "inicio", "n_acompañantes"]
df_fe = df_fe.drop(columns=[c for c in d if c in df_fe.columns])

In [32]:
columnas_categoricas = ["nivel_expereincia_previo", "condicion_previa",
                    "dureza", "hace_cuanto", "temporada", "grupo_edad"]
cols_categoricas = [c for c in columnas_categoricas if c in df_fe.columns]
df_fe = pd.get_dummies(df_fe, columns=columnas_categoricas, drop_first=True)

In [33]:
# Modificación de is_volver_a_hacer porque tiene la opcion tal vez.
if "is_volver_a_hacer" in df_fe.columns:
    # crear binaria pura
    df_fe["is_volver_binaria"] = (df_fe["is_volver_a_hacer"] == 1).astype(int)
    # crear columna tal vez
    df_fe["is_volver_talvez"] = (df_fe["is_volver_a_hacer"] == 0.5).astype(int)

else:
    df_fe["is_volver_binaria"] = 0
    df_fe["is_volver_talvez"] = 0

#is_volver_binaria: 1 si la respuesta es Sí. 0 si la respuesta es No o tal vez
#is_volver_talvez: 1 si la respuesta es Tal vez. 0 si la respuesta es Sí o No

In [34]:
columnas_bool = df_fe.select_dtypes(include="bool").columns
for c in columnas_bool:
    df_fe[c] = df_fe[c].astype(int)

In [35]:
df_fe.head()

Unnamed: 0,edad,is_condicion_fisica,detalle_condicion,epoca,is_camino_realizado_prev,ruta,dias,distancia,is_calzado_adecuado,is_tr_mochila,...,hace_cuanto_Más de 2 años,temporada_Otoño,temporada_Primavera,temporada_Verano,grupo_edad_30-39,grupo_edad_40-49,grupo_edad_50-59,grupo_edad_60-70,is_volver_binaria,is_volver_talvez
0,32.0,0,No,Verano,0,Francés,5.0,100,0,0,...,1,0,0,1,1,0,0,0,0,0
1,32.0,0,No,Verano,0,Francés,5.0,100,0,0,...,1,0,0,1,1,0,0,0,0,0
2,32.0,0,No,Primavera,1,Francés,6.0,100,1,1,...,1,0,1,0,1,0,0,0,0,0
3,32.0,0,Migrañas tensionales,Primavera,0,Inglés,6.0,100,1,1,...,0,0,1,0,1,0,0,0,0,0
4,21.0,0,No,Verano,1,Francés,6.0,100,1,1,...,0,0,0,1,0,0,0,0,0,0


In [36]:
df_fe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 98 columns):
 #   Column                                                                               Non-Null Count  Dtype   
---  ------                                                                               --------------  -----   
 0   edad                                                                                 2000 non-null   float64 
 1   is_condicion_fisica                                                                  2000 non-null   int64   
 2   detalle_condicion                                                                    2000 non-null   object  
 3   epoca                                                                                2000 non-null   category
 4   is_camino_realizado_prev                                                             2000 non-null   int64   
 5   ruta                                                                               

# 6. Guardado de datos

In [37]:
df_fe.to_csv("F_E_Encuesta.csv", sep="\t",index=False)