# Metodología y pasos para problemas de ciencia de datos

* 1. Carga de datos y exploración de datos

    * Carga de datos
    * Ver las columnas del DataFrame (df.info(), df.describe()...)
    * Corrección de errores en datos (si los hay)
    * Cambios en tipos de datos con astype

* 2. EDA con matplotlib, seaborn, plotly, profiling tools

    * Univariante: histogramas, boxplots
    * Bivariante: scatterplot
    * Multivariante: heatmap, relplot (si se necesita, para correlaciones, PCA visual en 2D y 3D)
    * Objetivo: Entender los datos para tomar decisiones sobre preprocesamiento y modelado.

* 3. Definir el objetivo del modelado

    * Identificar columna target ("y") y analizar su tipo:
        * Numérica continua ➝ Regresión
        * Categórica discreta ➝ Clasificación
    * Separar datos en X (features) e Y (target)
    * Objetivo: Saber qué queremos predecir y cómo estructurar el problema.


* 4. Particionamiento/División de los datos para modelado
    * Separación en train y test (train_test_split)
    * Objetivo: Evitar data leakage (fuga de datos) y evaluar correctamente el modelo.


* 5. Preprocesados (donde más tiempo se invierte)
    * Manejo de valores nulos y outliers
    * Codificación de variables categóricas (one-hot, label encoding, etc.)
    * Estandarización, escalado (si es necesario)
    * Eliminar sesgos mediante transformación de distribuciones
    * EDA antes y después del preprocesamiento
    * Cuidado: usar fit_transform sobre datos X_train y transform sobre datos X_test
    * Objetivo: Asegurar que los datos están bien preparados para el modelo.


* 6. Feature engineering / extraction / selection:
    * Feature Engineering (Opcional, si aporta valor)
        * Crear nuevas variables derivadas
        * Ingeniería de fechas, combinaciones de columnas, ratios, interacciones, por ejemplo en pandas to_datetime y accesores de fechas para extraer año, mes, día, número de la semana, hora, minuto.
        * Ejemplo: si tenemos una columna ip podemos usar una base de datos que nos traiga la dirección o ubicación, país etc de esa IP y agregar esa información para enriquecer el dataset.

    * Feature Extraction (Opcional, si se necesita reducción dimensional) (Transforma datos, genera nuevas columnas a partir de las que hay)
        * PCA para reducción de dimensionalidad capturando la máxima varianza posible
        * Vectorización de texto y/o Word embeddings (en NLP)

    * Feature Selection (Opcional, si hay muchas variables irrelevantes) (No transforma datos, selecciona las mejores columnas)
        * Métodos estadísticos: SelectKBest con f_classif, chi2, f_regression
        * Métodos basados en modelos: RFE, feature importance

    * Orden: Primero Feature Engineering, luego Feature Extraction (si es necesario), y después Feature Selection para reducir ruido.

* 7. Modelado
    * Crear modelos, decidir algoritmos a utilizar:
         * Numérica continua ➝ Regresión
            * Algoritmos: LinealRegression, KNeighborsRegressor, DecisionTreeRegressor, SVR, RandomForestRegressor, ExtraTreesRegressor, GradientBoostingRegressor
        * Categórica discreta ➝ Clasificación
            * Algoritmos: LogisticRegression, KNeighborsClassifier, DecisionTreeClassifier, SVC, RandomForestClassifier, ExtraTreesClassifier, GradientBoostingClassifier
    * Entrenar modelos (model.fit)
    * Hacer predicciones (model.predict)
    * Validación de modelos y comparativa (cross-validation, métricas, visualización de resultados y comparar tiempos de entrenamiento, tiempos de prediccion y distintas métricas de regresión o clasificación)
    * Métricas:
        * Regresión: R2, MAE, MSE, RMSE, MAPE
        * Clasificación: accuracy, precision, recall, f1, jaccard, confusion_matrix, classification_report

* Optimización del modelo
    * Tuning de hiperparámetros
        * GridSearchCV
        * RandomizedSearchCV
    * Encontrar la mejor configuración del modelo manteniendo bajo coste computacional.

* Pipelines y producción
    * Uso de pipelines para agrupar preprocesado y modelado
    * Exportar modelo entrenado (pickle, joblib)
    * Despliegue en producción (API, servicio en la nube, etc.)


