# Exploración y Preprocesamiento del Dataset CTG  
**Práctica 3 – Diplomado en Ciencia de Datos**

Este notebook realiza:

- Preprocesamiento completo  
- Categorización automática  
- Visualizaciones complejas  
- Análisis exploratorio  

Usando la librería **ctg_viz** desarrollada para este proyecto.


In [5]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


from ctg_viz.preprocessing import preprocessing
from ctg_viz import preprocessing as pp

from ctg_viz.categorization import (
    check_data_completeness_davidmaganacelis,
    clasificar_columnas,
    categorization
)

from ctg_viz.plots.histograms import plot_histogram
from ctg_viz.plots.boxplots import plot_boxplot
from ctg_viz.plots.barplots import plot_barplot
from ctg_viz.plots.lineplots import plot_line
from ctg_viz.plots.dotplots import plot_dotplot
from ctg_viz.plots.density import plot_density
from ctg_viz.plots.violin import plot_violin
from ctg_viz.plots.heatmap import plot_heatmap

sns.set(style="whitegrid")


ModuleNotFoundError: No module named 'sklearn'

In [6]:
pip install scikit-learn seaborn

Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp314-cp314-macosx_12_0_arm64.whl.metadata (11 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.16.3-cp314-cp314-macosx_14_0_arm64.whl.metadata (62 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Using cached joblib-1.5.2-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Using cached threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.2-cp314-cp314-macosx_12_0_arm64.whl (8.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.6/8.6 MB[0m [31m9.8 MB/s[0m  [33m0:00:00[0m eta [36m0:00:01[0mm
[?25hUsing cached joblib-1.5.2-py3-none-any.whl (308 kB)
Downloading scipy-1.16.3-cp314-cp314-macosx_14_0_arm64.whl (20.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.9/20.9 MB[0m [31m16.5 MB/s[0m  [33m0:00:01[0mm0:00:01[0m00:01[0m
[?25hUsing cached threadpoolctl-3.6.0-py3-none-any.whl (18 kB)
Inst

## 1. Carga del dataset y preprocesamiento completo
Aplicamos el pipeline integrado de limpieza:

1. Estandarización de columnas  
2. Conversión automática de tipos  
3. Eliminación de columnas con muchos nulos  
4. Imputación  
5. Tratamiento de outliers  


In [None]:
path = "../data/CTG.csv"

df = preprocessing(
    path=path,
    threshold_nulos=0.2,
    metodo_imputacion="mean",
    metodo_outliers="iqr",
    accion_outliers="drop"
)

df.head()

NameError: name 'preprocessing' is not defined

## 2. Revisión de Completitud
Analizamos nulos, porcentaje de completitud y estadísticas por columna.

In [None]:
resumen_nulos = check_data_completeness_davidmaganacelis(df)
resumen_nulos

## 3. Clasificación automática de variables
Agrupamos en:

- Variables continuas  
- Variables discretas  
- Variables categóricas  


In [1]:
clasificacion = clasificar_columnas(df)
clasificacion

NameError: name 'clasificar_columnas' is not defined

## 4. Resumen general de las variables
Incluye tipo, completitud, rango, variabilidad y clasificación.


In [None]:
resumen_var = categorization(df)
resumen_var


# 5. Visualizaciones Avanzadas

Incluye:

- Histogramas con KDE y facet por clase  
- Gráficas de densidad  
- Barras horizontales ordenadas  
- Línea simulada (serie temporal)  
- Boxplots por clase objetivo  
- Dot plot comparativo  
- Violín + swarmplot  
- Heatmap Pearson/Spearman  



In [None]:
plot_histogram(
    df,
    columnas=["LB", "ALTV", "FM"],
    kde=True,
    hue="NSP",
    facet=True
)

In [None]:
plot_density(df, columnas=["LB", "FM"], hue="NSP")

In [None]:
plot_barplot(df, columna="NSP")

In [None]:
plot_line(df, columna="LB")

In [None]:
plot_boxplot(df, columna="LB", grupo="NSP", facet=True)

In [None]:
plot_dotplot(df, columna="LB", grupo="NSP")

In [None]:
plot_violin(df, columna="LB", grupo="NSP")

In [None]:
plot_heatmap(df, metodo="pearson")

In [None]:
plot_heatmap(df, metodo="spearman")

# 6. Conclusiones del Análisis

- El dataset quedó sin valores nulos ni columnas incompletas.  
- Los outliers fueron controlados sin eliminar información relevante.  
- Las variables se clasificaron automáticamente con criterios estadísticos.  
- Las visualizaciones muestran diferencias claras entre clases **NSP**.  
- La librería `ctg_viz` funciona correctamente para un EDA profesional.  