# KNN - Defunciones Fetales

En este Jupyter Notebook, se busca crear un modelo de Defunciones Fetales para poder predecir el tipo de defunción fetal que se puede presentar en un embarazo, con base en las características de la madre y del embarazo.

In [61]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import seaborn as sns
from kneed import KneeLocator
from sklearn.cluster import KMeans
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

Como primer paso, se cargan los datos ya explorados y limpios. Estos datos se encuentran en el archivo "defunciones_clean.csv".

Las variables presentes son:

    'Área_Geográfica',
    'Asistencia_Recibida',
    'Año_Ocurrencia',
    'Año_Registro',
    'Causa_Defunción',
    'Clase_Parto',
    'Departamento_Ocurrencia',
    'Departamento_Registro',
    'Día_Ocurrencia',
    'Edad_Madre',
    'Estado_Civil_Madre',
    'Escolaridad_Madre',
    'Mes_Ocurrencia',
    'Mes_Registro',
    'Municipio_Ocurrencia',
    'Municipio_Registro',
    'Municipio_Residencia_Madre',
    'Ocupación_Madre',
    'Semanas_Gestacion',
    'Sexo',
    'Sitio_Ocurrencia',
    'Tipo_Atencion',
    'Total_Hijos_Nacidos',
    'Total_Hijos_Nacidos_Muertos',
    'Total_Hijos_Vivos',
    'Via_Parto',
    'Nacionalidad_Madre',
    'Grupo_Etnico_Madre',

In [62]:
# Cargar datos
defunciones = pd.read_csv('defunciones_clean.csv')

# drop columns no relevantes
defunciones.drop('Departamento_Residencia_Madre', axis=1, inplace=True)
defunciones.drop('Año_Registro', axis=1, inplace=True)
defunciones.drop('Mes_Registro', axis=1, inplace=True)
defunciones.drop('Día_Ocurrencia', axis=1, inplace=True)        # No se considera el día de ocurrencia

defunciones.drop('Departamento_Registro', axis=1, inplace=True)

defunciones.drop('Municipio_Registro', axis=1, inplace=True)
defunciones.drop('Municipio_Ocurrencia', axis=1, inplace=True)          
defunciones.drop('Municipio_Residencia_Madre', axis=1, inplace=True)

defunciones.head()

Unnamed: 0,Área_Geográfica,Asistencia_Recibida,Año_Ocurrencia,Causa_Defunción,Clase_Parto,Departamento_Ocurrencia,Edad_Madre,Estado_Civil_Madre,Escolaridad_Madre,Mes_Ocurrencia,...,Semanas_Gestacion,Sexo,Sitio_Ocurrencia,Tipo_Atencion,Total_Hijos_Nacidos,Total_Hijos_Nacidos_Muertos,Total_Hijos_Vivos,Via_Parto,Nacionalidad_Madre,Grupo_Etnico_Madre
0,99,6,2009,0,1,7,18.0,2,99,5,...,34.416349,1,2,1,1.269311,2.0,1.0,99,1,4
1,99,1,2009,0,1,13,36.0,2,99,6,...,34.416349,1,9,1,1.269311,3.0,2.0,99,1,4
2,99,2,2009,0,1,2,22.0,2,99,1,...,34.416349,1,2,1,1.269311,3.0,2.0,99,1,4
3,99,2,2009,0,1,5,26.0,2,99,5,...,34.416349,1,2,1,1.269311,0.0,0.0,99,1,4
4,99,2,2009,0,1,7,43.0,2,99,5,...,34.416349,2,2,1,1.269311,10.0,6.0,99,1,4


En este caso, se busca determinar (a través de SelectKBest y Chi2) las mejores variables son las que más podrían alterar el resultado de la predicción. Para esto, se utiliza la variable "Causa_Defunción" como variable objetivo.

In [66]:
# Split the dataset into features (X) and target variable (y)
X = defunciones.drop('Causa_Defunción', axis=1)
y = defunciones['Causa_Defunción']

# Apply feature selection using the chi-squared test
selector = SelectKBest(chi2, k=1)
X_new = selector.fit_transform(X, y)

# Order X_new by feature importance
order = np.argsort(selector.scores_)[::-1]

# Create a list of sorted feature names
feature_names = []
for i in order:
    feature_names.append(X.columns[i])

feature_names[:10]

['Sitio_Ocurrencia',
 'Via_Parto',
 'Área_Geográfica',
 'Tipo_Atencion',
 'Clase_Parto',
 'Escolaridad_Madre',
 'Estado_Civil_Madre',
 'Nacionalidad_Madre',
 'Grupo_Etnico_Madre',
 'Ocupación_Madre']

Generar el modelo KNN con las variables seleccionadas y determinar su precisión.

In [None]:
# Split the dataset into features (X) and target variable (y)
X = defunciones.drop('Causa_Defunción', axis=1)
y = defunciones['Causa_Defunción']

# Apply feature selection using the chi-squared test
selector = SelectKBest(chi2, k=2)
X_new = selector.fit_transform(X, y)

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X_new, y, test_size=0.3, random_state=42)

# Create the KNN model
knn = KNeighborsClassifier(n_neighbors=5)

# Fit the model to the training data
knn.fit(X_train, y_train)

# Predict on the test set
y_pred = knn.predict(X_test)

# Accuracy del Modelo
print(knn.score(X_test, y_test))

0.899236641221374


In [None]:
# 

array([ 0,  1, 99])