In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score

In [2]:
df = pd.read_csv("nac2015.csv") #Sacamos la informacion
df = df[df["COD_DPTO"]==20] #Filtramos solo el departamento del cauca

df = df[['AREANAC','PESO_NAC','TALLA_NAC','T_GES','NUMCONSUL','TIPO_PARTO','MUL_PARTO','EDAD_MADRE','EST_CIVM','IDPERTET','NIV_EDUM' ,'CODPTORE','N_HIJOSV','FECHA_NACM','N_EMB']]
# Convertir la columna de fechas en formato datetime
df['FECHA_NACM'] = pd.to_datetime(df['FECHA_NACM'], format='%d/%m/%Y', errors='coerce')

# Convertir a timestamp (solo para fechas válidas)
df['FECHA_NACM'] = df['FECHA_NACM'].apply(lambda x: x.timestamp() if pd.notnull(x) else None)

#limpiamos de nan
df = df.dropna()

df.head()

Unnamed: 0,AREANAC,PESO_NAC,TALLA_NAC,T_GES,NUMCONSUL,TIPO_PARTO,MUL_PARTO,EDAD_MADRE,EST_CIVM,IDPERTET,NIV_EDUM,CODPTORE,N_HIJOSV,FECHA_NACM,N_EMB
371,1,7,5,4,10,2,1,5,6,6,9,20.0,2,1354320000.0,2
388,1,6,5,4,9,2,1,7,1,6,3,20.0,2,981158400.0,2
413,1,6,5,4,9,2,1,6,1,6,8,20.0,3,1253578000.0,3
443,1,7,5,4,7,1,1,6,6,6,8,44.0,4,1367453000.0,4
444,1,6,5,4,6,1,1,6,1,6,3,20.0,1,-2208989000.0,1


In [3]:
len(df.index)

20843

In [4]:
# Separar las variables independientes (X) de la variable dependiente (y)
X = df.drop(columns=['N_HIJOSV'])  # Reemplaza 'variable_objetivo' por el nombre de tu columna objetivo
y = df['N_HIJOSV']
# Convertir la variable objetivo en binaria (1 si es 1, 0 si es mayor a 1)
y = (y == 1).astype(int)

In [5]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [6]:
# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [7]:
# Crear el modelo SVM para clasificación
svc = SVC(kernel='linear')  # Puedes probar otros kernels como 'rbf'

# Entrenar el modelo con los datos sin valores NaN
svc.fit(X_train_scaled, y_train)

In [8]:
# Hacer predicciones
y_pred = svc.predict(X_test_scaled)

In [9]:
# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy}")

Precisión del modelo: 1.0


In [10]:
[y_pred.shape, X_test.shape]

[(4169,), (4169, 14)]

In [11]:
# Opcional: imprimir las primeras predicciones
y_pred[:10]

array([0, 0, 1, 0, 0, 0, 1, 1, 0, 0])

In [12]:
X_test[:10]

Unnamed: 0,AREANAC,PESO_NAC,TALLA_NAC,T_GES,NUMCONSUL,TIPO_PARTO,MUL_PARTO,EDAD_MADRE,EST_CIVM,IDPERTET,NIV_EDUM,CODPTORE,FECHA_NACM,N_EMB
352057,1,6,5,4,7,2,1,3,6,6,8,20.0,1358813000.0,2
356218,1,4,4,4,8,2,1,3,6,6,7,20.0,1318550000.0,2
358737,1,7,5,4,8,2,1,3,1,6,3,20.0,-2208989000.0,1
143473,1,7,5,4,4,2,1,3,1,6,3,20.0,1281830000.0,2
368786,1,6,5,4,5,2,1,3,2,6,2,20.0,1319760000.0,2
561180,1,6,5,3,4,1,1,2,1,6,3,68.0,1364170000.0,2
314234,1,5,4,4,6,2,1,5,2,6,3,20.0,-2208989000.0,1
36634,1,6,5,3,6,2,1,2,1,6,4,20.0,-2208989000.0,1
346939,1,5,4,3,8,1,1,3,1,6,3,20.0,1381450000.0,2
350028,1,7,5,4,5,2,1,2,1,6,4,20.0,1368662000.0,2


In [13]:
from sklearn.feature_selection import RFE
selector = RFE(svc, n_features_to_select=5)  # Número de características a seleccionar
selector = selector.fit(X_train, y_train)

# Ver las características seleccionadas
print("Características seleccionadas:", X_train.columns[selector.support_])

Características seleccionadas: Index(['NUMCONSUL', 'NIV_EDUM', 'CODPTORE', 'FECHA_NACM', 'N_EMB'], dtype='object')


In [14]:
# Aplicar el selector para transformar los conjuntos de entrenamiento y prueba
X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# Entrenar el modelo con las características seleccionadas
svc.fit(X_train_selected, y_train)

# Predecir en el conjunto de prueba
y_pred = svc.predict(X_test_selected)

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy con características seleccionadas: {accuracy:.2f}')

Accuracy con características seleccionadas: 1.00


In [15]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import seaborn as sns
import matplotlib.pyplot as plt
# Crear la matriz de confusión
cm = confusion_matrix(y_test, y_pred)

# Visualizar la matriz de confusión
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False,
            xticklabels=['Clase 0', 'Clase 1'], yticklabels=['Clase 0', 'Clase 1'])
plt.xlabel('Predicción')
plt.ylabel('Realidad')
plt.title('Matriz de Confusión')
plt.show()

ModuleNotFoundError: No module named 'seaborn'

In [26]:
import numpy as np


def contar_coincidencias_filas(mat1, mat2):
    # Inicializamos el contador de coincidencias
    conteo = 0
    filas_coincidentes = []

    # Iteramos por cada fila en mat1 y verificamos si está en mat2
    for fila in mat1:
        if any((fila == f).all() for f in mat2):  # Verifica si la fila está en mat2
            conteo += 1
            filas_coincidentes.append(fila)

    return conteo, np.array(filas_coincidentes)

for i in range(5):
    conteo, coincidencias = contar_coincidencias_filas(X_train_selected, X_test_selected)
    print(f"De los cuales hay {conteo} coincidencias en la columna {i}.")
    print("Las coincidencias son:", coincidencias)


De los cuales hay 6934 coincidencias en la columna 0.
Las coincidencias son: [[ 5.0000000e+00  3.0000000e+00  2.0000000e+01 -2.2089888e+09
   2.0000000e+00]
 [ 5.0000000e+00  3.0000000e+00  2.0000000e+01 -2.2089888e+09
   1.0000000e+00]
 [ 9.0000000e+00  4.0000000e+00  2.0000000e+01 -2.2089888e+09
   1.0000000e+00]
 ...
 [ 7.0000000e+00  4.0000000e+00  2.0000000e+01 -2.2089888e+09
   1.0000000e+00]
 [ 8.0000000e+00  9.0000000e+00  2.0000000e+01 -2.2089888e+09
   1.0000000e+00]
 [ 5.0000000e+00  3.0000000e+00  2.0000000e+01  1.3370400e+09
   3.0000000e+00]]
De los cuales hay 6934 coincidencias en la columna 1.
Las coincidencias son: [[ 5.0000000e+00  3.0000000e+00  2.0000000e+01 -2.2089888e+09
   2.0000000e+00]
 [ 5.0000000e+00  3.0000000e+00  2.0000000e+01 -2.2089888e+09
   1.0000000e+00]
 [ 9.0000000e+00  4.0000000e+00  2.0000000e+01 -2.2089888e+09
   1.0000000e+00]
 ...
 [ 7.0000000e+00  4.0000000e+00  2.0000000e+01 -2.2089888e+09
   1.0000000e+00]
 [ 8.0000000e+00  9.0000000e+00  2.

In [24]:
len(X_test_selected[0, :])

5

In [22]:
len(X_train_selected[:, 0])

16674

In [18]:
X_train_selected

array([[ 0.0000000e+00,  3.0000000e+00,  2.0000000e+01,  1.3623552e+09,
         5.0000000e+00],
       [ 7.0000000e+00,  4.0000000e+00,  2.0000000e+01,  1.3075776e+09,
         2.0000000e+00],
       [ 8.0000000e+00,  3.0000000e+00,  2.0000000e+01,  1.1696832e+09,
         6.0000000e+00],
       ...,
       [ 8.0000000e+00,  9.0000000e+00,  2.0000000e+01, -2.2089888e+09,
         1.0000000e+00],
       [ 5.0000000e+00,  3.0000000e+00,  2.0000000e+01,  1.3370400e+09,
         3.0000000e+00],
       [ 5.0000000e+00,  2.0000000e+00,  2.0000000e+01,  1.3453344e+09,
         5.0000000e+00]])