# FASE 3 - MACHINE LEARNING


## Preparación de los datos

### Tipos de datos: numéricos, categóricos, texto, imágenes, etc.

Los datos pueden ser de muchos tipos diferentes, entre ellos:

- **Datos numéricos**: mediciones de temperatura, tiempo, altura, etc.
- **Datos categóricos** especie de un animal, la categoría de un producto, etc.
- **Texto**: comentarios de usuarios en una red social, las reseñas de productos en una tienda en línea, etc.
- **Imágenes**: fotografías, escaneos de documentos, etc.

### Limpieza y preprocesamiento de datos

Antes de utilizar los datos para entrenar un modelo, es necesario realizar una serie de pasos para limpiar y preprocesar los datos:

- **Limpieza de datos**: identificar y eliminar valores atípicos, datos faltantes, etc.
- **Transformación de datos**: convertir los datos a un formato adecuado para el modelo. Por ejemplo, convertir datos categóricos a numéricos, normalizar los datos numéricos, etc.
- **Selección de características**: seleccionar las características más relevantes para el modelo y eliminar aquellas que no aportan información útil.

### Separación de datos en entrenamiento y prueba

Para evaluar el rendimiento del modelo, es necesario separar los datos en un conjunto de entrenamiento y un conjunto de prueba.


# Ejemplo de código para la limpieza de datos utilizando Pandas

Este código realiza varias tareas comunes de limpieza de datos, como eliminar duplicados, eliminar filas con valores faltantes, convertir tipos de datos, eliminar columnas innecesarias y reemplazar valores. También muestra cómo filtrar filas basadas en una condición y guardar los datos limpios en un archivo CSV.




In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import mglearn


In [4]:
# Carga los datos en un dataframe de Pandas
df = pd.read_csv('MORBILIDAD_EN_EL_SERVICIO_DE_URGENCIAS_20240717.csv')

#Contenido de la base de datos
df.info()
df.drop_duplicates


#Elimina columnas donde hay al menos un valor faltante
df1=df.dropna(axis='columns')
df1
#Elimina la fila de ídice 5
df2=df1.drop([5])
df2


# Filtrar filas basadas en una condición
#df = df[df['columna8'] > 10]

# Guardar los datos limpios en un archivo CSV
df.to_csv('datos_limpio.csv', index=False)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14080 entries, 0 to 14079
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   PERIODO             14080 non-null  object
 1   AÑO                 14080 non-null  int64 
 2   SEXO                14080 non-null  object
 3   EDAD                14080 non-null  int64 
 4   TIPO_EDAD           14080 non-null  object
 5   PROCEDENCIA         14080 non-null  object
 6   DEPARTAMENTO        14080 non-null  object
 7   FECHA_ATENCION      14080 non-null  object
 8   DIAGNOSTICO         14080 non-null  object
 9   NOMBRE_DIAGNOSTICO  14080 non-null  object
 10  REGIMEN             14080 non-null  object
 11  EAPB                14080 non-null  object
dtypes: int64(2), object(10)
memory usage: 1.3+ MB


Unnamed: 0,PERIODO,AÑO,SEXO,EDAD,TIPO_EDAD,PROCEDENCIA,DEPARTAMENTO,FECHA_ATENCION,DIAGNOSTICO,NOMBRE_DIAGNOSTICO,REGIMEN,EAPB
276,I TRIMESTRE,2023,M,17,AÑOS,NEIVA,HUILA,03/18/2023,F120,TRASTORNOS MENTALES Y DEL COMPORTAMIENTO DEBID...,SUBSIDIADO,NUEVA EPS
879,I TRIMESTRE,2023,M,1,AÑOS,SANTIAGO,PUTUMAYO,01/18/2023,J00X,RINOFARINGITIS AGUDA (RESFRIADO COMUN),SUBSIDIADO,EMSSANAR
1302,I TRIMESTRE,2023,M,3,MESES,SIBUNDOY,PUTUMAYO,03/11/2023,J038,AMIGDALITIS AGUDA DEBIDA A OTROS MICROORGANISM...,SUBSIDIADO,MALLAMAS
1694,I TRIMESTRE,2023,F,11,AÑOS,SIBUNDOY,PUTUMAYO,03/30/2023,J00X,RINOFARINGITIS AGUDA (RESFRIADO COMUN),SUBSIDIADO,EMSSANAR
3982,II TRIMESTRE,2023,F,41,AÑOS,SIBUNDOY,PUTUMAYO,04/21/2023,R104,OTROS DOLORES ABDOMINALES Y LOS NO ESPECIFICADOS,CONTRIBUTIVO,NUEVA EPS
...,...,...,...,...,...,...,...,...,...,...,...,...
13844,IV TRIMESTRE,2023,M,44,AÑOS,SIBUNDOY,PUTUMAYO,10/01/1979,G409,"EPILEPSIA, TIPO NO ESPECIFICADO",SUBSIDIADO,EMSSANAR
13879,IV TRIMESTRE,2023,M,61,AÑOS,COLÓN,PUTUMAYO,04/20/1962,R51X,CEFALEA,CONTRIBUTIVO,NUEVA EPS
13884,IV TRIMESTRE,2023,M,63,AÑOS,COLÓN,PUTUMAYO,11/05/1959,R104,OTROS DOLORES ABDOMINALES Y LOS NO ESPECIFICADOS,CONTRIBUTIVO,NUEVA EPS
13914,IV TRIMESTRE,2023,M,58,AÑOS,SIBUNDOY,PUTUMAYO,07/16/1965,T159,"CUERPO EXTRAÑO EN PARTE EXTERNA DEL OJO, SITIO...",CONTRIBUTIVO,AIC


In [None]:
df2["PROCEDENCIA"].head()

In [None]:
diagnostico = df["NOMBRE_DIAGNOSTICO"].value_counts()
diagnostico.head()

In [None]:
import seaborn as sns
subset = diagnostico.head()
sns.barplot(y=subset.index, x=subset.to_numpy())

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()

X = vectorizer.fit_transform(df2["NOMBRE_DIAGNOSTICO"])
vectorizer.get_feature_names_out()

In [None]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
y = encoder.fit_transform(df2["PROCEDENCIA"])

list(encoder.classes_)

# kNN

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, precision_score

In [None]:
# Dividimos los datos en los conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

# Entrenar el modelo con el mejor valor de k
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)

In [None]:
#Hacemos una predicción con los datos de prueba. (calcula sus vecinos más cercanos en el conjunto de entrenamiento)
print("Test de predicción: {}".format(knn.predict(X_test)))

In [None]:
#Precisión del modelo
print("Test de precisción: {:.2f}".format(knn.score(X_test, y_test)))

In [None]:
# Nueva entrada
nuevo_diagnostico = "DOLOR ABDOMINNAL"

# Transformamos la entrada en un vector de características
nuevo_X = vectorizer.transform([nuevo_diagnostico])

# Predección
pred_Y = knn.predict(nuevo_X)

# Decodificar la procedencia
pred_procedencia = encoder.inverse_transform(pred_Y)

print(f"La procedencia del paciente con {nuevo_diagnostico} es {pred_procedencia}")

In [None]:
precision= []
test_precision = []
#  n_neighbors desde 1 a 10 
neighbors_settings = range(1, 11)

for n_neighbors in neighbors_settings:
    # contrucción del modelo
    kinn = KNeighborsClassifier(n_neighbors=n_neighbors) 
    kinn.fit(X_train, y_train)
    # Guardado de las precisiones 
    precision.append(kinn.score(X_train, y_train))
    # Guardado general 
    test_precision.append(kinn.score(X_test, y_test))
    
plt.plot(neighbors_settings, precision, label="presición del modelo entrendado")
plt.plot(neighbors_settings, test_precision, label="precisión conjunto de prueba")
plt.ylabel("Precisión")
plt.xlabel("n_neighbors")
plt.legend()
plt.show()

# Modelos lineales

$$\hat{y} = \hat{\beta}_0+\hat{\beta}_1x_1 + \hat{\beta}_2x_2 + \hat{\beta}_3 x_3$$

In [None]:
from sklearn.linear_model import LinearRegression

# Datos de entreada con tres caraterísticas 
X = np.array([[1, 1, 4], [1, 2, 3], [2, 2, 5], [2, 3, 6]])
y = np.dot(X, np.array([4, 2, -1]))

rl = LinearRegression().fit(X, y)


print("lr.coef_: {}".format(rl.coef_))
print("lr.intercept_: {}".format(rl.intercept_))

#rl.predict(np.array([[3, 5, 6]]))

In [None]:
ax = plt.figure().add_subplot(projection='3d')

# Prepare arrays x, y, z
z = X[:,2]
x = X[:,0]
y = X[:,1]

ax.plot(x, y, z, 'o',label='Datos')
ax.legend()
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')

plt.show()

# Modelos no lineales

Regresión logística

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_breast_cancer 
cancer = load_breast_cancer()

print("cancer.keys(): \n{}".format(cancer.keys()))

In [None]:
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, 
                                                    stratify=cancer.target, random_state=42)

logreg = LogisticRegression().fit(X_train, y_train)

print("Training set score: {:.3f}".format(logreg.score(X_train, y_train)))
print("Test set score: {:.3f}".format(logreg.score(X_test, y_test)))

In [None]:
logreg.predict(X_test)

In [None]:
logreg.intercept_

In [None]:
logreg.coef_

In [None]:
plt.plot(logreg.coef_.T, 'o', label="C=1")
plt.xticks(range(cancer.data.shape[1]), cancer.feature_names, rotation=90)
plt.hlines(0, 0, cancer.data.shape[1])
plt.xlabel("Índice de Coeficientes")
plt.ylabel("Tamaño del Coeficiente")
plt.legend()

In [None]:
# Code source: Gael Varoquaux
# License: BSD 3 clause

from scipy.special import expit


# Generate a toy dataset, it's just a straight line with some Gaussian noise:
xmin, xmax = -5, 5
n_samples = 100
np.random.seed(0)
X = np.random.normal(size=n_samples)
y = (X > 0).astype(float)
X[X > 0] *= 4
X += 0.3 * np.random.normal(size=n_samples)

X = X[:, np.newaxis]

# Fit the classifier
clf = LogisticRegression()
clf.fit(X, y)

# and plot the result
plt.scatter(X.ravel(), y, label="datos", color="black", zorder=20)
X_test = np.linspace(-5, 10, 300)
loss = expit(X_test * clf.coef_ + clf.intercept_).ravel()
plt.plot(X_test, loss, label="Logistic Regression Model", color="red")



plt.ylabel("y")
plt.xlabel("X")
plt.legend()
plt.show()

# Árboles de decisión

In [None]:
from sklearn.tree import DecisionTreeClassifier

X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, 
                                                    stratify=cancer.target, random_state=42)
tree = DecisionTreeClassifier(max_depth=4,random_state=0)
tree.fit(X_train, y_train)

print("Accuracy on training set: {:.3f}".format(tree.score(X_train, y_train))) 
print("Accuracy on test set: {:.3f}".format(tree.score(X_test, y_test)))

In [None]:
from sklearn.tree import export_graphviz

export_graphviz(tree, out_file="tree.dot", class_names=["malignant", "benign"],
                feature_names=cancer.feature_names, impurity=False, filled=True)

In [None]:
import graphviz

with open("tree.dot") as f:
    dot_graph = f.read()
graphviz.Source(dot_graph)