# TRABAJO FINAL DE GRADO - PEC 2
###### Autor: Claudia Reina Fajardo
###### Noviembre 2021

## Modelo de aprendizaje no supervisado: K-Means


In [2]:
# imports
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans

In [13]:
# cargamos el dataset
df = pd.read_csv('data.csv')

In [14]:
# algoritmo para aplicar K-Means:

def kmeans (variable):
    # plantamos semilla para que nos de el mismo resultado en las diferentes ejecuciones
    np.random.seed(0)

    # eliminamos la clase del conjunto de datos y los elementos sin clasificar y la guardamos para comprobar precisión
    data=df[df[variable]<2]
    clase=data[variable]
    data=data.drop([variable], axis=1).values

    # estandarizamos los datos
    media=np.mean(data,0)
    desv=np.std(data,0)
    data=np.divide((data-media),desv)

    # aplicamos K-Means con 2 clústers, ya que queremos clasificar el conjunto de forma binaria
    kMeans=KMeans(n_clusters=2,max_iter=25).fit(data)

    # calculamos los aciertos comparando las etiquetas con la clase
    aciertos=np.count_nonzero((kMeans.labels_-clase)==0)
    total=len(kMeans.labels_)

    # calculamos precisión dividiendo aciertos entre total de estimaciones
    prec=float(aciertos)/float(total)
    
    return prec, data, kMeans

### K-Means sobre depresión

In [15]:
# llamamos al algoritmo

prec1, data1, kMeans1 = kmeans('depressed')

print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec1)+'%')
print('')


| CALIDAD DEL MODELO |
 - Precisión               : 72.01761409127302%



### K-Means sobre pensamientos de muerte

In [17]:
# llamamos al algoritmo

prec2, data2, kMeans2 = kmeans('dead')

print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
# calculamos el contrario de la precisión, ya que clasifica correctamente pero cambiando clase 1 por 0
print(' - Precisión               : '+str(100*(1-prec2))+'%')
print('')

| CALIDAD DEL MODELO |
 - Precisión               : 91.09643857543017%



### K-Means sobre insomnio

In [18]:
# llamamos al algoritmo

prec3, data3, kMeans3 = kmeans('sleep')

print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec3)+'%')
print('')

| CALIDAD DEL MODELO |
 - Precisión               : 61.97239447889578%



### K-Means sobre autoestima

In [19]:
# llamamos al algoritmo

prec4, data4, kMeans4 = kmeans('yourself')

print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec4)+'%')
print('')

| CALIDAD DEL MODELO |
 - Precisión               : 78.77150860344138%



### K-Means sobre visita en salud mental

In [20]:
# llamamos al algoritmo

prec5, data5, kMeans5 = kmeans('profMental')

print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec5)+'%')
print('')

| CALIDAD DEL MODELO |
 - Precisión               : 86.41184710826496%



## Pruebas de predicción con K-Means

### Depresión

In [21]:
# probamos con aquellos valores que no se habían clasificado
prob=df[df.depressed>1]
prob=prob.drop(['depressed'], axis=1).values

# predicción
new = kMeans1.predict(prob)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')


| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 0.  49.   6.   0.   2.   1.   4.   2.   0.   0.   3.4  0.   1.   0.
  2.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   1.   0.   0.
  0.   0.   0.   1.   1.   3.   0.   0.   0.   0.   0.   0.   0.   0.
  0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.   0.
  1.   0.   1.   0.   0.   0.   3.   9.   9.   9.   9.   5. ]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 1.   63.    6.    0.    2.    1.    4.    1.    0.    2.    2.73  1.
  0.    0.    2.    0.    0.    1.    1.    0.    1.    1.    0.    0.
  0.    0.    0.    0.    0.    0.    0.    0.    4.    2.    0.    0.
  0.    0.    0.    0.    0.    0.    0.    0.    0.    0.    0.    0.
  0.    0.    0.    0.    0.    0.    1.    1.    1.    0.    0.    0.
  0.    0.    2.    9.    9.    9.    9.    1.  ]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 1.   80.    1.    0.    2.    2.    4.    0.    1.    1.    2.7

### Pensamientos de muerte

Recordemos que K-Means ha clasificado como 1 la clase 0 y como 0 la clase 1... Por lo que el resultado de la predicción significará:

* 0: Sí
* 1: No

In [22]:
# probamos con aquellos valores que no se habían clasificado
prob=df[df.dead>1]
prob=prob.drop(['dead'], axis=1).values

# predicción
new = kMeans2.predict(prob)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')


| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 1.   61.    3.    0.    1.    2.    4.    1.    1.    1.    1.23  1.
  1.    1.    3.    1.    0.    1.    1.    1.    1.    1.    1.    1.
  1.    1.    0.    0.    0.    0.    0.    1.    5.    2.    0.    0.
  0.    0.    0.    0.    0.    0.    1.    0.    1.    0.    0.    1.
  1.    0.    0.    1.    0.    1.    0.    0.    0.    5.    5.    0.
  0.    1.    3.    9.    9.    9.    9.    2.  ]
 - Clasificación        : 1

 - Datos sin clasificar        : [ 0.   54.    1.    0.    1.    3.    3.    0.    0.    2.    0.77  1.
  0.    0.    3.    0.    0.    0.    0.    0.    0.    1.    1.    1.
  1.    0.    1.    0.    1.    0.    0.    0.    4.    3.    0.    0.
  0.    0.    1.    0.    0.    0.    0.    0.    0.    0.    0.    0.
  0.    0.    0.    0.    0.    0.    1.    1.    0.    3.    1.    0.
  0.    1.    2.    1.    1.    9.    9.    3.  ]
 - Clasificación        : 1



### Insomnio

In [23]:
# probamos con aquellos valores que no se habían clasificado
prob=df[df.sleep>1]
prob=prob.drop(['sleep'], axis=1).values

# predicción
new = kMeans3.predict(prob)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')


| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 1.   74.    2.    0.    1.    1.    3.    0.    0.    2.    0.77  1.
  0.    0.    3.    0.    1.    0.    0.    0.    0.    0.    0.    0.
  0.    0.    0.    0.    0.    0.    0.    1.    3.    3.    0.    0.
  0.    0.    0.    0.    1.    0.    0.    0.    0.    0.    0.    0.
  1.    0.    0.    0.    0.    1.    1.    1.    0.    5.    0.    0.
  0.    1.    2.    9.    9.    9.    9.    3.  ]
 - Clasificación        : 0



### Autoestima

In [24]:
# probamos con aquellos valores que no se habían clasificado
prob=df[df.yourself>1]
prob=prob.drop(['yourself'], axis=1).values

# predicción
new = kMeans4.predict(prob)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')

| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 1. 80.  3.  0.  1.  1.  2.  0.  0.  2.  5.  1.  1.  0.  3.  0.  0.  0.
  1.  1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  4.  3.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  2.  1.  0.  0.  0.  3.  1.  9.  9.  9.  4.]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 1.   80.    1.    0.    2.    2.    4.    0.    1.    1.    2.76  0.
  0.    0.    3.    0.    0.    1.    1.    1.    1.    0.    9.    0.
  1.    0.    0.    0.    1.    0.    0.    1.    2.    3.    0.    0.
  0.    0.    1.    0.    1.    0.    0.    0.    0.    0.    0.    0.
  0.    0.    0.    0.    0.    0.    0.    0.    0.    4.    0.    0.
  0.    0.    2.    9.    9.    9.    9.    2.  ]
 - Clasificación        : 0



### Visita en salud mental

In [25]:
# probamos con aquellos valores que no se habían clasificado
prob=df[df.profMental>1]
prob=prob.drop(['profMental'], axis=1).values

# predicción
new = kMeans5.predict(prob)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')


| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 1.   68.    6.    0.    2.    1.    5.    1.    0.    2.    0.86  0.
  9.    1.    3.    1.    0.    0.    1.    0.    1.    0.    0.    1.
  1.    0.    0.    0.    0.    0.    0.    0.    1.    5.    1.    0.
  0.    0.    0.    0.    0.    0.    0.    0.    0.    0.    0.    0.
  0.    0.    0.    0.    0.    0.    0.    0.    0.    1.    0.    0.
  0.    0.    3.    9.    9.    9.    9.    1.  ]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 0.   47.    3.    0.    2.    3.    1.    0.    0.    0.    3.26  1.
  1.    0.    3.    0.    0.    0.    0.    0.    0.    0.    0.    0.
  1.    1.    1.    0.    0.    0.    0.    0.    1.    3.    2.    0.
  0.    0.    1.    0.    0.    0.    0.    0.    0.    0.    0.    0.
  0.    0.    1.    0.    0.    0.    1.    1.    1.    3.    1.    0.
  1.    1.    2.    9.    1.    9.    9.    3.  ]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 