# TRABAJO FINAL DE GRADO - PEC 2
###### Autor: Claudia Reina Fajardo
###### Noviembre 2021

## Modelo de aprendizaje no supervisado: K-Means


In [1]:
# imports
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans

In [2]:
# cargamos el dataset
df = pd.read_csv('data.csv')

### K-Means sobre depresión

In [3]:
# plantamos semilla para que nos de el mismo resultado en las diferentes ejecuciones
np.random.seed(0)

# eliminamos la clase del conjunto de datos y los elementos sin clasificar y la guardamos para comprobar precisión
data=df[df.depressed<2]
clase=data.depressed
data=data.drop(['depressed'], axis=1).values

# estandarizamos los datos
media=np.mean(data,0)
desv=np.std(data,0)
data=np.divide((data-media),desv)

# aplicamos K-Means con 2 clústers, ya que queremos clasificar el conjunto de forma binaria
kMeans=KMeans(n_clusters=2,max_iter=25).fit(data)

# calculamos los aciertos comparando las etiquetas con la clase
aciertos=np.count_nonzero((kMeans.labels_-clase)==0)
total=len(kMeans.labels_)

# calculamos precisión dividiendo aciertos entre total de estimaciones
prec=float(aciertos)/float(total)
print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec)+'%')
print('')
# probamos con aquellos valores que no se habían clasificado
prob=df[df.depressed>1]
prob=prob.drop(['depressed'], axis=1).values

# predicción
new = kMeans.predict(data)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')


| CALIDAD DEL MODELO |
 - Precisión               : 72.01761409127302%

| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 1.  49.   6.   2.   2.   1.   4.   2.   0.   0.   3.4  2.   1.   2.
  2.   2.   2.   2.   2.   2.   2.   0.   0.   0.   0.   1.   0.   0.
  0.   2.   2.   1.   1.   3.   0.   2.   2.   2.   2.   2.   2.   2.
  2.   2.   2.   2.   2.   2.   2.   2.   2.   2.   2.   2.   2.   2.
  1.   0.   1.   2.   2.   2.   3.   9.   9.   9.   9.   5. ]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 2.   63.    6.    2.    2.    1.    4.    1.    0.    2.    2.73  1.
  2.    2.    2.    2.    2.    1.    1.    2.    1.    3.    0.    0.
  0.    0.    0.    0.    0.    2.    2.    2.    4.    2.    0.    2.
  2.    2.    2.    2.    2.    2.    2.    2.    2.    2.    2.    2.
  2.    2.    2.    2.    2.    2.    1.    1.    1.    8.    8.    2.
  2.    2.    2.    9.    9.    9.    9.    1.  ]
 - Clasificación        : 0

 - Datos sin clasificar   

### K-Means sobre pensamientos de muerte

In [4]:
# plantamos semilla para que nos de el mismo resultado en las diferentes ejecuciones
np.random.seed(0)

# eliminamos la clase del conjunto de datos y los elementos sin clasificar y la guardamos para comprobar precisión
data=df[df.dead<2]
clase=data.dead
data=data.drop(['dead'], axis=1).values

# estandarizamos los datos
media=np.mean(data,0)
desv=np.std(data,0)
data=np.divide((data-media),desv)

# aplicamos K-Means con 2 clústers, ya que queremos clasificar el conjunto de forma binaria
kMeans=KMeans(n_clusters=2,max_iter=25).fit(data)

# calculamos los aciertos comparando las etiquetas con la clase
aciertos=np.count_nonzero((kMeans.labels_-clase)==0)
total=len(kMeans.labels_)

# calculamos precisión dividiendo aciertos entre total de estimaciones
prec=float(aciertos)/float(total)
print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec)+'%')
print('')
# probamos con aquellos valores que no se habían clasificado
prob=df[df.dead>1]
prob=prob.drop(['dead'], axis=1).values

# predicción
new = kMeans.predict(data)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')

| CALIDAD DEL MODELO |
 - Precisión               : 91.09643857543017%

| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 2.   61.    3.    2.    1.    2.    4.    1.    1.    1.    1.23  1.
  1.    1.    3.    1.    2.    1.    1.    1.    1.    3.    1.    1.
  3.    3.    0.    0.    0.    2.    2.    1.    5.    2.    0.    2.
  2.    2.    2.    2.    2.    2.    1.    2.    1.    2.    2.    1.
  1.    2.    2.    1.    2.    1.    2.    2.    4.    5.    5.    2.
  2.    1.    3.    9.    9.    9.    9.    2.  ]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 1.   54.    1.    2.    1.    3.    3.    0.    0.    2.    0.77  1.
  2.    2.    3.    2.    2.    2.    2.    2.    2.    3.    1.    1.
  3.    0.    1.    0.    1.    2.    2.    2.    4.    3.    0.    2.
  2.    2.    1.    2.    2.    2.    2.    2.    2.    2.    2.    2.
  2.    2.    2.    2.    2.    2.    1.    1.    4.    3.    1.    2.
  2.    1.    2.   10.   13.    9.    9.  

### K-Means sobre insomnio

In [5]:
# plantamos semilla para que nos de el mismo resultado en las diferentes ejecuciones
np.random.seed(0)

# eliminamos la clase del conjunto de datos y los elementos sin clasificar y la guardamos para comprobar precisión
data=df[df.sleep<2]
clase=data.sleep
data=data.drop(['sleep'], axis=1).values

# estandarizamos los datos
media=np.mean(data,0)
desv=np.std(data,0)
data=np.divide((data-media),desv)

# aplicamos K-Means con 2 clústers, ya que queremos clasificar el conjunto de forma binaria
kMeans=KMeans(n_clusters=2,max_iter=25).fit(data)

# calculamos los aciertos comparando las etiquetas con la clase
aciertos=np.count_nonzero((kMeans.labels_-clase)==0)
total=len(kMeans.labels_)

# calculamos precisión dividiendo aciertos entre total de estimaciones
prec=float(aciertos)/float(total)
print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec)+'%')
print('')
# probamos con aquellos valores que no se habían clasificado
prob=df[df.sleep>1]
prob=prob.drop(['sleep'], axis=1).values

# predicción
new = kMeans.predict(data)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')

| CALIDAD DEL MODELO |
 - Precisión               : 61.97239447889578%

| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 2.   74.    2.    2.    1.    1.    3.    0.    0.    2.    0.77  1.
  2.    2.    3.    2.    1.    2.    2.    2.    2.    0.    0.    0.
  0.    0.    0.    0.    0.    2.    2.    1.    3.    3.    0.    2.
  2.    2.    2.    2.    1.    2.    2.    2.    2.    2.    2.    2.
  1.    2.    2.    2.    2.    1.    1.    1.    4.    5.    0.    2.
  2.    1.    2.    9.    9.    9.    9.    3.  ]
 - Clasificación        : 0



### K-Means sobre autoestima

In [6]:
# plantamos semilla para que nos de el mismo resultado en las diferentes ejecuciones
np.random.seed(0)

# eliminamos la clase del conjunto de datos y los elementos sin clasificar y la guardamos para comprobar precisión
data=df[df.yourself<2]
clase=data.yourself
data=data.drop(['yourself'], axis=1).values

# estandarizamos los datos
media=np.mean(data,0)
desv=np.std(data,0)
data=np.divide((data-media),desv)

# aplicamos K-Means con 2 clústers, ya que queremos clasificar el conjunto de forma binaria
kMeans=KMeans(n_clusters=2,max_iter=25).fit(data)

# calculamos los aciertos comparando las etiquetas con la clase
aciertos=np.count_nonzero((kMeans.labels_-clase)==0)
total=len(kMeans.labels_)

# calculamos precisión dividiendo aciertos entre total de estimaciones
prec=float(aciertos)/float(total)
print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec)+'%')
print('')
# probamos con aquellos valores que no se habían clasificado
prob=df[df.yourself>1]
prob=prob.drop(['yourself'], axis=1).values

# predicción
new = kMeans.predict(data)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')

| CALIDAD DEL MODELO |
 - Precisión               : 78.77150860344138%

| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 2. 80.  3.  2.  1.  1.  2.  0.  0.  2.  5.  1.  1.  2.  3.  2.  2.  2.
  1.  1.  2.  0.  0.  0.  0.  0.  0.  0.  0.  2.  2.  1.  4.  3.  0.  2.
  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.  2.
  2.  2.  4.  2.  1.  2.  2.  2.  3. 10.  9.  9.  9.  4.]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 2.   80.    1.    2.    2.    2.    4.    0.    1.    1.    2.76  2.
  2.    2.    3.    2.    2.    1.    1.    1.    1.    0.    9.    0.
  3.    0.    0.    0.    1.    2.    2.    1.    2.    3.    0.    2.
  2.    2.    1.    2.    1.    2.    2.    2.    2.    2.    2.    2.
  2.    2.    2.    2.    2.    2.    2.    2.    4.    4.    8.    2.
  2.    2.    2.    9.    9.    9.    9.    2.  ]
 - Clasificación        : 0



### K-Means sobre visita en salud mental

In [7]:
# plantamos semilla para que nos de el mismo resultado en las diferentes ejecuciones
np.random.seed(0)

# eliminamos la clase del conjunto de datos y los elementos sin clasificar y la guardamos para comprobar precisión
data=df[df.profMental<2]
clase=data.profMental
data=data.drop(['profMental'], axis=1).values

# estandarizamos los datos
media=np.mean(data,0)
desv=np.std(data,0)
data=np.divide((data-media),desv)

# aplicamos K-Means con 2 clústers, ya que queremos clasificar el conjunto de forma binaria
kMeans=KMeans(n_clusters=2,max_iter=25).fit(data)

# calculamos los aciertos comparando las etiquetas con la clase
aciertos=np.count_nonzero((kMeans.labels_-clase)==0)
total=len(kMeans.labels_)

# calculamos precisión dividiendo aciertos entre total de estimaciones
prec=float(aciertos)/float(total)
print('======================')
print('| CALIDAD DEL MODELO |')
print('======================')
print(' - Precisión               : '+str(100*prec)+'%')
print('')
# probamos con aquellos valores que no se habían clasificado
prob=df[df.profMental>1]
prob=prob.drop(['profMental'], axis=1).values

# predicción
new = kMeans.predict(data)
print('==============================')
print('| RESULTADO DE LA PREDICCIÓN |')
print('==============================')
# resultados
for i in range(prob.shape[0]):
    print(' - Datos sin clasificar        : '+str(prob[i,:]))
    print(' - Clasificación        : '+str(new[i]))
    print('')

| CALIDAD DEL MODELO |
 - Precisión               : 86.41184710826496%

| RESULTADO DE LA PREDICCIÓN |
 - Datos sin clasificar        : [ 2.   68.    6.    2.    2.    1.    5.    1.    0.    2.    0.86  2.
  9.    1.    3.    1.    2.    2.    1.    2.    1.    0.    0.    1.
  1.    0.    0.    0.    0.    0.    2.    2.    1.    5.    1.    2.
  2.    2.    2.    2.    2.    2.    2.    2.    2.    2.    2.    2.
  2.    2.    2.    2.    2.    2.    2.    2.    4.    1.    8.    2.
  2.    2.    3.    9.    9.    9.    9.    1.  ]
 - Clasificación        : 0

 - Datos sin clasificar        : [ 1.   47.    3.    2.    2.    3.    1.    0.    0.    0.    3.26  1.
  1.    2.    3.    2.    2.    2.    2.    2.    2.    0.    0.    0.
  1.    1.    1.    0.    0.    0.    2.    2.    1.    3.    2.    2.
  2.    2.    1.    2.    2.    2.    2.    2.    2.    2.    2.    2.
  2.    2.    1.    2.    2.    2.    1.    1.    1.    3.    1.    2.
  1.    1.    2.    9.   13.    9.    9.  