# Ejercicios Vectores


## Ejercicio 1: MyPersonality

El dataset MyPersonality generó mucha [controversia](https://www.businessinsider.com/facebook-investigates-mypersonality-app-in-new-data-scare-2018-5), ya que incluye información sensible de millones de personas y no siempre fue recolectada con consentimiento. Consiste en información del perfil y de actualizaciones de la red social Facebook, apareada con puntajes de rasgos de personalidad calculadas vía un cuestionario en la app. 

La prueba Big5 (Costa y Mac Crae 1985, Goldberg et al. 2006) es una taxonomía o clasificación de rasgos de personalidad que analiza la composición de cinco dimensiones de personalidad en su sentido más amplio. Esta disertación se publicó en el Psychological Review, 41, 1-32. Los cinco factores son:

- Apertura a la experiencia (openness to experience): inventivo/curioso vs. consistente/cauteloso 
- Escrupulosidad (conscientiousness): eficiente/organizado vs. extravagante/descuidado 
- Extraversión: sociable/enérgico vs. solitario/reservado  
- Amabilidad (agreeableness): amigable/compasivo vs. desafiante/insensible 
- Neuroticismo: susceptible/nervioso vs. resistente/seguro

La siguiente celda carga el dataset y lo desordena.

In [1]:
import pandas as pd

import plotly.express as px
from scipy.stats import pearsonr
import seaborn as sns
import numpy as np

In [2]:
df = pd.read_csv('https://unket.s3-sa-east-1.amazonaws.com/data/mypersonality.csv') #ok_cupid_data.csv
df = df.sample(frac=1).reset_index(drop=True)
df.head()

Unnamed: 0,#AUTHID,STATUS,sEXT,sNEU,sAGR,sCON,sOPN,cEXT,cNEU,cAGR,cCON,cOPN,DATE,NETWORKSIZE,BETWEENNESS,NBETWEENNESS,DENSITY,BROKERAGE,NBROKERAGE,TRANSITIVITY
0,810c70fdd8c82cb4e0afc1e8cc62759a,*PROPNAME* just started working on his first M...,3.6,1.5,3.45,2.9,4.35,y,n,n,n,y,12/09/09 06:09 AM,644.0,203058.0,98.38,0.01,204908.0,0.5,0.05
1,e4a512374eee079d2b8acc2ce69990d5,Some movies plan piss me off. http:////www.exa...,5.0,2.75,4.5,3.0,4.25,y,n,y,n,y,01/14/10 04:47 AM,326.0,50112.9,95.18,0.02,51706.0,0.49,0.11
2,527ed53d2ba3a3bc417b8402d5b2f556,is at the park.,3.35,2.75,2.85,3.1,4.15,n,n,n,n,y,07/24/09 11:11 PM,789.0,303058.0,97.74,0.01,307565.0,0.5,0.07
3,f2026b8cb48aff9af31577ecbfda5c38,is hiding out.,2.75,2.5,4.0,3.0,4.75,n,n,y,n,y,10/14/09 08:49 PM,731.0,264627.0,99.45,0.01,265324.0,0.5,0.02
4,03133a828cd0cf52e3752813ce5d818f,Feels aweful right now. Why do you get sick li...,3.84,3.55,2.85,4.32,3.45,y,y,n,y,n,11/15/09 06:12 PM,584.0,164031.0,96.69,0.02,167499.0,0.49,0.12


Las columnas sOPN, sCON, sEXT, sAGR y sNEU contienen los valores de las 5 componentes de la personalidad de cada usuario. Almacene los datos de personalidad de los 5 primeros ejemplos del dataset en 5 vectores numpy.

In [3]:
v0 = np.array(df.loc[0,['sOPN', 'sCON', 'sEXT', 'sAGR', 'sNEU']])
v1 = np.array(df.loc[1,['sOPN', 'sCON', 'sEXT', 'sAGR', 'sNEU']])
v2 = np.array(df.loc[2,['sOPN', 'sCON', 'sEXT', 'sAGR', 'sNEU']])
v3 = np.array(df.loc[3,['sOPN', 'sCON', 'sEXT', 'sAGR', 'sNEU']])
v4 = np.array(df.loc[4,['sOPN', 'sCON', 'sEXT', 'sAGR', 'sNEU']])

Ahora encontrá un vector que describa a la personalidad promedio dentro de las 5 muestras que extrajimos del dataset.

In [7]:
promedio = v0 +v1 +v2 +v3 +v4
promedio = promedio/5
print(promedio)


[4.2299999999999995 3.224 3.758 3.65 2.3600000000000003]


Podemos establecer qué tan parecidas son la personalidades en función del ángulo entre los vectores. Mientras menor sea el ángulo más parecida será la dirección de los vectores y también la personalidad de las personas a las que representan.
Establecé cuales dos personas son más parecidas dentro de la muestra de 5 personas que extrajimos del dataset.

In [8]:
import numpy.linalg as LA
def vector_angle(u, v):
    cos_theta = u.dot(v) / LA.norm(u) / LA.norm(v)
    return np.arccos(np.clip(cos_theta, -1, 1))

In [9]:
import math
vectores = [v0,v1,v2,v3,v4]
min_angle = 180
similar_vectors = []
for v1 in vectores:
    for v2 in vectores:
        if not (v1 == v2).all():
            angle = vector_angle(v1, v2)
            if angle < min_angle:
                min_angle = angle
                similar_vectors.clear()
                similar_vectors.append(v1)
                similar_vectors.append(v2)
print("Los vectores más parecidos son:", similar_vectors[0], "y", similar_vectors[1],
      "con un ángulo de", round(math.degrees(min_angle),2), "grados")
                
        

Los vectores más parecidos son: [4.35 2.9 3.6 3.45 1.5] y [4.25 3.0 5.0 4.5 2.75] con un ángulo de 10.52 grados
