# Uso de Vectores en el Análisis de Sentimientos 

El proyecto consiste en crear un algoritmo que nos indique que tan positivo, neutral o negativo son una serie de tweets. Tambien puede aplicarse a comentarios de un tema en particular.

Vamos a utilizar el concepto de **Producto Interno** de vectores y sus propiedades para definir insight relevantes como la _Calidad del resultado_ y el _Score Sentimental_ que seran de mucha utilidad para determinar el sentimiento de cada tweet.

En lo que sigue verémos un breve repaso de la teoría que implementarémos en el proyecto.

# Teoria de vectores a utilizar

## Cero Vector

Un *cero vector* es un vector en el cual todos los elementos son igual a cero. Algunas veces el cero vector de dimensión $n$ es escrito como $\mathbf{0}_{n}$ pero usualmente es denotado simplemente como $\mathbf{0}$.  
Por ejemplo $\mathbf{0} = (0,0)$

## Uno Vector

Los *uno vectores* son $n$-vectores en los cuales todas las entradas son igual a uno. Algunas veces son representados como $\mathbf{1}_{n}$ pero usualmente es denotado simplemente como $\mathbf{1}$.  
Un ejemplo sería el uno vector de dimensión 2: $\mathbf{1} = (1,1)$.  

## Vectores Unitarios

El *vector unitario* $\mathbf{e}_{i}$ es aquel en donde todas las entradas son cero salvo la $i$-ésima.  
Por ejemplo, si $\mathbf{e}_{1}$, $\mathbf{e}_{2}$ y $\mathbf{e}_{3}$ son 3-vectores unitarios estos se ven como:
$$
\mathbf{e}_{0} =  \begin{bmatrix}1\\ 0\\ 0 \end{bmatrix}, \qquad \mathbf{e}_{1} =  \begin{bmatrix}0\\ 1\\ 0 \end{bmatrix}, \qquad \mathbf{e}_{2} =  \begin{bmatrix}0\\ 0\\ 1 \end{bmatrix}
$$
Una forma de representar a los vectores unitarios es la siguiente:
$$
\left(e_{i}\right)_{j} =  \left \{ \begin{matrix} 1 & \text{si }i=j
\\ 0 & \text{si }i\neq j\end{matrix}\right. 
$$

## Producto Interno

El *Producto Interno* (Estandar) o simplemente *Producto Punto* de dos $n$-vectores $\vec{a}, \vec{b}$ se define como el escalar:

$$
<\vec{a}, \vec{b}> = \vec{a} \cdot \vec{b} = a_{0}b_{1}+a_{1}b_{1}+\cdots+a_{n-1}b_{n-1} = \displaystyle\sum_{i=0}^{n-1} a_{i}b_{i}
$$

que es la suma del producto de sus entradas.

Veamos como funciona en el siguiente ejemplo: si $\vec{a}=(1,2,3)$ y $\vec{b}=(4,5,6)$, entonces el producto punto será:

$$
\vec{a}\cdot\vec{b} = (1,2,3)\cdot(4,5,6) = 1\cdot 4+2\cdot 5+3\cdot 6 = 4+10+18 = 32
$$


## Transposición de Vectores

Los vectores tienen dos formas de representarse:

**Vector Columna**
$$
\vec{a} = \begin{bmatrix}a_{0}\\ a_{1}\\ \vdots \\ a_{n-1}\end{bmatrix} 
$$

**Vector Renglón**
$$
\vec{a} = [a_{0}\; a_{1}\; \cdots \; a_{n-1}]
$$

Por lo general, cuando se habla de un vector se refiere a un _vector columna_. La operacion de _Transposicion_ nos permite cambiar de vectores columnas a vectores renglón sin modificar al vector que se transponga. Retomemos el vector $\vec{a}$, denotaremos como $\vec{a}^{T}$ al vector transpuesto de $\vec{a}$:

$$
\vec{a}^{T} = \begin{bmatrix}a_{0}\\ a_{1}\\ \vdots \\ a_{n-1}\end{bmatrix}^{T} = [a_{0}\; a_{1}\; \cdots \; a_{n-1}]
$$


### Propiedades de la Transposición

- **Transposición de un vector transpuesto**: es posible transponer un vector transpuesto
$$
\left(\vec{a}^{T}\right)^{T} = \left(\begin{bmatrix}a_{0}\\ a_{1}\\ \vdots \\ a_{n-1}\end{bmatrix}^{T}\right)^{T} = [a_{0}\; a_{1}\; \cdots \; a_{n-1}]^{T} = \begin{bmatrix}a_{0}\\ a_{1}\\ \vdots \\ a_{n-1}\end{bmatrix} = \vec{a}
$$


- **Transposición y el Producto Interno**: Consideremos los vectores $\vec{a}$ y $\vec{b}$ ambos de la misma dimensión. Definimos la operación $\vec{a}^{T}\vec{b}$ como:

$$
\vec{a}^{T}\; \vec{b} = [a_{0}\; a_{1}\; \cdots \; a_{n-1}]  \begin{bmatrix}b_{0}\\ b_{1}\\ \vdots \\ b_{n-1}\end{bmatrix} = a_{0}b_{0} + a_{1}b_{1} + \cdots + a_{n-1}b_{n-1} = \displaystyle\sum_{i=0}^{n-1} a_{i}b_{i}
$$

Lo cual coincide con la definición del producto interno. Así pues $<\vec{a},\vec{b}> = \vec{a}\cdot \vec{b} = \vec{a}^{T} \;\vec{b} = \displaystyle\sum_{i=0}^{n-1} a_{i}b_{i}$

## Propiedades del Producto Interno

Sean $\vec{a},\vec{b}$ dos $n$-vectores y $\alpha$ un escalar. El producto interno entre $\vec{a}$ y $\vec{b}$ cumple las siguientes propiedades:

### **Conmutatividad:**

 $\vec{a}^{T}\vec{b} = \displaystyle\sum_{i=0}^{n-1} a_{i}b_{i} = \displaystyle\sum_{i=0}^{n-1} b_{i}a_{i} = \vec{b}^{T}\vec{a}$

### **Asociatividad con multiplicación escalar:**

$\left(\alpha \vec{a}\right)^{T}\vec{b} = \alpha\left(\vec{a}^{T}\vec{b}\right)$

### **Distribución en la adición de vectores:**

$\left(\vec{a} + \vec{b}\right)^{T}\vec{c} = \vec{a}^{T}\vec{c} + \vec{b}^{T}\vec{c}$

### **Proyección**

Si $\vec{a}$ es un $n$-vector entonces $\hat{e}_{i}^{T}\vec{a} = a_{i}$. 

_Ejemplo_: Tenemos el vector $$\mathbf{a} =  \begin{bmatrix}3\\ 2\\ 1 \end{bmatrix}$$ y los siguientes vectores unitarios:


$$
\mathbf{e}_{0} =  \begin{bmatrix}1\\ 0\\ 0 \end{bmatrix}, \qquad \mathbf{e}_{1} =  \begin{bmatrix}0\\ 1\\ 0 \end{bmatrix}, \qquad \mathbf{e}_{2} =  \begin{bmatrix}0\\ 0\\ 1 \end{bmatrix}
$$ 

Entonces, segun la propiedad, tenemos:
$$
\hat{e}_{0}^{T}\vec{a} = [1,0,0]\begin{bmatrix}3\\ 2\\ 1 \end{bmatrix} = 3
$$
$$
\hat{e}_{1}^{T}\vec{a} = [0,1,0]\begin{bmatrix}3\\ 2\\ 1 \end{bmatrix} = 2
$$
$$
\hat{e}_{2}^{T}\vec{a} = [0,0,1]\begin{bmatrix}3\\ 2\\ 1 \end{bmatrix} = 1
$$

### **Suma de elementos de un vector.**  

$\mathbf{1}^{T}a = a_{0}+a_{1}+\cdots+a_{n-1}$

Ejemplo: Tenemos el siguiente vector $$\mathbf{a} =  \begin{bmatrix}3\\ 2\\ 1 \end{bmatrix}$$ Para sumar sus elementos, realizamos el producto punto entre el vector $a$ y el uno vector traspuesto 
$$\mathbf{1} =  \begin{bmatrix}1\\ 1\\ 1 \end{bmatrix}$$

- $\mathbf{1}^{T}a = [1,1,1] \begin{bmatrix}3\\ 2\\ 1 \end{bmatrix} = 3 + 2 + 1 = 6$

### **Promedio de entradas de un vector.** 

$(\mathbf{1}/n)^{T}\vec{a} = (a_{0}+a_{1}+\cdots+a_{n-1})/n$

Ejemplo: Tenemos el siguiente vector $$\mathbf{a} =  \begin{bmatrix}3\\ 2\\ 1 \end{bmatrix}$$ Para calcular el promedio de las entradas del vector se procede como sigue:

- $(\mathbf{1}/n)^{T}\vec{a} = ([1,1,1])/3\begin{bmatrix}3\\ 2\\ 1 \end{bmatrix} = [1/3,1/3,1/3]\begin{bmatrix}3\\ 2\\ 1 \end{bmatrix} = 2$

### **Suma de cuadrados de un vector.** 

$\vec{a}^{T} \;\vec{a} = a_{0}^{2}+a_{1}^{2}+\cdots+a_{n-1}^{2}$

Ejemplo: Tenemos el siguiente vector $$\mathbf{a} =  \begin{bmatrix}3\\ 2\\ 1 \end{bmatrix}$$ Para calcular la suma de los cuadrados de un vector se procede como sigue

- $\vec{a}^{T} \;\vec{a} = [3,2,1]\begin{bmatrix}3\\ 2\\ 1 \end{bmatrix} = 3\cdot 3 + 2\cdot 2 + 1\cdot 1 = 9 + 4 + 1 = 14$

# Carga de Datos

Vamos a trabajar con un conjunto de tweet almacenados en un archivo .txt. Hay un tweet por cada linea del archivo. Vamos a cargalo 

In [10]:
# Cargamos el archivo e imprimos la cantidad de tweets
with open('tweet.txt', 'r') as file:
    lines = file.read().splitlines()
    print(len(lines))

7


In [11]:
# creamos un diccionario y le pasamos como clave, una lista con el numero que representa cada tweet
diccionary = dict.fromkeys([1,2,3,4,5,6,7])

# asignamos a cada numero, el tweet correspondiente
i = 0
for key in diccionary:
    diccionary[key] = lines[i]
    i += 1

diccionary

{1: 'Gran mexicano y excelente en su área, su muerte es una enorme perdida y debería ser luto nacional!!!',
 2: 'Vaya señora que bueno que se asesora por alguien inteligente no por el ignorante del Gatt.',
 3: 'Se me ocurre y sin ver todos los videos de Plazti que me informéis por dónde empiezo. Entiendo que os tendría que decir quién soy y que quiero, vamos conocerme para asesorarme bien.',
 4: 'Un saludo. Soy docente universitario, estoy intentando preparar mis clases en modo bien didáctico, (le llamo modo noticiero), descargue una plataforma gratuita de grabación y transmisión de vídeo, se llama Obs estudio!bueno la sigo remando con sus funciones pero sé que saldrá algo!',
 5: 'La situación economica cada vez mas empeora, debemos hacer algo!',
 6: 'La gripa esta afectando a toda mi familia.... Té de Jengibre urgente!!',
 7: 'Las pinturas de Botero reflejan el arte de lo grotesco'}

Ahora tenemos un Diccionario con los tweets que vamos a analizar

# Limpieza de tweets

Creamos una funcion que elimine caracteres no relevantes como signos de puntuacion, vocales acentuadas y devuelva una lista de palabras de la cadena

In [12]:
def deleteChar(string):
    
    # letras en minuscula
    string = string.lower()

    # lista de signos de puntuacion
    sign = [',', '.', ';', ':', '!', '?']

    # diccionario con vocales acentuadas
    acent = {
        'á': 'a',
        'é': 'e',
        'í': 'i',
        'ó': 'o',
        'ú': 'u',
        }
    
    # reemplazar signos de puntuacion
    for char in sign:
        string = string.replace(char,' ')

    # reemplazar vocales acentuadas
    for key in acent:
        if key in string:
            string = string.replace(key, acent[key])

    # lista de palabras de la cadena
    string = string.split(' ')

    # lista de palabras como elementos
    string = [x for x in string if x !='']

    return string

Aplicamos la funcion a todos los values del diccionario que contiene los tweets.

In [13]:
for i in range(1, len(diccionary)+1):
    diccionary[i] = deleteChar(diccionary[i])

diccionary

{1: ['gran',
  'mexicano',
  'y',
  'excelente',
  'en',
  'su',
  'area',
  'su',
  'muerte',
  'es',
  'una',
  'enorme',
  'perdida',
  'y',
  'deberia',
  'ser',
  'luto',
  'nacional'],
 2: ['vaya',
  'señora',
  'que',
  'bueno',
  'que',
  'se',
  'asesora',
  'por',
  'alguien',
  'inteligente',
  'no',
  'por',
  'el',
  'ignorante',
  'del',
  'gatt'],
 3: ['se',
  'me',
  'ocurre',
  'y',
  'sin',
  'ver',
  'todos',
  'los',
  'videos',
  'de',
  'plazti',
  'que',
  'me',
  'informeis',
  'por',
  'donde',
  'empiezo',
  'entiendo',
  'que',
  'os',
  'tendria',
  'que',
  'decir',
  'quien',
  'soy',
  'y',
  'que',
  'quiero',
  'vamos',
  'conocerme',
  'para',
  'asesorarme',
  'bien'],
 4: ['un',
  'saludo',
  'soy',
  'docente',
  'universitario',
  'estoy',
  'intentando',
  'preparar',
  'mis',
  'clases',
  'en',
  'modo',
  'bien',
  'didactico',
  '(le',
  'llamo',
  'modo',
  'noticiero)',
  'descargue',
  'una',
  'plataforma',
  'gratuita',
  'de',
  'grabaci

Ahora, cada tweet en diccionary se convierte en una lista con sus palabras preprocesadas.

# Analisis de Sentimiento de los Tweets

Lo siguiente es seleccionar un conjunto de palabras relacionadas al sentimiento que buscamos estimar. Vamos a crear tres listas con palabras consideradas positivas, negativas y neutras. La eleccion de las palabras es muy subjetiva y depende del objetivo de la investigacion.

In [16]:
math_pos = ["excelente", "gran", "quiero", 'bien', 'positivo', 'bueno', 'inteligente']
math_neu = ['aprender', 'estudio', 'didactico', 'hacer', 'algo', 'modo', 'saldra']
math_neg = ["muerte", "luto", 'ignorante', 'perdida', 'grotesco', 'gripa', 'afectando', 'empeora']

Una vez elegida las palabras para cada sentimiento, creamos una nueva lista con todas ellas. Esto ayudara a estimar de todas las palabras que se buscan, cuales coinciden con los diferentes sentimientos

In [17]:
math = math_pos + math_neu + math_neg
math

['excelente',
 'gran',
 'quiero',
 'bien',
 'positivo',
 'bueno',
 'inteligente',
 'aprender',
 'estudio',
 'didactico',
 'hacer',
 'algo',
 'modo',
 'saldra',
 'muerte',
 'luto',
 'ignorante',
 'perdida',
 'grotesco',
 'gripa',
 'afectando',
 'empeora']

Para explicar como funciona tal analisis, supongamos que el tweet que vamos analizar es el siguiente: 

_Gran mexicano y excelente en su área, su muerte es una enorme perdida y debería ser luto nacional!!!_. 

Vamos a buscar cadenas especificas en los tweets por lo que contamos la cantidad de veces que aparece cierta cadena. Supongamos que las palabras objetivos son _muerte, perdida, luto, excelente, gran y positivo_. Construimos un vector $\vec{w}$ con el conteo de las palabras objetivos que aparecen en el tweet

$$
\vec{w} = \begin{bmatrix}1\\ 1 \\ 1\\ 1\\ 1 \\0 \end{bmatrix}
$$