#04 - Cálculo de distancias


*Data Analytics I - Estadística - Iker Pastor López*

**Install and import necessary libraries**

In [None]:
install.packages('philentropy')
library(philentropy)
install.packages('clusterSim')
library(clusterSim)
install.packages("tidyverse")
library(tidyverse)
install.packages("gower")
library(gower)
install.packages("StatMatch")
library(StatMatch)

**Reading data**
- Es importante mencionar antes de ejecutar el código, debes enviar el archivo *salary_data.csv* al entorno de ejecución (puedes descargarlo desde https://drive.google.com/file/d/1LewKJRi50qtpSf4PdDjZgIhRrlYAUTNv/view?usp=sharing). Los atributos relevantes son:
  - YearsExperience: la experiencia de la persona en años
  - Age: edad de la persona en años
  - Salary: salario total de la persona en un año

In [None]:
data = read.csv("./salary_data.csv")

**Describiendo los datos**


In [None]:
str(data)

**Preparando los datos**

En este ejemplo vamos a utilizar la función *distance*, en la que el primer parámetro es un dataframe o una matriz, y el segundo parámetro es el nombre de la distancia que queremos calcular.


**Distancias para atributos numéricos**
- Distancia euclídea: en R, para calcular esta distancia *euclídea* vamos a utilizar la función *distance*.


In [None]:
distance(data, method = "euclidean")

- Distancia de Manhattan: también, para usar la *distancia de Manhattan * en R, cambiamos el segundo parámetro de la función

In [None]:
distance(data, method = "manhattan")

En estos ejemplos anteriores, hemos calculado la distancia entre personas, utilizando su experiencia, edad y su salario anual. Sin embargo, estas distancias no se aplican correctamente debido a que los atributos se encuentran en diferentes escalas. Concretamente, el salario tiene más influencia en las distancias que los otros dos parámetros. Para solucionar este problema, vamos a realizar una normalización para cada columna usando la función *data.Normalization*. Con el parámetro *type* podemos seleccionar el método de normalización. En nuestro caso, vamos a transformar todos los valores entre 0 y 1.

In [None]:
dataNormalized <- data.Normalization(data, type="n4", normalization = "column")

Posteriormente, volvemos a calcular la distancia euclídea

In [None]:
distance(dataNormalized, method = "euclidean")

y la de manhattan

In [None]:
distance(dataNormalized, method = "manhattan")

** Lectura de datos **
Es importante mencionar antes de ejecutar el siguiente código, debes enviar el archivo *ratings_beauty_reduced.csv* al entorno de ejecución (puedes descargarlo desde https://drive.google.com/file/d/1szwyBE7NDTB2CpuWUtX3Z54AInFF_LFi/view?usp=sharing). Los atributos relevantes son:
  - UserId: un identificador único para el usuario
  - ProductId: un identificador único para el producto
  - Rating: la puntuación que otorga el usuario al producto.
  - Timestamp: el instante de tiempo en la que el usuario ha puntuado el producto


In [None]:
data2 = read.csv("./ratings_beauty_reduced.csv", stringsAsFactors = T)

In [None]:
str(data2)

** Distancia de Gower **

La distancia de Gower es útil cuando queremos calcular la distancia entre dos o más elementos, que tienen diferentes tipos de atributos. En general, podemos afirmar que la distancia de Gower se calcula como el promedio de disimilitudes parciales entre elementos.

Para calcular la distancia de Gower en r, podemos usar la función "gower.dist" del paquete "StatMatch".


In [None]:
gowerMatrix<- gower.dist(data2)

En este ejemplo, hemos obtenido la matriz de distancias de Gower completa. Sin embargo, a veces solo queremos el elemento o elementos más similares a uno dado. En este caso, podemos usar la función "gower_topn" del paquete "gower", que nos devuelve los "n elementos" más similares.


In [None]:
givenData <- data2[1,]
gower_topn(x=givenData, y = data2, n=3)