In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.options.display.float_format = '{:.5f}'.format
pd.options.mode.chained_assignment = None

# 1. Dataset

Vamos a trabajar con el dataset de estadísticas de la NBA.

El dataset contiene las siguientes variables:

* **player**: nombre del jugador
* **position**: posicion que juega el jugador
* **age**: edad
* **team_id**: equipo
* **g**: cantidad de partidos jugados
* **mp_per_g**: minutos por partido
* **trb_per_g**: rebotes por partido
* **ast_per_g**: asistencias por partido
* **stl_per_g**:robos por partido
* **blk_per_g**:tapas/bloqueos por partido
* **pts_per_g**:puntos por partido

In [2]:
# Cargamos el dataset desde el link
#nba = pd.read_csv('/content/drive/MyDrive/Curso CPE Data Wrangling/Clases/datasets/estadisticas_nba.csv')
nba = pd.read_csv('./sample_data/estadisticas_nba.csv')
# Vemos 10 registros al azar
nba.sample(10)

Unnamed: 0,player,position,age,team_id,g,mp_per_g,trb_per_g,ast_per_g,stl_per_g,blk_per_g,pts_per_g
77,Reggie Bullock,SG,28,NYK,29,23.6,2.3,1.4,0.9,0.1,8.1
25,J.J. Barea,PG,35,DAL,29,15.5,1.8,3.9,0.2,0.1,7.7
422,Andre Roberson,SF,28,OKC,7,12.4,3.9,0.6,0.1,0.4,2.9
23,Lonzo Ball,PG,22,NOP,63,32.1,6.1,7.0,1.4,0.6,11.8
51,Marques Bolden,C,21,CLE,1,3.0,2.0,0.0,1.0,0.0,0.0
507,Derrick White,SG,25,SAS,68,24.7,3.3,3.5,0.6,0.9,11.3
11,Ryan Anderson,C,31,HOU,2,7.0,3.5,1.0,0.5,0.0,2.5
346,Matt Mooney,SG,22,CLE,4,4.8,0.8,0.3,0.5,0.3,0.5
106,Amir Coffey,SG,22,LAC,18,8.8,0.9,0.8,0.3,0.1,3.2
448,Pascal Siakam,PF,25,TOR,60,35.2,7.3,3.5,1.0,0.9,22.9


# 2. Objetivo: crear un análisis de similitud de jugadores

Queremos poder comparar que tan parecidos son dos jugadores en base a ciertas variables de interés: su edad, minutos por partido, puntos por partido y rebotes por partido

Para ello, vamos a utilizar la distancia euclidea para medir la similitud

## 2.1 Distancia euclidea

Para ello vamos a utilizar la distancia euclidea entre los puntos.

La fórmula para calcular la distancia euclidea entre dos puntos $(x_1, y_1)$ y $(x_2, y_2)$es:

$d=\sqrt{(x_1 - x_2)^2+(y_1 - y_2)^2}$

En términos gráficos:

<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/67/Distance_Formula.svg/1200px-Distance_Formula.svg.png" width="500"/>
<div>

---

El cálculo de la distancia euclidea como código lo hacemos de la siguiente manera:

```
distancia = np.sqrt(np.sum(np.square(punto1 - punto2)))
```








## 2.2 Escala de las variables

Evaluemos la escala de las variables y su distribución

Primero, observemos los estadísticos descriptivos de las variables

¿Qué observamos con estos datos?

Las variables son todas no negativas pero como se refieren a atributos distintos se encuentran medidas en unidades distintas.

# 3 Escalamiento

Como ya vimos, al tener distintas unidades de medida va a ser necesario realizar un escalamiento para poder medir la distancia.

Para poder decidir qué método nos conviene utilizar debemos ver la distribución de las variables

## 3.1 Distribución de las variables

In [None]:
# Distribución de la edad


In [None]:
# Distribucion de los minutos por partido


In [None]:
# Distribucion de los puntos por partido


In [None]:
# Distribucion de los rebotes por partido


¿Qué distribución tiene cada variable?

* **Edad**: Tiene una forma de campana aunque más tirada hacia la izquierda
* **Minutos por partido**: Esta centrada y con una leve forma de campana
* **Puntos por partido**: Tiene una forma de campana aunque más tirada hacia la izquierda
* **Rebotes por partido**: Tiene una forma de campana aunque más tirada hacia la izquierda

Es posible realizar una estandarización o normalización.

### ¿Es posible aplicar normalización en unas variables y estandarización en otras?

No, seguiríamos teniendo problemas con las distinas escalas que se obtienen luego de los distintos procesos.

## 3.2 Estandarización 

La fórmula para estandarizar una variable es:

$ x_e = \frac{x-\overline{X}}{\sigma_X}$

¿Qué datos necesitamos para normalizar una variable?

El promedio y el desvío. Vamos a utilizar las funciones `numpy.mean()` y `numpy.std()`


### 3.2.1 Definición de la función

En el trabajo anterior repetimos muchas veces las mismas operaciones para normalizar las variables. Para evitar repetir los pasos de la estandarización, armemos una función llamada `estandarizar_var(X)` la cual toma una variable X y la devuelve estandarizada

### 3.2.1 Estandarización de las variables


In [None]:
# Edad

# Minutos por partido

# Puntos por partido

# Rebotes por partido


Crear un dataframe con las variables estandarizadas y el nombre del jugador y su posición

Observemos los estadisticos descriptivos principales para nuestro nuevo dataset

Vemos que el promedio de las variables es igual a cero y su desvío es igual uno. Esto se debe al proceso de estandarización

# 4. Medicion de distancia

Ahora que contamos con las variables escaladas podemos realizar nuestra medición de distancia entre jugadores.

Pero también para evitar realizar muchos pasos de manera repetida vamos a realizar una función que nos permita calcular la distancia entre dos jugadores en base a las variables que queramos.

La función se va a llamar `medir_distancias(df, jugador_1, jugador_2, lista_variables)` y tomara como variables el dataset, el nombre del jugador 1 y del jugador 2 y con que variables queremos compararlos.

In [None]:
def medir_distancias(df, jugador_1, jugador_2, lista_variables):
  #...
  return distancia


## 4.1 Comparación de jugadores

Comparemos a LeBron James contra James Harden, Stephen Curry, Rudy Gobert, Rajon Rondo y Kyle Kuzma en base a los minutos, puntos y rebotes

En lugar de escribir 5 veces la funcion, podemos utilizar un loop sobre una lista e imprimir la distancia entre "LeBron James" y cada uno de los jugadores de la lista


In [None]:
# Definimos la lista de comparacion

# Definimos el loop


Ahora propongan una nueva comparacion con otras variables y si quieren para otros jugadores

## Opcionales

## Estandarizacion con normalización 

Ahora realicemos una funcion para normalizar las mismas 4 variables y medir las distancias con las variables normalizadas

La fórmula para normalizar una variable es:

$ x_e = \frac{x-min(X)}{max(X)-min(X)}$

¿Qué datos necesitamos para normalizar una variable?

El mínimo y máximo

### Definir una funcion para normalizar variables

In [None]:
def medir_distancias(df, jugador_1, jugador_2, lista_variables):
  #...
  return distancia

### Crear un dataframe con las variables normalizadas y el nombre del jugador y su posición

### Comparar a LeBron James contra James Harden, Stephen Curry, Rudy Gobert, Rajon Rondo y Kyle Kuzma en base a los minutos, puntos y rebotes