## **U3 :: Proyecto resumen:** Análisis de tendencias de la NBA

En este práctica, vamos a analizar datos de la **NBA** (Asociación Nacional de Baloncesto de los EEUU) y explorar posibles asociaciones. Estos datos se obtuvieron originalmente del [Análisis de la Historia Completa de la NBA](https://www.kaggle.com/datasets/fivethirtyeight/fivethirtyeight-nba-elo-dataset) y contiene los datos originales sin modificar de [*Basketball Reference*](https://www.kaggle.com/datasets/fivethirtyeight/fivethirtyeight-nba-elo-dataset).
Puedes leer más sobre los datos [aquí](https://github.com/fivethirtyeight/data/tree/master/nba-elo). <br><br>Para este proyecto, vamos a limitar el número de variables a solo **10 columnas** (más una columna construida, `point_diff`, la diferencia entre `pts` y `opp_pts`).
En este proyecto, vamos a crear varios gráficos y tablas, por lo que deberás usar `plt.clf()` entre los gráficos de tu código para que no se superpongan.



### **Procesado manual de los datos**

Abre el fichero CSV y quédate únicamente con estas columnas: `game_i`,`year_id`,	`fran_id`, `opp_fran`, 	`game_location`, `is_playoffs`, `pts`,`opp_pts`, `game_result`, `forecat`

### **Análisis de las relaciones entre variables cuantitativas y categóricas**

Carga los datos en un cuaderno jupyter.

In [7]:
import numpy as np
import pandas as pd
from scipy.stats import pearsonr, chi2_contingency
import matplotlib.pyplot as plt
import seaborn as sns

nba = pd.read_csv('U3__nbaallelo.csv')

Añade una nueva variable `point_diff`. Esta variable debe tener la diferencia entre `pts` y `opp_pts`

In [8]:
nba["point_diff"] = nba["pts"] - nba["opp_pts"]

Manejaremos dos conjuntos de datos más pequeños: partidos de 2010 (llamados `nba_2010`) y partidos de 2014 (llamados `nba_2014`).

In [9]:
nba_2010 = nba[nba['year_id'] == 2010]
nba_2012 = nba[nba['year_id'] == 2012]

Para empezar, centrémonos en los datos de 2010. Imprime las primeras filas de `nba_2010`para hacerte una idea de los datos.

In [14]:
print(nba_2010.head())

        gameorder       game_id lg_id  _iscopy  year_id   date_game  \
111032      55517  200910270CLE   NBA        1     2010  10/27/2009   
111033      55517  200910270CLE   NBA        0     2010  10/27/2009   
111034      55518  200910270DAL   NBA        1     2010  10/27/2009   
111035      55518  200910270DAL   NBA        0     2010  10/27/2009   
111036      55519  200910270LAL   NBA        1     2010  10/27/2009   

        seasongame  is_playoffs team_id    fran_id  ...  opp_id   opp_fran  \
111032           1            0     BOS    Celtics  ...     CLE  Cavaliers   
111033           1            0     CLE  Cavaliers  ...     BOS    Celtics   
111034           1            0     WAS    Wizards  ...     DAL  Mavericks   
111035           1            0     DAL  Mavericks  ...     WAS    Wizards   
111036           1            0     LAC   Clippers  ...     LAL     Lakers   

        opp_pts  opp_elo_i  opp_elo_n game_location  game_result  forecast  \
111032       89  1682.4541

Ahora lo mismo con `nba_2012`.

In [15]:
print(nba_2012.head())

        gameorder       game_id lg_id  _iscopy  year_id   date_game  \
116278      58140  201112250DAL   NBA        1     2012  12/25/2011   
116279      58140  201112250DAL   NBA        0     2012  12/25/2011   
116280      58141  201112250GSW   NBA        1     2012  12/25/2011   
116281      58141  201112250GSW   NBA        0     2012  12/25/2011   
116282      58142  201112250LAL   NBA        0     2012  12/25/2011   

        seasongame  is_playoffs team_id    fran_id  ...  opp_id   opp_fran  \
116278           1            0     MIA       Heat  ...     DAL  Mavericks   
116279           1            0     DAL  Mavericks  ...     MIA       Heat   
116280           1            0     LAC   Clippers  ...     GSW   Warriors   
116281           1            0     GSW   Warriors  ...     LAC   Clippers   
116282           1            0     LAL     Lakers  ...     CHI      Bulls   

        opp_pts  opp_elo_i  opp_elo_n game_location  game_result  forecast  \
116278       94  1678.1997

Empecemos suponiendo que queremos comparar 2 equipos, los **Knicks** con los **Nets** en cuanto a puntos anotados por partido. Utilizando la columna `pts` del DataFrame `nba_2010`, crea dos variables llamadas `knicks_pts_10` (fran_id = "Knicks") y `nets_pts_10`(fran_id = "Nets") que representen los puntos que cada equipo ha anotado en sus partidos.


In [None]:
nba_2010["knicks_pts_10"] = nba_2010["pts"]["fran_id = 'Knicks'"]
nba_2010["nets_pts_10"] = nba_2010["pts"]["fran_id = 'Nets'"] 

Calcula la diferencia entre el promedio de puntos de ambos equipos y guarda el resultado como `diff_means_2010`. Con base en este valor, ¿crees que `fran_id` y `pts` están relacionados? Justifica tu respuesta y añádela como comentario.

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

Existe una diferencia de 10 puntos por partido y equipo. Se puede afirmar que existe una relación entre ambas variables.

</details>

Sin embargo, en lugar de comparar medias, conviene observar la distribución completa de valores para comprender si una diferencia en las medias es significativa. Crea un conjunto de histogramas superpuestos que permitan comparar los puntos anotados por los Knicks y los Nets (añade el argumento `alpha` en el método `plt.hist`), que regula el nivel de opacidad, para poder solapar gráficas). <br><br>Utiliza las variables generadas en el paso anterior para crear el gráfico. **¿Dirías que las distribuciones son iguales?**

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

Las distribuciones no son iguales, confirmando la intuición de las medias calculadas.

</details>

Ahora, comparemos los partidos de 2010 con los de 2012. Repite los pasos anteriores usando `nba_2012`. Primero, calcula la diferencia de medias entre los puntos anotados por los dos equipos. Guarda e imprime el valor como `diff_means_2012`. ¿La diferencia de puntos aumentó o disminuyó en 2012? Luego, genera los histogramas superpuestos. **¿Qué aparece respecto de la diferencia de medias calculada?**

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

Las distribuciones son parejas, con medias más ajustadas que en el caso anterior. Se puee afirmar que los equipos tuvieron en 2012 un rendimiento similar.

</details>

En lo que resta de este proyecto, nos centraremos en los datos de 2010. Incluiremos ahora todos los equipos en el conjunto de datos e investigaremos la relación entre la franquicia y los puntos anotados por partido.

Utilizando `nba_2010`, genera diagramas de cajas paralelos con los puntos anotados (`pts`) en el eje y  el equipo (`fran_id`) en el eje x. ¿Hay alguna superposición entre los cuadros? **¿Sugiere este gráfico que `fran_id` y `pts` están relacionados? ¿Qué pares de equipos, si los hay, obtienen puntuaciones promedio por partido diferentes?**

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>


¿Hay alguna superposición entre los cuadros?    Sí, hay una superposición significativa entre la mayoría de los cuadros. Esto indica que muchos equipos tienen rangos de puntuación similares.
    
¿Sugiere este gráfico que fran_id y pts están relacionados?
Sí, el gráfico sugiere que fran_id y pts están relacionados. Aunque hay mucha superposición, las medianas y la dispersión de los puntos varían entre las franquicias, lo que indica que el equipo afecta la distribución de los puntos anotados.
    
¿Qué pares de equipos, si los hay, obtienen puntuaciones promedio por partido diferentes?
Los Celtics y los Nets parecen tener puntuaciones promedio ligeramente más bajas en comparación con el resto de los equipos. Sus cajas y medianas se encuentran un poco por debajo de la mayoría de los otros equipos, lo que sugiere que obtienen puntuaciones promedio por partido diferentes (inferiores) en la temporada 2010.


</details>

### **Análisis de relaciones entre variables categóricas**

Nos gustaría saber si los equipos tienden a ganar más partidos en casa que fuera.

La variable `game_result` indica si un equipo ganó un partido en particular ('W' significa "victoria" y 'L' significa "derrota"). La `variable game_location` indica si un equipo jugó en casa o fuera ('H' significa "local" y 'A' significa "visitante").

En Ciencia de Datos se suele calcular en estos casos una **tabla de contingencia de frecuencias** para determinar si las variables categóricas están asociadas. Calcula una tabla de frecuencias que muestre los recuentos de `game_result` y `game_location`.

Guarda su resultado como `location_result_freq` e imprime el resultado. En base a los datos de la tabla, **¿dirías que las variables están asociadas?**

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

Podemos observar que la cantidad de derrotas (L) es significativamente mayor cuando se juega como visitante (A), y la cantidad de victorias (W) es mayor cuando se juega en casa (H). Esto sugiere que sí, las variables están asociadas, ya que el resultado del juego parece depender de la ubicación del mismo.

</details>

Convierte esta tabla de frecuencias en una **tabla de proporciones** (recuerda: casos por categoría / casos totales) y guarda el resultado como `location_result_proportions`. Imprime el resultado.

Tomando la tabla de contingencia que creamos anteriormente (usa los conteos, NO las proporciones), calcularemos la tabla de contingencia esperada (si no hubiera asociación) y el estadístico *Chi-cuadrado* (es algo así como el "equivalente" de la correlación entre variables numéricas, pero aquí con variables categóricas). Ejecuta el siguiente código para imprimir los resultados.

**¿La tabla de contingencia real se parece a la esperada o es diferente?**

In [11]:
from scipy.stats import chi2_contingency
chi2, pval, dof, expected = chi2_contingency(location_result_freq)
expected

NameError: name 'location_result_freq' is not defined

Con base en este resultado, **¿crees que existe una asociación entre estas variables?** Apóyate en la IA para saber cómo interpretar valor de *Chi-Cuadrado* y justifica tu respuesta en la siguiente celda.

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

Sí, basándonos en el valor del estadístico Chi-cuadrado (aproximadamente 6.50), podemos inferir que existe una asociación significativa entre las variables "game_result" (resultado del partido) y "game_location" (ubicación del partido).

Para interpretar el valor de Chi-cuadrado:

* Hipótesis Nula (H0): No hay asociación entre las variables. Es decir, el resultado del partido es independiente de la ubicación.
* Hipótesis Alternativa (H1): Hay una asociación entre las variables. Es decir, el resultado del partido depende de la ubicación.

En una tabla de contingencia de 2x2 como la que tenemos (game_result con 'L'/'W' y game_location con 'A'/'H'), los grados de libertad (dof) son (filas-1) * (columnas-1) = (2-1) * (2-1) = 1. Para un nivel de significancia común (por ejemplo, alfa = 0.05) y 1 grado de libertad, el valor crítico de Chi-cuadrado es aproximadamente 3.84.

Dado que nuestro valor calculado de Chi-cuadrado (6.50) es mayor que el valor crítico (3.84), rechazamos la hipótesis nula. Esto significa que la diferencia observada entre los resultados de los partidos en casa y fuera no es probable que se deba al azar, y hay evidencia estadística para concluir que existe una asociación entre si un equipo juega en casa o fuera y el resultado del partido.


</details>

### **Análisis de relaciones entre variables cuantitativas**

Para cada partido, el datatset incluye la probabilidad de que cada equipo gane. Queremos saber si los equipos con mayor probabilidad de ganar también tienden a ganar por más puntos. En el dataset original, esta predicción se guarda como pronóstico (columna `forecast`).

La columna `point_diff` indica el margen de victoria/derrota de cada equipo (los valores positivos significan que el equipo ganó; los valores negativos, que perdió).

Utilizando `nba_2010`, calcula la covarianza (usa `np.cov`) entre el (`forecast`) y `point_diff` (el margen de victoria/derrota) en el conjunto de datos. Llámalo `point_diff_forecast_cov`. Guarda e imprime el resultado. Observando la matriz, **¿cuál es la covarianza entre estas dos variables y qué nos indica?** (NOTA: usa la IA o busca en internet para averiguar cuál de los 4 valores de la matriz se refiere a la covarianza).

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

La covarianza entre forecast y point_diff es **1.40469612**. Un valor positivo indica que a medida que la probabilidad de ganar (forecast) aumenta, el margen de victoria (point_diff) también tiende a aumentar.

</details>

Dado que la variable de pronóstico se reporta como una probabilidad (no binaria), podemos calcular la fuerza de la correlación.

Usando `nba_2010`, calcula la correlación entre el pronóstico y `point_diff`. Llámala `point_diff_forecast_corr`. Guarda e imprime el resultado. **¿Sugiere este valor una asociación entre las dos variables?**

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

Existe una correlación positiva moderada entre las variables.*texto en cursiva*

</details>

Genera un diagrama de dispersión del pronóstico (en el eje x) y la diferencia de puntos (en el eje y). **¿Tiene sentido el valor de correlación?**

<details>
    <summary style="display:list-item; font-size:16px; color:blue;"><i>Solución:</i></summary>

Efectivamente, existe una tendencia entre las 2 variables sugerida por el valor de correlación anterior.

</details>