# Analiza las estadísticas de la NFL con Python

En 2021, la NFL generó 17.200 millones de dólares en ingresos, el deporte más valioso de Estados Unidos. Es un gran negocio con grandes recompensas, por lo que no debería sorprender que los datos sean una parte esencial del mismo.

Los entrenadores, gerentes y fanáticos aprovechan los datos para elegir a los mejores jugadores, optimizar el entrenamiento, planificar jugadas y mucho más. Pero, ¿y si pudieras predecir quién ganará un juego usando solo datos y aprendizaje automático? ¿Qué tan bueno crees que sería? ¿Apostarías por ello?

En este estudio de caso de la NFL, presentaremos cómo podemos construir un modelo de aprendizaje automático para predecir el resultado de los juegos de la NFL. Para llegar allí, haremos lo siguiente:

* Visualiza las estadísticas clave del juego
* Cree un modelo de aprendizaje automático y evalúe su rendimiento
* Ajuste los hiperparámetros del modelo
* Identificar las características más importantes.

### Estadísticas y datos de la NFL
La NFL existe desde hace más de 100 años y ha rastreado constantemente sus datos. Sitios como Pro Football Reference tienen décadas de estadísticas sobre equipos, jugadores, temporadas y más de la NFL.

A nivel de equipo, un dato al que se suele hacer referencia en el fútbol es la producción ofensiva y defensiva del equipo . Esto incluiría estadísticas como:

* Yardas de pase ofensivo
* Yardas ofensivas por tierra
* Patios defensivos permitidos
* Porcentaje de finalización
* Intentos de pase
* Pérdidas de balón

Estas estadísticas se correlacionan con los resultados del mundo real y ayudan a los equipos a jugar mejor. Un equipo puede querer responder preguntas como:

* ¿Cuántas pérdidas de balón puedes permitir en un juego para asegurar una victoria?
* ¿Qué esquemas de cobertura defensiva reducen las yardas ganadas por tu oponente?
* ¿El punto fuerte de su ofensiva está en el aire ( pasar ) o en el suelo ( correr )?

Las respuestas a estas preguntas ayudan a los equipos a decidir cómo priorizar los valiosos minutos en el campo y estructurar tanto su ataque como su defensa.

### Predecir victorias
Si bien no podemos predecir fácilmente el MVP de la temporada o quién gana el Super Bowl, podemos usar las tendencias en las estadísticas a nivel de equipo para predecir si un equipo ganará un juego. Usaremos una técnica de aprendizaje automático llamada regresión logística porque es buena para predecir resultados binarios (ganar/perder, sí/no, etc.) y porque tenemos muchos datos de entrenamiento etiquetados (estadísticas de juegos anteriores).

Digamos que estamos viendo las estadísticas de los Seattle Seahawks para todos los juegos desde 1985 hasta 2021, y creemos que las yardas por tierra son la estadística más importante para ganar un juego. Comencemos trazando las yardas terrestres ganando y perdiendo juegos para ver si hay un patrón.

<img src="https://static-assets.codecademy.com/Courses/case-study-nfl/rush-box.svg" style="height:400px;">

El gráfico muestra que las yardas por tierra fueron típicamente mayores para los Seahawks en juegos ganadores que en juegos perdedores. Podríamos hacer un modelo de regresión logística simple que prediga la probabilidad de ganar con base en las yardas terrestres ofensivas. Pero, ¿cómo funcionaría ese modelo?

* **Rushing Yards Model Accuracy: 60.5%**

Con solo correr yardas, la precisión del modelo es del 60,5 % (no mucho mejor que el azar). Puede estar pensando que los juegos son complejos y que construir un modelo con solo una estadística probablemente resulte en una baja precisión. Tiene razón, y para construir un modelo mejor, necesitaríamos agregar más estadísticas.

Pero incluso con todas las estadísticas que tenemos, es posible que nuestro modelo no funcione muy bien. Imagina que construimos un modelo con más estadísticas que predice con precisión un juego el 75 % de las veces. ¡Ahora imagine que pudiéramos ajustar nuestro modelo al 80% o incluso al 90% de precisión sin agregar más estadísticas! Para realizar estas mejoras, debemos ajustar la forma en que el modelo entiende los datos, un proceso llamado ajuste.

* **Hyperparameter = 0.1 | Model Accuracy: 75.3%**
* **Hyperparameter = 0.2 | Model Accuracy: 71.2%**
* **Hyperparameter = 0.3 | Model Accuracy: 83.7%**
* **Hyperparameter = 0.4 | Model Accuracy: 88.3%**
* **Hyperparameter = 0.5 | Model Accuracy: 61.6%**

### Identificar estadísticas importantes
El simple hecho de tener un modelo no ayuda a los entrenadores a priorizar el entrenamiento y el juego. Necesitamos saber qué estadísticas son las más importantes. Podemos descubrir eso con la importancia de las características. La importancia de las características nos dice qué variables son más importantes para nuestro modelo. La siguiente gráfica muestra puntajes de importancia de características para un modelo con cuatro estadísticas de juego para los Seahawks de 1985 a 2021.

<img src="https://static-assets.codecademy.com/Courses/case-study-nfl/fi-horizontal.svg" style="height:400px;">

Podemos ver que las yardas terrestres ofensivas tienen la característica de mayor importancia (el número absoluto más alto). ¡Curiosamente, los 5 mejores corredores en la historia de los Seattle Seahawks se superponen casi perfectamente con este marco de tiempo!

### Inicio
Este caso práctico te lleva a través de un análisis de los partidos de la NFL de 32 equipos en la temporada 2021.

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

<details>
    <summary style="display:list-item;"><b>Toggle for an overview of the variables in our dataset.</b></summary>

* `symbol`: team name abbreviation
* `team_name`: team name
* `result`: whether this team won (`W`), lost (`L`), or tied (`T`) for this game
* `1stD_offense`: First down conversions by the team's offense
* `TotYd_offense`: Total yards gained by the team's offense
* `PassY_offense`: Total passing yards gained by the team's offense
* `RushY_offense`: Total rushing yards gained by the team's offense
* `TO_offense`: Turnovers committed by the team's offense
* `1stD_defense`: First down conversions allowed by the team's defense
* `TotYd_defense`: Total yards allowed by the team's defense
* `PassY_defense`: Total passing yards allowed by the team's defense
* `RushY_defense`: Total rushing yards allowed by the team's defense
* `TO_defense`: Turnovers in favor of the defensive team

</details>

In [2]:
df = pd.read_csv('season_2021.csv')
df.head()

Unnamed: 0,gameId,playId,snapDetail,snapTime,operationTime,hangTime,kickType,kickDirectionIntended,kickDirectionActual,returnDirectionIntended,returnDirectionActual,missedTackler,assistTackler,tackler,kickoffReturnFormation,gunners,puntRushers,specialTeamsSafeties,vises,kickContactType
0,2018090600,37,,,,3.85,D,R,R,,,,,,8-0-2,,,PHI 23; PHI 27,,
1,2018090600,366,OK,0.84,2.12,4.46,N,C,C,C,R,PHI 57,,PHI 54,,PHI 18; PHI 29,,,ATL 83; ATL 27; ATL 34; ATL 21,CC
2,2018090600,658,,,,,,,,,,,,,,,,PHI 58,,
3,2018090600,677,,,,4.06,D,R,R,C,C,ATL 83,ATL 22,ATL 27,8-0-2,,,ATL 17; ATL 22,,
4,2018090600,872,OK,0.84,2.0,4.35,N,C,L,,,,,,,PHI 18; PHI 29,ATL 85,ATL 37,ATL 83; ATL 34; ATL 21,BF


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19979 entries, 0 to 19978
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   gameId                   19979 non-null  int64  
 1   playId                   19979 non-null  int64  
 2   snapDetail               5919 non-null   object 
 3   snapTime                 5918 non-null   float64
 4   operationTime            5918 non-null   float64
 5   hangTime                 13098 non-null  float64
 6   kickType                 13723 non-null  object 
 7   kickDirectionIntended    13701 non-null  object 
 8   kickDirectionActual      13701 non-null  object 
 9   returnDirectionIntended  4754 non-null   object 
 10  returnDirectionActual    4756 non-null   object 
 11  missedTackler            1348 non-null   object 
 12  assistTackler            1034 non-null   object 
 13  tackler                  4759 non-null   object 
 14  kickoffReturnFormation