# Título

Predicción de Resultados de la NFL Utilizando Métodos de Aprendizaje Supervisado

# Introducción

Para estructurar un proyecto por primera vez es recomendable seguir alguna estructura particular, estandarizada.

La aplicación [Coockiecutter](https://drivendata.github.io/cookiecutter-data-science/) provee una estructura estándar que parece adecuada para esto.

Para algunos ejemplos de reportes técnicos de proyectos, revisa los proyectos finales del curso CS229: Machine Learning de Standford.

- [2021](http://cs229.stanford.edu/proj2021spr/).
- [2019](http://cs229.stanford.edu/proj2019aut/).
- [2014](http://cs229.stanford.edu/projects2014.html).

## Formulación del Problema

Se plantea crear un clasificador capaz de predecir las probabilidades de que un determinado equipo de fútbol americano de la liga profesional NFL gane un determinado partido antes de que ocurra, esto con mayor precisión que los métodos utilizados actualmente por apostadores tales como el modelo desarrollado por la plataforma FiveThirtyEight.

En un sentido técnico se puede expresar de la siguiente manera:

Sea $X=x_1, x_2,..., x_n$ un vector de datos correspondiente a un enfrentamiento entre dos equipos de la liga profesional de fútbol americano NFL (Local y Visitante), y $C_k$ tal que:
$$
C_0 = Derrota \space equipo \space local
$$
$$
C_1 = Victoria \space equipo \space local
$$

$C_k$ es la variable que de pretende predecir a partir de $X$, así mismo, a cada $C_k$ le corresponde una probabilidad $P(C_k = C_1)$ donde $C_1 = 1 - C_0$

Por lo tanto, el objetivo es el de minimizar las asignaciones de $C_k$ a la clase incorrecta por medio de un modelo que permita también determinar la probabilidad de que tal asignación se cumpla. Para eso, $X$ se partirá en dos regiones de decisión utilizando un modelo de clasificación, tal que los puntos $x$ en una determinada región $R_k$ son asignados a su clase correspondiente $C_k$. Se puede decir que un error ocurrirá cuando un valor de $X$ que pertenece a $C_k$ es asignado a la clase contraria, matemáticamente la probabilidad de un error es:

$$
P(E) = P(x\in R_1, C_2)+P(x\in R_2, C_1)
$$

Finalmente, el objetivo general matemáticamente se expresa:

$$
\arg \min_{x} P(E)
$$

El sistema debe devolver un porcentaje de probabilidad que tiene un equipo de ganar el juego que tiene más próximo, el problema es supervisado ya que se comparará el resultado del modelo para juegos anteriores y se medirá la precisión para realizar la clasificación, así mismo, se trata de un problema online ya que se pretende insertar datos nuevos a medida que la temporada 2022 avanza, con la esperanza de aumentar la precisión según aumente la información disponible.

En cuanto a la evaluación del modelo, se utilizarán las métricas "Accuracy", "F1 Score" y la curva ROC, esto debido a que no existe una ponderación de los errores Tipo I y Tipo II.

El objetivo mínimo es el de superar la precisión alcanzada por el algoritmo de FiveThirtyEight, que el año pasado registró un 62% de juegos clasificados correctamente (2021).

# Datos

Dado el objetivo, se puede deducir que es importante disponer de una fuente de información vasta y que contenga variables significativas para la correcta clasificación.

La base de datos que se utilizará proviene de un repositorio creado por entusiastas del análisis estadístico en el fútbol americano, y contiene información recopilada "Play By Play", es decir que cada linea de la matriz corresponde a una sola jugada en un determinado juego, esto implica que la base de datos contiene alrededor de 50,000 linead por cada temporada, así como 372 variables de decisión. Se puede acceder al repositorio a través de una librería de Python llamada "nfl-data-py".

Aquí describes los datos que usaste, sus fuentes, variables, etc. Deberá contener la siguiente información:

1. Justificación concisa de por qué el conjunto de datos elegido es relevanta para el problema elegido.
2. Describir las fuentes de los datos.
3. Describir qué procesamiento se hizo para dejarlos en estado usable.
4. Describir las variables que contienen los datos (e.g., codebook, en caso de que se usen abreviaturas para las variables).

# Métodos y Análisis

La figura @fig-ml muestra el proceso que estaremos siguiendo en esta fase. 

*IDI-III tratará principamente de estudiar el problema, limpiar y transformar los datos y seleccionar las variables*, pero también comenzaremos a escribir y familiarizarnos con las herramientas de publicación (en este caso, Quarto).

![Proceso típico de proyecto de DS. Tomado de @geron2019hands.](figs/ml_approach.png){#fig-ml}

1. Análisis exploratorio. Añadir tablas, gráficos exploratorios, etc. Esto no es propiamente un resultado, sino un análisis que se realiza para justificar otras decisiones.
2. Si se realizan transformaciones en una variable (e.g., se log-transformó, se exponenció, se escaló, se normalizó, etc) o cualquier ingeniería de características, extracción, etc., a partir de los datos exploratorios. Justificar la decisión.
3. Descripción de los métodos, como algoritmos, benchmarks, métricas de comparación (e.g., $RMSE$) etc. *No se colocan esos resultados aquí*, solo se menciona qu+e se utilizó.

Quarto soporta renderización de ecuaciones usando la sintaxis de \LaTeX. Ver este [artículo](https://quarto.org/docs/authoring/markdown-basics.html#equations) y [este](https://qmd4sci.njtierney.com/math.html) para ver cómo escribir matemáticas. 

# Resultados

En esta sección se colocan los resultados principales, como tablas de comparación, gráficos, etc. Por ejemplo, si se probó un algoritmo con respecto a otros tres, se coloca la ejecución en diversas métricas. 

Las figuras y tablas deben ir acompañadas de una etiqueta y una breve descripción. Se pueden referenciar usando `@{label}` en donde `label` en este caso específico es `fig-polar`. La referencia renderizada se verá así @fig-polar.

Las tablas pueden hacerse con Markdown

| Col1 | Col2 | Col3 |
|------|------|------|
| A    | B    | C    |
| E    | F    | G    |
| A    | G    | G    |

: Leyenda de tabla {#tbl-letters}

Ver la tabla @tbl-letters.

# Referencias

Para citar, usar `(@alcala2021statistical)` que se renderiza como (@alcala2021statistical). La entrada `@alcala2021statistical` debe estar tal cual en el archivo `referencias.bib`. Las referencias en formato de bibtex se pueden obtener desde Google Scholar.

Para imprimir las referencias hay que colocar

```
::: {#refs}
:::
```

::: {#refs}
:::