In [27]:
import pandas as pd

### Importar y explorar cada df

In [28]:
attendance_df = pd.read_csv("csv_files/originals_from_kaggle/attendance.csv")

# Datos basicos sobre el df
attendance_df.head()
print("\n")
attendance_df.info()
print("\n")
attendance_df.describe()
print("\n")
attendance_df.dtypes

# Para ver si tiene filas con valores nulos
print(attendance_df.shape)
print(attendance_df.dropna().shape)

# Hay valores nulos, entonces vamos a determinar donde estan
print(attendance_df.isnull().sum())

# Los valores nulos estan todos en la columna weekly_attendance.
# Esto tiene sentido, porque corresponde a 1/17 de las filas, es decir, 1/17 semanas de las temporadas.
# Cada equipo tiene una semana por temporada para tomarse de descanso, entonces para cada equipo, van a faltar los datos de asistencia de una semana.

# El equipo "Chargers" se relocalizo de San Diego a Los Angeles en 2017, entonces su ciudad y estadio cambio entre las temporadas de 2016 y 2017.
print(
    attendance_df[
        (attendance_df["team_name"] == "Chargers")
        & ((attendance_df["year"] == 2016) | (attendance_df["year"] == 2017))
    ]
)

# Ademas, podemos ver que su estadio en los Angeles tenia una capacidad mucho menor que el promedio de la NFL,
# los partidos de local a partir de 2017 tuvieron una asistencia mucho menor que los partidos de visitante en las mismas temporadas



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10846 entries, 0 to 10845
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   team               10846 non-null  object 
 1   team_name          10846 non-null  object 
 2   year               10846 non-null  int64  
 3   total              10846 non-null  int64  
 4   home               10846 non-null  int64  
 5   away               10846 non-null  int64  
 6   week               10846 non-null  int64  
 7   weekly_attendance  10208 non-null  float64
dtypes: float64(1), int64(5), object(2)
memory usage: 678.0+ KB




(10846, 8)
(10208, 8)
team                   0
team_name              0
year                   0
total                  0
home                   0
away                   0
week                   0
weekly_attendance    638
dtype: int64
             team team_name  year   total    home    away  week  \
9112    San Diego  Chargers  2016  99807

In [29]:
games_df = pd.read_csv("csv_files/originals_from_kaggle/games.csv")

# Datos basicos sobre el df
games_df.head()
print("\n")
games_df.info()
print("\n")
games_df.describe()
print("\n")
games_df.dtypes

# Para ver si tiene filas con valores nulos
print(games_df.shape)
print(games_df.dropna().shape)

# Hay valores nulos, entonces vamos a determinar donde estan
print(games_df.isnull().sum())

# Estan todos en la columna que determina si el partido fue un empate, lo que significa que hubo pocos empates.
# Esto no nos preocupa, en el futuro vamos a eliminar esta columna (igualmente, se puede determinar si el partido fue un empate analizando las columnas pts_win y pts_loss)



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5324 entries, 0 to 5323
Data columns (total 19 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   year            5324 non-null   int64 
 1   week            5324 non-null   object
 2   home_team       5324 non-null   object
 3   away_team       5324 non-null   object
 4   winner          5324 non-null   object
 5   tie             10 non-null     object
 6   day             5324 non-null   object
 7   date            5324 non-null   object
 8   time            5324 non-null   object
 9   pts_win         5324 non-null   int64 
 10  pts_loss        5324 non-null   int64 
 11  yds_win         5324 non-null   int64 
 12  turnovers_win   5324 non-null   int64 
 13  yds_loss        5324 non-null   int64 
 14  turnovers_loss  5324 non-null   int64 
 15  home_team_name  5324 non-null   object
 16  home_team_city  5324 non-null   object
 17  away_team_name  5324 non-null   object
 18  away_t

In [30]:
standings_df = pd.read_csv("csv_files/originals_from_kaggle/standings.csv")

# Datos basicos sobre el df
# standings_df.head()
# print("\n")
standings_df.info()
# print("\n")
# standings_df.describe()
# print("\n")
# standings_df.dtypes

# # Para ver si tiene filas con valores nulos
# print(standings_df.shape)
# print(standings_df.dropna().shape)
# No hay valores nulos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 638 entries, 0 to 637
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   team                  638 non-null    object 
 1   team_name             638 non-null    object 
 2   year                  638 non-null    int64  
 3   wins                  638 non-null    int64  
 4   loss                  638 non-null    int64  
 5   points_for            638 non-null    int64  
 6   points_against        638 non-null    int64  
 7   points_differential   638 non-null    int64  
 8   margin_of_victory     638 non-null    float64
 9   strength_of_schedule  638 non-null    float64
 10  simple_rating         638 non-null    float64
 11  offensive_ranking     638 non-null    float64
 12  defensive_ranking     638 non-null    float64
 13  playoffs              638 non-null    object 
 14  sb_winner             638 non-null    object 
dtypes: float64(5), int64(6)

### Eliminar las filas y columnas no necesarias en cada df

In [31]:
# Estas columnas totalizan la asistencia a traves de todas las semanas de la temporada
# total: El total general de asistencia en toda la temporada
# home: el total de asistencia en toda la temporada a los partidos en el estadio local
# away: el total de asistencia en toda la temporada en los partidos en otros estadios
# No nos interesan porque no discriminan por semana

attendance_df = attendance_df.drop(columns=["total", "home", "away"])

# Seleccionamos las filas correspondientes a 2017, 2018, y 2019
attendance_df = attendance_df[
    (attendance_df["year"] == 2017)
    | (attendance_df["year"] == 2018)
    | (attendance_df["year"] == 2019)
]
attendance_df.head()


# Estas variables no nos interesan o pueden ser calculadas usando otras variables (son redundantes)
games_df = games_df.drop(
    columns=[
        "tie",
        "yds_win",
        "turnovers_win",
        "yds_loss",
        "turnovers_loss",
        "home_team",
        "away_team",
    ]
)

# Seleccionamos las filas correspondientes a 2017, 2018, y 2019
games_df = games_df[
    (games_df["year"] == 2017) | (games_df["year"] == 2018) | (games_df["year"] == 2019)
]


# Estas variables no nos interesan o pueden ser calculadas usando otras variables (son redundantes)
standings_df = standings_df.drop(
    columns=[
        "points_for",
        "points_against",
        "points_differential",
        "offensive_ranking",
        "defensive_ranking",
    ]
)

# Seleccionamos las filas correspondientes a 2017, 2018, y 2019
standings_df = standings_df[
    (standings_df["year"] == 2016)
    | (standings_df["year"] == 2017)
    | (standings_df["year"] == 2018)
    | (standings_df["year"] == 2019)
]
standings_df.head()

Unnamed: 0,team,team_name,year,wins,loss,margin_of_victory,strength_of_schedule,simple_rating,playoffs,sb_winner
510,New England,Patriots,2016,14,2,11.9,-2.7,9.3,Playoffs,Won Superbowl
511,Miami,Dolphins,2016,10,6,-1.1,-1.3,-2.4,Playoffs,No Superbowl
512,Buffalo,Bills,2016,7,9,1.3,-1.6,-0.3,No Playoffs,No Superbowl
513,New York,Jets,2016,5,11,-8.4,-0.1,-8.5,No Playoffs,No Superbowl
514,Pittsburgh,Steelers,2016,11,5,4.5,0.2,4.7,Playoffs,No Superbowl


### Agregar capacidad y nombre de los estadios

In [32]:
stadium_names = {
    "Bears": "Soldier Field",
    "Packers": "Lambeau Field",
    "Chiefs": "Arrowhead",
    "Bills": "Highmark",
    "Saints": "Caesars Superdome",
    "Dolphins": "Hard Rock",
    "Jaguars": "EverBank",
    "Panthers": "Bank of America",
    "Redskins": "Northwest",
    "Ravens": "M&T Bank",
    "Buccaneers": "Raymond James",
    "Browns": "Huntington Bank",
    "Titans": "Nissan",
    "Bengals": "Paycor",
    "Broncos": "Empower Field at Mile High",
    "Steelers": "Acrisure",
    "Lions": "Ford Field",
    "Texans": "NRG",
    "Patriots": "Gillette",
    "Seahawks": "Lumen Field",
    "Eagles": "Lincoln Financial Field",
    "Cardinals": "State Farm",
    "Colts": "Lucas Oil",
    "Cowboys": "AT&T",
    "Jets": "MetLife",
    "Giants": "MetLife",
    "49ers": "Levi's",
    "Vikings": "US Bank",
    "Falcons": "Mercedes-Benz",
    "Raiders": "Oakland Coliseum",
    "Rams": "Los Angeles Memorial Coliseum",
    "Chargers": "Dignity Health Sports Park",
}
stadium_max_capacities = {
    "Bears": 66944,
    "Packers": 81441,
    "Chiefs": 76416,
    "Bills": 80290,
    "Saints": 76468,
    "Dolphins": 70000,
    "Jaguars": 82000,
    "Panthers": 74867,
    "Redskins": 67617,
    "Ravens": 70745,
    "Buccaneers": 74512,
    "Browns": 54147,
    "Titans": 69143,
    "Bengals": 67260,
    "Broncos": 76125,
    "Steelers": 68400,
    "Lions": 70000,
    "Texans": 75000,
    "Patriots": 71000,
    "Seahawks": 72000,
    "Eagles": 75000,
    "Cardinals": 72200,
    "Colts": 70000,
    "Cowboys": 85000,
    "Jets": 83367,
    "Giants": 83367,
    "49ers": 75000,
    "Vikings": 73000,
    "Falcons": 79330,
    "Raiders": 63132,
    "Rams": 93607,
    "Chargers": 27000,
}
stadium_regular_capacities = {
    "Bears": 62500,
    "Packers": 79704,
    "Chiefs": 76416,
    "Bills": 74000,
    "Saints": 73208,
    "Dolphins": 64767,
    "Jaguars": 67814,
    "Panthers": 74867,
    "Redskins": 67617,
    "Ravens": 70745,
    "Buccaneers": 69218,
    "Browns": 50805,
    "Titans": 69143,
    "Bengals": 65515,
    "Broncos": 76125,
    "Steelers": 68400,
    "Lions": 65000,
    "Texans": 72220,
    "Patriots": 65878,
    "Seahawks": 68740,
    "Eagles": 69879,
    "Cardinals": 63400,
    "Colts": 63000,
    "Cowboys": 80000,
    "Jets": 82500,
    "Giants": 82500,
    "49ers": 68500,
    "Vikings": 66655,
    "Falcons": 71000,
    "Raiders": 53200,
    "Rams": 77500,
    "Chargers": 27000,
}

### Unir los dfs, limpiar y organizar el df restante, y generar nuevas variables

In [33]:
# Renombrar algunas columnas en los df por claridad
attendance_df = attendance_df.rename(
    {"team": "team_city", "weekly_attendance": "game_attendance"}, axis="columns"
)
standings_df = standings_df.rename(
    {"team": "team_city", "playoffs": "made_playoffs"}, axis="columns"
)

# Eliminar los partidos de post-temporada de games_df (lo hacemos porque estos partidos no tienen datos de asistencia en attendance_df)
# print(games_df["week"].unique())
games_df = games_df[
    (games_df["week"] != "WildCard")
    & (games_df["week"] != "Division")
    & (games_df["week"] != "ConfChamp")
    & (games_df["week"] != "SuperBowl")
]
games_df = games_df.astype({"week": "int64"})


### ASISTENCIA A CADA PARTIDO

# Hacer left merge para agregar los datos de asistencia al estadio
games_df = pd.merge(
    games_df,
    attendance_df,
    how="left",
    left_on=["week", "home_team_name", "year"],
    right_on=["week", "team_name", "year"],
)

# Eliminar las columnas duplicadas
games_df.drop(columns=["team_city", "team_name"])


### PERFORMANCE DE LA TEMPORADA ANTERIOR

# Obtener la performance del equipo local el anio anteior, haciendo un merge con la tabla standings
games_df = pd.merge(
    games_df,
    standings_df[["team_name", "year", "simple_rating"]],
    left_on=[
        "home_team_name",
        games_df["year"] - 1,
    ],  # Mergear con el anio anterior del equipo local
    right_on=["team_name", "year"],
    how="left",
)

# Eliminar las columnas duplicadas
games_df.drop(
    columns=["team_name_x", "team_name_y", "year", "year_y", "team_city"], inplace=True
)

# Renombrar algunas columnas en los df por claridad
games_df.rename(
    columns={"simple_rating": "home_team_previous_year_performance", "year_x": "year"},
    inplace=True,
)

# Obtener la performance del equipo visitante el anio anteior, haciendo un merge con la tabla standings
games_df = pd.merge(
    games_df,
    standings_df[["team_name", "year", "simple_rating"]],
    left_on=[
        "away_team_name",
        games_df["year"] - 1,
    ],  # Mergear con el anio anterior del equipo visitante
    right_on=["team_name", "year"],
    how="left",
)

# Eliminar las columnas duplicadas
games_df.drop(columns=["team_name", "year", "year_y", "team_name"], inplace=True)

# Renombrar algunas columnas en los df por claridad
games_df.rename(
    columns={"simple_rating": "away_team_previous_year_performance", "year_x": "year"},
    inplace=True,
)


### PERFORMANCE DE LA TEMPORADA CORRIENTE

# Obtener la performance del equipo local el anio corriente, haciendo un merge con la tabla standings
games_df = pd.merge(
    games_df,
    standings_df[["team_name", "year", "simple_rating"]],
    left_on=[
        "home_team_name",
        games_df["year"],
    ],  # Mergear con el anio corriente del equipo local
    right_on=["team_name", "year"],
    how="left",
)

# Eliminar las columnas duplicadas
games_df.drop(columns=["team_name", "year_x", "year_y"], inplace=True)

# Renombrar algunas columnas en los df por claridad
games_df.rename(
    columns={"simple_rating": "home_team_current_year_performance"}, inplace=True
)

# Obtener la performance del equipo visitante el anio corriente, haciendo un merge con la tabla standings
games_df = pd.merge(
    games_df,
    standings_df[["team_name", "year", "simple_rating"]],
    left_on=[
        "away_team_name",
        games_df["year"],
    ],  # Mergear con el anio corriente del equipo visitante
    right_on=["team_name", "year"],
    how="left",
)

# Eliminar las columnas duplicadas
games_df.drop(columns=["team_name", "year_x", "year_y"], inplace=True)

# Renombrar algunas columnas en los df por claridad
games_df.rename(
    columns={"simple_rating": "away_team_current_year_performance", "year_x": "year"},
    inplace=True,
)


### STRENGTH OF SCHEDULE DE LA TEMPORADA CORRIENTE
# Mide la dificultad de los partidos asignados en la temporada corriente (acorde a la performance de los equipos contrarios)
# Creemos que podria afectar a la asistencia, porque, al ser mejores los equipos contrincantes en una temporada, mas gente podria comprar el pase de temporada

# Obtener la strength of schedule del equipo local el anio corriente, haciendo un merge con la tabla standings
games_df = pd.merge(
    games_df,
    standings_df[["team_name", "year", "strength_of_schedule"]],
    left_on=[
        "home_team_name",
        games_df["year"],
    ],  # Mergear con el anio corriente del equipo local
    right_on=["team_name", "year"],
    how="left",
)

# Eliminar las columnas duplicadas
games_df.drop(columns=["team_name", "year_x", "year_y"], inplace=True)

# Renombrar algunas columnas en los df por claridad
games_df.rename(columns={"strength_of_schedule": "home_team_current_sos"}, inplace=True)

# Obtener la performance del equipo visitante el anio corriente, haciendo un merge con la tabla standings
games_df = pd.merge(
    games_df,
    standings_df[["team_name", "year", "strength_of_schedule"]],
    left_on=[
        "away_team_name",
        games_df["year"],
    ],  # Mergear con el anio corriente del equipo visitante
    right_on=["team_name", "year"],
    how="left",
)

# Eliminar las columnas duplicadas
games_df.drop(columns=["team_name", "year_x", "year_y"], inplace=True)

# Renombrar algunas columnas en los df por claridad
games_df.rename(
    columns={"strength_of_schedule": "away_team_current_sos", "year_x": "year"},
    inplace=True,
)


### NOMBRE Y CAPACIDAD DE CADA ESTADIO

games_df["stadium_name"] = games_df["home_team_name"].map(stadium_names)
games_df["stadium_max_capacity"] = games_df["home_team_name"].map(
    stadium_max_capacities
)
games_df["stadium_regular_capacity"] = games_df["home_team_name"].map(
    stadium_regular_capacities
)

print(games_df)

games_df.to_csv("new_games_df.csv")

     year  week               winner  day          date    time  pts_win  \
0    2017     1   Kansas City Chiefs  Thu   September 7  8:30PM       42   
1    2017     1      Oakland Raiders  Sun  September 10  1:00PM       26   
2    2017     1      Atlanta Falcons  Sun  September 10  1:00PM       23   
3    2017     1        Buffalo Bills  Sun  September 10  1:00PM       21   
4    2017     1  Pittsburgh Steelers  Sun  September 10  1:00PM       21   
..    ...   ...                  ...  ...           ...     ...      ...   
763  2019    17  Philadelphia Eagles  Sun   December 29  4:25PM       34   
764  2019    17       Dallas Cowboys  Sun   December 29  4:25PM       47   
765  2019    17     Baltimore Ravens  Sun   December 29  4:25PM       28   
766  2019    17     Los Angeles Rams  Sun   December 29  4:25PM       31   
767  2019    17  San Francisco 49ers  Sun   December 29  8:20PM       26   

     pts_loss home_team_name home_team_city  ... game_attendance  \
0          27      