## Team dataframes

En este apartado creamos la base de datos de los agente libres, pero agregada por equipo. Las secciones mostradas tienen los siguientes propósitos:
- Visualización de las bases de datos creadas manualmente.
    - Acrónimos de los equipos.
    - Victorias anuales
- Creación de la base de datos de corte transversal con datos generales del equipo.

Importemos los modulos necesarios así como especificar la configuración deseada.

In [2]:
import pandas as pd
import numpy as np
import math
import os
import warnings
print('Modulos importados')

Modulos importados


In [79]:
# Configuraciones
warnings.filterwarnings('ignore')
# Reduzcamos el número de línea a leer
pd.options.display.max_rows = 5

:Lo que se hará ahora es crear listas donde guardaremos los datos de interes de las bases de datos a lo largo del periodo de interes.

In [4]:
# Años de análisis
period = 10
# Equipos
teams = []
# Originales:
df_team = [None]*period

### Acrónimos de los equipos

Se obtendrán los equipos que están solo en las bases de datos para reducir el número de equipos y tiempo de análisis a lo largo del trabajo.

In [5]:
for i in range(0,period):
    csv = '.csv'
    team = 'Data/Free_Agent_Team_Salary/team_salary_'
    
    df_team[i] = pd.read_csv(team + str(2011 + i) + csv)
    values = df_team[i].Team.unique().tolist()
    
    teams.append(values)

Ya se guardaron en cada entrada de lista *teams* cada una de las listas que contiene los nombres (sin repetir) de los equipos en las distintas bases de datos. Ahora se tiene que pasar a una lista plana que no contenga listas, sino solo el contenido de todas estas

In [6]:
# Veamos que la dimensión de la lista es igual al número de bases de datos
np.shape(teams)

(10,)

In [7]:
# Guardaremos el contenido de todas las listas en otra lista
# Esta lista solo contendrá valores númericos y no listas
all_teams = [name for team in teams for name in team]

Nótese que ahora incrementa el número de entradas en la lista como e ra de esperarse

In [8]:
np.shape(all_teams)

(256,)

Para contruir la base de datos de los acrónimos tenemos que auxiliarnos solo de los equipos que están en nuestras bases de datos ya que han existido muchos acrónimos y equipos a lo largo de la historia y no necesariamente todos los equipos actuales están en nuestras bases de datos. Por otro lado, nos serviría de guía para crear de manera eficiente la base de datos de los acrónimos.

In [9]:
unique_teams = np.unique(np.array(all_teams))
print(unique_teams)

['Arizona Diamondbacks' 'Atlanta Braves' 'Baltimore Orioles'
 'Boston Red Sox' 'Chicago Cubs' 'Chicago White Sox' 'Cincinnati Reds'
 'Colorado Rockies' 'Detroit Tigers' 'Houston Astros' 'Kansas City Royals'
 'Los Angeles Angels' 'Los Angeles Dodgers' 'Miami Marlins'
 'Milwaukee Brewers' 'Minnesota Twins' 'New York Mets' 'New York Yankees'
 'Oakland Athletics' 'Philadelphia Phillies' 'Pittsburgh Pirates'
 'San Diego Padres' 'San Francisco Giants' 'Seattle Mariners'
 'St. Louis Cardinals' 'Tampa Bay Rays' 'Texas Rangers'
 'Toronto Blue Jays' 'Washington Nationals']


In [11]:
# Cuya dimensión es
print(np.shape(unique_teams))

(29,)


Por otro lado, hay equipos que no han tenido el mismo acrónimo a lo largo de los años, por lo que repetiremos el proceso anterior para los acrónimos contenidos en las bases de datos que contiene a todos los jugadores. Esta se creo en el *script* llamado *Players.ipynb*.

In [13]:
# Auxiliares
csv = '.csv'
# Jugadores
hitters = []
pitchers = []
# Originales:
df_total_hitters = [None]*period
df_total_pitchers = [None]*period

El proceso que se muestra a continuación es totalmente análogo al que se hizo para obtener los acrónimos de los equipos en las bases de datos con prefijo "team_salary".

In [14]:
for i in range(0,period):
    total_hitters = 'Data/New_Data/batters_'
    total_pitchers = 'Data/New_Data/pitchers_'
    
    df_total_hitters[i] = pd.read_csv(total_hitters + str(2011 + i) + csv)
    df_total_pitchers[i] = pd.read_csv(total_pitchers + str(2011 + i) + csv)
    values_1 = df_total_hitters[i]['Equipo_'+str(2011 + i)].unique().tolist()
    values_2 = df_total_pitchers[i]['Equipo_'+str(2011 + i)].unique().tolist()
    
    hitters.append(values_1)
    pitchers.append(values_2)

In [15]:
# Ahora obtendremos el total de acrónimos relacionados a los jugadores
all_hitters = [name for hitter in hitters for name in hitter]
all_pitchers = [name for pitcher in pitchers for name in pitcher]
players = [all_hitters, all_pitchers]
all_players = [name for player in players for name in player]
unique_players = np.unique(np.array(all_players))

In [16]:
# Chequemos la dimensión y valores
print(np.shape(unique_players))
print(unique_players)

(29,)
['ARI' 'ATL' 'BAL' 'BOS' 'CHC' 'CHW' 'CIN' 'COL' 'DET' 'HOU' 'KC' 'LAA'
 'LAD' 'MIA' 'MIL' 'MIN' 'NYM' 'NYY' 'OAK' 'PHI' 'PIT' 'SD' 'SEA' 'SF'
 'STL' 'TB' 'TEX' 'TOR' 'WSH']


Se aprecia que tienen el mismo número de acrónimos que equipos en ambas listas obtenidas con valores únicos. Falta ver que sí correspondan los acrónimos a los equipos en las distintas bases de datos.

Debido a que no hay una base de datos con los acrónimos de los equipos, el nombre usual de los equipos y las victorias; se tendrá que construir manuealmente, lo cual se hará fuera de este *script*.

El resultado obtenido fue el siguiente:

In [17]:
acronym_path = 'Data/Teams/team_acronym.csv'
acronyms = pd.read_csv(acronym_path)

In [18]:
acronyms.head()

Unnamed: 0,Acronimo,Equipo
0,ARI,Arizona Diamondbacks
1,ATL,Atlanta Braves
2,BAL,Baltimore Orioles
3,BOS,Boston Red Sox
4,CHC,Chicago Cubs


### Victorias anuales de  los equipos

Con el mismo formato se crearán bases de datos que correspondan a los mismo años y que contengas las victorias de cada equipo en cada año.

Veamos el resultados final

In [19]:
victory_path = 'Data/Teams/team_victories_2011.csv'
victory_2011 = pd.read_csv(victory_path)

In [20]:
victory_2011.head()

Unnamed: 0,Acronimo,Equipo,Victorias,Juegos totales
0,ARI,Arizona Diamondbacks,94,162
1,ATL,Atlanta Braves,89,162
2,BAL,Baltimore Orioles,69,162
3,BOS,Boston Red Sox,90,162
4,CHC,Chicago Cubs,71,162


## Creación del dataframe

Debido a que se modelarán series de tiempo, se crearán bases de datos de corte transversal que contenga los salarios, la cantidad de agentes libres y las victorias de cada equipo.

In [41]:
# Auxiliares
csv = '.csv'
path_team_salaries = 'Data/Free_Agent_Team_Salary/team_salary_'
path_team_victories = 'Data/Teams/team_victories_'
# Originales:
df_team_victories = [None]*10
df_team_salaries = [None]*10
# Copias:
df_team_victories_copy = [None]*10
df_team_salaries_copy = [None]*10
# Producto final:
df_team = [None]*10

Veamos lo que contienen las bases de datos sobre los salarios de los equipos

In [65]:
pd.read_csv(path_team_salaries + str(2013) + csv). head()

Unnamed: 0,Rank,Team,Players,YRS,Value,AAV
0,,Los Angeles Angels,8,14,"$153,500,000","$10,964,286"
1,,Los Angeles Dodgers,7,12,"$150,850,000","$12,570,833"
2,,Boston Red Sox,10,16,"$130,700,000","$8,168,750"
3,,Detroit Tigers,4,9,"$107,775,000","$11,975,000"
4,,San Francisco Giants,6,13,"$80,750,000","$6,211,538"


De estos dataframes nos quedaremos con el nombre de los equipos, la cantidad de agentes libres y el valor total de los salarios de estos, es decir, las columnas *Team*, *Players* y *Value*. No nos quedaremos con el promedio de los salarios puesto que no nos interesa una medida de tendencia central ya que no nos da información sobre los valores extremos.

In [80]:
for i in range(0,10):      
    df_team_victories = [None]*10
    df_team_salaries = [None]*10
    
    df_team_victories_copy = [None]*10
    df_team_salaries_copy = [None]*10
    # Producto final:
    df_team = [None]*10
    
    df_team_victories[i] = pd.read_csv(path_team_victories + str(2011 + i) + csv)
    df_team_salaries[i] = pd.read_csv(path_team_salaries + str(2011 + i) + csv)
    
    df_team_victories_copy[i] = df_team_victories[i].copy()
    df_team_salaries_copy[i] = df_team_salaries[i].copy()
    
    df_team_salaries_copy[i]  = df_team_salaries_copy[i][['Team', 'Players', 'Value']]
    df_team_salaries_names  = ['Equipo', 'Cantidad_agentes_libres', 'Valor_contrato']
    df_team_salaries_copy[i].columns = df_team_salaries_names

    team_salaries_aux_1 = df_team_salaries_copy[i]['Valor_contrato'].str.replace("$","")
    team_salaries_aux_2 = team_salaries_aux_1.str.replace(",","")
    df_team_salaries_copy[i]['Valor_contrato'] = team_salaries_aux_2
    
    df_team_salaries_copy[i]['Valor_contrato'] = pd.to_numeric(df_team_salaries_copy[i]['Valor_contrato'])
        
    df_team[i] = pd.merge(df_team_salaries_copy[i], df_team_victories_copy[i], on = 'Equipo')
    
    # Exportemos los dataframes por separado
    df_team[i].to_csv('Data/New_Data/Teams/free_agents_team' + str(2011 + i) + '.csv', index = False)
    
    print('Año ' + str(2011 + i) + ':')
    print(df_team[i])

Año 2011:
              Equipo  Cantidad_agentes_libres  Valor_contrato Acronimo  \
0  Milwaukee Brewers                        1          775000      MIL   

   Victorias  Juegos totales  
0         96             162  
Año 2012:
                Equipo  Cantidad_agentes_libres  Valor_contrato Acronimo  \
0   Los Angeles Angels                        4       321150000      LAA   
1       Detroit Tigers                        3       221000000      DET   
..                 ...                      ...             ...      ...   
24   Chicago White Sox                        1          900000      CHW   
25      Houston Astros                        1          750000      HOU   

    Victorias  Juegos totales  
0          89             162  
1          88             162  
..        ...             ...  
24         85             162  
25         55             162  

[26 rows x 6 columns]
Año 2013:
                 Equipo  Cantidad_agentes_libres  Valor_contrato Acronimo  \
0    Los A

Debido a cómo está diseñado el algoritmo, solo se puede imprimir el contenido de las bases de datos de esta manera