## Team database

En este apartado creamos la base de datos de los agente libres, pero agregada por equipo.

In [1]:
import pandas as pd
import numpy as np
import math
import os
import warnings
print('Modulos importados')

Modulos importados


In [2]:
# Configuraciones
warnings.filterwarnings('ignore')
# Reduzcamos el número de línea a leer
pd.options.display.max_rows = 10

Lo que se hará ahora es crear listas donde guardaremos los datos de interes de las bases de datos a lo largo del periodo de interes.

In [3]:
# Años de análisis
period = 10
# Equipos
teams = []
# Originales:
df_team = [None]*period

### Equipos

Se obtendrán los equipos que están solo en las bases de datos para reducir el número de equipos y tiempo de análisis a lo largo del trabajo.

In [4]:
for i in range(0,period):
    csv = '.csv'
    team = 'Data/Free_Agent_Team_Salary/team_salary_'
    
    df_team[i] = pd.read_csv(team + str(2011 + i) + csv)
    values = df_team[i].Team.unique().tolist()
    
    teams.append(values)

Ya se guardaron en cada entrada de lista *teams* cada una de las listas que contiene los nombres (sin repetir) de los equipos en las distintas bases de datos. Ahora se tiene que pasar a una lista plana que no contenga listas, sino solo el contenido de todas estas

In [5]:
# Veamos que la dimensión de la lista es igual al número de bases de datos
np.shape(teams)

(10,)

In [21]:
# Guardaremos el contenido de todas las listas en otra lista
# Esta lista solo contendrá valores númericos y no listas
all_teams = [name for team in teams for name in team]

Nótese que ahora incrementa el número de entradas en la lista como e ra de esperarse

In [22]:
np.shape(all_teams)

(256,)

Para contruir la base de datos de los acrónimos tenemos que auxiliarnos solo de los equipos que están en nuestras bases de datos ya que han existido muchos acrónimos y equipos a lo largo de la historia y no necesariamente todos los equipos actuales están en nuestras bases de datos. Por otro lado, nos serviría de guía para crear de manera eficiente la base de datos de los acrónimos.

In [23]:
unique_teams = np.unique(np.array(all_teams))
print(unique_teams)

['Arizona Diamondbacks' 'Atlanta Braves' 'Baltimore Orioles'
 'Boston Red Sox' 'Chicago Cubs' 'Chicago White Sox' 'Cincinnati Reds'
 'Colorado Rockies' 'Detroit Tigers' 'Houston Astros' 'Kansas City Royals'
 'Los Angeles Angels' 'Los Angeles Dodgers' 'Miami Marlins'
 'Milwaukee Brewers' 'Minnesota Twins' 'New York Mets' 'New York Yankees'
 'Oakland Athletics' 'Philadelphia Phillies' 'Pittsburgh Pirates'
 'San Diego Padres' 'San Francisco Giants' 'Seattle Mariners'
 'St. Louis Cardinals' 'Tampa Bay Rays' 'Texas Rangers'
 'Toronto Blue Jays' 'Washington Nationals']


In [24]:
# Cuya dimensión es
print(np.shape(unique_teams))

(29,)


Por otro lado, hay equipos que no han tenido el mismo acrónimo a lo largo de los años, por lo que repetiremos el proceso anterior para los acrónimos contenidos en las bases de datos que contiene a todos los jugadores. Esta se creo en el *script* llamado *Players.ipynb*.

In [34]:
# Jugadores
hitters = []
pitchers = []
# Originales:
df_total_hitters = [None]*period
df_total_pitchers = [None]*period

El proceso que se muestra a continuación es totalmente análogo al que se hizo para obtener los acrónimos de los equipos en las bases de datos con prefijo "team_salary".

In [35]:
for i in range(0,period):
    csv = '.csv'
    total_hitters = 'Data/New_Data/batters_'
    total_pitchers = 'Data/New_Data/pitchers_'
    
    df_total_hitters[i] = pd.read_csv(total_hitters + str(2011 + i) + csv)
    df_total_pitchers[i] = pd.read_csv(total_pitchers + str(2011 + i) + csv)
    values_1 = df_total_hitters[i]['Equipo_'+str(2011 + i)].unique().tolist()
    values_2 = df_total_pitchers[i]['Equipo_'+str(2011 + i)].unique().tolist()
    
    hitters.append(values_1)
    pitchers.append(values_2)

In [36]:
# Ahora obtendremos el total de acrónimos relacionados a los jugadores
all_hitters = [name for hitter in hitters for name in hitter]
all_pitchers = [name for pitcher in pitchers for name in pitcher]
players = [all_hitters, all_pitchers]
all_players = [name for player in players for name in player]
unique_players = np.unique(np.array(all_players))

In [37]:
# Chequemos la dimensión y valores
print(np.shape(unique_players))
print(unique_players)

(29,)
['ARI' 'ATL' 'BAL' 'BOS' 'CHC' 'CHW' 'CIN' 'COL' 'DET' 'HOU' 'KC' 'LAA'
 'LAD' 'MIA' 'MIL' 'MIN' 'NYM' 'NYY' 'OAK' 'PHI' 'PIT' 'SD' 'SEA' 'SF'
 'STL' 'TB' 'TEX' 'TOR' 'WSH']


Se aprecia que tienen el mismo número de acrónimos que equipos en ambas listas obtenidas con valores únicos. Falta ver que sí correspondan los acrónimos a los equipos en las distintas bases de datos.

Debido a que no hay una base de datos con los acrónimos de los equipos, el nombre usual de los equipos y las victorias; se tendrá que construir manuealmente, lo cual se hará fuera de este *script*.

El resultado obtenido fue el siguiente:

In [43]:
acronym_path = 'Data/Teams/team_acronym.csv'
acronyms = pd.read_csv(acronym_path)

In [44]:
acronyms.head()

Unnamed: 0,Acronimo,Equipo
0,ARI,Arizona Diamondbacks
1,ATL,Atlanta Braves
2,BAL,Baltimore Orioles
3,BOS,Boston Red Sox
4,CHC,Chicago Cubs


Con el mismo formato se crearán bases de datos que correspondan a los mismo años y que contengas las victorias de cada equipo en cada año.

Veamos el resultados final

### Creación del dataframe

In [9]:
i = 3
csv = '.csv'
team = 'Data/Free_Agent_Team_Salary/team_salary_20'

In [12]:
df_team[i] = pd.read_csv(team + str(11 + i) + csv)
df_team_copy[i] = df_team[i].copy()

In [16]:
df_team_copy[i].head()

Unnamed: 0,Team,Players,Value
0,New York Yankees,9,"$311,500,000"
1,Seattle Mariners,8,"$267,800,000"
2,Texas Rangers,7,"$136,050,000"
3,Minnesota Twins,7,"$97,290,983"
4,New York Mets,10,"$93,775,000"


In [15]:
df_team_copy[i] = df_team_copy[i][['Team', 'Players', 'Value']]

In [17]:
names = ['Equipo', 'Jugadores', 'Valor_agregado']
df_team_copy[i].columns = names