# Players dataframes for the same period t

En este script nos dedicaremos a crear una base de datos limpia segmentada por hitters y pitchers. Se exportarán dichas bases de datos contemplando respectivamente a los jugadores que son agentes libres, a los que no son y a todos los jugadores. Las secciones dentro del script son:

- **Visualización del contenido de las bases de datos.**
- **Limpieza de la base de datos y exportación.**
- **Creación de indicador de si el jugador es agente libre.**

Importemos los modulos necesarios así como especificar la configuración deseada.

In [1]:
import pandas as pd
import numpy as np
import math
import os
import warnings
print('Modulos importados')

Modulos importados


In [2]:
# Configuraciones
warnings.filterwarnings('ignore')
# Reduzcamos el número de línea a leer
pd.options.display.max_rows = 5

In [3]:
# Directorio de trabajo
print("Directorio de trabajo previo: " + str(os.getcwd()))
# Cambiemoslo
os.chdir('/home/usuario/Documentos/Github/Proyectos/MLB_HN/')

Directorio de trabajo previo: /home/usuario/Documentos/Github/Proyectos/MLB_HN/ETL_Scripts/First_Year_Contract


In [4]:
# Veamos el directorio actual de trabajo
print(os.getcwd())
# El directorio anterior es el correcto, pero si no lo fuese, hacemos lo sigueinte:
path = '/home/usuario/Documentos/Github/Proyectos/MLB_HN'
print("Nuevo directorio de trabajo: " + str(os.chdir(path)))

/home/usuario/Documentos/Github/Proyectos/MLB_HN
Nuevo directorio de trabajo: None


## Visualización de las bases de datos

Basta con ver el contenido de las base de datos de un año para observar qué variables contienen. Escojamos el año 2012.

A continuación, se mostrará el contenido de las distintas bases de datos sobre los *bateadores*, *pitchers*, *salarios de los agentes libres* y *salarios de los todos los jugadores*. Esto para determinar el proceso de limpieza que se llevará a cabo.

In [5]:
# Rutas de los archivos del año 2012
free_agents_2012 = 'Data/Free_Agents/free_agents_2012.csv'
hitting_2012 = 'Data/Not_All_Variables/Statistics/Hitting/hitting_2012.csv'
pitching_2012 = 'Data/Not_All_Variables/Statistics/Pitching/pitching_2012.csv'
salary_2012 = 'Data/Not_All_Variables/Salary/salary_2012.csv'
teams_etl_2012 = 'ETL_Data/Agent/Teams/free_agents_team_2012.csv'

# Importando los dataframes
df_free_agent_auxiliar_2012 = pd.read_csv(free_agents_2012)
df_hitting_auxiliar_2012 = pd.read_csv(hitting_2012)
df_pitching_auxiliar_2012 = pd.read_csv(pitching_2012)
df_salary_auxiliar_2012 = pd.read_csv(salary_2012)
df_teams_etl_2012 = pd.read_csv(teams_etl_2012)

### Agentes libres

Veamos primero el dataframe

In [6]:
df_free_agent_auxiliar_2012.head()

Unnamed: 0,Rank,Player,Year,Pos,Status,Team From,Team From To,YRS,Value,AAV
0,1,Albert Pujols,2012,DH,UFA,STL,LAA,10,"$240,000,000","$24,000,000"
1,2,Prince Fielder,2012,DH,UFA,MIL,DET,9,"$214,000,000","$23,777,778"
2,3,Jose Reyes,2012,SS,UFA,NYM,MIA,6,"$106,000,000","$17,666,667"
3,4,C.J. Wilson,2012,SP,UFA,TEX,LAA,5,"$77,500,000","$15,500,000"
4,5,Mark Buehrle,2012,SP,UFA,CHW,MIA,4,"$58,000,000","$14,500,000"


### Hitters

Veamos el dataframe

In [7]:
df_hitting_auxiliar_2012.head()

Unnamed: 0,Rank,Player,Pos,Team,GP,GP%,GS,GS%,AB,H,...,HR,RBI,AVG,OBP,SLG,OPS,WAR,TVS,Cash2023,Unnamed: 21
0,,Derek Jeter,SS,NYY,159,0.982,158,0.975,683,216,...,15,58,0.316,0.362,0.429,0.791,2.16,23.61,$0,
1,,Miguel Cabrera,1B,DET,161,0.994,161,0.994,622,205,...,44,139,0.33,0.393,0.606,0.999,7.14,96.42,"$32,000,000",
2,,Robinson Cano,2B,NYY,161,0.994,159,0.982,627,196,...,33,94,0.313,0.379,0.55,0.929,8.44,98.76,$0,
3,,Everth Cabrera,SS,SD,230,0.71,218,0.673,796,196,...,4,48,0.246,0.324,0.324,0.648,3.56,82.66,$0,
4,,Adrian Beltre,3B,TEX,156,0.963,152,0.938,604,194,...,36,102,0.321,0.359,0.561,0.921,7.24,88.47,$0,


In [8]:
df_hitting_auxiliar_2012.columns

Index(['Rank', 'Player', 'Pos', 'Team', 'GP', 'GP%', 'GS', 'GS%', 'AB', 'H',
       '2B', '3B', 'HR', 'RBI', 'AVG', 'OBP', 'SLG', 'OPS', 'WAR', 'TVS',
       'Cash2023', 'Unnamed: 21'],
      dtype='object')

Los términos en la base de datos no se traducirán para evitar malentendidos en la traducción.

- **Pos**: Player position.
- **Team**: Team acronym.
- **GP**: Games played.
- **GP%**: Games played %.
- **AB**: At bats.
- **H**: Hitting.
- **HR**: Home runs.
- **RBI**: Runs batted in.
- **AVG**: Batting average.
- **OPS**: Onebase plus slugging%.

Se omitirá la columna *Cash2022* puesto que no es de interés para el trabajo el valor del jugador en la actualidad puesto que hay agentes libres que ya se han retirado en años posteriores.

## Pitchers

In [9]:
df_pitching_auxiliar_2012.head()

Unnamed: 0,Rank,Player,Pos,Team,GP,GS,IP,H,R,ER,...,SO,W,L,SV,WHIP,ERA,WAR,TVS,Cash2023,Unnamed: 20
0,,R.A. Dickey,SP,NYM,34,33,233.7,192,78,71,...,230,20,6,0,1.05,2.74,5.69,97.27,$0,
1,,Felix Hernandez,SP,SEA,33,33,232.0,209,84,79,...,223,13,9,0,1.14,3.07,5.26,85.2,$0,
2,,James Shields,SP,TB,33,33,227.7,209,103,89,...,223,15,10,0,1.17,3.52,2.54,79.41,$0,
3,,Clayton Kershaw,SP,LAD,34,33,227.7,170,70,64,...,229,14,9,0,1.02,2.53,6.43,95.71,"$20,000,000",
4,,Hiroki Kuroda,SP,NYY,33,33,219.7,205,86,81,...,167,16,11,0,1.16,3.32,5.27,81.85,$0,


In [10]:
df_pitching_auxiliar_2012.columns

Index(['Rank', 'Player', 'Pos', 'Team', 'GP', 'GS', 'IP', 'H', 'R', 'ER', 'BB',
       'SO', 'W', 'L', 'SV', 'WHIP', 'ERA', 'WAR', 'TVS', 'Cash2023',
       'Unnamed: 20'],
      dtype='object')

#### Notación.

Veamos a qué se refieren algunos términos

- **Pos**: Player position.
- **Team**: Team acronym.
- **GP**: Games played.
- **GS**: Games started.
- **IP**: Inning pitched.
- **H**: Hits.
- **R**: Runs.
- **ER**: Earned runs.
- **BB**: Walks.
- **SO**: Strikeouts.
- **W**: Wins.
- **L**: Losses-
- **SV**: Saves.
- **WHIP**: WHIP.
- **ERA**: Earned runs average.

Por razones análogas, se descartará la columna *Cash2022*.

### Salarios
En este caso, hay muchas menos variables que en las anteriores bases de datos

In [11]:
df_salary_auxiliar_2012.head()

Unnamed: 0,Rank,Player,Year,Pos,Team,BaseSalary,SigningBonus,Payroll Salary,Adj Salary,Salary%,...,AAV,CONT YR,CONT VALUE,Earnings,FA Year,Sign Age,Age,Weight,Height,Unnamed: 20
0,,Alex Rodriguez,2012,DH,NYY,"$29,000,000","$1,000,000","$30,000,000","$30,000,000",0.132,...,"$27,500,000",10,"$275,000,000","$321,290,700",2018,32,37,230,"0'0""",
1,,C.C. Sabathia,2012,SP,NYY,"$23,000,000","$1,285,714","$24,285,714","$24,285,714",0.107,...,"$23,000,000",7,"$161,000,000","$127,285,714",2016,28,31,300,"6'6""",
2,,Vernon Wells,2012,LF,LAA,"$21,000,000","$3,187,500","$24,187,500","$24,187,500",0.154,...,"$18,000,000",7,"$126,000,000","$102,521,000",2015,29,33,0,"0'0""",
3,,Johan Santana,2012,SP,NYM,"$24,000,000",$0,"$24,000,000","$24,000,000",0.228,...,"$22,916,667",6,"$137,500,000","$148,560,000",2014,28,33,155,"6'0""",
4,,Mark Teixeira,2012,1B,NYY,"$22,500,000","$625,000","$23,125,000","$23,125,000",0.101,...,"$22,500,000",8,"$180,000,000","$127,650,000",2017,28,32,225,"6'3""",


In [12]:
df_salary_auxiliar_2012.columns

Index(['Rank', 'Player', 'Year', 'Pos', 'Team', 'BaseSalary', 'SigningBonus',
       'Payroll Salary', 'Adj Salary', 'Salary%', 'Cash', 'AAV', 'CONT YR',
       'CONT VALUE', 'Earnings', 'FA Year', 'Sign Age', 'Age', 'Weight',
       'Height', 'Unnamed: 20'],
      dtype='object')

- **BaseSalary**: A base salary is the minimum amount you can expect to earn in exchange for your time or services. This is the amount earned before benefits, bonuses, or compensation is added.
- **Payroll Salary**: Payroll is the compensation a business must pay to its employees for a set period and on a given date plus signing bonus
- **Adj Salary**: Adjusted Salary means the regular salary, wages and commissions, if any, payable to a Participant by the Company for the Participant's service, excluding any bonuses or other compensation.

### Teams ETL

Esta base de datos sobre los equipos es bajo el proceso ETL

In [13]:
df_teams_etl_2012.head()

Unnamed: 0,Equipo,Cantidad_agentes_libres,Valor_contrato_total,Acronimo,Victorias,Juegos totales,Playoffs,Pennants won,WS ganadas,Promedio_victorias
0,Los Angeles Angels,4,321150000,LAA,89,162,10,1,1,0.549383
1,Detroit Tigers,3,221000000,DET,88,162,14,11,4,0.54321
2,Miami Marlins,6,203300000,MIA,69,162,2,2,2,0.425926
3,Philadelphia Phillies,7,57650000,PHI,81,162,14,7,2,0.5
4,Los Angeles Dodgers,9,44651311,LAD,86,162,26,25,6,0.530864


### Equipos por estado

In [14]:
states = 'Data/Teams/team_states.csv'
df_states = pd.read_csv(states)

In [15]:
df_states.head()

Unnamed: 0,Estado,Cantidad de equipos
0,Alabama,0
1,Alaska,0
2,Arizona,1
3,Arkansas,0
4,California,5


### Acrónimos

Nos servirá como llave intermedia para unificar las bases de datos de los equipos

In [16]:
acronym = 'Data/Teams/team_acronym.csv'
df_acronym = pd.read_csv(acronym)

In [17]:
df_acronym.head()

Unnamed: 0,Equipo,Acronimo,Estado
0,Arizona Diamondbacks,ARI,Arizona
1,Atlanta Braves,ATL,Georgia
2,Baltimore Orioles,BAL,Maryland
3,Boston Red Sox,BOS,Massachusetts
4,Chicago Cubs,CHC,Illinois


Unamos esta dataframe con el de los equipos por estado

In [18]:
acronym_state = pd.merge(df_states, df_acronym, on = 'Estado')

In [19]:
acronym_state.head()

Unnamed: 0,Estado,Cantidad de equipos,Equipo,Acronimo
0,Arizona,1,Arizona Diamondbacks,ARI
1,California,5,Los Angeles Angels,LAA
2,California,5,Los Angeles Dodgers,LAD
3,California,5,Oakland Athletics,OAK
4,California,5,San Diego Padres,SD


En este caso, el nombre de las variables es claro

## Algoritmo para la creación de las bases de datos

A continuaicón, se optimizará el código para que se puedan obtener los *dataframes* anteriores para un cojuntos de datos de años secuenciales, como es nuestro caso

In [20]:
# Auxiliares:
free_agents = 'Data/Free_Agents/free_agents_'
hitting = 'Data/Not_All_Variables/Statistics/Hitting/hitting_'
pitching = 'Data/Not_All_Variables/Statistics/Pitching/pitching_'
salary = 'Data/Not_All_Variables/Salary/salary_'
teams = 'ETL_Data/Agent/Teams/free_agents_team_'
csv = '.csv'
period = 12
# Originales:
df_free_agents = [None]*period
df_hitting = [None]*period
df_pitching = [None]*period
df_salary = [None]*period
df_teams = [None]*period
# Copias:
df_free_agents_copy = [None]*period
df_hitting_copy = [None]*period
df_pitching_copy = [None]*period
df_salary_copy = [None]*period
df_teams_copy = [None]*period
# Producto final:
df_pitchers = [None]*period
df_hitters = [None]*period
df_pitchers_free_agents = [None]*period
df_hitters_free_agents = [None]*period
df_pitchers_no_free_agents = [None]*period
df_hitters_no_free_agents = [None]*period
df_panel_hitters = [None]*period
df_panel_pitchers = [None]*period

Leamos todos los archivos y creemos las copias

In [21]:
for year in range(0,period):    
    df_free_agents[year] = pd.read_csv(free_agents + str(2011 + year) + csv)
    df_hitting[year] = pd.read_csv(hitting + str(2011 + year) + csv)
    df_pitching[year] = pd.read_csv(pitching + str(2011 + year) + csv)
    df_salary[year] = pd.read_csv(salary + str(2011 + year) + csv)
    df_teams[year] = pd.read_csv(teams + str(2011 + year) + csv)
    
    df_free_agents_copy[year] = df_free_agents[year].copy()
    df_hitting_copy[year] = df_hitting[year].copy()
    df_pitching_copy[year] = df_pitching[year].copy()
    df_salary_copy[year] = df_salary[year].copy()
    df_teams_copy[year] = pd.read_csv(teams + str(2011 + year) + csv)

Tratemos las bases de datos por separado. Sin embargo, a todas les quitaremos la columna de rango y *Cash2023*.

Como no queremos que se repita la columna del año de la temporada de la base de datos, borremos la columna de *Year* de la base  de datos de los agentes libres. Como los años del contrato aparecen en la base de datos sobre los salarios, se prefiere conservar dicha columna en la base de datos de salarios puesto que esta base de datos es más general que la de los agentes libres, razón por la que se borrará de esta última base de datos. 

El equipo al que se cambia el agente libre está señalado por la columna del equipo en la base de datos de salarios y la estadísticas deportivas por lo que se borrará *Team From To* de la base de datos de los agentes libres. 

Como nos importan los salarios para este analisis, quitaremos la columna de los equipos en las bases de datos sobre las estadísticas deportivas de todos los jugadores, así como la posición que ocupan.

In [22]:
for year in range(0,period):
    # Drop columns:
    if any(name in df_free_agents_copy[year].columns for name in ['Rank','Year','YRS','Team From To']):
        df_free_agents_copy[year].drop('Rank', axis = 1, inplace = True)
        df_free_agents_copy[year].drop('Year', axis = 1, inplace = True)
        df_free_agents_copy[year].drop('YRS', axis = 1, inplace = True)
        df_free_agents_copy[year].drop('Team From To', axis = 1, inplace = True)
    if 'Rank' in df_salary_copy[year].columns:
        df_salary_copy[year].drop('Rank', axis = 1, inplace = True)
    if any(name in df_hitting_copy[year].columns for name in ['Rank','Cash2023','Team','Pos']):
        df_hitting_copy[year].drop('Rank', axis = 1, inplace = True)
        df_hitting_copy[year].drop('Cash2023', axis = 1, inplace = True)
        df_hitting_copy[year].drop('Team', axis = 1, inplace = True)
        df_hitting_copy[year].drop('Pos', axis = 1, inplace = True)
    if any(name in df_pitching_copy[year].columns for name in ['Rank','Cash2023','Team','Pos']):
        df_pitching_copy[year].drop('Rank', axis = 1, inplace = True)
        df_pitching_copy[year].drop('Cash2023', axis = 1, inplace = True)
        df_pitching_copy[year].drop('Team', axis = 1, inplace = True)
        df_pitching_copy[year].drop('Pos', axis = 1, inplace = True)

Debido a que aparecen columnas que inician con el  nombre *Unnamed*, tendremos que borrarlas con algún método general, el cual se muestra a continuación:

In [23]:
for year in range(0,period):
    # Base de datos de agentes libres:
    df_free_agents_copy[year].drop(df_free_agents_copy[year].columns[df_free_agents_copy[year].columns.str.contains('Unnamed',case = False)],axis = 1, inplace = True)
    
    # Base de datos de los salarios:
    df_salary_copy[year].drop(df_salary_copy[year].columns[df_salary_copy[year].columns.str.contains('Unnamed',case = False)],axis = 1, inplace = True)
    
    # Base de datos de los hitters:
    df_hitting_copy[year].drop(df_hitting_copy[year].columns[df_hitting_copy[year].columns.str.contains('Unnamed',case = False)],axis = 1, inplace = True)
    
    # Base de datos de los pitchers:
    df_pitching_copy[year].drop(df_pitching_copy[year].columns[df_pitching_copy[year].columns.str.contains('Unnamed',case = False)],axis = 1, inplace = True)

Verifiquemos que ya no se encuentran dichas columnas molestas

In [24]:
df_free_agents_copy[9].columns

Index(['Player', 'Pos', 'Status', 'Team From', 'Value', 'AAV'], dtype='object')

In [25]:
df_salary_copy[11].columns

Index(['Player', 'Year', 'Pos', 'Team', 'BaseSalary', 'SigningBonus',
       'Payroll Salary', 'Adj Salary', 'Salary%', 'Cash', 'AAV', 'CONT YR',
       'CONT VALUE', 'Earnings', 'FA Year', 'Sign Age', 'Age', 'Weight',
       'Height'],
      dtype='object')

In [26]:
df_hitting_copy[2].columns

Index(['Player', 'GP', 'GP%', 'GS', 'GS%', 'AB', 'H', '2B', '3B', 'HR', 'RBI',
       'AVG', 'OBP', 'SLG', 'OPS', 'WAR', 'TVS'],
      dtype='object')

In [27]:
df_pitching_copy[5].columns

Index(['Player', 'GP', 'GS', 'IP', 'H', 'R', 'ER', 'BB', 'SO', 'W', 'L', 'SV',
       'WHIP', 'ERA', 'WAR', 'TVS'],
      dtype='object')

#### Agentes libres

No se conservará el equipo al que es contratado el agente libre puesto que esta información también la contiene la base de datos que facilita más el tratamiento _ETL_.

In [28]:
for year in range(0,period):
    df_free_agents_copy[year] = df_free_agents_copy[year].rename(columns = {'Player':'Jugador',
                            'Status':'Status_agente_libre', 'Team From':'Equipo_anterior',
                            'Value':'Valor_contrato', 'AAV':'Valor_promedio_contrato'})
    
    free_agents_aux_1 = df_free_agents_copy[year]['Valor_contrato'].str.replace("$","")
    free_agents_aux_2 = free_agents_aux_1.str.replace(",","")
    free_agents_aux_3 = df_free_agents_copy[year]['Valor_promedio_contrato'].str.replace("$","")
    free_agents_aux_4 = free_agents_aux_3.str.replace(",","")
    df_free_agents_copy[year]['Valor_contrato'] = free_agents_aux_2
    df_free_agents_copy[year]['Valor_promedio_contrato'] = free_agents_aux_4
    
    df_free_agents_copy[year]['Valor_contrato'] = pd.to_numeric(df_free_agents_copy[year]['Valor_contrato'])
    df_free_agents_copy[year]['Valor_promedio_contrato'] = pd.to_numeric(df_free_agents_copy[year]['Valor_promedio_contrato'])

Observemos las dimensiones de las bases de datos como referencia

In [29]:
for year in range(0,period):
    print(df_free_agents_copy[year].shape)

(1, 6)
(108, 6)
(213, 6)
(208, 6)
(221, 6)
(241, 6)
(100, 6)
(98, 6)
(105, 6)
(118, 6)
(141, 6)
(137, 6)


También el tipo de datos que contiene cada columna

In [30]:
df_free_agents_copy[1].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 108 entries, 0 to 107
Data columns (total 6 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Jugador                  108 non-null    object
 1   Pos                      108 non-null    object
 2   Status_agente_libre      108 non-null    object
 3   Equipo_anterior          108 non-null    object
 4   Valor_contrato           108 non-null    int64 
 5   Valor_promedio_contrato  108 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 5.2+ KB


#### Salarios

Como los salarios irán con las bases de datos de los _hitters_ y _pitchers_ es que se hará su proceso _ETL_ antes.

In [31]:
type(df_salary_copy[0]['Sign Age'].min())

str

In [32]:
for year in range(0,period):
    # Cambio de nombres
    df_salary_copy[year] = df_salary_copy[year].rename(columns = {'Player':'Jugador',
                            'BaseSalary':'Sueldo_base', 'SigningBonus':'Bono_por_firma',
                            'Payroll Salary':'Sueldo_regular', 'Adj Salary':'Sueldo_ajustado',
                            'CONT YR':'Anios_de_contrato', 'CONT VALUE':'Valor_del_contrato',
                            'Earnings':'Ganancias', 'FA Year':'Anio_de_agente_libre',
                            'Sign Age':'Edad_al_firmar', 'Age':'Edad', 'Weight':'Peso',
                            'Height':'Altura', 'Year':'Anio', 'Pos':'Posicion',
                            'Salary%':'Sueldo_porcentual', 'Cash':'Pago_efectivo',
                            'AAV':'Valor_contrato_promedio'})
    
    # Tranformando al tipo de dato apropiado
    salary_aux_1 = df_salary_copy[year]['Sueldo_base'].str.replace("$","")
    salary_aux_2 = salary_aux_1.str.replace(",","")
    df_salary_copy[year]['Sueldo_base'] = salary_aux_2
    df_salary_copy[year]['Sueldo_base'] = pd.to_numeric(df_salary_copy[year]['Sueldo_base'])
    
    salary_aux_3 = df_salary_copy[year]['Sueldo_regular'].str.replace("$","")
    salary_aux_4 = salary_aux_3.str.replace(",","")
    df_salary_copy[year]['Sueldo_regular'] = salary_aux_4
    df_salary_copy[year]['Sueldo_regular'] = pd.to_numeric(df_salary_copy[year]['Sueldo_regular'])
    
    salary_aux_5 = df_salary_copy[year]['Sueldo_ajustado'].str.replace("$","")
    salary_aux_6 = salary_aux_5.str.replace(",","")
    df_salary_copy[year]['Sueldo_ajustado'] = salary_aux_6
    df_salary_copy[year]['Sueldo_ajustado'] = pd.to_numeric(df_salary_copy[year]['Sueldo_ajustado'])
    
    salary_aux_7 = df_salary_copy[year]['Valor_del_contrato'].str.replace("$","")
    salary_aux_8 = salary_aux_7.str.replace(",","")
    df_salary_copy[year]['Valor_del_contrato'] = salary_aux_8
    df_salary_copy[year]['Valor_del_contrato'] = pd.to_numeric(df_salary_copy[year]['Valor_del_contrato'])
    
    salary_aux_9 = df_salary_copy[year]['Bono_por_firma'].str.replace("$","")
    salary_aux_10 = salary_aux_9.str.replace(",","")
    df_salary_copy[year]['Bono_por_firma'] = salary_aux_10
    df_salary_copy[year]['Bono_por_firma'] = pd.to_numeric(df_salary_copy[year]['Bono_por_firma'])
    
    salary_aux_11 = df_salary_copy[year]['Ganancias'].str.replace("$","")
    salary_aux_12 = salary_aux_11.str.replace(",","")
    df_salary_copy[year]['Ganancias'] = salary_aux_12
    df_salary_copy[year]['Ganancias'] = pd.to_numeric(df_salary_copy[year]['Ganancias'])
    
    salary_aux_13 = df_salary_copy[year]['Pago_efectivo'].str.replace("$","")
    salary_aux_14 = salary_aux_13.str.replace(",","")
    df_salary_copy[year]['Pago_efectivo'] = salary_aux_14
    df_salary_copy[year]['Pago_efectivo'] = pd.to_numeric(df_salary_copy[year]['Pago_efectivo'])
    
    salary_aux_15 = df_salary_copy[year]['Valor_contrato_promedio'].str.replace("$","")
    salary_aux_16 = salary_aux_15.str.replace(",","")
    df_salary_copy[year]['Valor_contrato_promedio'] = salary_aux_16
    df_salary_copy[year]['Valor_contrato_promedio'] = pd.to_numeric(df_salary_copy[year]['Valor_contrato_promedio'])
    
    salary_aux_17 = df_salary_copy[year]['Altura'].str.replace("\"","")
    salary_aux_18 = salary_aux_17.str.replace("'","")
    df_salary_copy[year]['Altura'] = salary_aux_18
    df_salary_copy[year]['Altura'] = pd.to_numeric(df_salary_copy[year]['Altura'])/10
    # SUstitullamos los xeros
    height_mean = df_salary_copy[year]['Altura'].mean(skipna=True)
    df_salary_copy[year]['Altura'] = df_salary_copy[year].Altura.mask(df_salary_copy[year].Altura == 0, height_mean)
    
    df_salary_copy[year]['Anio_de_agente_libre'] = pd.to_numeric(df_salary_copy[year]['Anio_de_agente_libre'])
    df_salary_copy[year]['Anios_de_contrato'] = pd.to_numeric(df_salary_copy[year]['Anios_de_contrato'])
    df_salary_copy[year]['Edad'] = pd.to_numeric(df_salary_copy[year]['Edad'])

Por algunas particularidades de la base de datos, las columna que contiene la edad al firmar se tratará por separado aprovechando que la mayoría de los datos incorrectos tienen una longitud mayor a dos.

In [34]:
for year in range (0,period):
    df_salary_copy[year]['Edad_al_firmar'] = df_salary_copy[year]['Edad_al_firmar'].map(str)

    for edad in range(0,df_salary_copy[year].shape[0]):
        # String es mayor que 0:
        if len(df_salary_copy[year]['Edad_al_firmar'].iloc[edad]) == 2:
            df_salary_copy[year].iloc[edad, df_salary_copy[year].columns.get_loc('Edad_al_firmar')] = pd.to_numeric(df_salary_copy[year]['Edad_al_firmar'].iloc[edad])
            
        # String es menor o igual que 0:
        elif len(df_salary_copy[year]['Edad_al_firmar'].iloc[edad]) != 2:
            # Si la columna de la edad contiene datos correctos
            if df_salary_copy[year]['Edad'].iloc[edad] > 0:
                if df_salary_copy[year]['Anio_de_agente_libre'].iloc[edad] == 0:
                    ag_year = year + 2011 + 1
                else:
                    ag_year = df_salary_copy[year]['Anio_de_agente_libre'].iloc[edad]
                # Get first year of contract
                ini_year = ag_year - df_salary_copy[year]['Anios_de_contrato'].iloc[edad]
                # Años desde el el año inicial
                dif_years = year + 2011 - ini_year
                # Edad al firmar:
                sign_age = df_salary_copy[year]['Edad'].iloc[edad] - dif_years
                # Cambio de dato:
                df_salary_copy[year].iloc[edad, df_salary_copy[year].columns.get_loc('Edad_al_firmar')] = pd.to_numeric(sign_age)
                
            # Si la columna de edad no contiene un dato coherente
            else:
                # Cambio de dato:
                df_salary_copy[year].iloc[edad, df_salary_copy[year].columns.get_loc('Edad_al_firmar')] = pd.to_numeric(18)    
    
    # Transformemos los datos a enteros
    df_salary_copy[year]['Edad_al_firmar'] = pd.to_numeric(df_salary_copy[year]['Edad_al_firmar'])

Podemos verificar si se limpiaron adecuadamente las celdas de la columna de edades al firmar. Esto, al filtrar los datos que sean distintos a enteros y al observar si se pudo transformar toda la columna al tipo entero.

In [36]:
for year in range(0,period):
    for edad in range(0,df_salary_copy[year]['Edad_al_firmar'].shape[0]):
        if type(df_salary_copy[year]['Edad_al_firmar'].iloc[edad]) != np.int64:
            print(type(df_salary_copy[year]['Edad_al_firmar'].iloc[edad]))

In [42]:
#for year in range(0,period):
#    print(type(df_salary_copy[year][['Edad_al_firmar']].info()))

In [46]:
#for year in range(0,period):
#    print(year)
#    for edad in range(0,df_salary_copy[year]['Edad_al_firmar'].shape[0]):
#        print(str(df_salary_copy[year]['Edad_al_firmar'].iloc[edad])+ ' ' + str(edad))

Con la imputación de datos ya se puede crear la columna que contiene la antiguedad del agente libre bajo el contrato

In [47]:
for year in range(0,period):
    df_salary_copy[year]['Antiguedad'] = df_salary_copy[year]['Edad'] - df_salary_copy[year]['Edad_al_firmar']

In [48]:
df_salary_copy[5].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1045 entries, 0 to 1044
Data columns (total 20 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Jugador                  1045 non-null   object 
 1   Anio                     1045 non-null   int64  
 2   Posicion                 1045 non-null   object 
 3   Team                     1045 non-null   object 
 4   Sueldo_base              1045 non-null   int64  
 5   Bono_por_firma           1045 non-null   int64  
 6   Sueldo_regular           1045 non-null   int64  
 7   Sueldo_ajustado          1045 non-null   int64  
 8   Sueldo_porcentual        1045 non-null   float64
 9   Pago_efectivo            1045 non-null   int64  
 10  Valor_contrato_promedio  1045 non-null   int64  
 11  Anios_de_contrato        1045 non-null   int64  
 12  Valor_del_contrato       1045 non-null   int64  
 13  Ganancias                1045 non-null   int64  
 14  Anio_de_agente_libre    

Por último, convirtamos la columna del año a string para que se entienda como una categoría y no una variable numérica

In [49]:
for year in range(0,period):
    df_salary_copy[year]['Anio'] = df_salary_copy[year]['Anio'].map(str)

#### Hitters

In [33]:
for year in range(0,period):
    # Cambio de nombres
    df_hitting_copy[year] = df_hitting_copy[year].rename(columns = {'Player':'Jugador',
                            'GP':'Juegos', 'GP%':'Porcentaje_juegos',
                            'AB':'At-bats', 'H':'Bateos', 'GS':'Juegos_iniciados',
                            'GS%':'Porcentaje_juegos_iniciados', 'RBI':'Runs-batted-in',
                            'HR':'Home-runs', 'AVG':'Bateos_promedio',
                            '2B':'Dobles', '3B':'Triples', 'OPS':'Porcentaje_On-base-plus-slugging',
                            'SLG':'Porcentaje_slugging', 'OBP':'Porcentaje_on-base'})
    
    #df_hitters[year] = pd.merge(df_hitting_copy[year], df_salary_copy[year], on = 'Jugador')

    #df_hitters[year] = df_hitters[year].rename(columns = {'Equipo':'Acronimo'})

In [34]:
for year in range(0,period):
    print(df_hitting_copy[year].shape)

(521, 17)
(667, 17)
(734, 17)
(778, 17)
(809, 17)
(834, 17)
(810, 17)
(825, 17)
(850, 17)
(451, 17)
(753, 17)
(479, 17)


In [50]:
df_hitting_copy[5].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 834 entries, 0 to 833
Data columns (total 17 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Player  834 non-null    object 
 1   GP      834 non-null    int64  
 2   GP%     834 non-null    float64
 3   GS      834 non-null    int64  
 4   GS%     834 non-null    float64
 5   AB      834 non-null    int64  
 6   H       834 non-null    int64  
 7   2B      834 non-null    int64  
 8   3B      834 non-null    int64  
 9   HR      834 non-null    int64  
 10  RBI     834 non-null    int64  
 11  AVG     834 non-null    float64
 12  OBP     834 non-null    float64
 13  SLG     834 non-null    float64
 14  OPS     834 non-null    float64
 15  WAR     832 non-null    float64
 16  TVS     834 non-null    float64
dtypes: float64(8), int64(8), object(1)
memory usage: 110.9+ KB


In [36]:
df_hitting_copy[5].columns

Index(['Jugador', 'Juegos', 'Porcentaje_juegos', 'Juegos_iniciados',
       'Porcentaje_juegos_iniciados', 'At-bats', 'Bateos', 'Dobles', 'Triples',
       'Home-runs', 'Runs-batted-in', 'Bateos_promedio', 'Porcentaje_on-base',
       'Porcentaje_slugging', 'Porcentaje_On-base-plus-slugging', 'WAR',
       'TVS'],
      dtype='object')

#### Pitchers

In [37]:
for year in range(0,period):
    # Cambio de nombres
    df_pitching_copy[year] = df_pitching_copy[year].rename(columns = {'Player':'Jugador',
                             'GP':'Juegos', 'GS':'Juegos_iniciados', 'IP':'Inning_pitched',
                             'H':'Bateos_en_contra', 'R':'Carreras_en_contra', 'ER':'Carreras_ganadas',
                             'BB':'Walks', 'SO':'Strike-outs', 'W':'Wins', 'L':'Losses',
                             'SV':'Saves'})

    #df_pitchers[i] = pd.merge(df_pitching_copy[i], df_salary_copy[i], on = 'Jugador')
    
    #df_pitchers[i] = df_pitchers[i].rename(columns = {'Equipo':'Acronimo'})

In [38]:
for year in range(0,period):
    print(df_pitching_copy[year].shape)

(324, 16)
(425, 16)
(485, 16)
(537, 16)
(586, 16)
(592, 16)
(581, 16)
(644, 16)
(668, 16)
(542, 16)
(611, 16)
(585, 16)


In [51]:
df_pitching_copy[5].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 592 entries, 0 to 591
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Player  592 non-null    object 
 1   GP      592 non-null    int64  
 2   GS      592 non-null    int64  
 3   IP      592 non-null    float64
 4   H       592 non-null    int64  
 5   R       592 non-null    int64  
 6   ER      592 non-null    int64  
 7   BB      592 non-null    int64  
 8   SO      592 non-null    int64  
 9   W       592 non-null    int64  
 10  L       592 non-null    int64  
 11  SV      592 non-null    int64  
 12  WHIP    592 non-null    float64
 13  ERA     592 non-null    float64
 14  WAR     587 non-null    float64
 15  TVS     592 non-null    float64
dtypes: float64(5), int64(10), object(1)
memory usage: 74.1+ KB


Debido a que la mayoría de los jugadores juega tanto en la ofensiva como la defensiva es que tenemos que borrar los duplicados de la columna de la posición.

In [None]:
for i in range(0,period):
    # Drop 'Posición_y' columns:
    if 'Posicion_y' in df_hitters[i].columns:
        df_hitters[i].drop('Posicion_y', axis = 1, inplace = True)
    
    if 'Posicion_y' in df_pitchers[i].columns:
        df_pitchers[i].drop('Posicion_y', axis = 1, inplace = True)
        
    # Cambiando nombre de 'Posicion_x':
    if 'Posicion_x' in df_hitters[i].columns:
        df_hitters[i] = df_hitters[i].rename(columns = {'Posicion_x':'Posicion'})
    
    if 'Posicion_x' in df_pitchers[i].columns:
        df_pitchers[i] = df_pitchers[i].rename(columns = {'Posicion_x':'Posicion'})

## Agregación de variables sugeridas por artículos

Las primeras variables que agregaremos son el cuadrado de todas las estadísticas deportivas, así como las siguientes variables:

- DOMINANCE = $Strike-outs/(9*Inning \; Pitched)$
- CONTROL = $Walks/(9*Inning \; Pitched)$
- COMMAND = $Strike-outs/Walks$

In [40]:
for year in range(0,period):
    df_pitching_copy[year]['Dominio'] = df_pitching_copy[year]['Strike-outs']/(9*df_pitching_copy[year]['Inning_pitched'])
    df_pitching_copy[year]['Control'] = df_pitching_copy[year]['Walks']/(9*df_pitching_copy[year]['Inning_pitched'])
    df_pitching_copy[year]['Comando'] = df_pitching_copy[year]['Strike-outs']/df_pitching_copy[year]['Walks']

In [41]:
for year in range(0,period):
    print(df_pitching_copy[year].shape)

(324, 19)
(425, 19)
(485, 19)
(537, 19)
(586, 19)
(592, 19)
(581, 19)
(644, 19)
(668, 19)
(542, 19)
(611, 19)
(585, 19)


In [42]:
df_pitching_copy[2].describe()

Unnamed: 0,Juegos,Juegos_iniciados,Inning_pitched,Bateos_en_contra,Carreras_en_contra,Carreras_ganadas,Walks,Strike-outs,Wins,Losses,Saves,WHIP,ERA,WAR,TVS,Dominio,Control,Comando
count,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,485.000000,435.000000,485.000000,484.000000,485.000000,482.000000
mean,34.830928,9.521649,78.358969,74.369072,35.162887,32.552577,25.383505,66.385567,4.498969,4.243299,2.356701,1.326639,3.844784,0.944897,24.333505,0.095520,inf,inf
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
75%,52.000000,20.000000,116.300000,111.000000,51.000000,48.000000,36.000000,89.000000,6.000000,7.000000,0.000000,1.440000,4.570000,1.555000,48.580000,0.110849,0.047847,3.302335
max,142.000000,113.000000,342.700000,314.000000,162.000000,144.000000,106.000000,277.000000,22.000000,18.000000,50.000000,6.000000,18.900000,7.040000,99.590000,0.370370,inf,inf


Con el objetivo de hacer más eficiente la creación de las variables al cuadrado, lo haremos por índice

In [58]:
def get_col_indices(df, names):
    return df.columns.get_indexer(names)

In [59]:
names = ['Juegos', 'Juegos_iniciados', 'Inning_pitched', 'Bateos_en_contra']	

In [61]:
for year in range(0,period):
    print(get_col_indices(df_pitching_copy[year], names))

[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]
[1 2 3 4]


In [None]:
# Indiquemos las columnas que se usarán por medio de su índice
square_pitchers_index = list(range(2,17)) + [31,32,33]
square_hitters_index = list(range(2,12))

In [None]:
for i in range(0,period):
    for j in square_pitchers_index:
        df_pitchers[i][df_pitchers[i].columns[j] + '_2'] = np.power(df_pitchers[i][df_pitchers[i].columns[j]], 2)
    
    for k in square_hitters_index:
        df_hitters[i][df_hitters[i].columns[k] + '_2'] = np.power(df_hitters[i][df_hitters[i].columns[k]], 2)

Apreciemos el resultado final

In [None]:
df_pitchers[2].head()

In [None]:
df_pitchers[2].columns

In [None]:
df_hitters[7].head()

In [None]:
df_hitters[7].columns

Siguiendo la sugerencia de algunos artículos, obtengamos el logaritmo de los salarios

In [43]:
for year in range(0,period):
    df_salary_copy[year]['ln_Sueldo_base'] = np.log(df_salary_copy[year]['Sueldo_base'])
    df_salary_copy[year]['ln_Sueldo_ajustado'] = np.log(df_salary_copy[year]['Sueldo_ajustado'])
    df_salary_copy[year]['ln_Sueldo_regular'] = np.log(df_salary_copy[year]['Sueldo_regular'])

### Datos agregados por equipo

Solo resta añadir los datos relevantes al equipo al que pertenece cada jugador considerando la base de datos de la cantidad de equipos por estado

In [None]:
df_teams_copy[2].head()

In [None]:
for i in range(0,period):
    df_teams_copy[i] = pd.merge(df_teams_copy[i], acronym_state, on = ['Equipo','Acronimo'])
    df_hitters[i] = pd.merge(df_teams_copy[i], df_hitters[i], on = 'Acronimo')
    df_pitchers[i] = pd.merge(df_teams_copy[i], df_pitchers[i], on = 'Acronimo')

## Segmentación por Agentes libres

Separaremos los pitchers y hitters en dos grupos:

- Agentes libres.
- No agentes libres.

In [None]:
for i in range(0,period):
    # Drop 'Posición_y' columns:
    if 'Posicion_y' in df_hitters[i].columns:
        df_hitters[i].drop('Posicion_y', axis = 1, inplace = True)
    
    if 'Posicion_y' in df_pitchers[i].columns:
        df_pitchers[i].drop('Posicion_y', axis = 1, inplace = True)
        
    # Cambiando nombre de 'Posicion_x':
    if 'Posicion_x' in df_hitters[i].columns:
        df_hitters[i] = df_hitters[i].rename(columns = {'Posicion_x':'Posicion'})
    
    if 'Posicion_x' in df_pitchers[i].columns:
        df_pitchers[i] = df_pitchers[i].rename(columns = {'Posicion_x':'Posicion'})

In [None]:
for i in range(0,period):    
    df_hitters_free_agents[i] = pd.merge(df_free_agents_copy[i], df_hitters[i], on = 'Jugador')
    df_pitchers_free_agents[i] = pd.merge(df_free_agents_copy[i], df_pitchers[i], on = 'Jugador')
    
    df_hitters_no_free_agents[i] = df_hitters[i][~df_hitters[i].Jugador.isin(df_hitters_free_agents[i].Jugador)]
    df_pitchers_no_free_agents[i] = df_pitchers[i][~df_pitchers[i].Jugador.isin(df_pitchers_free_agents[i].Jugador)]
    
    df_hitters_free_agents[i] = df_hitters_free_agents[i].reindex(sorted(df_hitters_free_agents[i].columns), axis=1)
    df_pitchers_free_agents[i] = df_pitchers_free_agents[i].reindex(sorted(df_pitchers_free_agents[i].columns), axis=1)
    df_hitters_no_free_agents[i] = df_hitters_no_free_agents[i].reindex(sorted(df_hitters_no_free_agents[i].columns), axis=1)
    df_pitchers_no_free_agents[i] = df_pitchers_no_free_agents[i].reindex(sorted(df_pitchers_no_free_agents[i].columns), axis=1)  
    
    # Drop 'Anio_y' columns:
    if 'Anio_x' in df_hitters_free_agents[i].columns:
        df_hitters_free_agents[i].drop('Anio_x', axis = 1, inplace = True)
    
    if 'Anio_x' in df_pitchers_free_agents[i].columns:
        df_pitchers_free_agents[i].drop('Anio_x', axis = 1, inplace = True)
        
    if 'Anio_y' in df_hitters_no_free_agents[i].columns:
        df_hitters_no_free_agents[i].drop('Anio_y', axis = 1, inplace = True)
        
    if 'Anio_y' in df_pitchers_no_free_agents[i].columns:
        df_pitchers_no_free_agents[i].drop('Anio_y', axis = 1, inplace = True)
        
    # Cambiando nombre de 'Anio_x':
    if 'Anio_y' in df_hitters_free_agents[i].columns:
        df_hitters_free_agents[i] = df_hitters_free_agents[i].rename(columns = {'Anio_y':'Anio'})
    
    if 'Anio_y' in df_pitchers_free_agents[i].columns:
        df_pitchers_free_agents[i] = df_pitchers_free_agents[i].rename(columns = {'Anio_y':'Anio'})
    
    if 'Anio_x' in df_hitters_no_free_agents[i].columns:
        df_hitters_no_free_agents[i] = df_hitters_no_free_agents[i].rename(columns = {'Anio_x':'Anio'})
    
    if 'Anio_x' in df_pitchers_no_free_agents[i].columns:
        df_pitchers_no_free_agents[i] = df_pitchers_no_free_agents[i].rename(columns = {'Anio_x':'Anio'})
    
    # Drop 'Anios_contrato' columns:
    if 'Anios_contrato' in df_hitters_free_agents[i].columns:
        df_hitters_free_agents[i].drop('Anios_contrato', axis = 1, inplace = True)
    
    if 'Anios_contrato' in df_pitchers_free_agents[i].columns:
        df_pitchers_free_agents[i].drop('Anios_contrato', axis = 1, inplace = True)
    
    # Transformación
    df_hitters_free_agents[i]['Anio'] = df_hitters_free_agents[i]['Anio'] + 2010
    df_hitters_free_agents[i]['Anio'] = df_hitters_free_agents[i]['Anio'].map(str)
    df_pitchers_free_agents[i]['Anio'] = df_pitchers_free_agents[i]['Anio'] + 2010
    df_pitchers_free_agents[i]['Anio'] = df_pitchers_free_agents[i]['Anio'].map(str)
    df_hitters_no_free_agents[i]['Anio'] = df_hitters_no_free_agents[i]['Anio'] + 2010
    df_hitters_no_free_agents[i]['Anio'] = df_hitters_no_free_agents[i]['Anio'].map(str)
    df_pitchers_no_free_agents[i]['Anio'] = df_pitchers_no_free_agents[i]['Anio'] + 2010
    df_pitchers_no_free_agents[i]['Anio'] = df_pitchers_no_free_agents[i]['Anio'].map(str)
    
    # Exportemos los dataframes por separado
    df_hitters_free_agents[i].to_csv('ETL_Data/Agent/First_Year_Contract/Period_t/Free_Agent/Hitters/free_agents_batters_' + str(2011 + i) + '.csv', index = False)
    df_pitchers_free_agents[i].to_csv('ETL_Data/Agent/First_Year_Contract/Period_t/Free_Agent/Pitchers/free_agents_pitchers_' + str(2011 + i) + '.csv', index = False)
    df_hitters_no_free_agents[i].to_csv('ETL_Data/Agent/First_Year_Contract/Period_t/No_Free_Agent/Hitters/no_free_agents_batters_' + str(2011 + i) + '.csv', index = False)
    df_pitchers_no_free_agents[i].to_csv('ETL_Data/Agent/First_Year_Contract/Period_t/No_Free_Agent/Pitchers/no_free_agents_pitchers_' + str(2011 + i) + '.csv', index = False)

In [None]:
# Algunos ejemplos
df_pitchers_no_free_agents[6].head()

In [None]:
df_hitters_no_free_agents[0].head()

In [None]:
df_pitchers_free_agents[9].head()

In [None]:
df_hitters_free_agents[8].head()

### Etiquetas para los agentes libres

Crearemos un etiqueta para indicar si el pitcher o hitter es  un agente libre o no.

In [None]:
for i in range(0,period):
    # Condiciones
    condicion_hitter = [df_hitters[i].Jugador.isin(df_hitters_free_agents[i].Jugador)]
    condicion_pitcher = [df_pitchers[i].Jugador.isin(df_pitchers_free_agents[i].Jugador)]
    
    # Etiquetas
    etiquetas = ['Si']
    
    df_hitters[i]['Agente libre'] = np.select(condicion_hitter, etiquetas, default = 'No')
    df_pitchers[i]['Agente libre'] = np.select(condicion_pitcher, etiquetas, default = 'No')
    
    df_hitters[i] = df_hitters[i].reindex(sorted(df_hitters[i].columns), axis=1)
    df_pitchers[i] = df_pitchers[i].reindex(sorted(df_pitchers[i].columns), axis=1)
    
    
    # Transformación
    df_hitters[i]['Anio'] = df_hitters[i]['Anio'] + 2010
    df_hitters[i]['Anio'] = df_hitters[i]['Anio'].map(str)
    df_pitchers[i]['Anio'] = df_pitchers[i]['Anio'] + 2010
    df_pitchers[i]['Anio'] = df_pitchers[i]['Anio'].map(str)
    
    # Exportemos los dataframes
    df_hitters[i].to_csv('ETL_Data/Agent/First_Year_Contract/Period_t/Hitters/All_Hitters/hitters_' + str(2011 + i) + '.csv', index = False)
    df_pitchers[i].to_csv('ETL_Data/Agent/First_Year_Contract/Period_t/Pitchers/All_Pitchers/pitchers_' + str(2011 + i) + '.csv', index = False)

In [None]:
df_hitters[10].head()

In [None]:
df_pitchers[9].head()

In [None]:
df_hitters[0].describe()

In [None]:
df_pitchers[0].describe()