## Generalización del código

Se aplicarán tres loops para obtener los distintos datasets por equipos, años y el otro parámetro extra. Sin embargo, esto solo por página, por lo que se tendrá que repetir el loop para distintas páginas. Se planea usar beatifulsoup, pandas y globals para usar dataframe con variable dinámicas.

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

Las páginas para los equipos dentro de la pagina funcionan con un prefijo de hipervínculo dado por ```'https://www.spotrac.com/mlb/'``` + ```nombre-del-equipo``` + ```tipo-de-nómina``` + ```año``` (si es el año actual, no se indica el año). Con esto en mente, podemos crear un busqueda generalizada para el apartado de tablas de cada equipo. Por otro lado, para el algorítmo se toma en cuenta que en el año actual no se encuentra la tabla _Injured list_ que contiene la lista de los jugadores del equipo que se lastimaron a lo largo de dicho año.

Creemos las listas necesarias para esto:

In [2]:
# Texto base
mlb = 'https://www.spotrac.com/mlb/'

In [3]:
# lista de equipos:
teams = ['arizona-diamondbacks',
         'atlanta-braves',
         'baltimore-orioles',
         'boston-red-sox',
         'chicago-cubs',
         'chicago-white-sox',
         'cincinnati-reds',
         'cleveland-guardians',
         'colorado-rockies',
         'detroit-tigers',
         'houston-astros',
         'kansas-city-royals',
         'los-angeles-angels',
         'los-angeles-dodgers',
         'miami-marlins',
         'milwaukee-brewers',
         'minnesota-twins',
         'new-york-mets',
         'new-york-yankees',
         'oakland-athletics',
         'philadelphia-phillies',
         'pittsburgh-pirates',
         'san-diego-padres',
         'san-francisco-giants',
         'seattle-mariners',
         'st-louis-cardinals',
         'tampa-bay-rays',
         'texas-rangers',
         'toronto-blue-jays',
         'washington-nationals'
        ]

In [4]:
# lista de años
years_aux = list(range(2012,2023))
print(years_aux)

[2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]


In [7]:
years = years_aux
for i in range(len(years_aux)-1):
    years[i] = str(years_aux[i])
print(years)

['2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021', 2022]


In [28]:
kind = ['payroll','cash']

Puesto que es más eficiente guardar todo en listas dentro de listas para este caso, crearemos primero una lista del tamaño de _teams_. Esto para localizar las tablas de acuerdo al equipo.

In [54]:
main_list = [None]*len(teams)
print(len(main_list))

30


Veamos de manera ilustrativa cómo funcionará el algoritmo 

In [31]:
url_ejemplo = mlb + teams[3] + '/' + years[8] + '/' + kind[0] + '/'
page = requests.get(url_ejemplo)
page

<Response [200]>

Como se puede apreciar, la técnica funciona. 

Ahora, se creará una función para el año actual y otra para los años posteriores para poder extraer los datos. Esto se debe a que las bases de datos de los años anteriores son distintas a las del año en curso.

Primero, creemos una función que genere los dataframes url por url. Luego, se podrá usar un bucle y la función ```globals[]()``` para obtener de todos los equipos, años y tipo de nómina.

In [61]:
for i in range(len(teams)-1):
    url = mlb + teams[i] + '/' + kind[0] + '/'
    page = requests.get(url)
    print(page)
    
    soup = BeautifulSoup(page.text, 'lxml')
    
    table = soup.find_all("table", class_= "datatable rtable")
    print(len(table))
    payroll = soup.find("table", class_= "datatable captotal rtable rtable-notsticky")
    print(len(payroll))
    balance = soup.find("table", class_= "datatable captotal")
    print(len(balance))
    
    list_aux_main = [None]*3
    list_aux_sub = [None]*(len(table))

    for j in range(len(table)-1):
        list_aux_sub[j] = table[j]

    list_aux_main[0] = list_aux_sub
    list_aux_main[1] = payroll
    list_aux_main[2] = balance
    
    main_list[i] = list_aux_main

<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
5
5
5
<Response [200]>
5
5
5
<Response [200]>
4
5
5
<Response [200]>
3
5
5
<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
5
5
5
<Response [200]>
3
5
5
<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
3
5
5
<Response [200]>
3
5
5
<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
3
5
5
<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
5
5
5
<Response [200]>
3
5
5
<Response [200]>
4
5
5
<Response [200]>
4
5
5
<Response [200]>
2
5
5
<Response [200]>
3
5
5
<Response [200]>
4
5
5
<Response [200]>
3
5
5


## Consulta

Características _Premium_: https://www.spotrac.com/register/

### Términos:
Arbitration - https://www.sportingnews.com/us/mlb/news/what-is-arbitration-mlb-what-does-it-mean-baseball-eligibility-process/1atg6pycmf69o1x5yy2v31o03w

### Posibles bases de datos:
- MLB Free Agents 2020: https://www.spotrac.com/mlb/free-agents/2020/
- MLB Contracts Active All - Start Years: https://www.spotrac.com/mlb/contracts/sort-value/limit-2000/
- MLB Contracts All Times - Start Years: https://www.spotrac.com/mlb/contracts/sort-value/all-time/limit-2000/
- MLB Salary RAnkings 2021: https://www.spotrac.com/mlb/rankings/2021/contract-value/
- MLB Base Salary 2022: https://www.spotrac.com/mlb/rankings/base//