# ETL DE UNA BASE DE ESTADÍSTICAS DEPORTIVAS DE BASEBALL

## INTRODUCCIÓN

La Extracción, Transformación, y Carga (Extraction, Transform, Load - ETL) es un proceso fundamental en Ciencia de Datos para la obtención y organización de información. Esta se compone de tres fases sucesivas que se desarrollan de diversas maneras a lo largo del presente proyecto:

    1. Extracción mediante Web Scraping y APIs.
    2. Transformación mediante diferentes librerías de Pandas y Numpy.
    3. Carga a Airtable.
    
Entre las principales competencias de cualquier Científico o Analista de Datos, se encuentra la comunicación efectiva. Es por ello que en este trabajo también se incluyen apartados de análisis de la información y su visualización.

## OBJETIVOS DEL ESTUDIO

Los objetivos del presente proyecto de carácter didáctico son:
    
   1. Ejecutar la extracción y transformación de datos mediante Web Scrapping y APIS.
   
   2. Realizar la subida efectiva de esta información a AIRTABLE, como herramienta de   trabajo en nube.
   
   3. Representar visualmente la información extraída de manera efectiva.
   
   4. Comprender principales aspectos de relevancia e Insights de la información exrtaída.
   
    

# 0. PASOS PREVIOS

## 0. 1 Librerías

In [1]:
%time
import requests
from pprint import pprint
import numpy as np
import pandas as pd
from time import sleep
import json
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
import matplotlib.pyplot as plt
import seaborn as sns
import folium
import cufflinks as cf
from IPython.display import display,HTML
import plotly.express as px
import re
from datetime import datetime


CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 2.86 µs


## 0. 2 Funciones

## 1. EXTRACCIÓN DE LA INFORMACIÓN

## 1.1 API RapidaApi Baseball

### 1.1.1 Extracción equipos

In [2]:

url = "https://api-baseball.p.rapidapi.com/teams"

querystring = {"league":"1","season":"2020"}

headers = {
    "X-RapidAPI-Key": "f31944184emsh76b64704e55403ap1dfef8jsn43e6257490ad",
    "X-RapidAPI-Host": "api-baseball.p.rapidapi.com"
}

response = requests.get(url, headers=headers, params=querystring)

pprint(response.json())



{'errors': [],
 'get': 'teams',
 'parameters': {'league': '1', 'season': '2020'},
 'response': [{'country': {'code': 'US',
                           'flag': 'https://media-2.api-sports.io/flags/us.svg',
                           'id': 1,
                           'name': 'USA'},
               'id': 2,
               'logo': 'https://media-2.api-sports.io/baseball/teams/2.png',
               'name': 'Arizona Diamondbacks',
               'national': False},
              {'country': {'code': 'US',
                           'flag': 'https://media-3.api-sports.io/flags/us.svg',
                           'id': 1,
                           'name': 'USA'},
               'id': 3,
               'logo': 'https://media-2.api-sports.io/baseball/teams/3.png',
               'name': 'Atlanta Braves',
               'national': False},
              {'country': {'code': 'US',
                           'flag': 'https://media-3.api-sports.io/flags/us.svg',
                           'id': 1

In [3]:
equipos = response.json()

In [4]:
equipos2 = equipos["response"]

In [5]:

equipos_list = list()

for i in equipos2:

    id = i["id"]
    name = i["name"]
    logo = i["logo"]
    country = i["country"]["name"]
    
    equipos_list.append([id, name, logo, country])

equipos_df= pd.DataFrame(data = equipos_list, columns = ["id","name","logo","country"])

Tras revisar la tabla, se detectan varios equipos que no pertenecen a la categoría, por lo que se procede a su eliminación. Esta acción entraría dentro del apartado de Transform, pero dado que se necesita la lista de equipos para obtener las estadísitcas, se procede a eliminarlos.

In [6]:
equipos_df.drop([4,21,17,28], axis=0, inplace= True)

Para la extracciónd de las estadísticas de los equipos,  obtenemos los códigos de dodos ellos, ya que serán necesarios para iterar en el suguiente apartado.

In [7]:
lista_equipos = equipos_df["id"].unique()
lista_equipos_def = lista_equipos.tolist()

In [8]:
lista_equipos_def

[2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 12,
 15,
 16,
 17,
 18,
 19,
 20,
 22,
 24,
 25,
 26,
 27,
 28,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37]

### 1.1.2 Estadísticas de los equipos

Para esta segunda extracción, se aplica un método idéntico al anterior, pero acudiendo a otro API:

En "querystring" seleccionamos los parámetros elegidos para la consulta. Se realizara una consulta para cada una de las temporadas estudiadas y para cada uno de los equipos.

In [9]:
lista_equipos_def

[2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 12,
 15,
 16,
 17,
 18,
 19,
 20,
 22,
 24,
 25,
 26,
 27,
 28,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37]

In [None]:
lista_ori = list()

for i in lista_equipos_def:    
    url2 = "https://api-baseball.p.rapidapi.com/teams/statistics"

    querystring = {"league":"1","season":"2022","team": i}

    headers = {
        "X-RapidAPI-Key": "3db6ee68d3mshf8c01e71a32be6ep1f9631jsndcfefb964947",
        "X-RapidAPI-Host": "api-baseball.p.rapidapi.com"
    }

    response2 = requests.get(url2, headers=headers, params=querystring)
    stats_pre = response2.json()
    stats =  stats_pre["response"]
    lista_ori.append(stats)
    sleep(10)

pprint(lista_ori)

COn la informaciónd de cada equipo, se procede a su transformación en un único DataFrame:

In [None]:
pre_df_stats = list()
for i in range(0,len(lista_ori)):
    codigo = lista_ori[i]["team"]["id"]
    equipo = lista_ori[i]["team"]["name"]
    jugados = lista_ori[i]["games"]["played"]["all"]
    ganados = lista_ori[i]["games"]["wins"]["all"]["total"]
    perdidos = lista_ori[i]["games"]["loses"]["all"]["total"]
    puntos_contra = lista_ori[i]["points"]["against"]["total"]["all"]
    puntos_contra_casa = lista_ori[i]["points"]["against"]["total"]["home"]
    puntos_contra_visit = lista_ori[i]["points"]["against"]["total"]["away"]
    puntos_favor = lista_ori[i]["points"]["for"]["total"]["all"]
    puntos_favor_casa = lista_ori[i]["points"]["for"]["total"]["home"]
    puntos_favor_visit = lista_ori[i]["points"]["for"]["total"]["away"]
    
    pre_df_stats.append([codigo,equipo,jugados,ganados,perdidos,puntos_contra,puntos_contra_casa,
                         puntos_contra_visit,puntos_favor,puntos_favor_casa,puntos_favor_visit])
    
       
stats_df = pd.DataFrame(data = pre_df_stats, columns = ["codigo","equipo","jugados","ganados","perdidos",
                                                       "puntos_contra","puntos_contra_casa",
                                                       "puntos_contra_visit","puntos_favor",
                                                       "puntos_favor_casa","puntos_favor_visit"])


    

## 1.2 Web Scraping

### 1.2.1 Información de los jugadores

En primer lugar se obtienen las webs de las que se realiza la extracción de  información. Se consideran los 130 mejores jugadores en la temporada regular 2022.

In [None]:
urls_paginas=[]
for i in range(1,8):
    string_url = f"https://www.mlb.com/es/stats/2022?page={i}"
    urls_paginas.append(string_url)
print(urls_paginas)

El siguiente código genera una lista con los datos de los jugadores.

In [None]:
Nombre_Apellido=[]
lista_ref=[]
lista_link_player=[]
for url in (urls_paginas):          
               
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")
                
        for bs in soup.find_all("span", class_="full-3fV3c9pF"):
            Nombre_Apellido.append(bs.text)      
            
        for bs in soup.find_all("div", class_="top-wrapper-1NLTqKbE"):            
            ref=bs.find(class_="bui-link")["href"].split("/")[-1]
            lista_ref.append(ref)
            
            url_jugador= f"https://www.mlb.com/es/player/{ref}"
            lista_link_player.append(url_jugador)
            #print(url_jugador)
len(lista_link_player)
Nombre=[Nombre_Apellido[x]for x in range(0,len(Nombre_Apellido),2)]
Apellido=[Nombre_Apellido[x]for x in range(1,len(Nombre_Apellido),2)]

El siguiente código prepara los datos para el Data Frame definitivo.

In [None]:
Team=[]
Number=[]
Posicion=[]
Edad=[]
Fecha_nac=[]
Lugar_nac=[]
Fecha_Debut=[]
Peso=[]
Estatura=[]
Mano_Bateo=[]
Mano_Lanzar=[]


c=0
for jugador in (lista_link_player):
    
    print(f"Faltan {len(lista_link_player)- c } jugadores")
    print(jugador)    
    c+=1
    
    response = requests.get(jugador)
    soup = BeautifulSoup(response.text, "html.parser")
    sleep(0.04)
        
    #EQUIPO###########
    equipo=soup.find("img").get("alt")    
    Team.append(equipo)
    sleep(0.02)
    
    #DORSAL###########
    numero=soup.find("span", class_="player-header--vitals-number").text.replace("#", "")
    Number.append(numero)
    sleep(0.02)
    
    #POSICION##########
    posicion=soup.find("ul").text.strip().split()[0]
    Posicion.append(posicion)
    sleep(0.01)
    
    #FECHA NAC,EDAD, FECHA DEBUT
    datos=soup.find_all("ul")[1].text.split("\n")
    for i, j in enumerate(datos):
        if j.startswith("Nacido:"):
            nacido=(j.split(":")[1])
            Fecha_nac.append(nacido[1:])
            
            
            Lugar_nac.append(datos[i+1].split(",")[-1])
            
        if j.startswith("Debut"):
            debut=(j.split(":")[1])
            Fecha_Debut.append(debut)     
       
    #PESO###########
    peso=soup.find("ul").text.strip().split()[-3].split("/")[1]
    Peso.append(peso)
    sleep(0.2)
    
    
    #ESTATURA
    a=float(soup.find("ul").text.strip().split()[3].split("'")[0])* 0.3048
    b=float(soup.find("ul").text.strip().split()[4][0])*0.0254
    estatura=round((a+b),2)
    Estatura.append(estatura)
    sleep(0.2)
    
    #MANO DE BATEO
    mano_bateo=soup.find("ul").text.strip().split()[2][0]
    Mano_Bateo.append(mano_bateo)
    sleep(0.2)
    
    #MANO DE LANZAR
    mano_lanzar=soup.find("ul").text.strip().split()[2][-1]
    Mano_Lanzar.append(mano_lanzar)
    sleep(0.2)
    

for i in Fecha_nac:
    edad=(datetime.now() - datetime.strptime(i, "%m/%d/%Y")).days // 365
    Edad.append(edad)


Ahora creamos el DF definitvo de los jugadores.

In [None]:
df_idplayers=pd.DataFrame()

df_idplayers["id"]=lista_ref
df_idplayers["Nombre"]=Nombre
df_idplayers["Apellido"]=Apellido
df_idplayers["Posicion"]=Posicion
df_idplayers["Dorsal"]=Number
df_idplayers["Equipo"]=Team
df_idplayers["Fecha Nac"]=Fecha_nac
df_idplayers["Edad"]=Edad
df_idplayers["Lugar_Nacimiento"]=Lugar_nac
df_idplayers["F_Debut"]=Fecha_Debut
df_idplayers["Peso"]=Peso
df_idplayers["Estatura(mtrs)"]=Estatura
df_idplayers["Mano_Bateo"]=Mano_Bateo
df_idplayers["Mano_Lanzar"]=Mano_Lanzar
df_idplayers["Link_Ficha_Player"]=lista_link_player

### 1.2.2 Stats de los Jugadores

In [None]:
urls_paginas=[]
for i in range(1,8):
    string_url = f"https://www.mlb.com/es/stats/2022?page={i}"
    urls_paginas.append(string_url)
print(urls_paginas)

In [None]:
Nombre_Apellido=[]
lista_ref=[]
lista_link_player=[]
EQUIPO=[]
J=[]
TB=[]
C=[]
H=[]
DOBLE=[]
TRIPLE=[]
HR=[]
CI=[]
BB=[]
P=[]
BR=[]
AR=[]
PRO=[]
OBP=[]
SLG=[]

for url in (urls_paginas):          
               
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")
        
        print(url)
        
        ########NOMBRE Y APELLIDO
        for bs in soup.find_all("span", class_="full-3fV3c9pF"):
            Nombre_Apellido.append(bs.text)      
        ############ ID   
        for bs in soup.find_all("div", class_="top-wrapper-1NLTqKbE"):            
            ref=bs.find(class_="bui-link")["href"].split("/")[-1]
            lista_ref.append(ref)
        ######URL JUGADOR    
            url_jugador= f"https://www.mlb.com/es/player/{ref}"
            lista_link_player.append(url_jugador)
        ###### EQUIPO
        for bs in soup.find_all(class_="col-group-end-2UJpJVwW number-aY5arzrB align-left-3L2SU-Mk is-table-pinned-1WfPW2jT"):
            EQUIPO.append(bs.text)
            
        #### J,C,BB,BR,PRO    
        a=soup.find_all("td",class_="col-group-start-sa9unvY0 number-aY5arzrB align-right-3nN_D3xs is-table-pinned-1WfPW2jT")
        for x in range(0, len(a),5):
            J.append(a[x:x+5][0].text)
            C.append(a[x:x+5][1].text)
            BB.append(a[x:x+5][2].text)
            BR.append(a[x:x+5][3].text)
            PRO.append(a[x:x+5][4].text)
            
        ######## TB, CI, P, AR   
        b=soup.find_all(class_="col-group-end-2UJpJVwW number-aY5arzrB align-right-3nN_D3xs is-table-pinned-1WfPW2jT")
        for x in range(0, len(b),4):
            TB.append(b[x:x+4][0].text)
            CI.append(b[x:x+4][1].text)
            P.append(b[x:x+4][2].text)
            AR.append(b[x:x+4][3].text)
        
        ######## H, DOBLE, TRIPLE, HR, OBP, SLG
        c=soup.find_all(class_="number-aY5arzrB align-right-3nN_D3xs is-table-pinned-1WfPW2jT")
        for x in range(0, len(c),6):
            H.append(c[x:x+6][0].text)
            DOBLE.append(c[x:x+6][1].text)
            TRIPLE.append(c[x:x+6][2].text)
            HR.append(c[x:x+6][3].text)
            OBP.append(c[x:x+6][4].text)
            SLG.append(c[x:x+6][5].text)          
            
            
            
            
len(lista_link_player)
Nombre=[Nombre_Apellido[x]for x in range(0,len(Nombre_Apellido),2)]
Apellido=[Nombre_Apellido[x]for x in range(1,len(Nombre_Apellido),2)]
            

In [None]:
df_player_stat=pd.DataFrame()

df_player_stat["id"]=lista_ref
df_player_stat["Nombre"]=Nombre
df_player_stat["Apellido"]=Apellido
df_player_stat["Team"]=EQUIPO
df_player_stat["Juegos_Jugados"]=J
df_player_stat["Turnos_Bate"]=TB
df_player_stat["Carrera"]=C
df_player_stat["Hits"]=H
df_player_stat["Dobles"]=DOBLE
df_player_stat["Triple"]=TRIPLE
df_player_stat["Jonrones"]=HR
df_player_stat["Carreras_Impulsadas"]=CI
df_player_stat["Boletos"]=BB
df_player_stat["Ponches"]=P
df_player_stat["Bases_Robadas"]=BR
df_player_stat["Atrapado_Robando"]=AR
df_player_stat["Promedio"]=PRO
df_player_stat["%_On_Base"]=OBP
df_player_stat["Slugging"]=SLG

### 1.2.3 Información de los Salarios

In [None]:
url = "https://www.spotrac.com/mlb/boston-red-sox/payroll/2022/"

In [None]:
response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

In [None]:
response

In [None]:
nombre = soup.find('td', class_='player')
nombre.find("a").text


In [None]:
salario = soup.find('td', class_='right')
salario.text

In [None]:
equipos_mlb = ["arizona-diamondbacks", "atlanta-braves", "baltimore-orioles", "boston-red-sox", "chicago-cubs", "chicago-white-sox", "cincinnati-reds", "cleveland-guardians", "colorado-rockies", "detroit-tigers", "houston-astros", "kansas-city-royals", "los-angeles-angels", "los-angeles-dodgers", "miami-marlins", "milwaukee-brewers", "minnesota-twins", "new-york-yankees", "new-york-mets", "oakland-athletics", "philadelphia-phillies", "pittsburgh-pirates", "san-diego-padres", "san-francisco-giants", "seattle-mariners", "st-louis-cardinals", "tampa-bay-rays", "texas-rangers", "toronto-blue-jays", "washington-nationals"]


In [None]:
urls_equipos= []
for x in equipos_mlb :
    urls_equipos.append(f"https://www.spotrac.com/mlb/{x}/payroll/2022/")
    
urls_equipos

In [None]:
url= "https://www.spotrac.com/mlb/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
season= 2022
team_bs=soup.find_all("a", class_="team-name")
team_webs=[team_bs[x]["href"] + f"{season}/" for x in range(len(team_bs))]
team_webs

In [None]:
for i in team_webs:
    response = requests.get(i)
    soup = BeautifulSoup(response.text, "html.parser")
    
    
    break

In [None]:
len([x.text for x in soup.find_all("td", class_ = "right")][:28*5])

In [None]:
[x for x in soup.find_all("span", class_ ="cap")]

In [None]:
lst_nombres = []
lst_salarios = []
lst_edades = []
lst_equipos = []
lst_posiciones = []
lst_payrolls = []

for i in urls_equipos:
    response = requests.get(i)
    soup = BeautifulSoup(response.text, "html.parser")
    
    for x in [x.find("a") for x in soup.find_all("td",class_ ="player")][:28]:
        if x != None:
            lst_nombres.append(x.text)
            lst_equipos.append(i.split("/")[-4].replace("-"," ").title())
        else:
            break 
    

#     for j in soup.find("td", class_ = "right"):

    salarios = np.array([x.text[1:] for x in soup.find_all("td", class_ = "right")][:28*5]).reshape(28, 5)
    
    for s in salarios:
        lst_salarios.append(s)

#     for m in soup.find("span", class_ ="cap"):
#         lst_edades.append(m.text)

    lst_posiciones.extend([x.text for x in soup.find_all("span", class_ = "cap")[1::8]][:28])
    
    lst_payrolls.extend([x.text for x in soup.find_all("td", class_ = "center")][3::5][:28])

In [None]:
df_salarios =pd.DataFrame(lst_salarios,
                          columns = ["Salario base", "Signing Bonus", "Incentives", "Payroll salary ", "ADJ Salary"])

df_salarios["Nombre"]   = lst_nombres 
df_salarios["Equipo"]   = lst_equipos
df_salarios["Posicion"] = lst_posiciones
df_salarios["Payroll"]  = lst_payrolls

# df_salarios["Edad"] = lst_edades
# df_salarios["Sueldo"] = lst_salarios


In [None]:
df_salarios = df_salarios[["Nombre", "Equipo", "Posicion", "Salario base", "Signing Bonus", "Incentives", "Payroll salary ", "ADJ Salary", "Payroll"]]


### 1.2.4 Información de los Estadios

In [None]:
url = "https://es.wikipedia.org/wiki/Anexo:Estadios_de_B%C3%A9isbol_de_las_Grandes_Ligas"

response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

equipos =soup.find("div",class_ = "mw-parser-output")

estadios = []

for i in range(2,240,8):   #hacemos salto de 8 para saltar info sobrante
    estadios.append(equipos.find_all("td")[i].text)

capacidad = []   

for i in range(3,240,8):
    capacidad.append(equipos.find_all("td")[i].text)
    
enlaces = []
 
for i in range(2,240,8):  
    enlaces.append(equipos.find_all("td")[i].find("a")["href"])

urls_estadios= []
for x in enlaces:
    urls_estadios.append(f"https://es.wikipedia.org/{x}")
    

url = "https://es.wikipedia.org/wiki/Dodger_Stadium"

response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

soup.find("span",class_ ="latitude").text
soup.find("span",class_ ="longitude").text


lst_latitud = []
lst_longitud = []

for i in urls_estadios:
    response = requests.get(i)
    soup = BeautifulSoup(response.text, "html.parser")
    
    for x in soup.find("span",class_ ="latitude"):
        lst_latitud.append(x.text)
        
    for j in soup.find("span",class_ ="longitude"):
        lst_longitud.append(j.text)
              

def convertir_a_decimal(coordenada):
    grados, minutos, segundos = map(float, re.findall(r'\d+', coordenada))
    decimal = grados + minutos/60 + segundos/3600
    return decimal

latitudes = []

for latitud in lst_latitud:
    decimal_latitud = convertir_a_decimal(latitud)
    latitudes.append(decimal_latitud)
latitudes_float = [float(latitud) for latitud in latitudes]
               
longitudes_decimales = []

for longitud in lst_longitud:
    decimal_longitud = convertir_a_decimal(longitud)
    longitudes_decimales.append(decimal_longitud)
longitudes_float = [float(latitud) for latitud in longitudes_decimales]
    
longitudes = [-x for x in longitudes_decimales]   


df_estadios=pd.DataFrame()

df_estadios["Nombre"]= estadios
df_estadios["Capacidad"]= capacidad
df_estadios["Latitud"]= latitudes
df_estadios["Longitud"]= longitudes
df_estadios["Enlace"]= urls_estadios


# 2. Transformación de los Datos.

Como paso previo, y a fin de revisar la calidad de dato en otro formato, exportamos los DF a excel para una primera revisión.

In [None]:
equipos_df.to_excel("equipos_excel.xlsx", index = False)

In [None]:
stats_df.to_excel("stats_excel.xlsx", index = False)

In [None]:
df_idplayers.to_excel("idplayers_excel.xlsx", index = False)

In [None]:
df_player_stat.to_excel("df_player_stat.xlsx", index = False)

In [None]:
df_estadios.to_excel("estadios_excel.xlsx", index = False)

In [None]:
df_salarios.to_excel("salarios_excel.xlsx", index = False)

Como primer paso,  configuramos el código del equipo como index para relacionar con facilidad los diferentes Data Frames extraídos, consultando tanto la coherencia de los datos como su estructura.

## 2.1 Detección de nulos y duplicados

### 2.1.1 Equipos

In [None]:
equipos_df.isnull().sum()

In [None]:
equipos_df.duplicated().sum()

In [None]:
stats_df.isnull().sum()

In [None]:
stats_df.duplicated().sum()

### 2.1.2 Jugadores

In [None]:
df_idplayers.isnull().sum()

In [None]:
df_idplayers.duplicated().sum()

In [None]:
df_player_stat.isnull().sum()

In [None]:
df_player_stat.duplicated().sum()

### 2.1.3 Estadios

In [None]:
df_estadios.isnull().sum()

In [None]:
df_estadios.isnull().sum()

### 2.1.4 Salarios

In [None]:
df_salarios.isnull().sum()

In [None]:
df_salarios.isnull().sum()

## 2.2 Creación de nuevos DataFrames Consolidados y Variables

Se crea un único Data Frame para los equipos y jugadores.

### 2.2.1 Data Frame Equipos




Renombramos la columna de stats_def como id para tener un punto de unión entre ambos Data Frames:


In [None]:
stats_df.rename(columns={"codigo":"id"}, inplace=True)

In [None]:
df_equipos_def = pd.merge(left = equipos_df, right = stats_df, on = "id", how = "outer")

In [None]:
df_equipos_def.set_index("id", inplace = True)

A continuación procedemos a eliminar columnas inncesarias o repetidas:

In [None]:
df_equipos_def.drop(columns = ["name", "logo"], inplace = True)

#### Creación de nuevas variables  

En este frame vamos a crear dos nuevas columnas: % puntos favor casa y  puntos favor visitante. Para ello tenemos que comprobar que los datos sobre los que se realiza la operación son de tipo numérico.


In [None]:
df_equipos_def.info()

Comprobado que se trata de números enteros, se procede a generar las columnas:

In [None]:
df_equipos_def["% puntos casa"] = (df_equipos_def["puntos_favor_casa"]/
                                 (df_equipos_def["puntos_favor_casa"]+
                                df_equipos_def["puntos_favor_visit"]))*100

df_equipos_def["% contra casa"] = (df_equipos_def["puntos_contra_casa"]/
                                 (df_equipos_def["puntos_contra_casa"]+
                                df_equipos_def["puntos_contra_visit"]))*100
                                  

Como último paso, redondeamos las columnas nuevas a dos decimales:

In [None]:
df_equipos_def = df_equipos_def.round({"% puntos casa" :2, "% contra casa" : 2})

### 2.2.2 Jugadores

In [None]:
    df_fullplayer_stat=pd.merge(left = df_idplayers, right = df_player_stat, on='id', how = "outer")

Eliminamos las columnas repetidas.

In [None]:
df_fullplayer_stat.drop(columns=[col for col in df_fullplayer_stat.columns if col.endswith('_2')], inplace=True)

In [None]:
df_fullplayer_stat.info()

#### Creación de nuevas variables 

#### OPS – Promedio de Embasado(OBP) + Slugging 
(agrega porcentaje de embasado y porcentaje de slugging )
para obtener un número que une a los dos. Su objetivo es combinar lo bien que un bateador 
puede llegar a la base, con lo bien que puede batear para promedio y poder.

In [None]:
#Creamos la columna
df_fullplayer_stat["OPS"]=df_fullplayer_stat["%_On_Base"]+df_fullplayer_stat["Slugging"]

In [None]:
#Convertir la fecha de nacimiento y la fecha debut en datetime
df_fullplayer_stat['Fecha Nac'] = pd.to_datetime(df_fullplayer_stat['Fecha Nac'])
df_fullplayer_stat['F_Debut'] = pd.to_datetime(df_fullplayer_stat['F_Debut'])

In [None]:
#Eliminar la columna equipo que se repite
df_fullplayer_stat.drop(columns=["Equipo"], inplace=True)

In [None]:
lugar=df_fullplayer_stat["Lugar_Nacimiento"]
pais=[]
for i in lugar:
    if len(i)== 3:
        a="USA"
        pais.append(a)
    else:
        pais.append(i[1:])

In [None]:
#agrega la cloumna Pais al df
df_fullplayer_stat["Pais"]=pais

In [None]:
df_fullplayer_stat.sample(1)

In [None]:
column_order =['id','Dorsal', 'Nombre_x', 'Apellido_x','Team', 'Posicion', 'OPS','%_On_Base','Slugging',
               'Fecha Nac','Edad','F_Debut', 'Lugar_Nacimiento',"Pais",'Peso', 'Estatura(mtrs)',
               'Mano_Bateo', 'Mano_Lanzar',  'Juegos_Jugados', 'Turnos_Bate', 'Carrera',
               'Hits', 'Dobles', 'Triple', 'Jonrones', 'Carreras_Impulsadas', 'Boletos', 
               'Ponches', 'Bases_Robadas', 'Atrapado_Robando', 'Promedio',
               'Link_Ficha_Player']
df_fullplayer_stat = df_fullplayer_stat[column_order]

In [None]:
df_fullplayer_stat["Estatura(mtrs)"] = df_fullplayer_stat["Estatura(mtrs)"].astype(float)


In [None]:
df_fullplayer_stat.sample(1)

In [None]:
# df_fullplayer_stat["IMC"]= df_fullplayer_stat.apply(lambda x: x['Peso'] / (x['Estatura(mtrs)'] ** 2), axis=1)

# 3. Carga a Airtable

Unicamente se detallará la subida del DF de Estadios, ya que el proceso es idéntico para cada archivo.

## 3.1 Estadios

En airtable creamos la tabla y obtenemos la información para el acceso. Base ID y Table ID se obtienen de la URL de tabla. Se crea una columna tipo texto largo para evitar incompatibilidades con la subida.

Cabe reseñar que todas las tablas tienen tres registros vacíos que de no eliminarse, permanecerán vacíos tras la subida.

Primero introducimos las credenciales de la cuenta y la tabla:

In [None]:
API_KEY = "keyRc6JmNDvpMS5Lj" # Usuario

BASE_ID = "appAaKrYAjedDeg00" # Base: Tabla API

TABLE_ID = "tblQkgdfaTTkg5em5" # Tabla: datos_1

airtable_base_url = "https://api.airtable.com/v0"

Ahora comprobamos las creadenciales, creando headers, como "llave" de acceso.

In [None]:
headers = {"Authorization" : f"Bearer {API_KEY}",
           "Content-Type"  : "application/json"}

print(headers)

Definimos el edpoint

In [None]:
endpoint = f"{airtable_base_url}/{BASE_ID}/{TABLE_ID}"

print(endpoint)

Como precaución, pasamos a string la información, y eliminaos los espacios de las columnas, evitando futuras incompatibilidades relacionadas.

In [None]:
df_estadios_subir =df_estadios[df_estadios.columns].astype(str)

In [None]:
df_estadios_subir2 = [x.strip() for x in df_estadios_subir.columns]

In [None]:
df_estadios_subir = df_estadios_subir[df_estadios_subir2]

Ahora generamos el bucle que con la información contenida en el DataFrame, generará la estructura requerida por AIRTABLE

In [None]:
datos_estadios_json = [{"fields": df_estadios_subir.iloc[i, : ].to_dict()} for i in range(df_estadios_subir.shape[0])]

Comprobamos que el archivo está correctamente estructurado.

In [None]:
pprint(datos_estadios_json)

Subimos el archivo a AIRTABLE de 10 en 10 registros, y lo comprobamos visualmente.

In [None]:
for i in range(0, df_estadios_subir.shape[0], 10):
    
    data = {"records" : datos_estadios_json[i : i + 10]}
    
    response = requests.post(url = endpoint, json = data, headers = headers) # POST
    
    sleep(0.5)

![Imagen%2031-5-23%20a%20las%2011.25.jpeg](attachment:Imagen%2031-5-23%20a%20las%2011.25.jpeg)

## 3.2 Equipos

In [None]:
API_KEY2 = "keyRc6JmNDvpMS5Lj" # Usuario

BASE_ID2 = "app8fJkC5OZGBm8GX" # Base: Tabla API

TABLE_ID2 = "tblCiPoIHRWhwTQEc" # Tabla: datos_1

airtable_base_url2 = "https://api.airtable.com/v0"

In [None]:
headers2 = {"Authorization" : f"Bearer {API_KEY2}",
           "Content-Type"  : "application/json"}

print(headers2)

In [None]:
endpoint2 = f"{airtable_base_url2}/{BASE_ID2}/{TABLE_ID2}"

print(endpoint2)

In [None]:
df_equipos_subir =df_equipos_def[df_equipos_def.columns].astype(str)

In [None]:
df_equipos_subir2 = [x.strip() for x in df_equipos_subir.columns]

In [None]:
df_equipos_subir = df_equipos_subir[df_equipos_subir2]

In [None]:
datos_equipos_json = [{"fields": df_equipos_subir.iloc[i, : ].to_dict()} for i in range(df_equipos_subir.shape[0])]

In [None]:
for i in range(0, df_equipos_subir.shape[0], 10):
    
    data2 = {"records" : datos_equipos_json[i : i + 10]}
    
    response = requests.post(url = endpoint2, json = data2, headers = headers2) # POST
    
    sleep(0.5)

## 3.3 Jugadores

In [None]:
df_fullplayer_stat = df_fullplayer_stat.set_index("id", inplace = True)

In [None]:
API_KEY3 = "keyRc6JmNDvpMS5Lj" # Usuario

BASE_ID3 = "appTEHKdSyN7fIgla" # Base: Tabla API

TABLE_ID3 = "tblvnqgrI3o9BM06r" # Tabla: datos_1

airtable_base_url3 = "https://api.airtable.com/v0"

In [None]:
headers3 = {"Authorization" : f"Bearer {API_KEY3}",
           "Content-Type"  : "application/json"}

print(headers3)

In [None]:
endpoint3 = f"{airtable_base_url3}/{BASE_ID3}/{TABLE_ID3}"

print(endpoint3)

In [None]:
df_fullplayer_stat = df_fullplayer_stat[df_fullplayer_stat.columns].astype(str)

In [None]:
df_fullplayer_stat_2 = [x.strip() for x in df_fullplayer_stat.columns]

In [None]:
df_fullplayer_stat = df_fullplayer_stat[df_fullplayer_stat_2]

In [None]:
datos_jugadores_json4 = [{"fields": df_fullplayer_stat.iloc[i, : ].to_dict()} for i in range(df_fullplayer_stat.shape[0])]

In [None]:
for i in range(0, df_fullplayer_stat.shape[0], 10):
    
    data3 = {"records" : datos_jugadores_json4[i : i + 10]}
    
    response3 = requests.post(url = endpoint3, json = data3, headers = headers3) # POST
    
    sleep(0.5)

## 3.4 Salarios

Primero configuramos como index el nombre para no duplicar el registro y ahorrar espacio.

In [None]:
df_salarios_subir = df_salarios.set_index("Nombre")

In [None]:
API_KEY4 = "keyRc6JmNDvpMS5Lj" # Usuario

BASE_ID4 = "apphnocvtGlSQHAHI" # Base: Tabla API

TABLE_ID4 = "tblMO9fWZx7icCOhm" # Tabla: datos_1

airtable_base_url4 = "https://api.airtable.com/v0"

In [None]:
headers4 = {"Authorization" : f"Bearer {API_KEY4}",
           "Content-Type"  : "application/json"}

print(headers4)

In [None]:
endpoint4 = f"{airtable_base_url4}/{BASE_ID4}/{TABLE_ID4}"

print(endpoint4)

In [None]:
df_salarios_subir = df_salarios[df_salarios.columns].astype(str)

In [None]:
df_salarios_subir_2 = [x.strip() for x in df_salarios_subir.columns]

In [None]:
datos_salarios_json4 = [{"fields": df_salarios_subir.iloc[i, : ].to_dict()} for i in range(df_salarios_subir.shape[0])]

In [None]:
pprint(datos_salarios_json4)

In [None]:
for i in range(0, df_salarios_subir.shape[0], 10):
    
    data4 = {"records" : datos_salarios_json4[i : i + 10]}
    
    response = requests.post(url = endpoint4, json = data4, headers = headers4) # POST
    
    sleep(0.5)

In [None]:
df_salarios_subir.info()

# 4. Análisis y Visualización

## 4.1.  Equipos y stats principales

In [None]:
df_equipos_def.sample(2)

In [None]:
para = df_equipos_def.set_index("name")
para = para.T
para = para[para.index.isin(["jugados","ganados","perdidos",""])]

In [None]:
para.iplot(kind='bar', 
                   xTitle='Years',
                    yTitle='Population')

In [None]:
df_equipos_def.sample(1)

## 4.2 Jugadores estrella y clasificación equipo 

## 4.3 Estadios

In [None]:
# Creo un mapa de Folium centrado en Estados Unidos
mapa = folium.Map(location = [36.09024, -97.712891], zoom_start = 3.5)

# Creo marcadores en el mapa utilizando los datos del DataFrame
for index, row in df_estadios.iterrows():
    nombre_html = f"<b>{row['Nombre']}</b>" #Para poner la letra en negrita
    popup_info = f"{nombre_html} <br> Capacidad: {row['Capacidad']}"
    folium.Marker(location=[row['Latitud'], row['Longitud']], popup=popup_info).add_to(mapa)

# Mostrar el mapa
#mapa.save("mapa.html")

In [None]:
mapa

## 4.4 Salarios de Jugadores

In [None]:
colores = ["red","blue","pink","green","orange","yellow","purple","cyan","magenta","lime"]
promedios.plot(kind="bar", color = colores)
plt.xlabel("Posición")
plt.ylabel("Sueldo promedio")
plt.title("Comparación de sueldos por posición")

# Mostrar el gráfico
plt.show()

# 5. Conclusiones