# Descripción de la base de datos

Se desea hacer un análisis para poder visualizar las variables más importantes para que un equipo sea exitoso (gane partidos), tanto en temporada regular como en post-temporada. Para ello se usará la base: "NBA Dataset - Box Scores & Stats, 1947 - Today", para ello se tomará solamente 4 tablas, las más relevantes para poder hacer nuestro análisis.

### Games.csv

Contiene todos los datos relacionados a los juegos. Las variables de interés en nuestro análisis son las siguentes: 

* gameId
* gameDate
* winner
* attendance 
* gameType (temporada regular o post-temporada)

### PlayerStatistic.csv

Describe el desempeño de un un jugador en un partido específico, contiene todas las stats del jugador, por ello la mayoría de variables son de interés en esta tabla.

### Players.csv

A diferencia de PlayerStatistics.csv, esta tabla nos describe los parámetros físicos de los jugadores, a su vez de la posición que juegan y variables más específicas como la ronda en la que fue seleccionado.

### TeamStatistics.csv

La tabla con mayor información útil de la base de datos, en esta podemos ver las estadísticas de un equipo por partido.

# Lectura de base de datos

In [2]:
import pandas as pd
from pathlib import Path
pd.set_option('display.max_rows', None)

In [3]:
BASE_DIR = Path().resolve()
DATA_DIR = BASE_DIR / 'database'

In [4]:
games = pd.read_csv( DATA_DIR / 'Games.csv', low_memory=False)

In [5]:
players_stats = pd.read_csv( DATA_DIR / 'PlayerStatistics.csv', low_memory=False)

In [6]:
players = pd.read_csv( DATA_DIR / 'Players.csv', low_memory=False)

In [7]:
team_stats = pd.read_csv( DATA_DIR / 'TeamStatistics.csv', low_memory=False)

In [8]:
players_stats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1635622 entries, 0 to 1635621
Data columns (total 35 columns):
 #   Column                   Non-Null Count    Dtype  
---  ------                   --------------    -----  
 0   firstName                1635622 non-null  object 
 1   lastName                 1635622 non-null  object 
 2   personId                 1635622 non-null  int64  
 3   gameId                   1635622 non-null  int64  
 4   gameDate                 1635622 non-null  object 
 5   playerteamCity           1635622 non-null  object 
 6   playerteamName           1635622 non-null  object 
 7   opponentteamCity         1635622 non-null  object 
 8   opponentteamName         1635622 non-null  object 
 9   gameType                 1628350 non-null  object 
 10  gameLabel                93882 non-null    object 
 11  gameSubLabel             5341 non-null     object 
 12  seriesGameNumber         135048 non-null   float64
 13  win                      1635622 non-null 

In [9]:
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72163 entries, 0 to 72162
Data columns (total 17 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   gameId            72163 non-null  int64  
 1   gameDate          72163 non-null  object 
 2   hometeamCity      72163 non-null  object 
 3   hometeamName      72163 non-null  object 
 4   hometeamId        72163 non-null  int64  
 5   awayteamCity      72163 non-null  object 
 6   awayteamName      72163 non-null  object 
 7   awayteamId        72163 non-null  int64  
 8   homeScore         72163 non-null  int64  
 9   awayScore         72163 non-null  int64  
 10  winner            72163 non-null  int64  
 11  gameType          71912 non-null  object 
 12  attendance        67130 non-null  float64
 13  arenaId           71879 non-null  float64
 14  gameLabel         3892 non-null   object 
 15  gameSubLabel      192 non-null    object 
 16  seriesGameNumber  5738 non-null   float6

In [10]:
players.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6679 entries, 0 to 6678
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   personId      6679 non-null   int64  
 1   firstName     6678 non-null   object 
 2   lastName      6677 non-null   object 
 3   birthdate     4676 non-null   object 
 4   lastAttended  4653 non-null   object 
 5   country       4676 non-null   object 
 6   height        4453 non-null   float64
 7   bodyWeight    4579 non-null   float64
 8   guard         5120 non-null   object 
 9   forward       5120 non-null   object 
 10  center        5120 non-null   object 
 11  draftYear     4676 non-null   float64
 12  draftRound    4515 non-null   float64
 13  draftNumber   4457 non-null   float64
dtypes: float64(5), int64(1), object(8)
memory usage: 730.6+ KB


In [11]:
team_stats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144326 entries, 0 to 144325
Data columns (total 48 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   gameId                   144326 non-null  int64  
 1   gameDate                 144326 non-null  object 
 2   teamCity                 144326 non-null  object 
 3   teamName                 144326 non-null  object 
 4   teamId                   144326 non-null  int64  
 5   opponentTeamCity         144326 non-null  object 
 6   opponentTeamName         144326 non-null  object 
 7   opponentTeamId           144326 non-null  int64  
 8   home                     144326 non-null  int64  
 9   win                      144326 non-null  int64  
 10  teamScore                144326 non-null  int64  
 11  opponentScore            144326 non-null  int64  
 12  assists                  109239 non-null  float64
 13  blocks                   103625 non-null  float64
 14  stea

In [12]:
players_stats.drop(['gameLabel', 'gameSubLabel'], axis=1, inplace=True)

In [13]:
games.drop(['gameLabel', 'gameSubLabel', 'hometeamName', 'hometeamCity'], axis=1, inplace=True)

In [14]:
players.drop(['draftYear', 'draftNumber'], axis=1, inplace=True)

In [15]:
team_stats.drop(['coachId'], axis=1, inplace=True)

# Caracterización de datos en la base

### Descripción general del dataset

Origen: Los datasets usados para este análisis fueron obtenidos de [kaggle.com](https://www.kaggle.com/datasets/eoinamoore/historical-nba-data-and-player-box-scores/data) y fueron subidos por el usuario eoinamoore, en la descripción de kaggle se hace referencia a que los datos fueron obtenidos de la página oficial de la NBA, [NBA.com](https://www.nba.com/) mediante web scrapping.

Periodo de tiempo: Los datasets presentes en este análisis comprenden estadísticas y resultados de jugadores y equipos de la NBA desde 1947 a la actualidad, son históricos y, **son actualizados diariamente**.

Propósito del dataset: Se hace mención en kaggle que este dataset está diseñado para analistas y científicos de datos, y proporciona una base sólida para explorar la historia del baloncesto, el rendimiento de los jugadores y la dinámica de los equipos.

Número de tablas y observaciones: El dataset del repositorio cuenta con 7 tablas de las cuales se tomarán solamente 4 las cuáles son las tablas de interés para nuestro análisis: Games, Players, TeamStatistics y PlayerStatistics con las siguientes dimensiones de observaciones y variables:

In [19]:
print(games.shape)
print(players.shape)
print(players_stats.shape)
print(team_stats.shape)

(72163, 13)
(6679, 12)
(1635622, 33)
(144326, 47)


### Tablas del dataset y sus variables

Este dataset contiene las siguientes variables con los siguientes tipos de dato definidos para cada una de las 4 tablas:

In [20]:
games.dtypes

gameId                int64
gameDate             object
hometeamId            int64
awayteamCity         object
awayteamName         object
awayteamId            int64
homeScore             int64
awayScore             int64
winner                int64
gameType             object
attendance          float64
arenaId             float64
seriesGameNumber    float64
dtype: object

In [21]:
players.dtypes

personId          int64
firstName        object
lastName         object
birthdate        object
lastAttended     object
country          object
height          float64
bodyWeight      float64
guard            object
forward          object
center           object
draftRound      float64
dtype: object

In [22]:
players_stats.dtypes

firstName                   object
lastName                    object
personId                     int64
gameId                       int64
gameDate                    object
playerteamCity              object
playerteamName              object
opponentteamCity            object
opponentteamName            object
gameType                    object
seriesGameNumber           float64
win                          int64
home                         int64
numMinutes                 float64
points                     float64
assists                    float64
blocks                     float64
steals                     float64
fieldGoalsAttempted        float64
fieldGoalsMade             float64
fieldGoalsPercentage       float64
threePointersAttempted     float64
threePointersMade          float64
threePointersPercentage    float64
freeThrowsAttempted        float64
freeThrowsMade             float64
freeThrowsPercentage       float64
reboundsDefensive          float64
reboundsOffensive   

In [23]:
team_stats.dtypes

gameId                       int64
gameDate                    object
teamCity                    object
teamName                    object
teamId                       int64
opponentTeamCity            object
opponentTeamName            object
opponentTeamId               int64
home                         int64
win                          int64
teamScore                    int64
opponentScore                int64
assists                    float64
blocks                     float64
steals                     float64
fieldGoalsAttempted        float64
fieldGoalsMade             float64
fieldGoalsPercentage       float64
threePointersAttempted     float64
threePointersMade          float64
threePointersPercentage    float64
freeThrowsAttempted        float64
freeThrowsMade             float64
freeThrowsPercentage       float64
reboundsDefensive          float64
reboundsOffensive          float64
reboundsTotal              float64
foulsPersonal              float64
turnovers           

Se tienen las siguientes llaves primarias y foráneas por cada tabla:

* Players:
    * PK: personId
* Games:
    * PK: gameId
    * FK: hometeamId
    * FK: awayteamId
* Player Statistics:
    * FK: personId
    * FK: gameId
* Team Statistics:
    * FK: teamId
    * FK: gameId
    * FK: opponentTeamId


Cambio de prueba

In [17]:
print(games.columns)

Index(['gameId', 'gameDate', 'hometeamId', 'awayteamCity', 'awayteamName',
       'awayteamId', 'homeScore', 'awayScore', 'winner', 'gameType',
       'attendance', 'arenaId', 'seriesGameNumber'],
      dtype='object')


In [22]:
games['gameDate'].dtype

dtype('O')

In [None]:
print(min(games['gameDate']))
print(max(games['gameDate']))

1946-11-26 19:00:00
2025-11-18T23:00:00Z


In [21]:
games.describe()

Unnamed: 0,gameId,hometeamId,awayteamId,homeScore,awayScore,winner,attendance,arenaId,seriesGameNumber
count,72163.0,72163.0,72163.0,72163.0,72163.0,72163.0,67130.0,71879.0,5738.0
mean,25808610.0,1610613000.0,1610479000.0,105.895958,102.323046,1610613000.0,14982.632668,35684.17,2.49634
std,6424115.0,8.660155,14685450.0,14.269016,13.90019,8.635294,5150.292256,185290.5,2.017287
min,10300000.0,1610613000.0,15016.0,0.0,0.0,1610613000.0,9.0,0.0,0.0
25%,21300580.0,1610613000.0,1610613000.0,96.0,93.0,1610613000.0,11989.0,5.0,1.0
50%,26300080.0,1610613000.0,1610613000.0,106.0,102.0,1610613000.0,16202.0,44.0,2.0
75%,28700520.0,1610613000.0,1610613000.0,115.0,112.0,1610613000.0,18676.0,135.0,4.0
max,62400000.0,1610613000.0,1610613000.0,184.0,186.0,1610613000.0,200049.0,1000145.0,7.0
