# Descripción de la base de datos

Se desea hacer un análisis para poder visualizar las variables más importantes para que un equipo sea exitoso (gane partidos), tanto en temporada regular como en post-temporada. Para ello se usará la base: "NBA Dataset - Box Scores & Stats, 1947 - Today", para ello se tomará solamente 4 tablas, las más relevantes para poder hacer nuestro análisis.

### Games.csv

Contiene todos los datos relacionados a los juegos. Las variables de interés en nuestro análisis son las siguentes: 

* gameId
* gameDate
* winner
* attendance 
* gameType (temporada regular o post-temporada)

### PlayerStatistic.csv

Describe el desempeño de un un jugador en un partido específico, contiene todas las stats del jugador, por ello la mayoría de variables son de interés en esta tabla.

### Players.csv

A diferencia de PlayerStatistics.csv, esta tabla nos describe los parámetros físicos de los jugadores, a su vez de la posición que juegan y variables más específicas como la ronda en la que fue seleccionado.

### TeamStatistics.csv

La tabla con mayor información útil de la base de datos, en esta podemos ver las estadísticas de un equipo por partido.

# Lectura de base de datos

In [1]:
import pandas as pd
from pathlib import Path
pd.set_option('display.max_rows', None)

In [2]:
BASE_DIR = Path().resolve()
DATA_DIR = BASE_DIR / 'database'

In [3]:
games = pd.read_csv( DATA_DIR / 'Games.csv', low_memory=False)

In [4]:
players_stats = pd.read_csv( DATA_DIR / 'PlayerStatistics.csv', low_memory=False)

In [5]:
players = pd.read_csv( DATA_DIR / 'Players.csv', low_memory=False)

In [6]:
team_stats = pd.read_csv( DATA_DIR / 'TeamStatistics.csv', low_memory=False)

In [7]:
players_stats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1634683 entries, 0 to 1634682
Data columns (total 35 columns):
 #   Column                   Non-Null Count    Dtype  
---  ------                   --------------    -----  
 0   firstName                1634683 non-null  object 
 1   lastName                 1634683 non-null  object 
 2   personId                 1634683 non-null  int64  
 3   gameId                   1634683 non-null  int64  
 4   gameDate                 1634683 non-null  object 
 5   playerteamCity           1634683 non-null  object 
 6   playerteamName           1634683 non-null  object 
 7   opponentteamCity         1634683 non-null  object 
 8   opponentteamName         1634683 non-null  object 
 9   gameType                 1628113 non-null  object 
 10  gameLabel                93645 non-null    object 
 11  gameSubLabel             5104 non-null     object 
 12  seriesGameNumber         135048 non-null   float64
 13  win                      1634683 non-null 

In [8]:
games.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72163 entries, 0 to 72162
Data columns (total 17 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   gameId            72163 non-null  int64  
 1   gameDate          72163 non-null  object 
 2   hometeamCity      72163 non-null  object 
 3   hometeamName      72163 non-null  object 
 4   hometeamId        72163 non-null  int64  
 5   awayteamCity      72163 non-null  object 
 6   awayteamName      72163 non-null  object 
 7   awayteamId        72163 non-null  int64  
 8   homeScore         72163 non-null  int64  
 9   awayScore         72163 non-null  int64  
 10  winner            72163 non-null  int64  
 11  gameType          71912 non-null  object 
 12  attendance        67130 non-null  float64
 13  arenaId           71879 non-null  float64
 14  gameLabel         3892 non-null   object 
 15  gameSubLabel      192 non-null    object 
 16  seriesGameNumber  5738 non-null   float6

In [9]:
players.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6679 entries, 0 to 6678
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   personId      6679 non-null   int64  
 1   firstName     6678 non-null   object 
 2   lastName      6677 non-null   object 
 3   birthdate     4676 non-null   object 
 4   lastAttended  4653 non-null   object 
 5   country       4676 non-null   object 
 6   height        4453 non-null   float64
 7   bodyWeight    4579 non-null   float64
 8   guard         5120 non-null   object 
 9   forward       5120 non-null   object 
 10  center        5120 non-null   object 
 11  draftYear     4676 non-null   float64
 12  draftRound    4515 non-null   float64
 13  draftNumber   4457 non-null   float64
dtypes: float64(5), int64(1), object(8)
memory usage: 730.6+ KB


In [10]:
team_stats.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 144326 entries, 0 to 144325
Data columns (total 48 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   gameId                   144326 non-null  int64  
 1   gameDate                 144326 non-null  object 
 2   teamCity                 144326 non-null  object 
 3   teamName                 144326 non-null  object 
 4   teamId                   144326 non-null  int64  
 5   opponentTeamCity         144326 non-null  object 
 6   opponentTeamName         144326 non-null  object 
 7   opponentTeamId           144326 non-null  int64  
 8   home                     144326 non-null  int64  
 9   win                      144326 non-null  int64  
 10  teamScore                144326 non-null  int64  
 11  opponentScore            144326 non-null  int64  
 12  assists                  109239 non-null  float64
 13  blocks                   103625 non-null  float64
 14  stea

In [11]:
players_stats.drop(['gameLabel', 'gameSubLabel'], axis=1, inplace=True)

In [12]:
games.drop(['gameLabel', 'gameSubLabel', 'hometeamName', 'hometeamCity'], axis=1, inplace=True)

In [13]:
players.drop(['draftYear', 'draftNumber'], axis=1, inplace=True)

In [14]:
team_stats.drop(['coachId'], axis=1, inplace=True)