## Preprocesamiento de datos. Actividad 2.

#### Todo este desarrollo está subido en mi repositorio personal: https://github.com/houghton97/VIU_Min

##### Como anotaciones previas al desarrollo, mencionar que los datasets están relacionados con estadísticas de baloncesto y son de carácter numérico en su gran mayoría. Los orígenes de datos contienen estadísticas desde 1950 hasta 2017 de todos los jugadores que han pasado por la NBA.
##### El siguiente enlace: https://www.basketball-reference.com/about/glossary.html contiene el glosario con el significado de la gran mayoría de columnas mencionadas en esta actividad.

##### _Antes de nada, prepararemos el entorno importándonos paquetes y módulos necesarios para llevar a cabo el preprocesamiento de los datos_

In [257]:
# Importamos paquetes necesarios para el preprocesamiento
import pandas as pd
import numpy as np
import datetime


## Los paquetes de representación gráfica los importamos para proseguir con el desarrollo tras la actividad de limpieza.
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
import matplotlib
plt.style.use('ggplot')
from matplotlib.pyplot import figure

%matplotlib inline
matplotlib.rcParams['figure.figsize'] = (12,8)

pd.options.mode.chained_assignment = None


## Carga de datos y comprobaciones previas.

##### _Cargamos ambos datasets descargados desde el repositorio de Kaggle mencionado en la Actividad 1._

In [258]:
# Importamos los CSVs descargados de pandas y creamos los dataframes correspondientes.
df_seasons_stats = pd.read_csv('Seasons_Stats.csv')
df_players_data = pd.read_csv('player_data.csv')

pd.reset_option('max_columns')

print(df_seasons_stats.tail(5))     ## Dataset con las estadísticas de todos los jugadores desde 1950 hasta 2017.
print(df_players_data.tail(5))      ## Dataset con todos los jugadores que han jugado en la NBA con sus posiciones y sus pesos, además de su año de comienzo en la NBA.

## df_seasons_stats, es un dataset puramente de estadísticas de los jugadores, así que aplicar una función describe podría ser interesante.
df_seasons_stats.describe() 


       Unnamed: 0    Year             Player Pos   Age   Tm     G    GS  \
24686       24686  2017.0        Cody Zeller  PF  24.0  CHO  62.0  58.0   
24687       24687  2017.0       Tyler Zeller   C  27.0  BOS  51.0   5.0   
24688       24688  2017.0  Stephen Zimmerman   C  20.0  ORL  19.0   0.0   
24689       24689  2017.0        Paul Zipser  SF  22.0  CHI  44.0  18.0   
24690       24690  2017.0        Ivica Zubac   C  19.0  LAL  38.0  11.0   

           MP   PER  ...    FT%    ORB    DRB    TRB   AST   STL   BLK   TOV  \
24686  1725.0  16.7  ...  0.679  135.0  270.0  405.0  99.0  62.0  58.0  65.0   
24687   525.0  13.0  ...  0.564   43.0   81.0  124.0  42.0   7.0  21.0  20.0   
24688   108.0   7.3  ...  0.600   11.0   24.0   35.0   4.0   2.0   5.0   3.0   
24689   843.0   6.9  ...  0.775   15.0  110.0  125.0  36.0  15.0  16.0  40.0   
24690   609.0  17.0  ...  0.653   41.0  118.0  159.0  30.0  14.0  33.0  30.0   

          PF    PTS  
24686  189.0  639.0  
24687   61.0  178.0  
24

Unnamed: 0.1,Unnamed: 0,Year,Age,G,GS,MP,PER,TS%,3PAr,FTr,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
count,24691.0,24624.0,24616.0,24624.0,18233.0,24138.0,24101.0,24538.0,18839.0,24525.0,...,23766.0,20797.0,20797.0,24312.0,24624.0,20797.0,20797.0,19645.0,24624.0,24624.0
mean,12345.0,1992.594989,26.664405,50.83711,23.593375,1209.720317,12.479071,0.493001,0.158604,0.325455,...,0.719279,62.18921,147.199404,224.637381,114.852623,39.897052,24.47026,73.939832,116.339222,510.11635
std,7127.822084,17.429594,3.841892,26.496161,28.632387,941.146575,6.039014,0.094469,0.187495,0.218971,...,0.141824,67.324881,145.921912,228.190203,135.863913,38.713053,36.935084,67.713803,84.791873,492.922981
min,0.0,1950.0,18.0,1.0,0.0,0.0,-90.6,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,6172.5,1981.0,24.0,27.0,0.0,340.0,9.8,0.458,0.005,0.208,...,0.657,12.0,33.0,51.0,19.0,9.0,3.0,18.0,39.0,106.0
50%,12345.0,1996.0,26.0,58.0,8.0,1053.0,12.7,0.506,0.064,0.296,...,0.743,38.0,106.0,159.0,68.0,29.0,11.0,55.0,109.0,364.0
75%,18517.5,2007.0,29.0,75.0,45.0,1971.0,15.6,0.544,0.288,0.4,...,0.808,91.0,212.0,322.0,160.0,60.0,29.0,112.0,182.0,778.0
max,24690.0,2017.0,44.0,88.0,83.0,3882.0,129.1,1.136,1.0,6.0,...,1.0,587.0,1111.0,2149.0,1164.0,301.0,456.0,464.0,386.0,4029.0


##### Ya tenemos nuestros datasets originales cargados como Dataframes de pandas: **df_seasons_stats y df_players_data**.

### Comprobamos el shape y los tipos de datos.
* **df_seasons_stats**: El cual está compuesto por estadísticas puras de los jugadores en su paso por la NBA, distinguiendo temporadas y equipos.


In [259]:

#df_seasons_stats
print(df_seasons_stats.shape)
print(df_seasons_stats.dtypes)

(24691, 53)
Unnamed: 0      int64
Year          float64
Player         object
Pos            object
Age           float64
Tm             object
G             float64
GS            float64
MP            float64
PER           float64
TS%           float64
3PAr          float64
FTr           float64
ORB%          float64
DRB%          float64
TRB%          float64
AST%          float64
STL%          float64
BLK%          float64
TOV%          float64
USG%          float64
blanl         float64
OWS           float64
DWS           float64
WS            float64
WS/48         float64
blank2        float64
OBPM          float64
DBPM          float64
BPM           float64
VORP          float64
FG            float64
FGA           float64
FG%           float64
3P            float64
3PA           float64
3P%           float64
2P            float64
2PA           float64
2P%           float64
eFG%          float64
FT            float64
FTA           float64
FT%           float64
ORB           float6

* **df_players_data**: el cual contiene características de cada uno de los jugadores y usaremos para mejorar las tareas de clasificación posteriores a esta actividad de preprocesamiento.

In [260]:
#df_players_data
print(df_players_data.shape)
print(df_players_data.dtypes)

(4550, 8)
name           object
year_start      int64
year_end        int64
position       object
height         object
weight        float64
birth_date     object
college        object
dtype: object


### Organización de datos y fusión de datasets.
Para poder obtener los mejores resultados posibles, es necesaria la **fusión de ambos datasets en uno**, para así tener la mayor cantidad de datos útiles por cada uno de los jugadores. Esta fusión permitirá conocer estadísticas de los jugadores a la vez que otras características importantes como **_universidad donde se formaron, posición de juego, duración de su carrera..._**

#### Comprobamos las variables numéricas y no numéricas de ambos datasets.
* df_seasons_stats

In [261]:
df_numeric = df_seasons_stats.select_dtypes(include=[np.number])
numeric_cols = df_numeric.columns.values
print(numeric_cols)

['Unnamed: 0' 'Year' 'Age' 'G' 'GS' 'MP' 'PER' 'TS%' '3PAr' 'FTr' 'ORB%'
 'DRB%' 'TRB%' 'AST%' 'STL%' 'BLK%' 'TOV%' 'USG%' 'blanl' 'OWS' 'DWS' 'WS'
 'WS/48' 'blank2' 'OBPM' 'DBPM' 'BPM' 'VORP' 'FG' 'FGA' 'FG%' '3P' '3PA'
 '3P%' '2P' '2PA' '2P%' 'eFG%' 'FT' 'FTA' 'FT%' 'ORB' 'DRB' 'TRB' 'AST'
 'STL' 'BLK' 'TOV' 'PF' 'PTS']


* df_players_data

In [262]:
df_numeric = df_players_data.select_dtypes(include=[np.number])
numeric_cols = df_numeric.columns.values
print(numeric_cols)

['year_start' 'year_end' 'weight']


### Mergeamos ambos datasets
Para mergear ambos datasets, necesitaremos hacer pequeñas modificaciones con los nombres de las columnas que hagan referencia al nombre del jugador. Daremos un nombre común para identificar el nombre del jugador a ambos datasets.

El nombre será: **'name'**.

In [263]:
## Modificamos el nombre de la columna 'Player' del DF Seasons_Stats:
df_seasons_stats = df_seasons_stats.rename(columns={"Player":"name"})
df_players_full = pd.merge(df_players_data, df_seasons_stats, on= 'name')
print(df_players_full.tail(3))
#df_players_full.to_csv("Players_full.csv", encoding='utf-8')        ## Lo guardo como un CSV en mi local para poder verlo mejor desde la aplicación de excel
print(df_players_full.shape)

              name  year_start  year_end position height  weight  \
23465     Jim Zoet        1983      1983        C    7-1   240.0   
23466    Bill Zopf        1971      1971        G    6-1   170.0   
23467  Ivica Zubac        2017      2018        C    7-1   265.0   

              birth_date                college  Unnamed: 0    Year  ...  \
23465  December 20, 1953  Kent State University        7213  1983.0  ...   
23466       June 7, 1948    Duquesne University        3313  1971.0  ...   
23467     March 18, 1997                    NaN       24690  2017.0  ...   

         FT%   ORB    DRB    TRB   AST   STL   BLK   TOV    PF    PTS  
23465    NaN   3.0    5.0    8.0   1.0   1.0   3.0   4.0   9.0    2.0  
23466  0.556   NaN    NaN   46.0  73.0   NaN   NaN   NaN  34.0  118.0  
23467  0.653  41.0  118.0  159.0  30.0  14.0  33.0  30.0  66.0  284.0  

[3 rows x 60 columns]
(23468, 60)


#### Como dataset fusionado, obtenemos una tabla de **23468 filas y 60 columnas**

### Ya tenemos nuestro dataset combinado con las estadísticas de todos los jugadores que han pasado por la liga desde 1950 hasta 2017 (**df_players_full**)

**Podemos apreciar numerosos fallos de formato** (sobre todo en el tipo de los datos de varias columnas):
* _Exiten columnas en blanco._
* _Al ser estadísticas, las columnas con valor 'NA' se deberían sustituir por un 0 en la gran mayoría de casos._
* _Varias columnas de tipo 'float' cuando deberían ser 'int'._
* _Algunas columnas tienen nombres mejorables._

In [264]:
# Para ver todas las columnas, podemos activar la opción desde pandas 
# (esto ayudará a ver dónde tenemos que aplicar una limpieza de datos)
pd.set_option('display.max_columns', None)

# Para resetear esta opción:
#pd.reset_option(“max_columns”)

print(df_players_full.tail(5))


                    name  year_start  year_end position height  weight  \
23463  Stephen Zimmerman        2017      2017        C    7-0   240.0   
23464        Paul Zipser        2017      2018      G-F    6-8   215.0   
23465           Jim Zoet        1983      1983        C    7-1   240.0   
23466          Bill Zopf        1971      1971        G    6-1   170.0   
23467        Ivica Zubac        2017      2018        C    7-1   265.0   

              birth_date                          college  Unnamed: 0    Year  \
23463  September 9, 1996  University of Nevada, Las Vegas       24688  2017.0   
23464  February 18, 1994                              NaN       24689  2017.0   
23465  December 20, 1953            Kent State University        7213  1983.0   
23466       June 7, 1948              Duquesne University        3313  1971.0   
23467     March 18, 1997                              NaN       24690  2017.0   

      Pos   Age   Tm     G    GS     MP   PER    TS%   3PAr    FTr  

## A partir de aquí iremos marcando cada paso de la limpieza de datos:

* **Eliminación de columnas sin uso / incorrectas**: Procedemos a **eliminar las columnas que estén en blanco o directamente no aparezcan en el glosario** (implica que no sabríamos con certeza su significado y pondría en peligro la calidad del proyecto)

In [265]:
# Se puede observar que existe una columna 'Unnamed: 0' que era un índice de una tabla previa
# y tras ser mergeado se ha incluido.
# Esa columna directamente la eliminamos:
df_players_full.drop(columns=['Unnamed: 0'], inplace=True)

#La columna '3PAr' no aparece en el glosario, y no parece tener un significado relevante / 
# que no se pueda conseguir mediante cálculo.
#La eliminamos:
df_players_full.drop(columns=['3PAr'], inplace=True)

#La columna 'position' hace referencia a los mismos datos que la columna 'Pos'.
# Por tipología de los valores, interesa eliminar 'position':
df_players_full.drop(columns=['position'], inplace=True)

# Además, podemos apreciar que existen columnas llenas de valores NA, por ello:
df_players_full.dropna(axis=1, how='all', inplace=True)

print(df_players_full.shape)
## Resultado: 55 columnas

(23468, 55)


* **Sustitución de valores NA o vacíos por valores 0**: Al ser la gran **mayoría de columnas de carácter estadístico**, se puede proceder a una **sustitución de los valores nulos por valores numéricos como 0**. No hay datos de medias por categoría, sino son todo valores reales de estadísticas conseguidas por los jugadores. Por tanto el valor de 0 en la gran mayoría de casos es necesario. 
_**Ejemplo: si un jugador no anota un tiro de tres en toda la temporada, deberemos poner un 0 en vez de un valor nulo en esa columna (eso permitirá realizar cáculos como medias con mejor precisión y sin errores de ningún tipo)**_

In [266]:
df_players_full = df_players_full.fillna(0)
df_players_full = df_players_full.replace('', 0)


_Debemos tener en cuenta que pueden haber pérdidas de datos en columnas tipo objeto (string) por desconocimiento de datos de los jugadores como podrían ser **'college' o 'birth_date'**. Es importante tener en cuenta que esas filas pueden ser importantes, así que les daremos valores por defecto como **'unknwon'** a todas aquellas que hayan sido rellenadas con un 0._


In [267]:
cols = ['birth_date', 'college']

for c in cols:
    if c == 'college':          ## La columna 'college', sólo puede tener dos alternativas: International o High School
        val = 'International/High School'
        'International/High School'
    else: 
        val = 'Unknown'                     ## Si no sabemos la fecha de cumpleaños
    df_players_full[c] = df_players_full[c].replace(0, val)


Este último paso nos permite estudiar grupos de jugadores por su origen previo a la NBA. Gracias al cambio de la columna college por sus alternativas como _International_ o _High School_, podremos **estudiar nuevas clasificaciones** dependiendo de si han jugado liga universitaria en USA o si han jugado internacionalmente antes de la NBA (o directamente han dado el paso a la NBA desde el instituto)

* **Modificamos los tipos de las columnas**: Se ha podido observar que existen numerosos errores en los tipos de las columnas. **Varias columnas tienen tipo 'float' desde su origen y se deben cambiar a 'int'**. Este cambio puede parecer poco importante, pero en las columnas que modificamos en el siguiente script es **imposible que aparezcan decimales** de ningún tipo, y **sólo pueden ser datos de tipo 'int64'**.

In [268]:
# Modificamos los tipos de float a int de las columnas siguientes:

float_to_int = ['year_start', 'year_end', 'weight', 'Year', 'Age', 'G', 'GS', 'MP',
'FG', 'FGA', '3P', '3PA','2P', '2PA','FT', 'FTA','ORB', 'DRB', 'TRB', 'AST', 'STL', 'BLK', 'TOV', 'PF', 'PTS']

for f in float_to_int:
    df_players_full[f] = df_players_full[f].astype(np.int64)


Además, podríamos **cambiar la columna 'birth_date', la cual es tipo objeto** por una columna tipo date. Este cambio puede ser **algo complejo** al tener todos los valores como palabras completas en vez de con números. El formato original de la columna _'birth_date'_ es el siguiente:
**_"June 24, 1968"_**


In [269]:
month_to_number = {         ## Primero creamos un diccionario con las equivalencias entre nombres de meses y número de mes
'January' : 1,         
'February' : 2,         
'March' : 3,           
'April' : 4,              
'May' : 5, 
'June' : 6,
'July' : 7, 
'August' : 8, 
'September' : 9, 
'October' : 10, 
'November' : 11, 
'December' : 12}

def str_to_date(x):
    if x != 'Unknown':
        month = x.split()[0]        # Con split, cogemos cada una de las palabras de los objetos de la columna'birth_date'
        month_num = month_to_number[month]      # Consultamos el diccionario anterior para sacar la cifra del mes
        day = x.split()[1]
        day = day[:-1]
        year = x.split()[2]
        date_str = year + '-' + str(month_num) + '-' + day  
        return datetime.datetime.strptime(date_str, '%Y-%m-%d') #Devolvemos una fecha (y así se convertirá la columna)
    
        
df_players_full['birth_date'] = df_players_full['birth_date'].apply(str_to_date)        #Aplicamos la función a la columna

print(df_players_full.dtypes['birth_date'])         #Ahora 'birth_date' es tipo datetime64
print(df_players_full.tail(5)) #Comprobamos

# Para evitar la generación de NaN con los valores de fechas de nacimiento desconocidos inicialmente,
# procedemos a sustituir esos Nan por fechas estandar (de esta manera no perderemos el tipo de columna datetime)

df_players_full['birth_date'] = df_players_full['birth_date'].fillna('2022-01-01')



datetime64[ns]
                    name  year_start  year_end height  weight birth_date  \
23463  Stephen Zimmerman        2017      2017    7-0     240 1996-09-09   
23464        Paul Zipser        2017      2018    6-8     215 1994-02-18   
23465           Jim Zoet        1983      1983    7-1     240 1953-12-20   
23466          Bill Zopf        1971      1971    6-1     170 1948-06-07   
23467        Ivica Zubac        2017      2018    7-1     265 1997-03-18   

                               college  Year Pos  Age   Tm   G  GS   MP   PER  \
23463  University of Nevada, Las Vegas  2017   C   20  ORL  19   0  108   7.3   
23464        International/High School  2017  SF   22  CHI  44  18  843   6.9   
23465            Kent State University  1983   C   29  DET   7   0   30  -0.8   
23466              Duquesne University  1971  PG   22  MIL  53   0  398   9.6   
23467        International/High School  2017   C   19  LAL  38  11  609  17.0   

         TS%    FTr  ORB%  DRB%  TRB%  AS

Además, como se puede apreciar, las **columnas que estaban marcadas como 'Unknown'** (en pasos previos se cambian esos valores de un 0 a 'Unknown'), se convierten en NaN al hacer la conversión a tipo datetime de toda la columna. En **la última instrucción del código previo**, se tratan esos NaN y **se da un valor de fecha standard: 2022-01-01**.

* **Cambiamos los nombres de las columnas que nos interese**: Existen algunas columnas con nombres poco intuitivos como podrían ser **_'Team' y 'Position'_**.

In [270]:
df_players_full = df_players_full.rename(columns={'Tm':'Team', 'Pos':'Position'})
df_players_full

Unnamed: 0,name,year_start,year_end,height,weight,birth_date,college,Year,Position,Age,Team,G,GS,MP,PER,TS%,FTr,ORB%,DRB%,TRB%,AST%,STL%,BLK%,TOV%,USG%,OWS,DWS,WS,WS/48,OBPM,DBPM,BPM,VORP,FG,FGA,FG%,3P,3PA,3P%,2P,2PA,2P%,eFG%,FT,FTA,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1991,PF,22,POR,43,0,290,13.1,0.499,0.379,10.4,23.4,17.0,5.8,0.7,2.5,14.0,22.1,0.0,0.5,0.5,0.079,-4.2,-0.7,-5.0,-0.2,55,116,0.474,0,0,0.000,55,116,0.474,0.474,25,44,0.568,27,62,89,12,4,12,22,39,135
1,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1992,PF,23,POR,71,1,934,13.5,0.533,0.280,9.5,20.9,15.2,4.7,1.3,1.1,14.0,20.6,0.6,1.5,2.1,0.110,-3.0,-0.9,-3.9,-0.5,178,361,0.493,0,0,0.000,178,361,0.493,0.493,76,101,0.752,81,179,260,30,25,16,66,132,432
2,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1993,PF,24,TOT,75,52,1311,13.2,0.551,0.245,11.0,18.1,14.6,3.0,1.0,1.2,15.6,20.5,0.7,1.3,2.0,0.074,-2.3,-1.9,-4.2,-0.7,245,473,0.518,0,1,0.000,245,472,0.519,0.518,88,116,0.759,126,211,337,27,25,26,97,189,578
3,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1993,PF,24,MIL,12,0,159,11.9,0.508,0.286,8.6,18.3,13.4,9.5,1.9,1.6,17.1,20.5,0.0,0.2,0.1,0.035,-3.7,-0.5,-4.3,-0.1,26,56,0.464,0,1,0.000,26,55,0.473,0.464,12,16,0.750,12,25,37,10,6,4,13,24,64
4,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1993,PF,24,BOS,63,52,1152,13.4,0.557,0.240,11.3,18.1,14.8,2.2,0.8,1.2,15.4,20.5,0.7,1.2,1.9,0.079,-2.1,-2.1,-4.1,-0.6,219,417,0.525,0,0,0.000,219,417,0.525,0.525,76,100,0.760,114,186,300,17,19,22,84,165,514
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23463,Stephen Zimmerman,2017,2017,7-0,240,1996-09-09,"University of Nevada, Las Vegas",2017,C,20,ORL,19,0,108,7.3,0.346,0.161,10.8,24.9,17.6,5.3,0.9,3.7,8.3,14.8,-0.1,0.1,0.0,-0.005,-7.8,0.4,-7.3,-0.1,10,31,0.323,0,0,0.000,10,31,0.323,0.323,3,5,0.600,11,24,35,4,2,5,3,17,23
23464,Paul Zipser,2017,2018,6-8,215,1994-02-18,International/High School,2017,SF,22,CHI,44,18,843,6.9,0.503,0.181,1.9,14.2,8.0,6.1,0.9,1.5,14.4,14.4,-0.3,0.8,0.5,0.030,-3.6,-0.1,-3.7,-0.4,88,221,0.398,33,99,0.333,55,122,0.451,0.473,31,40,0.775,15,110,125,36,15,16,40,78,240
23465,Jim Zoet,1983,1983,7-1,240,1953-12-20,Kent State University,1983,C,29,DET,7,0,30,-0.8,0.200,0.000,10.2,17.7,13.9,3.8,1.5,5.3,44.4,11.6,-0.1,0.0,-0.1,-0.123,-10.3,3.0,-7.3,0.0,1,5,0.200,0,0,0.000,1,5,0.200,0.200,0,0,0.000,3,5,8,1,1,3,4,9,2
23466,Bill Zopf,1971,1971,6-1,170,1948-06-07,Duquesne University,1971,PG,22,MIL,53,0,398,9.6,0.391,0.267,0.0,0.0,5.5,20.8,0.0,0.0,0.0,0.0,-0.5,0.4,-0.1,-0.011,0.0,0.0,0.0,0.0,49,135,0.363,0,0,0.000,49,135,0.363,0.363,20,36,0.556,0,0,46,73,0,0,0,34,118


## **Últimas comprobaciones**: _Procedemos a hacer las comprobaciones y ajustes finales del dataset_. 
* **Contamos si existe algún valor NA perdido en el dataset**: Comprobamos que no existe ninguna fila con valores NaN.


In [271]:
is_NaN = df_players_full.isnull()
row_has_NaN = is_NaN.any(axis=1)
rows_with_NaN = df_players_full[row_has_NaN]
print(rows_with_NaN)        ## Comprobamos las filas que tienen NaN (debería ser ninguna)

#Este comando lo podríamos usar para contar el número total de NaN en el df:
#print(df_players_full.isna().sum().sum()) 

Empty DataFrame
Columns: [name, year_start, year_end, height, weight, birth_date, college, Year, Position, Age, Team, G, GS, MP, PER, TS%, FTr, ORB%, DRB%, TRB%, AST%, STL%, BLK%, TOV%, USG%, OWS, DWS, WS, WS/48, OBPM, DBPM, BPM, VORP, FG, FGA, FG%, 3P, 3PA, 3P%, 2P, 2PA, 2P%, eFG%, FT, FTA, FT%, ORB, DRB, TRB, AST, STL, BLK, TOV, PF, PTS]
Index: []


**_Los siguientes ajustes se basan en varios bloques el cuaderno Jupyter "DataCleaning" ofrecido en clase._**
### **Comprobaciones de datos innecesarios**: 
* **Desinformativos / Repetitivos:**

In [272]:
num_rows = len(df_players_full.index)
low_information_cols = [] #

for col in df_players_full.columns:
    cnts = df_players_full[col].value_counts(dropna=False)
    top_pct = (cnts/num_rows).iloc[0]
    
    # Lo añadimos para comprobar los valores
    #print(top_pct)

    if top_pct > 0.95:
        low_information_cols.append(col)
        print('{0}: {1:.5f}%'.format(col, top_pct*100))
        print(cnts)
        print()
    

_Podemos comprobar que no existe ningún dato repetitivo_

* **Irrelevantes: _Se puede considerar que llegados a este punto, todas las estadísticas disponibles en el dataframe son relevantes._**
Los **datos estadísticos** pueden servir para una **gran cantidad de estudios de ciencia de datos** así como el **resto de características** que pueden ser de **gran utilidad a la hora de hacer clasficaciones** de distintos tipos.

* **Duplicados:** realizamos las comprobaciones correspondientes.


In [273]:
# we know that column 'id' is unique, but what if we drop it?
df_dedupped = df_players_full.drop('name', axis=1).drop_duplicates()

# there were duplicate rows
print(df_players_full.shape)
print(df_dedupped.shape)

(23468, 55)
(23468, 54)


_Como se puede comprobar, no hay ninguna instancia duplicada en el Dataframe._
##### Al estar tratando estadísticas de **jugadores en distintas temporadas**, debemos proceder a *NO eliminar duplicados por subconjuntos*, ya que se *podrían detectar (improbablemente) estadísticas semejantes / iguales de distintos años del mismo jugador* y no nos interesa eliminar esos conjuntos.
### **Comprobaciones de datos inconscientes**:
* **Capitalization**: La columna elegida para hacer esta capitalización es _'college'_.




In [274]:
# En este caso, procesaremos la característica "college" (universidad)
df_players_full['college'].value_counts(dropna=False)
print(df_players_full['college'].value_counts(dropna=False))
# Pasamos todo a minúsculas:
# make everything lower case.
df_players_full['college_lower'] = df_players_full['college'].str.lower()
df_players_full['college_lower'].value_counts(dropna=False)
print(df_players_full['college_lower'].value_counts(dropna=False))


International/High School                                   1694
University of North Carolina                                 552
University of California, Los Angeles                        551
University of Kentucky                                       489
Duke University                                              476
                                                            ... 
Kenyon College                                                 1
California Polytechnic State University, San Luis Obispo       1
Hillsdale College                                              1
University of Montevallo                                       1
St. Thomas University                                          1
Name: college, Length: 425, dtype: int64
international/high school                                   1694
university of north carolina                                 552
university of california, los angeles                        551
university of kentucky                           

##### _Afortunadamente, no existen diferencias aparentes entre las cifras de las universidades registradas con varios tipos de letra o registradas solo en minúsculas._
* **Formato**: En cuanto este apartado, **previamente se ha llevado a cabo un formateo de tipo string a fecha (columna 'birth_date').**
* **Valores categóricos y direcciones**: Actualmente en este dataset **no existen columnas de tipo categórico o datos relacionados con direcciones.**

## Finalmente, tendremos nuestro dataset listo. 


In [275]:
print(df_players_full.shape)
print(df_players_full.dtypes)

##Guardamos nuestro Dataset Final
df_players_full.to_csv("Players_full.csv", encoding='utf-8')       

(23468, 56)
name                     object
year_start                int64
year_end                  int64
height                   object
weight                    int64
birth_date       datetime64[ns]
college                  object
Year                      int64
Position                 object
Age                       int64
Team                     object
G                         int64
GS                        int64
MP                        int64
PER                     float64
TS%                     float64
FTr                     float64
ORB%                    float64
DRB%                    float64
TRB%                    float64
AST%                    float64
STL%                    float64
BLK%                    float64
TOV%                    float64
USG%                    float64
OWS                     float64
DWS                     float64
WS                      float64
WS/48                   float64
OBPM                    float64
DBPM                    floa

## **_Total tras preprocesamiento: 23468 filas y 56 columnas._**
## Archivo CSV Final: **_'Players_full.csv'_**

In [276]:
df_players_full

Unnamed: 0,name,year_start,year_end,height,weight,birth_date,college,Year,Position,Age,Team,G,GS,MP,PER,TS%,FTr,ORB%,DRB%,TRB%,AST%,STL%,BLK%,TOV%,USG%,OWS,DWS,WS,WS/48,OBPM,DBPM,BPM,VORP,FG,FGA,FG%,3P,3PA,3P%,2P,2PA,2P%,eFG%,FT,FTA,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS,college_lower
0,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1991,PF,22,POR,43,0,290,13.1,0.499,0.379,10.4,23.4,17.0,5.8,0.7,2.5,14.0,22.1,0.0,0.5,0.5,0.079,-4.2,-0.7,-5.0,-0.2,55,116,0.474,0,0,0.000,55,116,0.474,0.474,25,44,0.568,27,62,89,12,4,12,22,39,135,duke university
1,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1992,PF,23,POR,71,1,934,13.5,0.533,0.280,9.5,20.9,15.2,4.7,1.3,1.1,14.0,20.6,0.6,1.5,2.1,0.110,-3.0,-0.9,-3.9,-0.5,178,361,0.493,0,0,0.000,178,361,0.493,0.493,76,101,0.752,81,179,260,30,25,16,66,132,432,duke university
2,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1993,PF,24,TOT,75,52,1311,13.2,0.551,0.245,11.0,18.1,14.6,3.0,1.0,1.2,15.6,20.5,0.7,1.3,2.0,0.074,-2.3,-1.9,-4.2,-0.7,245,473,0.518,0,1,0.000,245,472,0.519,0.518,88,116,0.759,126,211,337,27,25,26,97,189,578,duke university
3,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1993,PF,24,MIL,12,0,159,11.9,0.508,0.286,8.6,18.3,13.4,9.5,1.9,1.6,17.1,20.5,0.0,0.2,0.1,0.035,-3.7,-0.5,-4.3,-0.1,26,56,0.464,0,1,0.000,26,55,0.473,0.464,12,16,0.750,12,25,37,10,6,4,13,24,64,duke university
4,Alaa Abdelnaby,1991,1995,6-10,240,1968-06-24,Duke University,1993,PF,24,BOS,63,52,1152,13.4,0.557,0.240,11.3,18.1,14.8,2.2,0.8,1.2,15.4,20.5,0.7,1.2,1.9,0.079,-2.1,-2.1,-4.1,-0.6,219,417,0.525,0,0,0.000,219,417,0.525,0.525,76,100,0.760,114,186,300,17,19,22,84,165,514,duke university
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23463,Stephen Zimmerman,2017,2017,7-0,240,1996-09-09,"University of Nevada, Las Vegas",2017,C,20,ORL,19,0,108,7.3,0.346,0.161,10.8,24.9,17.6,5.3,0.9,3.7,8.3,14.8,-0.1,0.1,0.0,-0.005,-7.8,0.4,-7.3,-0.1,10,31,0.323,0,0,0.000,10,31,0.323,0.323,3,5,0.600,11,24,35,4,2,5,3,17,23,"university of nevada, las vegas"
23464,Paul Zipser,2017,2018,6-8,215,1994-02-18,International/High School,2017,SF,22,CHI,44,18,843,6.9,0.503,0.181,1.9,14.2,8.0,6.1,0.9,1.5,14.4,14.4,-0.3,0.8,0.5,0.030,-3.6,-0.1,-3.7,-0.4,88,221,0.398,33,99,0.333,55,122,0.451,0.473,31,40,0.775,15,110,125,36,15,16,40,78,240,international/high school
23465,Jim Zoet,1983,1983,7-1,240,1953-12-20,Kent State University,1983,C,29,DET,7,0,30,-0.8,0.200,0.000,10.2,17.7,13.9,3.8,1.5,5.3,44.4,11.6,-0.1,0.0,-0.1,-0.123,-10.3,3.0,-7.3,0.0,1,5,0.200,0,0,0.000,1,5,0.200,0.200,0,0,0.000,3,5,8,1,1,3,4,9,2,kent state university
23466,Bill Zopf,1971,1971,6-1,170,1948-06-07,Duquesne University,1971,PG,22,MIL,53,0,398,9.6,0.391,0.267,0.0,0.0,5.5,20.8,0.0,0.0,0.0,0.0,-0.5,0.4,-0.1,-0.011,0.0,0.0,0.0,0.0,49,135,0.363,0,0,0.000,49,135,0.363,0.363,20,36,0.556,0,0,46,73,0,0,0,34,118,duquesne university
