In [1]:
import pandas as pd
import numpy as np
import time

path = '../data/kaggle/nba_data_processed.csv'
df = pd.read_csv(filepath_or_buffer=path, sep= ',', header=0)
df.dropna(how='all',inplace=True) # eliminar filas con todos los valores nulos
df.fillna(0,inplace=True) # reemplazar los valores nulos por 0
print(df.shape)
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

(679, 29)


Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Player,679,0,0.0
2P%,679,0,0.0
PF,679,0,0.0
TOV,679,0,0.0
BLK,679,0,0.0
STL,679,0,0.0
AST,679,0,0.0
TRB,679,0,0.0
DRB,679,0,0.0
ORB,679,0,0.0


In [2]:
df.head()

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,FT%,ORB,DRB,TRB,AST,STL,BLK,TOV,PF,PTS
0,Precious Achiuwa,C,23.0,TOR,55.0,12.0,20.7,3.6,7.3,0.485,...,0.702,1.8,4.1,6.0,0.9,0.6,0.5,1.1,1.9,9.2
1,Steven Adams,C,29.0,MEM,42.0,42.0,27.0,3.7,6.3,0.597,...,0.364,5.1,6.5,11.5,2.3,0.9,1.1,1.9,2.3,8.6
2,Bam Adebayo,C,25.0,MIA,75.0,75.0,34.6,8.0,14.9,0.54,...,0.806,2.5,6.7,9.2,3.2,1.2,0.8,2.5,2.8,20.4
3,Ochai Agbaji,SG,22.0,UTA,59.0,22.0,20.5,2.8,6.5,0.427,...,0.812,0.7,1.3,2.1,1.1,0.3,0.3,0.7,1.7,7.9
4,Santi Aldama,PF,22.0,MEM,77.0,20.0,21.8,3.2,6.8,0.47,...,0.75,1.1,3.7,4.8,1.3,0.6,0.6,0.8,1.9,9.0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 679 entries, 0 to 704
Data columns (total 29 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Player  679 non-null    object 
 1   Pos     679 non-null    object 
 2   Age     679 non-null    float64
 3   Tm      679 non-null    object 
 4   G       679 non-null    float64
 5   GS      679 non-null    float64
 6   MP      679 non-null    float64
 7   FG      679 non-null    float64
 8   FGA     679 non-null    float64
 9   FG%     679 non-null    float64
 10  3P      679 non-null    float64
 11  3PA     679 non-null    float64
 12  3P%     679 non-null    float64
 13  2P      679 non-null    float64
 14  2PA     679 non-null    float64
 15  2P%     679 non-null    float64
 16  eFG%    679 non-null    float64
 17  FT      679 non-null    float64
 18  FTA     679 non-null    float64
 19  FT%     679 non-null    float64
 20  ORB     679 non-null    float64
 21  DRB     679 non-null    float64
 22  TRB    

## Conceptos

### El método Group by y métodos de agregación

Agrupar datos implica dividir un conjunto de datos en partes más pequeñas basadas en una o más características comunes. En pandas, para eso usamos GroupBy

El proceso de groupby en Pandas generalmente implica tres etapas:

1. División (Splitting): Dividir el DataFrame en grupos según un criterio dado.
2. Aplicación (Applying): Aplicar una función a cada grupo de manera independiente.
3. Combinación (Combining): Combinar los resultados de las funciones aplicadas en una estructura de datos.

Este proceso se conoce como el «paradigma Split-Apply-Combine».

#### Aplicaciones Comunes de groupby

##### Agregación (Aggregation): La agregación implica aplicar una función que resuma los datos de cada grupo. Las funciones de agregación comunes incluyen sum, mean, count, min, max, etc.

In [41]:
grouped = df.groupby(['Tm', 'Pos']) # agrupar por Tm (equipo) y Pos (posición de los jugadores)
grouped.agg({'PTS': 'mean', '2P': 'mean', 'Age': 'max'}).reset_index() #promedio de puntos, promedio de cantidad de tiros de 2 puntos anotados, el máximo de edad 

Unnamed: 0,Tm,Pos,PTS,2P,Age
0,ATL,C,7.000000,2.800000,29.0
1,ATL,PF,13.100000,4.100000,25.0
2,ATL,PG,10.433333,2.433333,26.0
3,ATL,SF,8.400000,2.083333,33.0
4,ATL,SG,7.483333,1.966667,30.0
...,...,...,...,...,...
156,WAS,C,8.680000,2.420000,37.0
157,WAS,PF,8.560000,2.580000,30.0
158,WAS,PG,5.166667,1.416667,30.0
159,WAS,SF,7.266667,1.366667,24.0


##### Transformación (Transformation): La transformación implica aplicar una función a cada elemento de un grupo, produciendo un DataFrame del mismo tamaño que el original. Las funciones de transformación comunes incluyen apply, transform, etc

In [38]:
df['Player'].head(3)

0    Precious Achiuwa
1        Steven Adams
2         Bam Adebayo
Name: Player, dtype: object

In [39]:
#Saco solo el apellido del jugado
# El código que lo hace es esto: .str.split().str[1]
grouped['Player'].transform(lambda x: x.str.split().str[1])

0        Achiuwa
1          Adams
2        Adebayo
3         Agbaji
4         Aldama
         ...    
700        Young
701        Young
702    Yurtseven
703       Zeller
704        Zubac
Name: Player, Length: 679, dtype: object

##### Filtrado (Filtering): El filtrado implica aplicar una condición a cada grupo y devolver un subconjunto del DataFrame que cumple con esa condición.

In [40]:
grouped.filter(lambda x: x['G'].min()>10)

Unnamed: 0,Player,Pos,Age,Tm,G,GS,MP,FG,FGA,FG%,...,DRB,TRB,AST,STL,BLK,TOV,PF,PTS,FG_total,eficiencia
0,Precious Achiuwa,C,23.0,TOR,55.0,12.0,20.7,3.6,7.3,0.485,...,4.1,6.0,0.9,0.6,0.5,1.1,1.9,9.2,7.422680,16.1
1,Steven Adams,C,29.0,MEM,42.0,42.0,27.0,3.7,6.3,0.597,...,6.5,11.5,2.3,0.9,1.1,1.9,2.3,8.6,6.197655,22.4
3,Ochai Agbaji,SG,22.0,UTA,59.0,22.0,20.5,2.8,6.5,0.427,...,1.3,2.1,1.1,0.3,0.3,0.7,1.7,7.9,6.557377,11.1
4,Santi Aldama,PF,22.0,MEM,77.0,20.0,21.8,3.2,6.8,0.470,...,3.7,4.8,1.3,0.6,0.6,0.8,1.9,9.0,6.808511,15.1
5,Nickeil Alexander-Walker,SG,24.0,TOT,59.0,3.0,15.0,2.2,5.0,0.444,...,1.5,1.7,1.8,0.5,0.4,0.9,1.5,6.2,4.954955,9.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
694,James Wiseman,C,21.0,GSW,21.0,0.0,12.5,2.8,4.5,0.628,...,2.6,3.5,0.7,0.1,0.3,0.7,1.9,6.9,4.458599,11.1
695,James Wiseman,C,21.0,DET,24.0,22.0,25.2,5.4,10.2,0.531,...,5.8,8.1,0.7,0.2,0.8,1.5,2.9,12.7,10.169492,21.5
696,Christian Wood,C,27.0,DAL,67.0,17.0,25.9,5.9,11.5,0.515,...,6.0,7.3,1.8,0.4,1.1,1.8,2.5,16.6,11.456311,25.7
701,Trae Young,PG,24.0,ATL,73.0,73.0,34.8,8.2,19.0,0.429,...,2.2,3.0,10.2,1.1,0.1,4.1,1.4,26.2,19.114219,39.4


### El método Apply


**Sintaxis Básica**

La sintaxis básica del método apply es:

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)

* func: La función que se va a aplicar.
* axis: El eje a lo largo del cual se aplica la función (0 para columnas, 1 para filas).
* raw: Si es True, la función se aplica a los valores de la matriz, en lugar de a los Series.
* result_type: Puede ser ‘expand’, ‘reduce’, ‘broadcast’, o None.
* args y **kwds: Argumentos y palabras clave adicionales que se pasan a la función.
 

**Importancia del Método apply**

El método apply es fundamental para varias tareas en el análisis de datos debido a su flexibilidad:

* Personalización: Permite aplicar funciones personalizadas que no están disponibles en las funciones de agregación estándar.
* Versatilidad: Puede utilizarse para transformar, filtrar, y agregar datos de maneras muy específicas.
* Compatibilidad: Funciona bien con otras funciones y métodos de Pandas, lo que facilita la integración en pipelines de datos complejos.


Consideraciones y Mejores Prácticas al Usar apply

* Rendimiento: El método apply puede ser más lento que las funciones vectorizadas de Pandas. Siempre que sea posible, intenta usar funciones vectorizadas (.mean(), .sum(), etc.) en lugar de apply.
* Simplicidad: Usa apply para funciones que no se pueden realizar fácilmente con métodos incorporados. No uses apply para operaciones simples que tienen métodos directos en Pandas.
* Comprensibilidad: Mantén las funciones aplicadas a apply lo más simples y claras posible. Las funciones complejas pueden ser difíciles de depurar y mantener.
Uso de lambda: Aunque lambda es útil para funciones pequeñas y simples, considera definir funciones por separado para operaciones más complejas para mejorar la legibilidad.

In [59]:
# Ejemplo Apply: Calcular la cantidad de tiros aproximados por partido que tiró cada jugado
start_time = time.time()
df['FG_total'] = df['FG'] / df['FG%'] # crea la columna de total de tiros encestados pero deja valores con nulos
df.fillna({'FG_total': 0}, inplace=True) # llena los nulos que cree con 0
execution_time = time.time() - start_time
print(execution_time*1000)

1.7728805541992188


In [61]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Player,679,0,0.0
eFG%,679,0,0.0
FG_total,679,0,0.0
PTS,679,0,0.0
PF,679,0,0.0
TOV,679,0,0.0
BLK,679,0,0.0
STL,679,0,0.0
AST,679,0,0.0
TRB,679,0,0.0


In [54]:
start_time = time.time()
df['FG_total'] = df.apply(lambda x: x['FG'] / x['FG%'] if x['FG%']>0 else 0, axis=1) # crea la columna de total de tiros encestados
execution_time = time.time() - start_time
print(execution_time*1000)

6.183862686157227


In [55]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
Player,679,0,0.0
eFG%,679,0,0.0
FG_total,679,0,0.0
PTS,679,0,0.0
PF,679,0,0.0
TOV,679,0,0.0
BLK,679,0,0.0
STL,679,0,0.0
AST,679,0,0.0
TRB,679,0,0.0


## **Ejercicios**

In [9]:
# Paso 1: Agrupar los datos por equipo y posición
agrupado_por_equipo_posicion = df.groupby(['Tm', 'Pos']).agg({
    'PTS': 'mean',  # Promedio de puntos
    'AST': 'mean',  # Promedio de asistencias
    'TRB': 'mean'   # Promedio de rebotes
}).reset_index()

print(agrupado_por_equipo_posicion)

      Tm Pos        PTS       AST       TRB
0    ATL   C   7.000000  0.700000  5.375000
1    ATL  PF  13.100000  1.200000  6.500000
2    ATL  PG  10.433333  4.066667  1.700000
3    ATL  SF   8.400000  1.083333  3.283333
4    ATL  SG   7.483333  1.833333  2.166667
..   ...  ..        ...       ...       ...
156  WAS   C   8.680000  1.240000  3.980000
157  WAS  PF   8.560000  1.360000  3.800000
158  WAS  PG   5.166667  2.483333  2.316667
159  WAS  SF   7.266667  1.500000  3.066667
160  WAS  SG  11.050000  2.650000  2.675000

[161 rows x 5 columns]


In [10]:
# Paso 2: Calcular la eficiencia de los jugadores
# La eficiencia se define como la suma de puntos, asistencias y rebotes por juego.
df['eficiencia'] = df['PTS'] + df['AST'] + df['TRB']
# Agrupar por equipo y posición, y calcular la eficiencia promedio por posición en cada equipo
eficiencia_por_equipo_posicion = df.groupby(['Tm', 'Pos']).apply(
    lambda x: pd.Series({
        'Eficiencia Promedio': x['eficiencia'].mean()
    })
).reset_index()
print(eficiencia_por_equipo_posicion)

      Tm Pos  Eficiencia Promedio
0    ATL   C            13.075000
1    ATL  PF            20.800000
2    ATL  PG            16.200000
3    ATL  SF            12.766667
4    ATL  SG            11.483333
..   ...  ..                  ...
156  WAS   C            13.900000
157  WAS  PF            13.720000
158  WAS  PG             9.966667
159  WAS  SF            11.833333
160  WAS  SG            16.375000

[161 rows x 3 columns]


  eficiencia_por_equipo_posicion = df.groupby(['Tm', 'Pos']).apply(


In [11]:
# Paso 3: Identificar al jugador más eficiente por equipo y posición
jugador_mas_eficiente = df.groupby(['Tm', 'Pos']).apply(
    lambda x: x.loc[x['eficiencia'].idxmax(), ['Player', 'eficiencia']]
).reset_index()

print(jugador_mas_eficiente)


      Tm Pos              Player  eficiencia
0    ATL   C        Clint Capela        23.9
1    ATL  PF        John Collins        20.8
2    ATL  PG          Trae Young        39.4
3    ATL  SF     De'Andre Hunter        21.0
4    ATL  SG     Dejounte Murray        31.9
..   ...  ..                 ...         ...
156  WAS   C  Kristaps Porziņģis        34.3
157  WAS  PF          Kyle Kuzma        32.1
158  WAS  PG        Monte Morris        19.0
159  WAS  SF         Deni Avdija        18.4
160  WAS  SG        Bradley Beal        32.5

[161 rows x 4 columns]


  jugador_mas_eficiente = df.groupby(['Tm', 'Pos']).apply(
