LIMPIEZA DE nba_player_salaries.csv

1- IMPORTAR LIBRERIAS, CARGAR CSV, LEER LAS COLUMNAS

In [2]:
# 📌 Importamos las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 📌 Ruta del archivo CSV
ruta = r"C:\Users\User\OneDrive\Documentos\proyecto_final\data_en_csv\madre\nba_player_salaries.csv"

# 📌 Cargamos el CSV
df = pd.read_csv(ruta)

# 📌 Mostramos las primeras filas para confirmar la carga
df.head()

Unnamed: 0,Player Id,Player Name,2022/2023,2023/2024,2024/2025,2024/2025.1
0,1,Stephen Curry,"$48,070,014","$51,915,615","$55,761,217","$59,606,817"
1,2,John Wall,"$47,345,760",$0,$0,$0
2,3,Russell Westbrook,"$47,080,179",$0,$0,$0
3,4,LeBron James,"$44,474,988","$46,698,737","$50,434,636",$0
4,5,Kevin Durant,"$44,119,845","$47,649,433","$51,179,020","$54,708,608"


2- RENOMBRAR COLUMNAS

In [3]:
# 📌 Renombrar columnas automáticamente (limpieza general)
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_').str.replace(r'[^\w\s]', '', regex=True)

# 📌 Reasignamos manualmente las columnas de años
df = df.rename(columns={
    '20222023': '2022',
    '20232024': '2023',
    '20242025': '2024',
    '202420251': '2025'})

# 📌 Verificamos los nombres actualizados
print("Nombres de columnas finales:")
print(df.columns.tolist())

Nombres de columnas finales:
['player_id', 'player_name', '2022', '2023', '2024', '2025']


3- VER ESTRUCTURA GENERAL DEL DOCUMENTO

In [4]:
# 📌 Estructura general del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 574 entries, 0 to 573
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   player_id    574 non-null    int64 
 1   player_name  574 non-null    object
 2   2022         574 non-null    object
 3   2023         574 non-null    object
 4   2024         574 non-null    object
 5   2025         574 non-null    object
dtypes: int64(1), object(5)
memory usage: 27.0+ KB


In [5]:
# 📌 Definimos las columnas de años a limpiar
columnas_salario = ['2022', '2023', '2024', '2025']

# 📌 Recorremos cada columna para eliminar "$", "," y convertir a numérico
for col in columnas_salario:
    df[col] = df[col].replace('[\$,]', '', regex=True)  # Elimina $ y ,
    df[col] = pd.to_numeric(df[col], errors='coerce')   # Convierte a float, NaN si no puede

# 📌 Verificamos nuevamente los tipos de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 574 entries, 0 to 573
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   player_id    574 non-null    int64 
 1   player_name  574 non-null    object
 2   2022         574 non-null    int64 
 3   2023         574 non-null    int64 
 4   2024         574 non-null    int64 
 5   2025         574 non-null    int64 
dtypes: int64(5), object(1)
memory usage: 27.0+ KB


  df[col] = df[col].replace('[\$,]', '', regex=True)  # Elimina $ y ,


In [6]:
df.head()

Unnamed: 0,player_id,player_name,2022,2023,2024,2025
0,1,Stephen Curry,48070014,51915615,55761217,59606817
1,2,John Wall,47345760,0,0,0
2,3,Russell Westbrook,47080179,0,0,0
3,4,LeBron James,44474988,46698737,50434636,0
4,5,Kevin Durant,44119845,47649433,51179020,54708608


- VERIFICAMOS SI HAY NOMBRES DUPLICADOS EN LA COLUMNA DE PLAYER_NAME

In [7]:
# 📌 Verificamos si hay duplicados exactos en la columna player_name
duplicados = df[df.duplicated(subset='player_name', keep=False)]

# 📌 Mostramos los duplicados (si hay)
duplicados

Unnamed: 0,player_id,player_name,2022,2023,2024,2025


- UNIFICAMOS EL NOMBRE DE LOS JUGADORES CON MINUSCULA Y ELIMINAMOS ESPACIO ENTRE PALABRAS

In [8]:
# 📌 Estandarizamos los nombres de los jugadores
df['player_name'] = df['player_name'].str.strip().str.lower().str.replace(' ', '_')

# 📌 Verificamos los primeros valores
df['player_name'].head()

0        stephen_curry
1            john_wall
2    russell_westbrook
3         lebron_james
4         kevin_durant
Name: player_name, dtype: object

- VERIFICAMOS Y UNIFICAMOS QUE LOS NUMEROS DE LOS JUGADORES SEAN CORRELATIVOS

In [9]:
# 📌 Reasignamos player_id con una numeración correlativa desde 1
df['player_id'] = range(1, len(df) + 1)

# 📌 Verificamos los primeros valores
df[['player_id', 'player_name']].head()

Unnamed: 0,player_id,player_name
0,1,stephen_curry
1,2,john_wall
2,3,russell_westbrook
3,4,lebron_james
4,5,kevin_durant


- VERIFICAMOS SI ES QUE HAY VALORES NULOS

In [10]:
# 📌 Contamos valores nulos por columna
nulos = df.isnull().sum()

# 📌 Mostramos solo las columnas que tienen al menos un nulo
nulos[nulos > 0]

Series([], dtype: int64)

- VERIFICAMOS CUANTAS FILAS TIENE 0 EN LOS ANOS

In [11]:
# 📌 Definimos las columnas de los años
columnas_salario = ['2022', '2023', '2024', '2025']

# 📌 Creamos un diccionario con la cantidad de ceros por columna
ceros_por_columna = {col: (df[col] == 0).sum() for col in columnas_salario}

# 📌 Mostramos el resultado como un DataFrame
pd.DataFrame.from_dict(ceros_por_columna, orient='index', columns=['cantidad_de_ceros'])

Unnamed: 0,cantidad_de_ceros
2022,0
2023,165
2024,343
2025,439


- IDENTIFICAR CUANTOS JUGADORES TIENE SALARIO EN CADA ANO

In [12]:
# 📌 Total de jugadores (por cantidad de filas)
total_jugadores = len(df)

# 📌 Creamos un resumen con jugadores con salario > 0 y jugadores con salario = 0
resumen_salarios = {}

for col in ['2022', '2023', '2024', '2025']:
    jugadores_con_salario = (df[col] > 0).sum()
    jugadores_sin_salario = total_jugadores - jugadores_con_salario
    resumen_salarios[col] = {
        'jugadores_con_salario': jugadores_con_salario,
        'jugadores_sin_salario': jugadores_sin_salario}

# 📌 Lo mostramos como DataFrame
pd.DataFrame(resumen_salarios).T


Unnamed: 0,jugadores_con_salario,jugadores_sin_salario
2022,574,0
2023,409,165
2024,231,343
2025,135,439


- EXPORTAMOS EL CSV A EN UN NUEVO DATAFRAME

In [14]:
# 📌 Exportamos el DataFrame limpio a un nuevo archivo CSV
df.to_csv("nba_salaries_limpio.csv", index=False)

df.to_csv(r"C:\Users\User\OneDrive\Documentos\proyecto_final\data_en_csv\nba_salaries_limpio.csv", index=False)

INICIAMOS EL EDA

- DESCRIBE DE LOS DATOS >0

In [15]:
# 📌 Resumen con todos los jugadores
resumen_completo = df[['2022', '2023', '2024', '2025']].describe()

# 📌 Resumen SOLO de jugadores con salario > 0
resumen_activos = df[df['2022'] > 0][['2022']].describe().rename(columns={'2022': '2022_activos'})
resumen_activos['2023_activos'] = df[df['2023'] > 0]['2023'].describe()
resumen_activos['2024_activos'] = df[df['2024'] > 0]['2024'].describe()
resumen_activos['2025_activos'] = df[df['2025'] > 0]['2025'].describe()

# 📌 Mostramos el resumen filtrado
resumen_activos


Unnamed: 0,2022_activos,2023_activos,2024_activos,2025_activos
count,574.0,409.0,231.0,135.0
mean,7927815.0,10358400.0,13981630.0,17354710.0
std,10320430.0,11642220.0,13710730.0,15575600.0
min,5849.0,92857.0,268032.0,268032.0
25%,1566388.0,1997238.0,4227560.0,6294178.0
50%,3212076.0,5539771.0,8352367.0,10850000.0
75%,10012800.0,13534820.0,19016420.0,24930000.0
max,48070010.0,51915620.0,55761220.0,59606820.0


- EXPORTAR ESTE DF COMO CSV

In [16]:
# 📌 Exportamos el archivo a la carpeta definida
ruta_export = r"C:\Users\User\OneDrive\Documentos\proyecto_final\data_en_csv\nba_salaries_describe_activos.csv"
resumen_activos.to_csv(ruta_export)

- REVERTIMOS EL PASO DE COLOCAR _ EN LOS ESPACIOS ENTRE NOMBRE Y ADEMAS COLOCAMOS MAYUSCULA A LA PRIMER LETRA DE CADA PALABRA EN LA COLUMNA PLAYER_NAME

In [17]:
# 📌 Revertimos el formato de los nombres: _ → espacio + capitalización por palabra
df['player_name'] = df['player_name'].str.replace('_', ' ').str.title()

# 📌 Verificamos el cambio
df[['player_id', 'player_name']].head()


Unnamed: 0,player_id,player_name
0,1,Stephen Curry
1,2,John Wall
2,3,Russell Westbrook
3,4,Lebron James
4,5,Kevin Durant


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 574 entries, 0 to 573
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   player_id    574 non-null    int64 
 1   player_name  574 non-null    object
 2   2022         574 non-null    int64 
 3   2023         574 non-null    int64 
 4   2024         574 non-null    int64 
 5   2025         574 non-null    int64 
dtypes: int64(5), object(1)
memory usage: 27.0+ KB


- UNIFICAMOS LAS SIGLAS PARA QUE TENGAN PUNTO ENTRE LAS LETRAS  "A.J."

In [20]:
import re

def insertar_puntos_en_iniciales(nombre):
    # Busca patrones tipo "Aj Griffin", "Jj Redick", etc.
    match = re.match(r"^([A-Za-z])([A-Za-z])\s", nombre)
    if match:
        primera, segunda = match.groups()
        nombre_corregido = nombre.replace(f"{primera}{segunda} ", f"{primera.upper()}.{segunda.upper()}. ", 1)
        return nombre_corregido
    return nombre

# 📌 Aplicamos la corrección a la columna player_name
df['player_name'] = df['player_name'].apply(insertar_puntos_en_iniciales)

# 📌 Verificamos las primeras filas
df[['player_id', 'player_name']].head()


Unnamed: 0,player_id,player_name
0,1,Stephen Curry
1,2,John Wall
2,3,Russell Westbrook
3,4,Lebron James
4,5,Kevin Durant


In [22]:
# 📌 Filtramos las filas donde player_name contiene un punto
df[df['player_name'].str.contains(r'\.', regex=True)]


Unnamed: 0,player_id,player_name,2022,2023,2024,2025
30,31,C.J. Mccollum,33333333,35802469,33333333,30666666
51,52,A.L. Horford,26500000,10000000,9500000,0
82,83,O.G. Anunoby,17357143,18642857,19928571,0
122,123,J.A. Morant,12119440,33500000,36180000,38860000
131,132,R.J. Barrett,10900634,23883929,25794643,27705357
137,138,P.J. Tucker,10490000,11014500,11539000,0
139,140,M.O. Bamba,10300000,10300000,0,0
175,176,T.J. Mcconnell,8100000,8700000,9300000,0
212,213,P.J. Washington,5808435,7992407,0,0
234,235,T.Y. Jerome,4728948,1761752,0,0


- EXPORTAMOS NUEVAMENTE EL DF LIMPIO CON LA MODIFICACION DE LOS _

In [23]:
# 📌 Exportamos sobrescribiendo el archivo anterior
df.to_csv(r"C:\Users\User\OneDrive\Documentos\proyecto_final\data_en_csv\nba_salaries_limpio.csv", index=False)
