En la lección anterior, estudiaste los problemas que puedes encontrar en tus datos con mayor frecuencia, y estaban divididos en errores de contenido y estructurales.

Los errores de contenido que vimos son:

Valores ausentes: cuando una celda no está llena por alguna razón.
Valores duplicados: cuando dos o más filas son exactamente iguales.

El problema estructural que vimos es el nombramiento incorrecto de columnas. En esta lección, aprenderemos cómo corregir este problema estructural.

Algunos problemas típicos con los nombres de columna incluyen:

Nombres de columna que contienen espacios. Pueden ser fáciles de pasar por alto y crear problemas al intentar acceder a una columna. Es mejor utilizar snake_case al nombrar columnas y variables.

Falta de claridad en los nombres de columna. Puede ser difícil saber qué representan los datos en una columna.

Al final de esta lección, podrás identificar errores comunes en la denominación de columnas y utilizar el método rename() para corregirlos. Saber cómo cambiar los nombres de las columnas para reflejar mejor los datos facilitará mucho el trabajo con los datos.

Por dónde empezar

El primer paso es comprobar si realmente tienes en tus columnas un problema con la asignación de nombres. Recomendamos empezar con el método info() para obtener una idea general sobre el dataset.

Recordemos cómo usarlo:

print(df.info())

Aquí está la salida:

![info-method.png](attachment:info-method.png)

Este método muestra no solo los nombres de las columnas, sino también información sobre los tipos de datos en la tabla y la cantidad de objetos no nulos en cada columna. Es un excelente punto de partida.

Como alternativa, puedes usar el atributo .columns que solo muestra los nombres de las columnas y nada más.

Para ilustrar cómo funciona el atributo .columns, creemos una tabla que contenga las distancias entre la Tierra y varios cuerpos celestes. Crearemos un DataFrame a partir de estos datos.

import pandas as pd

#las medidas se almacenan en una lista de listas
measurements = [['Sun', 146, 152],
                                ['Moon', 0.36, 0.41], 
                                ['Mercury', 82, 217], 
                                ['Venus', 38, 261],
                                ['Mars', 56, 401],
                                ['Jupiter', 588, 968],
                                ['Saturn', 1195, 1660],
                                ['Uranus', 2750, 3150],
                                ['Neptune', 4300, 4700],
                                ['Halley\'s comet', 6, 5400]]

#los nombres de las columnas se almacenan en la variable header
header = ['Celestial bodies ','MIN', 'MAX'] 

# guardar el DataFrame en la variable celestial
celestial = pd.DataFrame(data=measurements, columns=header)

Para revisar los nombres de las columnas, vamos a mostrar el atributo columns del DataFrame.

print(celestial.columns)

Index(['Celestial bodies ','MIN', 'MAX'], dtype='object')

Aquí tenemos tres problemas:

'Celestial bodies ' contiene dos espacios: entre las palabras y al final.

'MIN' y 'MAX' se escriben en mayúsculas, mientras que en 'Celestial bodies ' solo se escribe con mayúscula el primer carácter. Este tipo de inconsistencia puede causar problemas.

Los nombres 'MIN' y 'MAX' no son muy descriptivos. Necesitamos nombres más explícitos para transmitir con claridad su significado.

Corregir los problemas

Debemos corregir estos problemas, así que cambiemos el nombre de las columnas:

Vamos a cambiar 'Celestial bodies ' a 'celestial_bodies', para respetar el estilo snake_case, y de esta manera resolvemos los problemas del nombre de esta columna.

Remplazaremos 'MIN' y 'MAX' por 'min_distance' y 'max_distance', y de esa manera también respetaremos el estilo snake_case y agregaremos significado al nombre de las columnas, lo que hace que su contenido se entienda más fácilmente.

Para cambiar el nombre de las columnas, llama al método rename() con un diccionario como su argumento columns. Las claves del diccionario deben ser los nombres anteriores de las columnas, y los valores correspondientes deben ser los nuevos nombres. De este modo:

#Declara un diccionario con el nombre anterior de la columna como claves
#y los nombres nuevos de la columna como los valores

columns_new ={
    "Celestial bodies ": "celestial_bodies",
    "MIN": "min_distance",
    "MAX": "max_distance",
    }

#Llama al método rename y pasa
#el diccionario como un argumento al parámetro columns

celestial = celestial.rename(columns = columns_new)
print(celestial.columns)

Index(['celestial_bodies', 'min_distance', 'max_distance'], dtype='object')

Antes te mostramos cómo cambiar los nombres de las columnas y reasignar la variable celestial para reflejar los cambios. Si no reasignas la variable, los nombres de las columnas no cambiarán.

Sin embargo, hay una forma más elegante de renombrar columnas que no requiere reasignación como hicimos anteriormente. Solo necesitamos especificar el parámetro inplace y establecerlo en True.

#Declara un diccionario con el nombre anterior de la columna como claves
#y los nombres nuevos de la columna como los valores

columns_new ={
    "Celestial bodies ": "celestial_bodies",
    "MIN": "min_distance",
    "MAX": "max_distance",
    }

#Llama al método rename y pasa
#el diccionario como un argumento al parámetro columns
#y True como un argumento al parámetro inplace

celestial.rename(columns = columns_new, inplace = True)
print(celestial.columns)

Index(['celestial_bodies', 'min_distance', 'max_distance'], dtype='object')

Como puedes ver, logramos los mismos resultados sin hacer ninguna asignación directa.

Práctica guiada

Ejercicio 1

¡Y ahora es tu turno para practicar!

Primero, debes ver si algo está mal con los nombres de las columnas y qué es. Así que comienza por mostrar los nombres de columna de la tabla df.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

print(df.columns)# escribe tu código aquí

#Resultado
#Index(['  user_id', 'total play', 'Artist', 'genre', 'track'], dtype='object')

Ejercicio 2

Debes identificar tres problemas en los nombres de las columnas '  user_id', 'total play' y 'Artist'. Adelante, corrígelos.

Renombra las siguientes tres columnas en df:

'   user_id' → 'user_id'

'total play' → 'total_play'

'Artist' → 'artist'

Crea un diccionario con los nombres antiguos y los nuevos, y después llama al método rename() en df y pasa a este tu diccionario. No utilices el parámetro inplace, asigna el resultado a la nueva variable.

Crea un diccionario que contenga los nombres antiguos como claves y los nuevos como valores. Luego, utiliza el método rename() del DataFrame df y pasa el diccionario como argumento. No uses el parámetro inplace; en su lugar, asigna el resultado a la nueva variable.

En el diccionario, utiliza los nombres de columna anteriores como claves y los nuevos como valores.

Luego, muestra el atributo columns para df_new_cols para confirmar que los cambios se han aplicado.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

df_new_cols = df.rename(columns={
    '  user_id': 'user_id', 
    'total play': 'total_play',
    'Artist': 'artist'
})

print(df_new_cols.columns)

#Index(['user_id', 'total_play', 'artist', 'genre', 'track'], dtype='object')

Ejercicio 3

En el ejercicio anterior, renombraste las columnas del DataFrame df creando una nueva variable. Ahora, realiza los mismos cambios pero usando el parámetro inplace para modificar directamente el DataFrame df.

Renombra las siguientes tres columnas en df:

'  user_id' → 'user_id'

'total play' → 'total_play'

'Artist' → 'artist'

Crea un diccionario con los nombres antiguos como claves y los nuevos como valores, y luego usa el método rename() con el parámetro inplace=True para realizar los cambios directamente en df.

Finalmente, muestra el atributo columns para df para confirmar que los cambios se han aplicado correctamente.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

# Renombrar las columnas utilizando el parámetro inplace
df_new_cols = {
    '  user_id': 'user_id', 
    'total play': 'total_play',
    'Artist': 'artist'
}# escribe tu código aquí

df.rename(columns=df_new_cols, inplace=True)# Mostrar las columnas para confirmar los cambios
print(df.columns)

#Index(['user_id', 'total_play', 'artist', 'genre', 'track'], dtype='object')

Ejercicio 4

Elimina los espacios en blanco al principio y al final de los nombres de las columnas usando el método strip(). Aplica este cambio a una columna de ejemplo: '  User_ID'.

Guarda el resultado en una variable llamada name_stripped. Luego, imprime el valor de esta variable para confirmar el cambio

In [None]:
# Nombre de la columna con espacios en blanco
column_name = '  User_ID'

#elimina los espacios en blaco
name_stripped = column_name.strip()# escribe tu código aquí

print(name_stripped)

#User_ID

Ejercicio 5

Después de eliminar los espacios en blanco, convierte el nombre de la columna a minúsculas usando el método lower(). Aplica este cambio a una columna de ejemplo: 'User_ID'.

Guarda el resultado en una variable llamada name_lowered. Luego, imprime el valor de esta variable para confirmar el cambio.

In [None]:
# Nombre de la columna con mayúsculas
column_name = 'User_ID'

#lower case the name of the column
name_lowered = column_name.lower()

print(name_lowered)

#user_id

Ejercicio 6

Después de eliminar espacios en blanco y convertir el nombre a minúsculas, reemplaza los espacios en blanco dentro del nombre de la columna con guiones bajos (_) usando el método replace(). Aplica este cambio a una columna de ejemplo: 'total play'.

Guarda el resultado en una variable llamada name_no_spaces. Luego, imprime el valor de esta variable para confirmar el cambio.

In [None]:
# Nombre de la columna con espacios internos
column_name = 'total play'

#replace the space for the underscore
name_no_spaces = column_name.replace(" ", "_")# escribe tu código aquí

print(name_no_spaces)

#total_play

Actividad práctica

Ejercicio 1

Volvamos a nuestro dataset music_log_raw.csv. Queremos que apliques los siguientes cambios a todos los nombres de columna usando un bucle: 

Elimina espacios en blanco al principio y al final de cada nombre de columna con strip().

Convierte todas las letras a minúsculas con lower().

Reemplaza los espacios en blanco internos con guiones bajos (_) usando replace().

Guarda los nuevos nombres de columna en la lista new_col_names y luego asigna esta lista al atributo columns del DataFrame para actualizarlo.

Finalmente, imprime df.columns para confirmar que los cambios se han aplicado correctamente.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

#store in a empty list
new_col_names = []
# escribe tu código aquí
for column in df.columns:
    name_stripped = column.strip()
    name_lowered  = name_stripped.lower()
    char_replaced = name_lowered.replace(' ', '_')
    new_col_names.append(char_replaced)

df.columns = new_col_names
print(df.columns)

#Index(['user_id', 'total_play', 'artist', 'genre', 'track'], dtype='object')

Ejercicio 2

Vamos a trabajar con un DataFrame que contiene datos de ventas con nombres de columnas inconsistentes y no estandarizados. El objetivo es limpiar y normalizar estos nombres para que sean más fáciles de usar y consistentes en el análisis.

El DataFrame tiene las siguientes columnas originales:

' Salesperson '

' Total SALES'

'Units Sold '

'Region'

' Revenue in USD'

Aplica las siguientes transformaciones a los nombres de columna:

Elimina cualquier espacio en blanco al inicio y al final de cada nombre de columna.

Convierte los nombres de columna a minúsculas.
Reemplaza cualquier espacio en blanco dentro de los nombres de columna con guiones bajos (_).

Al final, muestra df.columns para confirmar que los cambios se han aplicado correctamente.

In [None]:
import pandas as pd

# Crear un DataFrame para representar el reporte de ventas
data = {
    ' Salesperson   ': ['John Doe', 'Jane Smith', 'Alice Johnson'],
    ' Total SALES': [3000, 1500, 4000],
    'Units Sold ': [50, 25, 60],
    'Region': ['North', 'South', 'East'],
    ' Revenue in USD': [100000, 50000, 120000]
}

# Crear el DataFrame
df = pd.DataFrame(data)

#store in a diccionarie
new_name_col = {}
for column in df.columns:
    no_spaces = column.strip()
    lower_names = no_spaces.lower()
    replace_spaces = lower_names.replace(' ', '_')
    new_name_col[column]=replace_spaces
    # escribe tu código aquí
df.columns = new_name_col.values()

print(df.columns)

#Index(['salesperson', 'total_sales', 'units_sold', 'region', 'revenue_in_usd'], dtype='object')