# **INTRODUCCIÓN AL PREPROCESAMIENTO DE DATOS Y AL ANÁLISIS INICIAL**

Como profesional de los datos, probablemente pasarás la mayor parte de tu tiempo trabajando con datos en las fases de preprocesamiento y exploración. La limpieza adecuada de los datos es fundamental para sacar conclusiones fiables de ellos.

Después de estudiar este capítulo, serás capaz de utilizar diferentes métodos para:

- Cambiar el nombre de las columnas.
- Procesar valores ausentes.
- Trabajar con duplicados.
- Entender la agrupación.
- Identificar las etapas de la agrupación.
- Agrupar datos en pandas.
- Ordenar datos para hallar valores atípicos.
- Utilizar las características de los datos tales como valores máximos y mínimos, mediana y media.

### **Problemas con los datos: entra basura, sale basura**

Los valores ausentes son valores en filas que no tenemos disponibles por alguna razón. Esto podría deberse a que la persona no respondió a una de las preguntas en una consulta, ya sea por problemas técnicos o cualquier otra razón. En los DataFrames de pandas, estos valores suelen indicarse con NaN. NaN significa "not a number" ("no es un número") y es una forma común de marcar valores ausentes.

### **Errores de presentación**

Es difícil determinar la cantidad de espacios visualmente, por lo que generalmente es mejor evitar usar espacios en los nombres de las columnas. Si el nombre de una columna consta de varias palabras, lo mejor es usar snake_case.

Snake case (estilizado como snakecase) se refiere al estilo de escritura en el que cada espacio se reemplaza por un guion bajo () y la primera letra de cada palabra se escribe en minúsculas.

Los caracteres no deseados, como los espacios, se pueden introducir de forma inesperada en los procesos de importación o exportación de datos. Esto es exactamente lo que pasó con el nombre de nuestra columna ' user_id'.

Todos los temas tratados en esta lección requieren nuestra atención. Debemos abordarlos antes de proceder al análisis en sí. ¡Te enseñaremos cómo hacerlo en las próximas lecciones!

### **Renombrar columnas**

**Por dónde empezar**

El primer paso es comprobar si realmente tienes en tus columnas un problema con la asignación de nombres. Recomendamos empezar con el método info() para obtener una idea general sobre el dataset.

Recordemos cómo usarlo:


In [None]:
print(df.info())

Este método muestra no solo los nombres de las columnas, sino también información sobre los tipos de datos en la tabla y la cantidad de objetos no nulos en cada columna. Es un excelente punto de partida.

Como alternativa, puedes usar el atributo .columns que solo muestra los nombres de las columnas y nada más.

Para ilustrar cómo funciona el atributo .columns, creemos una tabla que contenga las distancias entre la Tierra y varios cuerpos celestes. Crearemos un DataFrame a partir de estos datos.

In [1]:
import pandas as pd

# las medidas se almacenan en una lista de listas
measurements = [['Sun', 146, 152],
                                ['Moon', 0.36, 0.41], 
                                ['Mercury', 82, 217], 
                                ['Venus', 38, 261],
                                ['Mars', 56, 401],
                                ['Jupiter', 588, 968],
                                ['Saturn', 1195, 1660],
                                ['Uranus', 2750, 3150],
                                ['Neptune', 4300, 4700],
                                ['Halley\'s comet', 6, 5400]]

# los nombres de las columnas se almacenan en la variable header
header = ['Celestial bodies ','MIN', 'MAX'] 

# guardar el DataFrame en la variable celestial
celestial = pd.DataFrame(data=measurements, columns=header)

Para revisar los nombres de las columnas, vamos a mostrar el atributo columns del DataFrame.


In [2]:
print(celestial.columns)


Index(['Celestial bodies ', 'MIN', 'MAX'], dtype='object')


Aquí tenemos tres problemas:

- 'Celestial bodies ' contiene dos espacios: entre las palabras y al final.
- 'MIN' y 'MAX' se escriben en mayúsculas, mientras que en 'Celestial bodies ' solo se escribe con mayúscula el primer carácter. Este tipo de inconsistencia puede causar problemas.
- Los nombres 'MIN' y 'MAX' no son muy descriptivos. Necesitamos nombres más explícitos para transmitir con claridad su significado.

Para cambiar el nombre de las columnas, llama al método rename() con un diccionario como parámetro de columns. Las claves del diccionario deben ser los nombres anteriores de las columnas, y los valores correspondientes deben ser los nuevos nombres. De este modo:

In [4]:
# Declara un diccionario con el nombre anterior de la columna como claves
# y los nombres nuevos de la columna como los valores
columns_new ={
    "Celestial bodies ": "celestial_bodies",
    "MIN": "min_distance",
    "MAX": "max_distance",
    }

# Llama al método rename y pasa
# el diccionario como un argumento al parámetro columns
celestial = celestial.rename(columns = columns_new)
print(celestial.columns)
print(celestial.info())

Index(['celestial_bodies', 'min_distance', 'max_distance'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   celestial_bodies  10 non-null     object 
 1   min_distance      10 non-null     float64
 2   max_distance      10 non-null     float64
dtypes: float64(2), object(1)
memory usage: 372.0+ bytes
None


Antes te mostramos cómo cambiar los nombres de las columnas y reasignar la variable celestial vapara reflejar los cambios. Si no reasignas la variable, los nombres de las columnas no cambiarán.

Sin embargo, hay una forma más elegante de renombrar columnas que no requiere reasignación como hicimos anteriormente. Solo necesitamos especificar el parámetro inplace y establecerlo en True.

In [5]:
# Declara un diccionario con el nombre anterior de la columna como claves
# y los nombres nuevos de la columna como los valores
columns_new ={
    "Celestial bodies ": "celestial_bodies",
    "MIN": "min_distance",
    "MAX": "max_distance",
    }

# Llama al método rename y pasa
# el diccionario como un argumento al parámetro columns
# y True como un argumento al parámetro inplace
celestial.rename(columns = columns_new, inplace = True)
print(celestial.columns)

Index(['celestial_bodies', 'min_distance', 'max_distance'], dtype='object')


## **EJERCICIOS**

Primero, debes ver si algo está mal con los nombres de las columnas y qué es. Así que comienza por mostrar los nombres de columna de la tabla df.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

print(df.columns)
#print(df)
# escribe tu código aquí

Debes identificar tres problemas en los nombres de las columnas '  user_id', 'total play' y 'Artist'. Adelante, corrígelos.

Renombra las siguientes tres columnas en df:

- '  user_id' → 'user_id'
- 'total play' → 'total_play'
- 'Artist' → 'artist'

Crea un diccionario con los nombres antiguos y los nuevos, y después llama al método rename() en df y pasa a este tu diccionario.

En el diccionario, utiliza los nombres de columna anteriores como claves y los nuevos como valores.

Luego, muestra el atributo columns para df para confirmar que los cambios se han aplicado.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

columns_new = {
    "  user_id":"user_id",
    "total play":"total_play",
    "Artist":"artist",
}

df.rename(columns = columns_new , inplace = True)


print(df.columns)

### **Forma automatizada de renombrar columnas**

A veces, la cantidad de columnas en un dataset puede ser grande, por lo que es poco práctico asignar manualmente nuevos valores a los nombres de las columnas. Y de hecho, podría ser difícil ver los problemas en un nombre de columna. En estos casos, los bucles y los métodos de string pueden ser muy útiles.
 
Echa un vistazo al siguiente fragmento de código que itera sobre los antiguos nombres de la columna, cámbialos y guarda los resultados en la lista new_col_names, que más tarde se asigna como los nuevos nombres de columna:

In [None]:
new_col_names = []

for old_name in celestial.columns:
    # Primero, elimina los espacios al principio y al final
    name_stripped = old_name.strip()
    # Luego, pon todas las letras en minúsculas
    name_lowered = name_stripped.lower()
    # Por último, reemplaza los espacios entre palabras por guiones bajos
    name_no_spaces = name_lowered.replace(' ', '_')
    # Agrega el nuevo nombre a la lista de nuevos nombres de columna
    new_col_names.append(name_no_spaces)

# Reemplaza los nombres anteriores por los nuevos
celestial.columns = new_col_names


Como resultado, obtenemos un DataFrame en el que todos los nombres de las columnas se ajustan a nuestro formato deseado.

¡Es muy claro! Recorre los nombres de tus columnas; elimina todos los espacios iniciales y finales usando el método strip(); haz que todo esté en minúsculas con el método lower(); remplaza cualquier espacio entre palabras con guiones bajos aplicando el método replace(); y después agrega el nuevo nombre (más claro) a la nueva lista.

Ahora es tu turno nuevamente. Volvamos a nuestro dataset music_log_raw.csv.

## **EJERCICIOS!!**

Ahora queremos que hagas el mismo cambio de nombre, pero usando 3 métodos de string: strip(), lower() y replace(). Coloca los nuevos nombres de columna en la lista new_col_names.

Luego, muestra el atributo columns para df para confirmar que los cambios se han aplicado.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

new_col_names = []

for i in df:
    stripped = i.strip()
    lower = stripped.lower()
    spaces= lower.replace(" ","_")
    new_col_names.append(spaces)

df.columns = new_col_names
print(df.columns)

### **Procesar valores ausentes**

Ahora que hemos corregido los nombres de las columnas, podemos mostrarte cómo preprocesar los valores ausentes en los propios datos. Al final de esta lección, podrás

comprobar rápidamente qué columnas tienen valores ausentes usando el método **isna()**,
 
completar los valores ausentes con el método ***fillna()** y 

eliminar filas o columnas con valores ausentes utilizando el método **dropna()**.

**Buscar valores ausentes**

Para encontrar todos los valores ausentes en una tabla, puedes utilizar el método 
isna(). Funciona de manera bastante sencilla: si se encuentra un valor ausente, devuelve True; si no, devuelve False.

isna() no es tan útil por sí solo. Generalmente usamos el método isna() junto con el método sum(). La función sum() cuenta todos los valores True y devuelve su suma total:

In [None]:
print(cholera.isna().sum())

**Sustituir valores**

Para conservar todas las filas con datos valiosos, reemplazaremos los valores NaN en la columna 'imported_cases' por ceros.

Podemos lograr esto utilizando el método fillna(), que devuelve una copia de la columna original con todos los valores NaN reemplazados por un valor específico.

In [None]:
cholera['imported_cases'] = cholera['imported_cases'].fillna(0)

print(cholera)

La columna 'imported_cases' ahora tiene todos sus valores ausentes reemplazados por ceros. De manera alternativa, podrías haber establecido el argumento inplace=True para que no tuvieras que asignar una nueva columna en lugar de la antigua.

In [None]:
cholera['imported_cases'].fillna(0, inplace=True)

Por cierto, incluso puedes usar aquí el bucle for para remplazar los valores ausentes. Todo lo que necesitas es crear una lista que contenga todas las columnas en donde quieres hacer el remplazo, y después iterar sobre esos nombres para hacer realmente el cambio.

In [None]:
# recorrer nombres de columna y remplazar los valores ausentes con ceros
columns_to_replace = ['imported_cases']

for col in columns_to_replace:
    cholera[col].fillna(0, inplace=True)

### **EJERCICIOS!**

Escribe código que sume la cantidad de valores ausentes en todas las columnas del dataset. Guarda el resultado en la variable mis_val y muéstralo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

mis_val = df.isna().sum()

print(mis_val)

### **Eliminar filas**

Para eliminar filas con valores ausentes en un DataFrame de pandas, usa el método dropna(). Este método elimina las filas con al menos un valor ausente. También puedes especificar una lista de columnas en su parámetro subset= para que elimine filas con valores nulos solo en esas columnas.

In [None]:
cholera = cholera.dropna(subset=['total_cases', 'deaths', 'case_fatality_rate'])
print(cholera)

Ahora eliminemos toda la columna 'notes', que consiste casi en su totalidad en valores ausentes.

Usaremos el método dropna() de nuevo, pero esta vez agregaremos otro argumento: axis=. Este argumento nos permite especificar si queremos eliminar filas o columnas. Si pasamos el string 'columns' a axis=, eliminará las columnas que tengan valores ausentes. Dado que 'notes' es la única columna que contiene valores ausentes, podemos usar esta opción de forma segura para eliminarla.

In [None]:
cholera = cholera.dropna(axis='columns')
print(cholera)

Debes saber que si tienes varias columnas con valores ausentes, cholera.dropna(axis='columns') las eliminará todas. No es siempre lo que queremos. En su lugar, puedes usar el método drop() para controlar qué columnas quieres eliminar. Esto es lo que debes hacer si solo quieres eliminar la columna 'notes' utilizando el método drop():

In [None]:
cholera = cholera.drop(labels=['notes'], axis='columns')

### **Ejercicios**
**Ejercicio 2**

Escribe código para recorrer las columnas genre, Artist y track del DataFrame df y reemplaza cualquier valor ausente con el string 'no_info'. La lista de columnas a reemplazar se almacena en la variable columns_to_replace.

Después de realizar los reemplazos, comprueba la cantidad de valores ausentes nuevamente usando isna().sum()

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

columns_to_replace = ['genre', 'Artist', 'track']

for col in columns_to_replace:
    df[col].fillna("no_info", inplace = True)
	

print(df.isna().sum())

**Ejercicio 3**

Ahora, eliminemos los NaNs en la columna total play remplazándolos con 0.
Después de realizar los reemplazos, comprueba la cantidad de valores ausentes nuevamente usando isna().sum()

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

df["total play"].fillna(0,inplace = True)


print(df.isna().sum())