# **INTRODUCCIÓN AL PREPROCESAMIENTO DE DATOS Y AL ANÁLISIS INICIAL**

Como profesional de los datos, probablemente pasarás la mayor parte de tu tiempo trabajando con datos en las fases de preprocesamiento y exploración. La limpieza adecuada de los datos es fundamental para sacar conclusiones fiables de ellos.

Después de estudiar este capítulo, serás capaz de utilizar diferentes métodos para:

- Cambiar el nombre de las columnas.
- Procesar valores ausentes.
- Trabajar con duplicados.
- Entender la agrupación.
- Identificar las etapas de la agrupación.
- Agrupar datos en pandas.
- Ordenar datos para hallar valores atípicos.
- Utilizar las características de los datos tales como valores máximos y mínimos, mediana y media.

### **Problemas con los datos: entra basura, sale basura**

Los valores ausentes son valores en filas que no tenemos disponibles por alguna razón. Esto podría deberse a que la persona no respondió a una de las preguntas en una consulta, ya sea por problemas técnicos o cualquier otra razón. En los DataFrames de pandas, estos valores suelen indicarse con NaN. NaN significa "not a number" ("no es un número") y es una forma común de marcar valores ausentes.

### **Errores de presentación**

Es difícil determinar la cantidad de espacios visualmente, por lo que generalmente es mejor evitar usar espacios en los nombres de las columnas. Si el nombre de una columna consta de varias palabras, lo mejor es usar snake_case.

Snake case (estilizado como snakecase) se refiere al estilo de escritura en el que cada espacio se reemplaza por un guion bajo () y la primera letra de cada palabra se escribe en minúsculas.

Los caracteres no deseados, como los espacios, se pueden introducir de forma inesperada en los procesos de importación o exportación de datos. Esto es exactamente lo que pasó con el nombre de nuestra columna ' user_id'.

Todos los temas tratados en esta lección requieren nuestra atención. Debemos abordarlos antes de proceder al análisis en sí. ¡Te enseñaremos cómo hacerlo en las próximas lecciones!

### **Renombrar columnas**

**Por dónde empezar**

El primer paso es comprobar si realmente tienes en tus columnas un problema con la asignación de nombres. Recomendamos empezar con el método info() para obtener una idea general sobre el dataset.

Recordemos cómo usarlo:


In [None]:
print(df.info())

Este método muestra no solo los nombres de las columnas, sino también información sobre los tipos de datos en la tabla y la cantidad de objetos no nulos en cada columna. Es un excelente punto de partida.

Como alternativa, puedes usar el atributo .columns que solo muestra los nombres de las columnas y nada más.

Para ilustrar cómo funciona el atributo .columns, creemos una tabla que contenga las distancias entre la Tierra y varios cuerpos celestes. Crearemos un DataFrame a partir de estos datos.

In [None]:
import pandas as pd

# las medidas se almacenan en una lista de listas
measurements = [['Sun', 146, 152],
                                ['Moon', 0.36, 0.41], 
                                ['Mercury', 82, 217], 
                                ['Venus', 38, 261],
                                ['Mars', 56, 401],
                                ['Jupiter', 588, 968],
                                ['Saturn', 1195, 1660],
                                ['Uranus', 2750, 3150],
                                ['Neptune', 4300, 4700],
                                ['Halley\'s comet', 6, 5400]]

# los nombres de las columnas se almacenan en la variable header
header = ['Celestial bodies ','MIN', 'MAX'] 

# guardar el DataFrame en la variable celestial
celestial = pd.DataFrame(data=measurements, columns=header)