# **Limpieza y Transformación de Datos en Python**

En este notebook, aprenderás a limpiar y transformar un conjunto de datos utilizando **Pandas**. Estas técnicas son esenciales en ingeniería de datos para preparar datos de calidad antes de cargarlos en un sistema de almacenamiento o realizar un análisis.

## **1. Cargar los Datos**

Comencemos cargando un archivo CSV de muestra.

In [1]:
import pandas as pd

# Cargar datos desde el archivo CSV
df = pd.read_csv('path_to_your_csv_file.csv')  # Asegúrate de que la ruta sea correcta
print("Datos originales:")
df.head()

Datos originales:


Unnamed: 0,id,name,age,salary,department,hire_date
0,1,Alice,25,70000,HR,2018-05-21
1,2,Bob,30,80000,IT,2017-06-15
2,3,Charlie,35,75000,Finance,2016-07-10
3,4,David,40,68000,IT,2015-08-05
4,5,Eve,45,72000,HR,2014-09-01


## **2. Limpieza de Datos**

En esta sección, realizaremos algunas operaciones de limpieza de datos.

### a. Manejo de Valores Faltantes

Es común encontrar valores faltantes en los datos. Aquí veremos cómo eliminarlos o rellenarlos.

In [2]:
# Eliminar filas con valores nulos en la columna 'salary'
df = df.dropna(subset=['salary'])
print("Datos después de eliminar filas sin salario:")
df.head()

Datos después de eliminar filas sin salario:


Unnamed: 0,id,name,age,salary,department,hire_date
0,1,Alice,25,70000,HR,2018-05-21
1,2,Bob,30,80000,IT,2017-06-15
2,3,Charlie,35,75000,Finance,2016-07-10
3,4,David,40,68000,IT,2015-08-05
4,5,Eve,45,72000,HR,2014-09-01


In [3]:
# Rellenar valores faltantes en 'department' con 'Unknown'
df['department'] = df['department'].fillna('Unknown')
print("Datos después de rellenar valores nulos en 'department':")
df.head()

Datos después de rellenar valores nulos en 'department':


Unnamed: 0,id,name,age,salary,department,hire_date
0,1,Alice,25,70000,HR,2018-05-21
1,2,Bob,30,80000,IT,2017-06-15
2,3,Charlie,35,75000,Finance,2016-07-10
3,4,David,40,68000,IT,2015-08-05
4,5,Eve,45,72000,HR,2014-09-01


### b. Eliminación de Duplicados

El siguiente paso es verificar si hay filas duplicadas en el conjunto de datos y eliminarlas.

In [4]:
# Eliminar filas duplicadas
df = df.drop_duplicates()
print("Datos después de eliminar duplicados:")
df.head()

Datos después de eliminar duplicados:


Unnamed: 0,id,name,age,salary,department,hire_date
0,1,Alice,25,70000,HR,2018-05-21
1,2,Bob,30,80000,IT,2017-06-15
2,3,Charlie,35,75000,Finance,2016-07-10
3,4,David,40,68000,IT,2015-08-05
4,5,Eve,45,72000,HR,2014-09-01


### c. Corrección de Errores de Formato

Para estandarizar los datos, puedes convertir el texto a un formato consistente. En este caso, aplicaremos mayúsculas iniciales a la columna `name`.

In [5]:
# Convertir los nombres a mayúsculas iniciales
df['name'] = df['name'].str.title()
print("Datos después de estandarizar el formato de 'name':")
df.head()

Datos después de estandarizar el formato de 'name':


Unnamed: 0,id,name,age,salary,department,hire_date
0,1,Alice,25,70000,HR,2018-05-21
1,2,Bob,30,80000,IT,2017-06-15
2,3,Charlie,35,75000,Finance,2016-07-10
3,4,David,40,68000,IT,2015-08-05
4,5,Eve,45,72000,HR,2014-09-01


## **3. Transformación de Datos**

Ahora que los datos están limpios, pasamos a la transformación, donde adaptamos los datos para su análisis.

### a. Filtrado de Datos

Podemos filtrar los datos para seleccionar solo los empleados con un salario mayor a 70,000.

In [6]:
# Filtrar empleados con salario mayor a 70000
df_filtrado = df[df['salary'] > 70000]
print("Empleados con salario > 70000:")
df_filtrado

Empleados con salario > 70000:


Unnamed: 0,id,name,age,salary,department,hire_date
1,2,Bob,30,80000,IT,2017-06-15
2,3,Charlie,35,75000,Finance,2016-07-10
4,5,Eve,45,72000,HR,2014-09-01


### b. Creación de Nuevas Columnas

Es común crear columnas derivadas de otras para enriquecer los datos. Aquí, crearemos una columna `tax` calculada como el 10% del salario.

In [7]:
# Crear una nueva columna 'tax' como el 10% del salario
df['tax'] = df['salary'] * 0.10
print("Datos con columna 'tax':")
df.head()

Datos con columna 'tax':


Unnamed: 0,id,name,age,salary,department,hire_date,tax
0,1,Alice,25,70000,HR,2018-05-21,7000.0
1,2,Bob,30,80000,IT,2017-06-15,8000.0
2,3,Charlie,35,75000,Finance,2016-07-10,7500.0
3,4,David,40,68000,IT,2015-08-05,6800.0
4,5,Eve,45,72000,HR,2014-09-01,7200.0


### c. Normalización de Datos

Para ajustar los valores en una escala, normalizaremos la columna `salary` entre 0 y 1.

In [8]:
from sklearn.preprocessing import MinMaxScaler

# Normalizar la columna 'salary'
scaler = MinMaxScaler()
df['salary_normalized'] = scaler.fit_transform(df[['salary']])
print("Datos con 'salary' normalizado:")
df.head()

Datos con 'salary' normalizado:


Unnamed: 0,id,name,age,salary,department,hire_date,tax,salary_normalized
0,1,Alice,25,70000,HR,2018-05-21,7000.0,0.166667
1,2,Bob,30,80000,IT,2017-06-15,8000.0,1.0
2,3,Charlie,35,75000,Finance,2016-07-10,7500.0,0.583333
3,4,David,40,68000,IT,2015-08-05,6800.0,0.0
4,5,Eve,45,72000,HR,2014-09-01,7200.0,0.333333


### d. Conversión de Tipos de Datos

Es importante asegurarse de que cada columna tenga el tipo de dato correcto. Por ejemplo, si tienes una columna de fechas, conviértela al tipo `datetime`.

In [9]:
# Convertir la columna 'hire_date' a formato de fecha
df['hire_date'] = pd.to_datetime(df['hire_date'])
print("Datos con 'hire_date' convertido a datetime:")
df.head()

Datos con 'hire_date' convertido a datetime:


Unnamed: 0,id,name,age,salary,department,hire_date,tax,salary_normalized
0,1,Alice,25,70000,HR,2018-05-21,7000.0,0.166667
1,2,Bob,30,80000,IT,2017-06-15,8000.0,1.0
2,3,Charlie,35,75000,Finance,2016-07-10,7500.0,0.583333
3,4,David,40,68000,IT,2015-08-05,6800.0,0.0
4,5,Eve,45,72000,HR,2014-09-01,7200.0,0.333333


### e. Agregación de Datos

Para resumir los datos, puedes agruparlos. Aquí, calcularemos el salario promedio por departamento.

In [10]:
# Calcular el salario promedio por departamento
df_agrupado = df.groupby('department')['salary'].mean().reset_index()
print("Salario promedio por departamento:")
df_agrupado

Salario promedio por departamento:


Unnamed: 0,department,salary
0,Finance,75000.0
1,HR,71000.0
2,IT,74000.0
