# Unidad 02 - Sesión 01 Asíncrona - Semana 04: Limpieza y Transformación de Datos

- **Materia:** Programación para Analítica Descriptiva y Predictiva
- **Unidad 02:** Análisis Descriptivo
- **Tema 02:** Limpieza y Transformación

- **Objetivo:** Al finalizar esta clase, los estudiantes serán capaces de comprender y aplicar el proceso de Data Wrangling para preparar datos de manera efectiva antes de su análisis

¡Recuerda que es importante conectar tu Colab y también el Drive!

Para poder ejecutar este *notebook* es importante que hayas colocado los archivos de trabajo en `drive/MyDrive/Unidad02/`


## **Normalización/Estandarización/Formateo de nombres de Columnas**

Asegurar que todos los nombres sigan un formato uniforme (mayúsculas, minúsculas, sin espacios ni caracteres especiales). Algunas formas de hacer esto es siguiendo una convención establecida (snake_case, camelCase, PascalCase, etc.).

Estos cambios no deberían alterar el sginificado de la columna.

### 1.  Convertir todos los nombres a minúsculas o mayúsculas

 El siguiente código utiliza la librería Pandas para cargar un archivo CSV,modificar los nombres de las columnas y estandarizarlos en minúsculas y mayúsculas.

Para ello, utilizaremos la función `df.columns.str.lower()` que convierte cada nombre de columna a minúsculas, y `df.columns.str.upper()` a mayúsculas. Si los nombres tienen espacios y caracteres especiales, estos siguen presentes.

In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex01asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a minúsculas
df.columns = df.columns.str.lower()

#imprimimos el nombre de las columnas
print(df.columns)

Index(['Atributo 0', 'ATRIBUTO 1', 'Fecha Venta', 'VENTA TOTAL ($)',
       'Nombre Cliente'],
      dtype='object')
Index(['atributo 0', 'atributo 1', 'fecha venta', 'venta total ($)',
       'nombre cliente'],
      dtype='object')


In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex01asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a mayúsculas
df.columns = df.columns.str.upper()

#imprimimos el nombre de las columnas
print(df.columns)

Index(['Atributo 0', 'ATRIBUTO 1', 'Fecha Venta', 'VENTA TOTAL ($)',
       'Nombre Cliente'],
      dtype='object')
Index(['ATRIBUTO 0', 'ATRIBUTO 1', 'FECHA VENTA', 'VENTA TOTAL ($)',
       'NOMBRE CLIENTE'],
      dtype='object')


### 2. Reemplazar espacios por guiones bajos (snake_case)

El formato snake_case es una convención en la que los nombres de variables o columnas están en minúsculas y las palabras se separan con guiones bajos (_), en lugar de espacios o caracteres especiales.

Usaremos `str.replace()`en conjunto con `df.columns.str.lower()` para convertir primero las columnas a minúsculas

In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex01asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a snake_case
df.columns = df.columns.str.lower().str.replace(" ", "_")

#imprimimos el nombre de las columnas
print(df.columns)

Index(['Atributo 0', 'ATRIBUTO 1', 'Fecha Venta', 'VENTA TOTAL ($)',
       'Nombre Cliente'],
      dtype='object')
Index(['atributo_0', 'atributo_1', 'fecha_venta', 'venta_total_($)',
       'nombre_cliente'],
      dtype='object')


Cuando las columnas tienen varios espacios al inicio, en medio y al final, el anterior código no funciona. Observa la salida que produce con nuevo archivo

In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex02asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a snake_case con varios espacios
df.columns = df.columns.str.lower().str.replace(" ", "_")

#imprimimos el nombre de las columnas
print(df.columns)

Index(['Atributo    0', '   ATRIBUTO     1', '    Fecha Venta  ',
       '  VENTA TOTAL ($) ', ' Nombre     Cliente'],
      dtype='object')
Index(['atributo____0', '___atributo_____1', '____fecha_venta__',
       '__venta_total_($)_', '_nombre_____cliente'],
      dtype='object')


Cuando los nombres de las columnas tienen múltiples espacios consecutivos, el método .str.replace(" ", "_") solo reemplaza un espacio a la vez, lo que puede no ser suficiente en algunos casos.

Para asegurarnos de que todos los espacios múltiples sean reemplazados por un solo _, usamos la expresión regular \s+ con str.replace(). Asimismo, previamente, eliminamos espacios al inicio y final con str.strip().



In [None]:
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex02asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a snake_case y usando expresiones regulares
df.columns = df.columns.str.lower().str.strip().str.replace(r"\s+", "_", regex=True)

#imprimimos el nombre de las columnas
print(df.columns)

Index(['Atributo    0', '   ATRIBUTO     1', '    Fecha Venta  ',
       '  VENTA TOTAL ($) ', ' Nombre     Cliente'],
      dtype='object')
Index(['atributo_0', 'atributo_1', 'fecha_venta', 'venta_total_($)',
       'nombre_cliente'],
      dtype='object')


### Eliminar caracteres especiales
Si los nombres de las columnas contienen caracteres especiales como ($, %, /, #, !, etc.), podemos eliminarlos utilizando expresiones regulares (regex) en Pandas.

Para ello, usamos str.replace() con \W+ que detecta  cualquier caracter que NO sea una letra, número o _.

A continuación te muestro varios ejemplos en combinación con otras formas de normalización de nombres vistos anteriormente

Minúsculas + Caracteres Especiales
Mayúsculas + Caracteres Especiales
snake_case+ Caracteres Especiales

Para mostrar el resultado de cada una de ellas, quita el comentario a la instrucción y vuelve a ejecutar.

In [None]:
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex03asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columna a minusculas y quitamos los caracteres especiales
df.columns = df.columns.str.lower().str.replace(r"\W+", "", regex=True)

#Convertimos los nombres de las columna a minusculas y quitamos los caracteres especiales
#df.columns = df.columns.str.upper().str.replace(r"\W+", "", regex=True)

#snak_case + caracteres especiaeles
#df.columns = df.columns.str.lower().str.strip().str.replace(r"\s+", "_", regex=True).str.replace(r"\W+", "", regex=True)

#imprimimos el nombre de las columnas
print(df.columns)

Index(['Atributo    #0', '   ATRIBUTO @    1', '    Fecha Venta  ',
       '  VENTA TOTAL ($) ', ' [Nombre]     Cliente!!!'],
      dtype='object')
Index(['atributo0', 'atributo1', 'fechaventa', 'ventatotal', 'nombrecliente'], dtype='object')


### Diccionario de Datos
Un diccionario de datos es un documento o archivo que describe detalladamente las características de cada columna o variable en un conjunto de datos. Contiene información como el nombre de la variable, su descripción, tipo de dato, valores permitidos y otras reglas de validación.

Un diccionario de datos es esencial para garantizar la comprensión, consistencia y calidad de los datos dentro de un análisis o sistema de información. Sus principales usos son:

- Estandarización: Ayuda a mantener un formato uniforme de los nombres de columnas y sus valores.
- Facilita la interpretación: Permite que cualquier persona que utilice el dataset entienda el significado de cada variable.
- Mejora la calidad de los datos: Define reglas de validación para evitar errores y datos inconsistentes.
- Optimiza la colaboración: Es útil cuando varias personas o equipos trabajan con los mismos datos.
- Documentación para auditorías: Sirve como referencia para entender la evolución de los datos a lo largo del tiempo.


*¿Cómo crear un diccionario de datos en Python?*

Si tienes un DataFrame en Pandas, puedes generar un diccionario de datos automáticament

In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex01asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a snake_case
df.columns = df.columns.str.lower().str.replace(" ", "_")

#imprimimos el nombre de las columnas
print(df.columns)

#Crea un nuevo DataFrame llamado diccionario_datos que almacena
# la descripción de los nombres de las columnas y sus tipos de datos.
#[str(df[col].dtype) for col in df.columns]:
#Itera sobre cada columna (col) de df.
#Obtiene su tipo de dato con df[col].dtype.
#Convierte el tipo de dato a una cadena (str) para que pueda almacenarse en el nuevo DataFrame.
diccionario_datos = pd.DataFrame({"Nombre de columna": df.columns,
                                  "Tipo de dato": [str(df[col].dtype) for col in df.columns]})

#Imprimimos el diccionario
print(diccionario_datos)

#guardamos el diccionario
#index=False: Evita que Pandas guarde la columna de índices.
#encoding="utf-8": Asegura compatibilidad con caracteres especiales (acentos, ñ, etc.).
diccionario_datos.to_csv("drive/MyDrive/Unidad02/diccionario_datos.csv", index=False, encoding="utf-8")



Index(['Atributo 0', 'ATRIBUTO 1', 'Fecha Venta', 'VENTA TOTAL ($)',
       'Nombre Cliente'],
      dtype='object')
Index(['atributo_0', 'atributo_1', 'fecha_venta', 'venta_total_($)',
       'nombre_cliente'],
      dtype='object')
  Nombre de columna Tipo de dato
0        atributo_0        int64
1        atributo_1        int64
2       fecha_venta        int64
3   venta_total_($)        int64
4    nombre_cliente       object


## Separar o Unir Columnas

El Data Wrangling es el proceso de limpiar, transformar y estructurar los datos para su análisis. Incluye tareas como:

- Eliminación de valores nulos
- Conversión de formatos
- Normalización de nombres de columnas
- Separación y unión de columnas

Si tenemos una columna con nombres completos ("Juan Pérez"), podríamos dividirla en nombre y apellido para mejorar su análisis.


In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex04asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a minúsculas
df.columns = df.columns.str.strip().str.lower().str.replace(r"[^a-z0-9_]", "", regex=True)

#imprimimos el nombre de las columnas
print(df.head())

Index(['Atributo 0', 'ATRIBUTO 1', 'Fecha Venta', 'VENTA TOTAL ($)',
       'Nombre Cliente', ' calle', ' ciudad', ' estado'],
      dtype='object')
   atributo0  atributo1  fechaventa  ventatotal           nombrecliente  \
0          1          2           3           4  Vicente Garcia Jiménez   
1          5          6           7           8  Gilberto Rivera Zarate   
2          9         10          11          12  Francisco López Orozco   

           calle   ciudad      estado  
0  Lago manitoba   Juárez   Chihuahua  
1    Av. Reforma     CDMX      México  
2       Calle 50   Mérida     Yucatán  


### Separar en nombre y apellidos
 Separar la columna "nombre_cliente" en "nombre" y "apellido". Utilizaremos  str.split() para separar la columna en dos columnas: "nombre" y "apellido".



In [None]:
# Separar en dos columnas (Nombre y Apellido)
df[['nombre', 'apellido']] = df['nombrecliente'].str.split(n=1, expand=True)

# Mostrar resultado
print(df)

   atributo0  atributo1  fechaventa  ventatotal           nombrecliente  \
0          1          2           3           4  Vicente Garcia Jiménez   
1          5          6           7           8  Gilberto Rivera Zarate   
2          9         10          11          12  Francisco López Orozco   

           calle   ciudad      estado     nombre        apellido  
0  Lago manitoba   Juárez   Chihuahua    Vicente  Garcia Jiménez  
1    Av. Reforma     CDMX      México   Gilberto   Rivera Zarate  
2       Calle 50   Mérida     Yucatán  Francisco    López Orozco  


### Separar en nombre, apellido1 y apellido2

Si el nombre tiene más de un apellido, solo se separa el primer espacio y todo lo demás queda en la columna "apellido". Solución: Podemos separar en más de dos columnas usando n=2.

Nota: Si no hay un segundo apellido, será None (NaN).

In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex04asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a minúsculas
df.columns = df.columns.str.strip().str.lower().str.replace(r"[^a-z0-9_]", "", regex=True)

 #podemos separar en más de dos columnas usando n=2 o rsplit().
df[['nombre', 'apellido1', 'apellido2']] = df['nombrecliente'].str.split(n=2, expand=True)


#imprimimos el nombre de las columnas
print(df.head())

Index(['Atributo 0', 'ATRIBUTO 1', 'Fecha Venta', 'VENTA TOTAL ($)',
       'Nombre Cliente', ' calle', ' ciudad', ' estado'],
      dtype='object')
   atributo0  atributo1  fechaventa  ventatotal           nombrecliente  \
0          1          2           3           4  Vicente Garcia Jiménez   
1          5          6           7           8  Gilberto Rivera Zarate   
2          9         10          11          12  Francisco López Orozco   

           calle   ciudad      estado     nombre apellido1 apellido2  
0  Lago manitoba   Juárez   Chihuahua    Vicente    Garcia   Jiménez  
1    Av. Reforma     CDMX      México   Gilberto    Rivera    Zarate  
2       Calle 50   Mérida     Yucatán  Francisco     López    Orozco  


### Unir Varias Columnas en una Sola
El proceso de separar columnas en un DataFrame es una técnica fundamental en Data Wrangling. Nos permite dividir datos combinados en varias partes para mejorar la estructura del dataset y facilitar su análisis.

Si tenemos la dirección dividida en varias columnas, podemos unirlas en una sola.

¿Cómo unirlas en Pandas?

Usando + para concatenar, agregando separadores (" " o ", ") para mejor legibilidad.

In [None]:
#Importamos la librería de pandas y asignamos un alias (pd)
import pandas as pd

# Leemos el archivo que contiene comas
df = pd.read_csv("drive/MyDrive/Unidad02/ex04asin.csv")

#imprimimos el nombre de las columnas
print(df.columns)

#Convertimos los nombres de las columnas a minúsculas
df.columns = df.columns.str.strip().str.lower().str.replace(r"[^a-z0-9_]", "", regex=True)

print(df)

#Creamos una nueva columna que contienen calle, ciudad y estado
df["direccioncompleta"] = df["calle"] + "-" + df["ciudad"] + ", " + df["estado"]
print(df)

Index(['Atributo 0', 'ATRIBUTO 1', 'Fecha Venta', 'VENTA TOTAL ($)',
       'Nombre Cliente', ' calle', ' ciudad', ' estado'],
      dtype='object')
   atributo0  atributo1  fechaventa  ventatotal           nombrecliente  \
0          1          2           3           4  Vicente Garcia Jiménez   
1          5          6           7           8  Gilberto Rivera Zarate   
2          9         10          11          12  Francisco López Orozco   

           calle   ciudad      estado  
0  Lago manitoba   Juárez   Chihuahua  
1    Av. Reforma     CDMX      México  
2       Calle 50   Mérida     Yucatán  
   atributo0  atributo1  fechaventa  ventatotal           nombrecliente  \
0          1          2           3           4  Vicente Garcia Jiménez   
1          5          6           7           8  Gilberto Rivera Zarate   
2          9         10          11          12  Francisco López Orozco   

           calle   ciudad      estado                  direccioncompleta  
0  Lago manito

### Tipos de Datos

Los tipos de datos en Pandas:

* int64: Números enteros
* float64: Números decimales
* object: Cadenas de texto
* bool: Valores lógicos
* datetime64: Fechas
* category: Datos categóricos

A continuación veremos un ejemplo con datos correctos


In [None]:
import pandas as pd

# Crear DataFrame con tipos de datos adecuados
df = pd.DataFrame({
    'ID': [1, 2, 3, 4, 5],  # int64
    'Nombre': ['Ana', 'Luis', 'Carlos', 'María', 'Elena'],  # object (texto)
    'Edad': [25, 30, 35, 40, 45],  # int64
    'Salario': [50000.0, 55000.0, 60000.0, 65000.0, 70000.0],  # float64
    'Fecha_Contratación': pd.to_datetime(['2023-05-01', '2022-06-15', '2021-08-07', '2020-03-25', '2019-01-30']),  # datetime64
    'Activo': [True, False, True, True, False],  # bool
    'Categoría': pd.Categorical(['A', 'B', 'A', 'C', 'B'])  # category
})

# Mostrar tipos de datos
print("Tipos de datos correctos:\n", df.dtypes)

# Mostrar DataFrame
print("\nDataFrame con tipos de datos correctos:\n", df)


Tipos de datos correctos:
 ID                             int64
Nombre                        object
Edad                           int64
Salario                      float64
Fecha_Contratación    datetime64[ns]
Activo                          bool
Categoría                   category
dtype: object

DataFrame con tipos de datos correctos:
    ID  Nombre  Edad  Salario Fecha_Contratación  Activo Categoría
0   1     Ana    25  50000.0         2023-05-01    True         A
1   2    Luis    30  55000.0         2022-06-15   False         B
2   3  Carlos    35  60000.0         2021-08-07    True         A
3   4   María    40  65000.0         2020-03-25    True         C
4   5   Elena    45  70000.0         2019-01-30   False         B


Los problemas más comunes con tipos de datos son:

 * Números almacenados como texto (object): No se pueden realizar operaciones matemáticas.

 * Fechas almacenadas como texto: No se pueden ordenar ni filtrar correctamente.

 * Datos categóricos mal definidos: Mayor consumo de memoria.

 * Valores nulos e inconsistencias: Pandas no puede interpretar valores incorrectos.

Veamos un ejemplo de un CSV con datos mal definidos

In [None]:
import pandas as pd

# Leemos el archivo que contiene errores
df = pd.read_csv("drive/MyDrive/Unidad02/ex05asin.csv")

#imprimimos su contenido
print(df)

print(df.dtypes)

      ID      Edad  Salario Fecha_Contratación Activo Categoría
0    001        25    50000         2023-05-01   True         A
1    002        30    55000         15-06-2022  False         B
2  '003'        35    60000         07/08/2021   True         A
3    004  cuarenta    65000         2020/03/25    Yes         C
4    005        45    70000         2019-01-30     No         B
ID                    object
Edad                  object
Salario                int64
Fecha_Contratación    object
Activo                object
Categoría             object
dtype: object


Ahora corregiremos estos problemas de datos. Para ello, usaremos lo siguiente:

* pd.to_numeric(errors='coerce') para convertir números evitando errores.
* pd.to_datetime(errors='coerce') para manejar fechas con diferentes formatos.
* .astype('category') para optimizar memoria.
* .replace() para convertir valores a booleanos.

In [None]:
# Mostrar tipos de datos antes de la corrección
print("\nTipos de datos antes de la corrección:\n", df.dtypes)

# Convertir ID a int
df['ID'] = pd.to_numeric(df['ID'], errors='coerce')

# Convertir Edad a numérico, reemplazando errores con NaN
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')


# Convertir Salario a float
df['Salario'] = df['Salario'].astype(float)

# Convertir Fecha_Contratación a datetime
df['Fecha_Contratación'] = pd.to_datetime(df['Fecha_Contratación'], dayfirst=True, errors='coerce')

# Convertir Activo a booleano
df['Activo'] = df['Activo'].replace({'True': True, 'False': False, 'Yes': True, 'No': False}).astype(bool)

# Convertir Categoría a tipo categórico
df['Categoría'] = df['Categoría'].astype('category')

# Mostrar tipos de datos después de la corrección
print("\nTipos de datos después de la corrección:\n", df.dtypes)

# Mostrar el DataFrame corregido
print("\nDataFrame corregido:\n", df)

# Mostrar el DataFrame corregido
print("\nTipos de Datos del DataFrame corregido:\n", df.dtypes)



Tipos de datos antes de la corrección:
 ID                    object
Edad                  object
Salario                int64
Fecha_Contratación    object
Activo                object
Categoría             object
dtype: object

Tipos de datos después de la corrección:
 ID                           float64
Edad                         float64
Salario                      float64
Fecha_Contratación    datetime64[ns]
Activo                          bool
Categoría                   category
dtype: object

DataFrame corregido:
     ID  Edad  Salario Fecha_Contratación  Activo Categoría
0  1.0  25.0  50000.0         2023-01-05    True         A
1  2.0  30.0  55000.0                NaT   False         B
2  NaN  35.0  60000.0                NaT    True         A
3  4.0   NaN  65000.0                NaT    True         C
4  5.0  45.0  70000.0                NaT   False         B

Tipos de Datos del DataFrame corregido:
 ID                           float64
Edad                         float64

  df['Activo'] = df['Activo'].replace({'True': True, 'False': False, 'Yes': True, 'No': False}).astype(bool)


Observa que en el caso de la fecha, todo aquello que no coincidió fue cambiado a NaN