# Universidad Libre - Seccional Cali<br>Facultad de Ingeniería - Diplomado en Ciencia de Datos<br>(ↄ) Diego Fernando Marin, 2024

# 02_limpieza
Plantilla para el desarrollo del proyecto del diplomado de Ciencia de Datos, aplicando buenas prácticas.

---

Este cuaderno se dedica a la crucial tarea de preparar los datos para el análisis, asegurando su calidad y consistencia. La limpieza de datos es fundamental para obtener resultados confiables en las etapas posteriores.

**Propósito:** Mejorar la calidad de los datos mediante la corrección de errores, estandarización de formatos y aplicación de reglas de calidad.

**Tareas habituales:**
- Detección y tratamiento de valores nulos (Completar datos faltantes)
- Estandarización de formatos (nombres, fechas, números, texto)
- Identificación y corrección de outliers
- Corrección de errores tipográficos
- Normalizar/Homogeneizar datos
- Validación de reglas de negocio
- Documentación de transformaciones aplicadas
- Verificación de consistencia en los datos
- Eliminar columnas o filas
- Crear columnas nuevas

In [1]:
import os
import pandas as pd

In [3]:
cwd = os.getcwd() # current working directory
landing_dir = cwd + '/../data/landing/'
trusted_dir = cwd + '/../data/trusted/'

In [5]:
df = pd.read_csv(landing_dir + 'datos_consolidados.csv')

In [7]:
df

Unnamed: 0,fecha,codigo,venta
0,2022-11-01,1434,121672.710000
1,2022-11-02,1656,133636.640000
2,2022-11-03,1875,210932.180000
3,2022-11-04,1434,111660.390000
4,2022-11-05,1545,146417.560000
...,...,...,...
512,2024-03-27,1156,452331.135622
513,2024-03-28,1375,246045.083440
514,2024-03-29,934,425815.429745
515,2024-03-30,1156,320997.018300


In [9]:
df.columns = ['fecha', 'SKU', 'vental_total']

In [11]:
df

Unnamed: 0,fecha,SKU,vental_total
0,2022-11-01,1434,121672.710000
1,2022-11-02,1656,133636.640000
2,2022-11-03,1875,210932.180000
3,2022-11-04,1434,111660.390000
4,2022-11-05,1545,146417.560000
...,...,...,...
512,2024-03-27,1156,452331.135622
513,2024-03-28,1375,246045.083440
514,2024-03-29,934,425815.429745
515,2024-03-30,1156,320997.018300


In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517 entries, 0 to 516
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   fecha         517 non-null    object 
 1   SKU           517 non-null    int64  
 2   vental_total  517 non-null    float64
dtypes: float64(1), int64(1), object(1)
memory usage: 12.2+ KB


In [15]:
# convertir el object (string) a datetime
# acceder a una sola columna:
# - df['columna']
# - df.columna
df.fecha = pd.to_datetime(df.fecha)

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517 entries, 0 to 516
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   fecha         517 non-null    datetime64[ns]
 1   SKU           517 non-null    int64         
 2   vental_total  517 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int64(1)
memory usage: 12.2 KB


In [19]:
df

Unnamed: 0,fecha,SKU,vental_total
0,2022-11-01,1434,121672.710000
1,2022-11-02,1656,133636.640000
2,2022-11-03,1875,210932.180000
3,2022-11-04,1434,111660.390000
4,2022-11-05,1545,146417.560000
...,...,...,...
512,2024-03-27,1156,452331.135622
513,2024-03-28,1375,246045.083440
514,2024-03-29,934,425815.429745
515,2024-03-30,1156,320997.018300


In [27]:
# crear columnas nuevas
df['dia'] = df.fecha.dt.day
df['mes'] = df.fecha.dt.month
df['año'] = df.fecha.dt.year
df['weekday'] = df.fecha.dt.weekday

In [29]:
df

Unnamed: 0,fecha,SKU,vental_total,dia,mes,año,weekday
0,2022-11-01,1434,121672.710000,1,11,2022,1
1,2022-11-02,1656,133636.640000,2,11,2022,2
2,2022-11-03,1875,210932.180000,3,11,2022,3
3,2022-11-04,1434,111660.390000,4,11,2022,4
4,2022-11-05,1545,146417.560000,5,11,2022,5
...,...,...,...,...,...,...,...
512,2024-03-27,1156,452331.135622,27,3,2024,2
513,2024-03-28,1375,246045.083440,28,3,2024,3
514,2024-03-29,934,425815.429745,29,3,2024,4
515,2024-03-30,1156,320997.018300,30,3,2024,5


In [31]:
wd = ['L', 'M', 'X', 'J', 'V', 'S', 'D']
df['dia_semana'] = df.fecha.dt.weekday.apply(lambda x: wd[x])

In [33]:
df

Unnamed: 0,fecha,SKU,vental_total,dia,mes,año,weekday,dia_semana
0,2022-11-01,1434,121672.710000,1,11,2022,1,M
1,2022-11-02,1656,133636.640000,2,11,2022,2,X
2,2022-11-03,1875,210932.180000,3,11,2022,3,J
3,2022-11-04,1434,111660.390000,4,11,2022,4,V
4,2022-11-05,1545,146417.560000,5,11,2022,5,S
...,...,...,...,...,...,...,...,...
512,2024-03-27,1156,452331.135622,27,3,2024,2,X
513,2024-03-28,1375,246045.083440,28,3,2024,3,J
514,2024-03-29,934,425815.429745,29,3,2024,4,V
515,2024-03-30,1156,320997.018300,30,3,2024,5,S


**Último paso**: Guardar los datos limpios, con calidad, estandarizados, etc.

In [35]:
df.to_csv(trusted_dir + 'datos_limpios.csv', index=False)