# **LIMPIEZA Y ALISTAMIENTO**
Este es el notebook para realizar la limpieza y el alistamiento de los datos.

## **Análisis Inicial**
Primero, será necesario familiarizarse con los datos. Para ello, será necesario ver la descripción de las variables.

In [38]:
import pandas as pd
import os

# Obtener el directorio del directorio padre
directorio_padre = os.path.dirname(os.getcwd())

# Ruta del archivo que describe las variables
ruta = directorio_padre + '\\datos\\variables.txt'

# Leer el archivo
descr_var = pd.read_csv(ruta, sep='\t', header=None)

# Imprimir la descripción de cada variable
for index, row in descr_var.iterrows():
    print(row[0])

01 date: Fecha en MM-DD-AAAA
02 day: Día de la semana
03 quarter: Una porción del mes. Un mes se dividió entre 4 y 5 partes.
04 department: Departamento asociado a la instancia
05 team_no: número de equipo asociado con la instancia
06 no_of_workers: Número de trabajadores en cada equipo
07 no_of_style_change: Número de cambios en el estilo de un producto en particular
08 target_productivity: Productividad objetivo establecida para cada equipo para cada día.
09 smv: Valor de minutos estándar, es el tiempo asignado para una tarea
10 wip: Trabajo en progreso. Incluye la cantidad de elementos sin terminar.
11 over_time: Representa la cantidad de tiempo extra de cada equipo en minutos.
12 incentive: Representa la cantidad de incentivo financiero (en unidades monetarias).
13 idle_time: La cantidad de tiempo durante el cual la producción estuvo interrumpida.
14 idle_men: El número de trabajadores que estaban inactivos debido a la interrupción de la producción.
15 actual_productivity: El % rea

También es necesario visualizar los datos por encima y entenderlos superficialmente.

In [39]:
ruta = directorio_padre + "\\datos\\data.txt"               # Ruta del archivo de los datos
datos_originales = pd.read_csv(ruta, sep=',', header=0)     # Leer el archivo
print(datos_originales.head())                              # Ver las primeras filas

       date   quarter  department       day  team  targeted_productivity  \
0  1/1/2015  Quarter1      sweing  Thursday     8                   0.80   
1  1/1/2015  Quarter1  finishing   Thursday     1                   0.75   
2  1/1/2015  Quarter1      sweing  Thursday    11                   0.80   
3  1/1/2015  Quarter1      sweing  Thursday    12                   0.80   
4  1/1/2015  Quarter1      sweing  Thursday     6                   0.80   

     smv     wip  over_time  incentive  idle_time  idle_men  \
0  26.16  1108.0       7080         98        0.0         0   
1   3.94     NaN        960          0        0.0         0   
2  11.41   968.0       3660         50        0.0         0   
3  11.41   968.0       3660         50        0.0         0   
4  25.90  1170.0       1920         50        0.0         0   

   no_of_style_change  no_of_workers  actual_productivity  
0                   0           59.0             0.940725  
1                   0            8.0        

El siguiente bloque de código tiene el propósito de responder las siguientes preguntas:
1. ¿Cuántos datos hay?
2. ¿Qué representa cada fila?
3. ¿Cuánto tiempo cubren los datos?

In [40]:
# Qué es cada fila?
print(datos_originales['date'].unique())
print(datos_originales['team'].unique())

# Responder las preguntas
print('\nRESPUESTA DE LAS PREGUNTAS:')
print(f"Hay {datos_originales.shape[0]} filas en la base de datos.")  # Num. filas datos
print(f'''Cada fila representa un registro sobre índices de
       productividad de algún equipo en un día.''')                   # Qué es cada fila
print('Hay registro desde enero hasta marzo del 2015.')               # Cuánto tiempo

['1/1/2015' '1/3/2015' '1/4/2015' '1/5/2015' '1/6/2015' '1/7/2015'
 '1/8/2015' '1/10/2015' '1/11/2015' '1/12/2015' '1/13/2015' '1/14/2015'
 '1/15/2015' '1/17/2015' '1/18/2015' '1/19/2015' '1/20/2015' '1/21/2015'
 '1/22/2015' '1/24/2015' '1/25/2015' '1/26/2015' '1/27/2015' '1/28/2015'
 '1/29/2015' '1/31/2015' '2/1/2015' '2/2/2015' '2/3/2015' '2/4/2015'
 '2/5/2015' '2/7/2015' '2/8/2015' '2/9/2015' '2/10/2015' '2/11/2015'
 '2/12/2015' '2/14/2015' '2/15/2015' '2/16/2015' '2/17/2015' '2/18/2015'
 '2/19/2015' '2/22/2015' '2/23/2015' '2/24/2015' '2/25/2015' '2/26/2015'
 '2/28/2015' '3/1/2015' '3/2/2015' '3/3/2015' '3/4/2015' '3/5/2015'
 '3/7/2015' '3/8/2015' '3/9/2015' '3/10/2015' '3/11/2015']
[ 8  1 11 12  6  7  2  3  9 10  5  4]

RESPUESTA DE LAS PREGUNTAS:
Hay 1197 filas en la base de datos.
Cada fila representa un registro sobre índices de
       productividad de algún equipo en un día.
Hay registro desde enero hasta marzo del 2015.


Teniendo en cuenta esta información, se proponen las siguientes preguntas de negocio:
1. 	¿El número de trabajadores en un equipo y el incentivo mejoran el rendimiento (medido con el porcentaje real de productividad)? → Análisis descriptivo.
2. ¿Cuál será el rendimiento de un equipo dada en una fecha futura? → Análisis predictivo.

Teniendo claros los dos objetivos, ahora se procederá con la limpieza de los datos.

# **Limpieza de los Datos**
Teniendo los datos guardados en un *data frame*, se procede a quitar aquellas columnas que no son de utilidad para responder las preguntas. Estas son:
1. *quarter*,
2. *no_of_style_change*,
3. *wip*,
4. *idle_time*,
5. *idle_men*.

In [41]:
col_eliminar = ['quarter','no_of_style_change',
                'wip','idle_time','idle_men']        # Columnas que se borrarán

datos = datos_originales.drop(col_eliminar, axis=1)  # Borrar las columnas
print(datos.columns.values)                          # Columnas restantes
print(datos.head())

['date' 'department' 'day' 'team' 'targeted_productivity' 'smv'
 'over_time' 'incentive' 'no_of_workers' 'actual_productivity']
       date  department       day  team  targeted_productivity    smv  \
0  1/1/2015      sweing  Thursday     8                   0.80  26.16   
1  1/1/2015  finishing   Thursday     1                   0.75   3.94   
2  1/1/2015      sweing  Thursday    11                   0.80  11.41   
3  1/1/2015      sweing  Thursday    12                   0.80  11.41   
4  1/1/2015      sweing  Thursday     6                   0.80  25.90   

   over_time  incentive  no_of_workers  actual_productivity  
0       7080         98           59.0             0.940725  
1        960          0            8.0             0.886500  
2       3660         50           30.5             0.800570  
3       3660         50           30.5             0.800570  
4       1920         50           56.0             0.800382  


## **Datos Faltantes**
Se procederá a manejar los datos faltantes.

In [42]:
print(datos.isna().sum())   # Imprimir número de datos faltantes

date                     0
department               0
day                      0
team                     0
targeted_productivity    0
smv                      0
over_time                0
incentive                0
no_of_workers            0
actual_productivity      0
dtype: int64


No hay datos faltantes en las columnas que se van a usar. Por ende, no es necesario preocuparse por este problema.
## **Formato de los Datos**
Ahora, se procederá a revisar en qué formato se encuentran los datos.

In [43]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1197 entries, 0 to 1196
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   date                   1197 non-null   object 
 1   department             1197 non-null   object 
 2   day                    1197 non-null   object 
 3   team                   1197 non-null   int64  
 4   targeted_productivity  1197 non-null   float64
 5   smv                    1197 non-null   float64
 6   over_time              1197 non-null   int64  
 7   incentive              1197 non-null   int64  
 8   no_of_workers          1197 non-null   float64
 9   actual_productivity    1197 non-null   float64
dtypes: float64(4), int64(3), object(3)
memory usage: 93.6+ KB


In [44]:
print(datos['date'][7])
print(datos['no_of_workers'][7])

1/1/2015
57.5


Se pueden realizar las siguientes observaciones:
1. Las fechas tienen un formato difícil de manejar. Es necesario modificarlas para que sea posible manipularlas posteriormente.
2. El número de trabajadores de cada equipo es un número decimal. Hay valores como 57.5. Esto no tiene sentido, debería ser un valor entero. Por ende, es necesario arreglarlos también.
### **Arreglo: Fecha**
Para empezar, es necesario analizar en qué formato están las fechas. Para ello, se imprimirán los valores de esta columna en un archivo de Excel para poder visualizarlos todos. 

In [45]:
from pandas import ExcelWriter
with ExcelWriter('col_date.xlsx') as writer:
        datos_originales['date'].to_excel(writer, index=False)

Se evidencia que en la fila 218 está la fecha "1/13/2015". Entonces, se puede concluir que los valores están en formato "mes/día/año", es decir, el formato americano. Sabiendo esto, ahora es posible cambiar el formato de toda la columna. Para ello, se usará la función `to_datetime`.

In [46]:
from pandas import to_datetime

# Borrar el archivo creado anteriormente. Ya no es necesario
os.remove(os.path.join(os.getcwd(), 'col_date.xlsx'))

datos['date'] = to_datetime(datos['date'], format='%m/%d/%Y')
print(datos['date'][218])

2015-01-13 00:00:00


Ahora, los datos están en un tipo de dato mucho más manejable. Sin embargo, si se quieren hacer modelos matemáticos, será necesario hacerles un último cambio.

Sería ideal que una fecha se pudiera representar con un número. Podría asignarse a cada fecha el día del año que le corresponde. Por ejemplo, a la fecha '2015-01-01' le corresponde el 1, a '2015-01-02' le corresponde el 32, y así sucesivamente. Esto puede lograrse con la función `dayofyear` de Pandas.

In [47]:
datos['dia_del_año'] = datos['date'].dt.dayofyear
print(f"Ejemplo: {datos['date'][1196]}  ->  {datos['dia_del_año'][1196]}.")

Ejemplo: 2015-03-11 00:00:00  ->  70.


### **Arreglo: Número de Empleados**
Para finalizar, es necesario modificar la columna `no_of_workers`. Esto se logra simplemente redondeando cada valor al entero menor. 

In [48]:
import numpy as np
datos['no_of_workers_redondeado'] = np.floor(datos['no_of_workers']).astype(int)
print(datos.iloc[:, [6,9]].head())

   over_time  actual_productivity
0       7080             0.940725
1        960             0.886500
2       3660             0.800570
3       3660             0.800570
4       1920             0.800382


La columna original de datos (`no_of_workers`) ya no será de utilidad, por lo que puede borrarse.

In [49]:
datos = datos.drop('no_of_workers',axis=1)
print(datos.head())

        date  department       day  team  targeted_productivity    smv  \
0 2015-01-01      sweing  Thursday     8                   0.80  26.16   
1 2015-01-01  finishing   Thursday     1                   0.75   3.94   
2 2015-01-01      sweing  Thursday    11                   0.80  11.41   
3 2015-01-01      sweing  Thursday    12                   0.80  11.41   
4 2015-01-01      sweing  Thursday     6                   0.80  25.90   

   over_time  incentive  actual_productivity  dia_del_año  \
0       7080         98             0.940725            1   
1        960          0             0.886500            1   
2       3660         50             0.800570            1   
3       3660         50             0.800570            1   
4       1920         50             0.800382            1   

   no_of_workers_redondeado  
0                        59  
1                         8  
2                        30  
3                        30  
4                        56  


## **Guardar los Datos Limpios**
Una vez limpiados y alistados los datos, es pertinente guardarlos en un nuevo archivo.

In [50]:
datos.to_csv(directorio_padre + '\\datos\\datos_limpios.csv', index=False)