# **LIMPIEZA Y ALISTAMIENTO**
Este es el notebook para realizar la limpieza y el alistamiento de los datos.

## **Análisis Inicial**
Primero, será necesario familiarizarse con los datos. Para ello, será necesario ver la descripción de las variables.

In [2]:
import pandas as pd

# Ruta del archivo que describe las variables
ruta = "datos/variables.txt"

# Leer el archivo
descr_var = pd.read_csv(ruta, sep='\t', header=None)

# Imprimir la descripción de cada variable
for index, row in descr_var.iterrows():
    print(row[0])


01 date: Fecha en MM-DD-AAAA
02 day: Día de la semana
03 quarter: Una porción del mes. Un mes se dividió entre 4 y 5 partes.
04 department: Departamento asociado a la instancia
05 team_no: número de equipo asociado con la instancia
06 no_of_workers: Número de trabajadores en cada equipo
07 no_of_style_change: Número de cambios en el estilo de un producto en particular
08 target_productivity: Productividad objetivo establecida para cada equipo para cada día.
09 smv: Valor de minutos estándar, es el tiempo asignado para una tarea
10 wip: Trabajo en progreso. Incluye la cantidad de elementos sin terminar.
11 over_time: Representa la cantidad de tiempo extra de cada equipo en minutos.
12 incentive: Representa la cantidad de incentivo financiero (en unidades monetarias).
13 idle_time: La cantidad de tiempo durante el cual la producción estuvo interrumpida.
14 idle_men: El número de trabajadores que estaban inactivos debido a la interrupción de la producción.
15 actual_productivity: El % rea

Habiendo hecho esto, ya es posible visualizar los datos y entenderlos superficialmente.

In [13]:
ruta = "datos/data.txt"                                 # Ruta del archivo de los datos
datos_originales = pd.read_csv(ruta, sep=',', header=0) # Leer el archivo
print(datos_originales.head())                          # Ver las primeras filas

       date   quarter  department       day  team  targeted_productivity  \
0  1/1/2015  Quarter1      sweing  Thursday     8                   0.80   
1  1/1/2015  Quarter1  finishing   Thursday     1                   0.75   
2  1/1/2015  Quarter1      sweing  Thursday    11                   0.80   
3  1/1/2015  Quarter1      sweing  Thursday    12                   0.80   
4  1/1/2015  Quarter1      sweing  Thursday     6                   0.80   

     smv     wip  over_time  incentive  idle_time  idle_men  \
0  26.16  1108.0       7080         98        0.0         0   
1   3.94     NaN        960          0        0.0         0   
2  11.41   968.0       3660         50        0.0         0   
3  11.41   968.0       3660         50        0.0         0   
4  25.90  1170.0       1920         50        0.0         0   

   no_of_style_change  no_of_workers  actual_productivity  
0                   0           59.0             0.940725  
1                   0            8.0        

El siguiente bloque de código tiene el propósito de responder las siguientes preguntas sobre los datos:
1. ¿Cuántos datos hay?
2. ¿Qué representa cada fila?
3. ¿Cuánto tiempo cubren los datos?

In [27]:
# Qué es cada fila?
print(datos_originales['date'].unique())
print(datos_originales['team'].unique())

# Responder las preguntas
print('\nRESPUESTA DE LAS PREGUNTAS:')
print(f"Hay {datos_originales.shape[0]} filas en la base de datos.")  # Num. filas datos
print(f'''Cada fila representa un registro sobre índices de
       productividad de algún equipo en un día.''')                   # Qué es cada fila
print('Hay registro desde enero hasta noviembre del 2015.')           # Cuánto tiempo
 

['1/1/2015' '1/3/2015' '1/4/2015' '1/5/2015' '1/6/2015' '1/7/2015'
 '1/8/2015' '1/10/2015' '1/11/2015' '1/12/2015' '1/13/2015' '1/14/2015'
 '1/15/2015' '1/17/2015' '1/18/2015' '1/19/2015' '1/20/2015' '1/21/2015'
 '1/22/2015' '1/24/2015' '1/25/2015' '1/26/2015' '1/27/2015' '1/28/2015'
 '1/29/2015' '1/31/2015' '2/1/2015' '2/2/2015' '2/3/2015' '2/4/2015'
 '2/5/2015' '2/7/2015' '2/8/2015' '2/9/2015' '2/10/2015' '2/11/2015'
 '2/12/2015' '2/14/2015' '2/15/2015' '2/16/2015' '2/17/2015' '2/18/2015'
 '2/19/2015' '2/22/2015' '2/23/2015' '2/24/2015' '2/25/2015' '2/26/2015'
 '2/28/2015' '3/1/2015' '3/2/2015' '3/3/2015' '3/4/2015' '3/5/2015'
 '3/7/2015' '3/8/2015' '3/9/2015' '3/10/2015' '3/11/2015']
[ 8  1 11 12  6  7  2  3  9 10  5  4]

RESPUESTA DE LAS PREGUNTAS:
Hay 1197 filas en la base de datos.
Cada fila representa un registro sobre índices de
       productividad de algún equipo en un día.
Hay registro desde enero hasta noviembre del 2015.


Teniendo en cuenta esta información, se proponen las siguientes preguntas de negocio:
1. 	¿El número de trabajadores en un equipo y el incentivo mejoran el rendimiento (medido con el porcentaje real de productividad)? → Análisis descriptivo.
2. ¿Cuál será el rendimiento de un equipo dada en una fecha futura? → Análisis predictivo.

Teniendo claro el objetivo, ahora es posible proceder con la limpieza de los datos.

## **Limpieza de los Datos**
Teniendo los datos guardados en un *data frame*, ahora es necesario quitar aquellas columnas que no son de utilidad para responder las preguntas. Estas son:
1. *day*,
2. *quarter*,
3. *department*,
4. *no_of_style_change*,
5. *wip*,
6. *idle_time*,
7. *idle_men*.

Entonces, se procederá a quitar estas columnas del *data frame*.

In [31]:
col_eliminar = ['day','quarter','department','no_of_style_change',
                'wip','idle_time','idle_men']        # Nombre de las col que se eliminarán
datos = datos_originales.drop(col_eliminar, axis=1)  # Borrar las columnas
print(datos.columns.values)                          # Columnas restantes

['date' 'team' 'targeted_productivity' 'smv' 'over_time' 'incentive'
 'no_of_workers' 'actual_productivity']
