## Data dictionary

- ```department``` : Associated department with the instance
- ```team``` : Associated team number with the instance
- ```noofworkers``` : Number of workers in each team
- ```idletime``` : The amount of time when the production was interrupted due to several reasons
- ```idlemen``` : The number of workers who were idle due to production interruption

In [1]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.figure_factory as ff
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv('data.csv')
print(df.shape)
print(df.columns)
df.head()

(1197, 15)
Index(['date', 'quarter', 'department', 'day', 'team', 'targeted_productivity',
       'smv', 'wip', 'over_time', 'incentive', 'idle_time', 'idle_men',
       'no_of_style_change', 'no_of_workers', 'actual_productivity'],
      dtype='object')


Unnamed: 0,date,quarter,department,day,team,targeted_productivity,smv,wip,over_time,incentive,idle_time,idle_men,no_of_style_change,no_of_workers,actual_productivity
0,1/1/2015,Quarter1,sweing,Thursday,8,0.8,26.16,1108.0,7080,98,0.0,0,0,59.0,0.940725
1,1/1/2015,Quarter1,finishing,Thursday,1,0.75,3.94,,960,0,0.0,0,0,8.0,0.8865
2,1/1/2015,Quarter1,sweing,Thursday,11,0.8,11.41,968.0,3660,50,0.0,0,0,30.5,0.80057
3,1/1/2015,Quarter1,sweing,Thursday,12,0.8,11.41,968.0,3660,50,0.0,0,0,30.5,0.80057
4,1/1/2015,Quarter1,sweing,Thursday,6,0.8,25.9,1170.0,1920,50,0.0,0,0,56.0,0.800382


## 5.1 Análisis general del dataset

En este análisis lo que buscamos es lo siguiente:
1. **Identificación de posibles campos nulos**
2. **Análisis estadístico básico de todos los valores**
3. **Identificación de variables (categóricas, numéricas, ...) junto con su tipo de dato**

In [3]:
#--------------------------------------------------------
# 5.1.1 Identificación de posibles campos nulos
#--------------------------------------------------------
print(f'Total de valores: {df.shape[0]}')
df.isna().sum()

Total de valores: 1197


date                       0
quarter                    0
department                 0
day                        0
team                       0
targeted_productivity      0
smv                        0
wip                      506
over_time                  0
incentive                  0
idle_time                  0
idle_men                   0
no_of_style_change         0
no_of_workers              0
actual_productivity        0
dtype: int64

- Podemos observar que la variable ```wip``` tiene $506$ datos nulos, posteriormente haremos un análisis más detallado
- Sin embargo, podemos notar que la cantidad de valores nulos en ```wip``` es significativa pues representa un $42.27\%$ faltante del total

In [4]:
#--------------------------------------------------------
# 5.1.2 Análisis estadístico básico de todos los valores
#--------------------------------------------------------
df.describe()

Unnamed: 0,team,targeted_productivity,smv,wip,over_time,incentive,idle_time,idle_men,no_of_style_change,no_of_workers,actual_productivity
count,1197.0,1197.0,1197.0,691.0,1197.0,1197.0,1197.0,1197.0,1197.0,1197.0,1197.0
mean,6.426901,0.729632,15.062172,1190.465991,4567.460317,38.210526,0.730159,0.369256,0.150376,34.609858,0.735091
std,3.463963,0.097891,10.943219,1837.455001,3348.823563,160.182643,12.709757,3.268987,0.427848,22.197687,0.174488
min,1.0,0.07,2.9,7.0,0.0,0.0,0.0,0.0,0.0,2.0,0.233705
25%,3.0,0.7,3.94,774.5,1440.0,0.0,0.0,0.0,0.0,9.0,0.650307
50%,6.0,0.75,15.26,1039.0,3960.0,0.0,0.0,0.0,0.0,34.0,0.773333
75%,9.0,0.8,24.26,1252.5,6960.0,50.0,0.0,0.0,0.0,57.0,0.850253
max,12.0,0.8,54.56,23122.0,25920.0,3600.0,300.0,45.0,2.0,89.0,1.120437


De este breve análisis estadístico, destacamos lo siguiente:
1. La productividad objetivo ```targeted_productivity``` tiene una media prácticamente idéntica a la productividad actual ```actual_productivity```: $$\mu_{tp} = 0.7296 \quad\quad vs\quad\quad \mu_{ap} = 0.7350$$
2. Sin embargo, las desviaciones estándas sí varían más: $$S_{tp} = 0.0978 \quad\quad vs\quad\quad S_{ap} = 0.1744$$
3. Los tiempos asignados para cada tarea ```smv``` se encuentran en un rango entre $2.9$ y $54.6$ minutos
4. En ```wip``` cabe destacar que existe un equipo con $23122$ tareas por terminar y en contraposición, existe un equipo con $7$ 
5. En promedio, cada equipo ha trabajado $4568$ minutos extra pero con una desviación estándar de $3349$ minutos lo cual nos habla de equipos que trabajan acumulan mucho más minutos extra
6. En ```incentive```, ```idle_time```, ```idle_men``` y ```no_of_style_change``` cabe destacar que hay una gran presencia de ceros
7. En ```no_of_workers``` podemos observer que el equipo con menos integrantes cuenta con tan solo 2 personas y el equipo de mayor integrantes cuenta con 89 personas. La media del número de personas por equipo es de $35$ con una desviación estándar de $22$



In [5]:
#-------------------------------------------------------------------------------
# 5.1.3 Identificación de variables (categóricas, numéricas, ...) junto con su 
# tipo de dato
#-------------------------------------------------------------------------------
df.dtypes

date                      object
quarter                   object
department                object
day                       object
team                       int64
targeted_productivity    float64
smv                      float64
wip                      float64
over_time                  int64
incentive                  int64
idle_time                float64
idle_men                   int64
no_of_style_change         int64
no_of_workers            float64
actual_productivity      float64
dtype: object

In [6]:
print(df['quarter'].unique())
print(df['department'].unique())
print(df['day'].unique())

['Quarter1' 'Quarter2' 'Quarter3' 'Quarter4' 'Quarter5']
['sweing' 'finishing ' 'finishing']
['Thursday' 'Saturday' 'Sunday' 'Monday' 'Tuesday' 'Wednesday']


In [7]:
print(df['team'].unique())
print(df['over_time'].unique()[:10])
print(df['incentive'].unique()[:10])
print(df['idle_men'].unique()[:10])
print(df['no_of_style_change'].unique()[:10])
print(df['no_of_workers'].unique())

[ 8  1 11 12  6  7  2  3  9 10  5  4]
[7080  960 3660 1920 6720 6900 6000 6480 2160 7200]
[98  0 50 38 45 34 44 63 56 40]
[ 0 10 15 45 37 30 35 20 25 40]
[0 1 2]
[59.   8.  30.5 56.  57.5 55.  54.  18.  60.  12.  20.  17.  56.5 54.5
 29.5 31.5 31.  55.5 58.  10.  16.  32.  58.5 15.   5.  57.  53.  51.5
  2.   9.   7.  19.  28.  34.  89.  14.  25.  52.   4.  21.  35.  51.
 33.  11.  33.5 22.  26.  27.  59.5 50.  44.  49.  47.  48.  42.  24.
 45.  46.  39.  38.   6. ]


**Variables categóricas ordinales**:
1. ```date```
2. ```quarter```
3. ```day```

**Variables categóricas nominales**:
1. ```department```

**Variables numéricas discretas**:
1. ```team```
2. ```over_time```
3. ```incentive```
4. ```idle_men```
5. ```no_of_style_change```
6. ```no_of_workers```*

**Variables numéricas continuas**:
1. ```targeted_productivity```
2. ```smv```
3. ```wip```
4. ```idle_time```
5. ```actual_productivity```


**Cabe mencionar que la variable ```no_of_workers``` debería ser una variable numérica discreta, sin embargo, en el dataset hay valores decimales presentes lo cual no tiene sentido físico.**

## Funciones básicas para el análisis de cada variable

In [59]:
blue_color = '#90e0ef'

def graph_two_vars(var1, var2, df):
    col1 = df[var1]
    col2 = df[var2]
    corr = np.round(df.corr()[var1].loc[var2],4)
    fig = go.Figure()
    fig.add_trace(go.Scatter(
        x=col1.values,
        y=col2.values,
        mode='markers',
        marker_color=blue_color
    ))
    fig.update_layout(
        title=dict(
            text=f'<b>{var1} vs {var2}</b><br>coeficiente de correlación {corr}',
            font=dict(
                size=12
            )
        ),
        width=600, height=400, template='plotly_white'
    )
    fig.update_xaxes(title_text=var1)
    fig.update_yaxes(title_text=var2)
    fig.show()

def get_histogram(variable, df):
    col = df[variable]
    fig = go.Figure()
    fig.add_trace(
        go.Histogram(
            x=col.values, marker_color=blue_color
        )
    )
    # fig = ff.create_distplot(
    #     [col.values], bin_size=0.2, group_labels=[0], show_rug=False
    # )
    fig.update_layout(
        title=dict(text=f'Histograma para {variable}<br>{col.shape[0]} valores'),
        width=600, height=400, template='plotly_white'
    )
    fig.show()

def basic_var_description(variable, df):
    print(f"---------------{variable}---------------")
    col = df[variable]
    print(f'Tipo de dato:\t{col.dtype}\n')
    if col.unique().shape[0] < 20:
        print(f'Valores únicos:\t{sorted(col.unique())}\n')
    else:
        print(f'Valores únicos ({col.unique().shape[0]}):\t{col.unique()[:10]}\n')

    print(f'Valores nulos:\t{col.isna().sum()}\n')
    print(f'Estadísticas de la variable:\n{col.describe()}\n')
    print("Histograma:\n")
    get_histogram(variable, df)
    print("Correlación con la productividad:\n")
    graph_two_vars(variable, 'actual_productivity', df)

## 5.7 Exploremos ```no_of_style_change```

Esta variable representa -según el diccionario de datos- el número de cambios en el estilo de un producto en particular. Podríamos pensar originalmente que esta variable tiene un reflejo en la productividad pues si hay muchos cambios en el estilo de un producto, puede que existan otros procesos que se vean afectados.

Para el análisis de esta variable realizaremos lo siguiente: 
1. **Tipo de variable**
2. **Descripción estadística**
3. **Identificación de valores nulos**
4. **Relevancia de la variable dentro de los datos**

In [51]:
basic_var_description('no_of_style_change', df)

---------------no_of_style_change---------------
Tipo de dato:	int64

Valores únicos:	[0, 1, 2]

Valores nulos:	0

Estadísticas de la variable:
count    1197.000000
mean        0.150376
std         0.427848
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max         2.000000
Name: no_of_style_change, dtype: float64

Agrupación de valores:
0    1050
1     114
2      33
Name: no_of_style_change, dtype: int64

Histograma:



Correlación con la productividad:



**Conclusión inicial sobre ```no_of_style_changes```**:
1. Variable de tipo numérica discreta 
2. Su principal caracterísitca es que de todos los productos hechos en el negocio, el $87.7\%$ no hace cambios en el estilo de un producto. 
3. Tiene un coeficiente de correlación de $-0.2074$ con respecto a ```actual_productivity```

## 5.8 Exploremos ```team```

In [52]:
basic_var_description('team', df)

---------------team---------------
Tipo de dato:	int64

Valores únicos:	[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]

Valores nulos:	0

Estadísticas de la variable:
count    1197.000000
mean        6.426901
std         3.463963
min         1.000000
25%         3.000000
50%         6.000000
75%         9.000000
max        12.000000
Name: team, dtype: float64

Histograma:



Correlación con la productividad:



In [53]:
vals = df['team'].value_counts()
print(f'Media: {np.mean(vals)} - Std: {np.std(vals)}')
print(vals)

Media: 99.75 - Std: 6.443666140741103
2     109
8     109
1     105
4     105
9     104
10    100
12     99
7      96
3      95
6      94
5      93
11     88
Name: team, dtype: int64


In [54]:
fig = go.Figure()
teams = sorted(df['team'].unique())
for team in teams:
    fig.add_trace(go.Box(y=df[df['team'] == team]['actual_productivity'], name=str(team)))
fig.update_layout(
    title=dict(
        text=f'<b>team vs actual_productivity</b>',
        font=dict(size=12)
    ),template='plotly_white'
)
fig.update_xaxes(title_text='team')
fig.update_yaxes(title_text='actual_productivity')
fig.show()

**Conclusión inicial sobre ```team```**:
1. Variable numérica de tipo discreta
2. No contiene valores nulos
3. La distribución de los equipos sigue una distribución prácticamente uniforme por lo que todos los equipos tienen aproximadamente la misma cantidad de personas: $\mu_{team} = 99.75$ y $\sigma_{team} = 6.44$
4. La correlación con la productividad real es de $-0.14$ y con base en la gráfica, podemos observar que a primera instancia, todos los equipos mantienen una productividad similar
5. Con base en el análisis de cajas, observamos lo siguiente:
   1. El equipo con la productividad más alta es el 1 pues tiene una mediana de $0.85$
   2. El equipo con la productividad más baja es el 7 con una mediana de $0.68$
   3. En general los equipos de mayor productividad son los equipos 1,2,3,4
   4. El equipo 12 es el equipo con más datos outliers por arriba y por abajo

## 5.9 Exploremos ```no_of_workers```

Esta variable indica el número de personas en cada equipo

In [55]:
basic_var_description('no_of_workers', df)

---------------no_of_workers---------------
Tipo de dato:	float64

Valores únicos (61):	[59.   8.  30.5 56.  57.5 55.  54.  18.  60.  12. ]

Valores nulos:	0

Estadísticas de la variable:
count    1197.000000
mean       34.609858
std        22.197687
min         2.000000
25%         9.000000
50%        34.000000
75%        57.000000
max        89.000000
Name: no_of_workers, dtype: float64

Histograma:



Correlación con la productividad:



**Conclusión inicial sobre ```no_of_workers```**:
1. Variable numérica de tipo continuo
2. La media es de $34$ con una desviación estándar de $22$
3. Podemos observar de la gráfica de la distribución de esta variable que existen tres grupos generales:
   1. Equipos pequeños (entre 5-10 integrantes): 311
   2. Equipos medianos (entre 30-35 integrantes): 105
   3. Equipos grandes (entre 55-60 integrantes): **479**
4. Del punto **3** podemos observar que la mayoría de los equipos del negocio tienen entre 55 y 60 integrantes
5. ```no_of_workers``` tiene un coeficiente de correlación del $-0.058$ con ```actual_productivity``` por lo que no se observa ninguna relación entre la cantidad de integrantes de un equipo contra la productividad real

## 5.10 Exploremos ```idle_men```

Esta variable representa el número de personas que estuvieron paradas debido a una interrupción en la línea de producción

In [60]:
basic_var_description('idle_men', df)

---------------idle_men---------------
Tipo de dato:	int64

Valores únicos:	[0, 10, 15, 20, 25, 30, 35, 37, 40, 45]

Valores nulos:	0

Estadísticas de la variable:
count    1197.000000
mean        0.369256
std         3.268987
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max        45.000000
Name: idle_men, dtype: float64

Histograma:



Correlación con la productividad:



**Conclusión inicial sobre ```idle_men```**:
1. Variable numérica de tipo continuo
2. En general podemos decir que el porcentaje de personas paradas ($2\%$) es muy bajo vs el porcentaje de personas que se mantuvieron trabajadas ($98\%$)
3. Esta variable podría ser candidata a eliminarse pues no aporta mucha información con respecto a la productividad general del negocio. Al menos en este periodo de tiempo

## 5.11 Exploremos ```idle_time```

Esta variable representa la cantidad de tiempo que la producción del negocio estuvo parada debido a varias razones

In [61]:
basic_var_description('idle_time', df)

---------------idle_time---------------
Tipo de dato:	float64

Valores únicos:	[0.0, 2.0, 3.5, 4.0, 4.5, 5.0, 6.5, 8.0, 90.0, 150.0, 270.0, 300.0]

Valores nulos:	0

Estadísticas de la variable:
count    1197.000000
mean        0.730159
std        12.709757
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max       300.000000
Name: idle_time, dtype: float64

Histograma:



Correlación con la productividad:



In [64]:
graph_two_vars('idle_time', 'idle_men', df)

**Conclusión inicial sobre ```idle_time```**:
1. Variable numérica de tipo continuo
2. De igual forma que ```idle_men```, esta variable contiene el $98\%$ de sus valores agrupados en 0. Esto indica que la producción del negocio realmente no se detuvo
3. ```idle_time``` podría ser otra que podríamos considerar candidata a eliminarse pues puede agregar más ruido de lo que realmente nos podría aportar