# Exploration of the data

Current notebook is dedicated for data exploration of the sterilization process process data of Company C

In [1]:
import pandas as pd
import os
import matplotlib.pyplot as plt 
import seaborn as sns
import plotly.express as px


Loading the data

In [3]:
directory = os.getenv('DIRECTORY_1')

df_list = []

for filename in os.listdir(directory):
    if filename.endswith('.csv'):
        file_path = os.path.join(directory, filename)
        df = pd.read_csv(file_path)
        df_list.append(df)
data = pd.concat(df_list, ignore_index=True)


# Exploration

In [77]:
data.shape

(241656, 15)

In [78]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 241656 entries, 0 to 241655
Data columns (total 15 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   Fecha de seguimiento     241656 non-null  object 
 1   Hora de seguimiento      241656 non-null  object 
 2   Usuario                  241656 non-null  object 
 3   Nombre punto de control  241656 non-null  object 
 4   Es preliminar            0 non-null       float64
 5   Es físico                0 non-null       float64
 6   Es denegado              0 non-null       float64
 7   Cant.                    241656 non-null  int64  
 8   Tipo de objeto           241656 non-null  object 
 9   Código                   241656 non-null  object 
 10  N/S                      101793 non-null  float64
 11  Nombre / Descripción     241656 non-null  object 
 12  Tipo de producción       135167 non-null  object 
 13  Nombre producción        135167 non-null  float64
 14  Info

In [79]:
data.describe()

Unnamed: 0,Es preliminar,Es físico,Es denegado,Cant.,N/S,Nombre producción
count,0.0,0.0,0.0,241656.0,101793.0,135167.0
mean,,,,1.088775,5.746397,20220200000000.0
std,,,,0.88407,8.67864,370050600.0
min,,,,1.0,1.0,20210510000000.0
25%,,,,1.0,1.0,20220130000000.0
50%,,,,1.0,3.0,20220220000000.0
75%,,,,1.0,6.0,20220310000000.0
max,,,,50.0,65.0,20220330000000.0


missing values

In [80]:
data.isnull().sum()

Fecha de seguimiento            0
Hora de seguimiento             0
Usuario                         0
Nombre punto de control         0
Es preliminar              241656
Es físico                  241656
Es denegado                241656
Cant.                           0
Tipo de objeto                  0
Código                          0
N/S                        139863
Nombre / Descripción            0
Tipo de producción         106489
Nombre producción          106489
Información adicional      183815
dtype: int64

unique values

In [81]:
unique_counts = {}
for column in data.columns:
    # Get the number of unique values for the column
    unique_counts[column] = data[column].nunique()

# Display the number of unique values for each column
for column, count in unique_counts.items():
    print(f"Number of unique values in column '{column}': {count}")

Number of unique values in column 'Fecha de seguimiento': 90
Number of unique values in column 'Hora de seguimiento': 921
Number of unique values in column 'Usuario': 20
Number of unique values in column 'Nombre punto de control': 10
Number of unique values in column 'Es preliminar': 0
Number of unique values in column 'Es físico': 0
Number of unique values in column 'Es denegado': 0
Number of unique values in column 'Cant.': 36
Number of unique values in column 'Tipo de objeto': 1
Number of unique values in column 'Código': 1183
Number of unique values in column 'N/S': 59
Number of unique values in column 'Nombre / Descripción': 1558
Number of unique values in column 'Tipo de producción': 1
Number of unique values in column 'Nombre producción': 38135
Number of unique values in column 'Información adicional': 14189


Distribution based on the process activity

In [82]:
counts_per_activity =data['Nombre punto de control'].value_counts().reset_index()
counts_per_activity.columns = ['Nombre punto de control', 'Count']

# Create a bar plot using Plotly Express
fig = px.bar(counts_per_activity, 
             x='Nombre punto de control', 
             y='Count', 
             title='Number of Rows per Activity',
             color='Nombre punto de control',
             labels={'Nombre punto de control': 'Activity', 'Count': 'Number of Rows'},
             height=700)
fig.update_layout(xaxis_tickangle=-45,showlegend=False)
fig.update_traces(texttemplate='%{y:,}', textposition='outside')

fig.show()





Distribution based on the resource

In [83]:
counts_per_activity =data['Usuario'].value_counts().reset_index()
counts_per_activity.columns = ['Usuario', 'Count']

# Create a bar plot using Plotly Express
fig = px.bar(counts_per_activity, 
             x='Usuario', 
             y='Count', 
             title='Number of Rows per Resource',
             color='Usuario',
             labels={'Usuario': 'Resource', 'Count': 'Number of Rows'},
             height=700)
fig.update_layout(xaxis_tickangle=-45, showlegend=False)
fig.update_traces(texttemplate='%{y:,}', textposition='outside')

fig.show()





Full duplicates by activity

In [84]:
duplicated_rows = data[data.duplicated(keep='first')]

duplicated_counts = duplicated_rows.groupby('Nombre punto de control').size().reset_index(name='Count')

print(duplicated_counts)

  Nombre punto de control  Count
0      Carga L+D iniciada   9082
1      Carga L+D liberada   8816
2   Cargado en carro  L+D   3727
3             Comisionado     36
4   Composición de cargas      5
5  Entrada Material Sucio    298
6                 Montaje    673


Kits with limited activities of the process up to 4 based on Código attribute

In [99]:
codigo_grouped = data.groupby('Código')['Nombre punto de control'].nunique().reset_index()

codigo_with_one_to_four_controls = codigo_grouped[codigo_grouped['Nombre punto de control'].isin([1, 2, 3, 4])]
count_of_codigos = codigo_with_one_to_four_controls.shape[0]

print(f"Number of 'Codigo' with limited 'Nombre punto de control': {count_of_codigos}")

Number of 'Codigo' with limited 'Nombre punto de control': 202
