# Preprocesamiento datos MongoDB

Se va a realizar el preprocesamiento de los datos necesarios para la creación de la base de datos de HARMONI_CAB en MONGODB.

Las fuentes de datos a integrar en la base de datos son:
* PBS.csv
* BoM.csv
* Electric.csv

Los pasos a seguir para realizar un preprocesamiento correcto a cada una de las fuentes de datos son: 
* Limpieza de valores faltantes
* Unificar valores


## Imports

Lo primero que vamos a realizar es la importación de las librerias necesarias para el realizar el tratamiento de los datos y la importación de los datos.

In [2]:
import pandas as pd
import numpy as np
import os
import sys

In [3]:
# Directorio raíz del proyecto
project_root = 'C:/Users/HARMONI/Documents/HARMONI/HRM_BBDD'
sys.path.append(project_root)
from config.config import DB_CONFIG, DATA_FILE_PATH


# Ruta al archivo CSV
bom_file = os.path.join(DATA_FILE_PATH, 'EjemploBOM_completo.csv')
pbs_file = os.path.join(DATA_FILE_PATH, 'PBS.csv')
electric_file = os.path.join(DATA_FILE_PATH, 'Electric.csv')

# Leer el archivo CSV
bom_csv = pd.read_csv(bom_file, sep=';', encoding='latin1')
pbs_csv = pd.read_csv(pbs_file, sep=';', encoding='latin1')
electric_file_csv = pd.read_csv(electric_file, sep=';', encoding='latin1')


## PBS

In [None]:
pbs_csv.head()

### Formato de dato

Columnas a minuscula

In [18]:
pbs_csv.columns = pbs_csv.columns.str.lower()

Unificamos la tipologia:
* CI_identification: XXXXXX-XXXX (se eliminan los espacios)

In [19]:
# Eliminar espacios en la columna 'CI_identification'
pbs_csv['ci_identification'] = pbs_csv['ci_identification'].str.replace(' - ', '-', regex=False)

Asignamos la tipologia correcta a cada una de las columnas

In [20]:
print(pbs_csv.dtypes)

ci_identification    object
item_name            object
acronym              object
level                 int64
system                int64
subsystem             int64
module                int64
unit                  int64
assemblie             int64
subassemblie          int64
component             int64
developed_by         object
dtype: object


In [21]:
# Convertir las columnas a tipo texto
pbs_csv['ci_identification'] = pbs_csv['ci_identification'].astype(str)
pbs_csv['item_name'] = pbs_csv['item_name'].astype(str)
pbs_csv['acronym'] = pbs_csv['acronym'].astype(str)
pbs_csv['developed_by'] = pbs_csv['developed_by'].astype(str)
print(pbs_csv.dtypes)

ci_identification    object
item_name            object
acronym              object
level                 int64
system                int64
subsystem             int64
module                int64
unit                  int64
assemblie             int64
subassemblie          int64
component             int64
developed_by         object
dtype: object


### Valores nulos

In [22]:
print(pbs_csv.isna().sum())

ci_identification    0
item_name            0
acronym              0
level                0
system               0
subsystem            0
module               0
unit                 0
assemblie            0
subassemblie         0
component            0
developed_by         0
dtype: int64


Podemos observar que hay 4 valores con Acronimos faltantes. Estos son Items que han sido reservados en blanco para futuros componentes. Por lo tanto, por ahora se eliminan de la base de datos: 
* 311000 - 0000
* 312000 - 0000
* 313000 - 0000
* 314000 - 0000

In [23]:
pbs_csv = pbs_csv.dropna()
pbs_csv.head()

Unnamed: 0,ci_identification,item_name,acronym,level,system,subsystem,module,unit,assemblie,subassemblie,component,developed_by
0,300000-0000,Calibration and Relay System,CARS,1,3,0,0,0,0,0,0,CAB
1,310000-0000,Calibration Module,CM,2,3,1,0,0,0,0,0,CAB
6,315000-0000,IFS Calibration Unit,ICU,3,3,1,5,0,0,0,0,CAB
7,315100-0000,ICU Uniform Source Assembly,IUSA,4,3,1,5,1,0,0,0,CAB
8,315110-0000,ICU Integrating Sphere,CM IIS,5,3,1,5,1,1,0,0,CAB
