# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [24]:
# Importación de librerías
import pandas as pd

# Lectura dataset
df = pd.read_csv('../MantenimientoSucio.csv')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [25]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)

# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [26]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

            JuegoID
count  1.500000e+04
mean   3.751406e+06
std    3.721141e+06
min    1.865700e+04
25%    3.328125e+04
50%    3.576498e+06
75%    7.603093e+06
max    9.536975e+06


Número de filas:  15000
Número de columnas:  8


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15000 entries, 0 to 14999
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   ID                  15000 non-null  object
 1   FECHA_INTERVENCION  15000 non-null  object
 2   TIPO_INTERVENCION   15000 non-null  object
 3   ESTADO_PREVIO       15000 non-null  object
 4   ESTADO_POSTERIOR    15000 non-null  object
 5   JuegoID             15000 non-null  int64 
 6   Tipo                14975 non-null  object
 7   Comentarios         14945 non-null  object
dtypes: int64(1), object(7)
memory usage: 937.6+ KB
None


## 1.4 Observación inicial del dataset
Vamos a mostrar 30 entradas para poder observar cómo es realmente por dentro el dataset

In [27]:
# Mostramos las 10 primeras filas, 10 filas aleatorias y las 10 últimas
print("   ----------    10 primeras filas    ----------    ")
print("\n")
print(df.head(10))
print("\n")
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")
print("   ----------    10 últimas filas    ----------    ")
print("\n")
print(df.tail(10))

   ----------    10 primeras filas    ----------    


           ID FECHA_INTERVENCION TIPO_INTERVENCION ESTADO_PREVIO ESTADO_POSTERIOR  JuegoID           Tipo                           Comentarios
0   -1,00 MNT         2024/08/05        Correctivo          Malo             Malo  9394146     preventivo   Comentario sobre el mantenimiento 1
1   -2,00 MNT         2024/03/30        Correctivo       Regular          Regular  9224036     preventivo   Comentario sobre el mantenimiento 2
2   -3,00 MNT         09-17-2024        Emergencia         Bueno            Bueno  3849642     preventivo   Comentario sobre el mantenimiento 3
3   -4,00 MNT         01-11-2023        Emergencia       Regular            Bueno    59177     preventivo   Comentario sobre el mantenimiento 4
4   -5,00 MNT         2024-02-04        Emergencia         Bueno             Malo    21957     preventivo   Comentario sobre el mantenimiento 5
5   -6,00 MNT         06-03-2024        Preventivo       Regular          Regular

## 1.5 Revisión de valores nulos
Como ya se ha visto en el anterior apartado (info), podemos observar los valores nulos de esa forma. Pero se puede observar de una forma más visual en esta sección y, además, hay que tener en cuenta valores como el cero que también pueden considerarse nulos.

In [28]:
# Para poder saber el número de valores faltantes
print("    ----------    Valores faltantes    ----------    ")
print("\n")
print(df.isnull().sum())
print("\n")

# Para poder saber el número de ceros en cada columna
print("    ----------    Valores cero    ----------    ")
print("\n")
print((df == 0).sum())

    ----------    Valores faltantes    ----------    


ID                     0
FECHA_INTERVENCION     0
TIPO_INTERVENCION      0
ESTADO_PREVIO          0
ESTADO_POSTERIOR       0
JuegoID                0
Tipo                  25
Comentarios           55
dtype: int64


    ----------    Valores cero    ----------    


ID                    0
FECHA_INTERVENCION    0
TIPO_INTERVENCION     0
ESTADO_PREVIO         0
ESTADO_POSTERIOR      0
JuegoID               0
Tipo                  0
Comentarios           0
dtype: int64


Encontramos valores nulos en Tipo y Comentarios, por lo que se debe corregir en un futuro obteniendo los datos de otro .csv, si existe un atributo similar, o rellenando los atributos vacíos.

Vamos a mostrar las filas con valores nulos

In [29]:
# Muestra las filas que tengan valores nulos
print("   ----------    Filas con valores nulos    ----------    ")
print("\n")
print(df[df.isnull().any(axis=1)])
print("\n")

# Número de filas con nulos en alguna columna
print("Número de filas con nulos en alguna columna: ", df.isnull().any(axis=1).sum())

   ----------    Filas con valores nulos    ----------    


                  ID FECHA_INTERVENCION TIPO_INTERVENCION ESTADO_PREVIO ESTADO_POSTERIOR  JuegoID           Tipo                              Comentarios
138      -139,00 MNT         14-06-2024        Preventivo          Malo          Regular  7792012  queja_usuario                                      NaN
399      -400,00 MNT         06-02-2024        Correctivo          Malo             Malo  9181012            NaN    Comentario sobre el mantenimiento 400
484      -485,00 MNT         23/08/2024        Emergencia         Bueno            Bueno    58137     preventivo                                      NaN
550      -551,00 MNT         2024/08/10        Emergencia         Bueno            Bueno    20076     preventivo                                      NaN
892      -893,00 MNT         2024/04/10        Preventivo       Regular          Regular    33930            NaN    Comentario sobre el mantenimiento 893
1182    -1183,0

## 1.6 Identificación de fechas no estandarizadas
Se deben identificar las fechas que no se encuentran en el formato adecuado para MongoDB (DD/MM/YYYY)

In [30]:
# Vamos a mostrar algunas fechas para poder observar en qué formato están
print("   ----------    Fechas    ----------    ")
print("\n")
print(df['FECHA_INTERVENCION'].sample(20))

   ----------    Fechas    ----------    


8052     2024-08-11
9402     2024-03-11
3296     2024-09-19
9208     01-09-2024
11729    11/01/2024
8278     2024/02/26
795      2024-03-13
7995     2024/04/08
9984     10-04-2024
4494     26/06/2024
13825    29/07/2024
11041    14/01/2024
10375    2024-06-15
12894    12-06-2024
9870     31-12-2023
8469     04-06-2024
11527    27/07/2024
1960     2024/03/26
7        2024/01/29
12854    10-09-2024
Name: FECHA_INTERVENCION, dtype: object


Como se puede apreciar, las fechas se encuentran en diversos formatos que deben ser homogeneizados

## 1.7 Identificación de registros duplicados
Debemos validar que no existen filas iguales que ensucien el dataset, sobre todo estando pendiente de duplicaciones de la clave primaria

In [31]:
# Ver las filas duplicadas
print("   ----------    Filas duplicadas    ----------    ")
print("\n")
print(df[df.duplicated()])
print("\n")

# Número de filas duplicadas
print("Número de filas duplicadas: ", df.duplicated().sum())
print("\n")

# Filas con el mismo ID
print("   ----------    Filas con el mismo ID    ----------    ")
print("\n")
print(df[df.duplicated(subset='ID', keep=False)])
print("\n")

# Número de filas con el mismo ID
print("Número de filas con el mismo ID: ", df.duplicated(subset='ID', keep=False).sum())

   ----------    Filas duplicadas    ----------    


Empty DataFrame
Columns: [ID, FECHA_INTERVENCION, TIPO_INTERVENCION, ESTADO_PREVIO, ESTADO_POSTERIOR, JuegoID, Tipo, Comentarios]
Index: []


Número de filas duplicadas:  0


   ----------    Filas con el mismo ID    ----------    


Empty DataFrame
Columns: [ID, FECHA_INTERVENCION, TIPO_INTERVENCION, ESTADO_PREVIO, ESTADO_POSTERIOR, JuegoID, Tipo, Comentarios]
Index: []


Número de filas con el mismo ID:  0


Como son dataframes vacíos significa que no hay IDs distintos y filas iguales, por lo que no se debe limpiar ni corregir de ninguna forma

## 1.8 Búsqueda de errores tipográficos
Hay ciertos atributos de texto que pueden contar con determinados errores tipográficos que deben ser solucionados, como los nombres de áreas, juegos, usuarios y ubicaciones

En este dataset no encontramos ningún atributo similar, por lo que este paso no se realizará

## 1.9 Identificación de valores enum fuera de campo
Hay ciertos atributos que solo deben poseer ciertos valores (como Operativo-NoOperativo). Hace falta identificar aquellos valores de ese campo fuera de la norma

In [32]:
# Muestra todos los valores distintos de la columna 'ESTADO_PREVIO'
print("   ----------    Valores distintos de la columna 'ESTADO_PREVIO'    ----------    ")
print("\n")
print(df['ESTADO_PREVIO'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'ESTADO_POSTERIOR'
print("   ----------    Valores distintos de la columna 'ESTADO_POSTERIOR'    ----------    ")
print("\n")
print(df['ESTADO_POSTERIOR'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'TIPO_INTERVENCION'
print("   ----------    Valores distintos de la columna 'TIPO_INTERVENCION'    ----------    ")
print("\n")
print(df['TIPO_INTERVENCION'].unique())

   ----------    Valores distintos de la columna 'ESTADO_PREVIO'    ----------    


['Malo' 'Regular' 'Bueno']


   ----------    Valores distintos de la columna 'ESTADO_POSTERIOR'    ----------    


['Malo' 'Regular' 'Bueno']


   ----------    Valores distintos de la columna 'TIPO_INTERVENCION'    ----------    


['Correctivo' 'Emergencia' 'Preventivo']


Todos los Enums poseen valores acordes con lo esperado, por lo que no se va a realizar una limpieza de ellos.

## 1.10 Validación de las coordenadas y otros campos geoespaciales
Hay algunas veces en las que los códigos postales no respetan la identificación de Madrid (280..) o el formato, ya sean códigos postales u otros atributos de geolocalización

En este dataset no encontramos valores de localización, por lo que este paso no se realizará

## 1.11 Identificación de unidades de medida en un formato no estandarizado
Se deben identificar las filas que no posean un formato estándar

En este dataset no encontramos valores de unidades de medida, por lo que este paso no se realizará

## 1.12 Otros atributos a corregir
En esta sección se mencionarán aquellos atributos que también deban ser limpiados por errores

### 1.12.1 Búsqueda de IDs

In [33]:
# Vamos a mostrar 10 IDs para ver cómo se encuentran
print("   ----------    IDs    ----------    ")
print("\n")
print(df['ID'].sample(10))

   ----------    IDs    ----------    


13211    -13212,00 MNT
11554    -11555,00 MNT
4196      -4197,00 MNT
11300    -11301,00 MNT
9200      -9201,00 MNT
3125      -3126,00 MNT
7155      -7156,00 MNT
3711      -3712,00 MNT
6304      -6305,00 MNT
6731      -6732,00 MNT
Name: ID, dtype: object


Los IDs poseen un formato muy extraño con '-' y con números en coma flotante, por lo que se deben limpiar asemejándolos a los que hay en IncidenciasUsuarios

### 1.12.2 Identificación de valores de Comentario
Esta comprobación se realizará para ver todos los valores que posee este atributo

In [34]:
# Muestra los valores únicos de la columna Comentarios
print("   ----------    Valores únicos de la columna 'Comentarios'    ----------    ")
print("\n")
print(df['Comentarios'].unique())

   ----------    Valores únicos de la columna 'Comentarios'    ----------    


['Comentario sobre el mantenimiento 1'
 'Comentario sobre el mantenimiento 2'
 'Comentario sobre el mantenimiento 3' ...
 'Comentario sobre el mantenimiento 14998'
 'Comentario sobre el mantenimiento 14999'
 'Comentario sobre el mantenimiento 15000']


Se puede apreciar que todos van en la misma línea, por lo que no se deben limpiar

### 1.12.3 Identificación de valores de Tipo
Al ser una string sin errores tipográficos, debemos observar los posibles valores que posee

In [35]:
# Muestra todos los valores distintos de la columna 'Tipo'
print("   ----------    Valores distintos de la columna 'Tipo'    ----------    ")
print("\n")
print(df['Tipo'].unique())

   ----------    Valores distintos de la columna 'Tipo'    ----------    


['preventivo' 'queja_usuario' nan]


Se puede apreciar que parece más un Enum que una String. Deberá ser limpiada por los valores nulos que posee, pero por lo demás todo bien

### 1.12.4 Consideraciones extras de IDs y Fechas
Cabe recalcar que si ID o el campo de fechas no poseen un formato esperado, las funciones de limpieza darán error, por lo que no hace falta hacer ahora las comprobaciones de sus valores para determinar si son correctos. Además, se ha realizado la prueba de los nulos y de valores cero y no ha dado error.

### 1.12.5 Consideraciones extras de JuegoID
Para esta columna debemos comprobar que todos los datos están presentes en el dataset de juegos. Si no, estarían referenciando a algo que no existe

In [36]:
# Comprobar que todos los valores de la columna 'AreaRecreativaID' existen en la columna 'ID' del dataset 'AreasSucio.csv'
juegos = pd.read_csv('../JuegosSucio.csv')
print("   ----------    Comprobación de valores en 'AreaRecreativaID'    ----------    ")
print("\n")
print("Todos los valores se encuentran en el otro dataset: ", df['JuegoID'].isin(juegos['ID']).all())

   ----------    Comprobación de valores en 'AreaRecreativaID'    ----------    


Todos los valores se encuentran en el otro dataset:  True


# 2. Limpieza de los datasets
En este apartado se realizará la limpieza según la información obtenida en el análisis exploratorio de datos:
- Se debe corregir ID para un formato homogéneo
- Se debe corregir FECHA_INTERVENCIÓN para un formato homogéneo
- Se deben corregir los nulos de Tipo y Comentarios

## 2.1 Limpieza de ID

Debemos estandarizar todos los IDs a un formato más lejible, como 'IDMNT', siendo ID el número de ID y MNT la identificación para saber que es un ID de mantenimiento

In [37]:

# Elimina todos los guiones y espacios de todos los valores de la columna 'ID'

# Función para generar la cadena personalizada
def custom_string(row):
    id_number = row['ID'][1:-7]
    while len(id_number) < 5:
        id_number = '0' + id_number
    main_string = 'MNT'+'-'+id_number 
    return main_string

# Reemplazar valores nulos
df['ID'] = df.apply(lambda row: custom_string(row), axis=1)

# Muestra 20 IDs para ver cómo se encuentran
print("   ----------    IDs    ----------    ")
print("\n")
print(df['ID'].sample(20))

   ----------    IDs    ----------    


14053    MNT-14054
5722     MNT-05723
12190    MNT-12191
2524     MNT-02525
3063     MNT-03064
7941     MNT-07942
6247     MNT-06248
12996    MNT-12997
12014    MNT-12015
14688    MNT-14689
13712    MNT-13713
12698    MNT-12699
12920    MNT-12921
5537     MNT-05538
6323     MNT-06324
4075     MNT-04076
9224     MNT-09225
10596    MNT-10597
208      MNT-00209
2973     MNT-02974
Name: ID, dtype: object


Se puede apreciar que ya han quedado estandarizado todos los IDs como en IncidenciasUsuarios

## 2.2 Limpieza de FECHA_INTERVENCION

Debemos dejar las fechas en un formato estándar lejible por MongoDB, como 'DD/MM/YYYY'

In [38]:
# Leemos toda la columna de fechas y almacenamos todas las fechas en una lista
fechas = df['FECHA_INTERVENCION'].tolist()

# Ahora, pasamos por todas las fechas y corregimos las fechas que están mal escritas
fechas_corregidas = []
año_al_final = False

for fecha in fechas:
    # Si fecha contiene un guion, hacer fecha.split('-') y si fecha contiene una barra, hacer fecha.split('/')
    if '-' in fecha:
        fecha_split = fecha.split('-')
    elif '/' in fecha:
        fecha_split = fecha.split('/')
    # Condiciones para saber el día, mes y año
    # Encontrar el año
    if (int(fecha_split[0])>31):
        año = fecha_split[0]
        año_al_final = False
    elif (int(fecha_split[2])>31):
        año = fecha_split[2]
        año_al_final = True
    else:
        print("No se ha encontrado el año")
        fechas_corregidas.append("fecha incorrecta")
        break
    # Encontrar el día y el mes
    # Si el año está al final, no comprobamos el primer caracter
    if año_al_final:
        if (int(fecha_split[0])<32 and int(fecha_split[0])>12):
            dia = fecha_split[0]
            mes = fecha_split[1]
        elif (int(fecha_split[1])<32 and int(fecha_split[1])>12):
            dia = fecha_split[1]
            mes = fecha_split[0]
        # Si no hay ningun número entre el 13 y el 31, se asume que el mes es el segundo siempre y el día es el primero
        else:
            dia = fecha_split[0]
            mes = fecha_split[1]
    else:
        if (int(fecha_split[1])<32 and int(fecha_split[1])>12):
            dia = fecha_split[1]
            mes = fecha_split[2]
        elif (int(fecha_split[2])<32 and int(fecha_split[2])>12):
            dia = fecha_split[2]
            mes = fecha_split[1]
        # Si no hay ningun número entre el 13 y el 31, se asume que el mes es el segundo siempre y el día es el tercero
        else:
            dia = fecha_split[2]
            mes = fecha_split[1]
    fechas_corregidas.append(dia+"/"+mes+"/"+año)
    
# Ahora, cambiamos toda la columna de FECHAS_INTERVENCION por las fechas corregidas
df['FECHA_INTERVENCION'] = fechas_corregidas

# Mostramos las fechas corregidas
print("   ----------    Columna de fechas corregidas    ----------    ")
print("\n")
print(df['FECHA_INTERVENCION'].sample(20))

   ----------    Columna de fechas corregidas    ----------    


4022     05/09/2024
14216    27/10/2023
13588    17/02/2024
14293    24/09/2024
6329     09/10/2024
1417     20/09/2024
14534    08/04/2024
5402     09/04/2024
14631    14/12/2023
12704    24/09/2024
11291    13/05/2024
10400    26/11/2023
1808     08/08/2024
3136     02/02/2024
5032     23/04/2024
2587     24/08/2024
5802     16/06/2024
6464     07/02/2024
3978     19/06/2024
9025     09/09/2024
Name: FECHA_INTERVENCION, dtype: object


Como se puede apreciar, las fechas ya están estandarizadas

## 2.3 Limpieza de Tipo y Comentarios

Como no podemos extraer los datos faltantes de otros archivos, debemos rellenarlos siguiendo un formato específico:
- ID-Tipo-Desconocido para la columna de Tipo
- ID-Comentario-Desconocido para la columna de Comentario

In [39]:
# Cambiamos los valores nulos por una string personalizada en la que combinamos el id de esa fila y el tipo de esa fila

# Función para generar la cadena personalizada
def string_tipo_desc(row):
    return f"{row['ID']}_Tipo_Desconocido"
def string_comm_desc(row):
    return f"{row['ID']}_Comentarios_Desconocido"

# Reemplazar valores nulos
df['Tipo'] = df.apply(lambda row: string_tipo_desc(row) if pd.isnull(row['Tipo']) else row['Tipo'], axis=1)
df['Comentarios'] = df.apply(lambda row: string_comm_desc(row) if pd.isnull(row['Comentarios']) else row['Comentarios'], axis=1)

# Mostrar los posibles valores de ambos dataframes
print("   ----------    Valores únicos de la columna 'Tipo'    ----------    ")
print("\n")
print(df['Tipo'].unique())
print("\n")

print("   ----------    Valores cambiados de la columna 'Comentarios'    ----------    ")
print("\n")
comms = df['Comentarios'].unique().tolist()
changes = []
for comm in comms:
    comm_split = comm.split('_')
    if ('Desconocido' in comm_split):
        changes.append(comm)
    else:
        continue
print(changes)
print("\n")

# Mostramos las filas que quedan con valores nulos
print("   ----------    Filas con valores nulos    ----------    ")
print("\n")
print(df[df.isnull().any(axis=1)])


   ----------    Valores únicos de la columna 'Tipo'    ----------    


['preventivo' 'queja_usuario' 'MNT-00400_Tipo_Desconocido'
 'MNT-00893_Tipo_Desconocido' 'MNT-01316_Tipo_Desconocido'
 'MNT-01484_Tipo_Desconocido' 'MNT-02174_Tipo_Desconocido'
 'MNT-02868_Tipo_Desconocido' 'MNT-02956_Tipo_Desconocido'
 'MNT-03642_Tipo_Desconocido' 'MNT-03853_Tipo_Desconocido'
 'MNT-04014_Tipo_Desconocido' 'MNT-05323_Tipo_Desconocido'
 'MNT-06889_Tipo_Desconocido' 'MNT-07455_Tipo_Desconocido'
 'MNT-07869_Tipo_Desconocido' 'MNT-08602_Tipo_Desconocido'
 'MNT-08965_Tipo_Desconocido' 'MNT-09821_Tipo_Desconocido'
 'MNT-09879_Tipo_Desconocido' 'MNT-09914_Tipo_Desconocido'
 'MNT-10236_Tipo_Desconocido' 'MNT-11243_Tipo_Desconocido'
 'MNT-11945_Tipo_Desconocido' 'MNT-12874_Tipo_Desconocido'
 'MNT-14087_Tipo_Desconocido' 'MNT-14092_Tipo_Desconocido']


   ----------    Valores cambiados de la columna 'Comentarios'    ----------    


['MNT-00139_Comentarios_Desconocido', 'MNT-00485_Comentarios_Desconocido',

## 2.4 Mostrar Dataset Limpio y guardar CSV
Vamos a mostrar algunas filas del dataset limpio para validar que todo está OK y guardamos el Dataset

In [40]:
# Enseñamos 20 filas aleatorias para ver cómo quedan
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")

# Mostramos 10 filas que posean el comentario 'Desconocido' y 10 filas que posean el tipo 'Desconocido'
print("   ----------    Filas Tipo con 'Desconocido'    ----------    ")
print("\n")
print(df[df['Tipo'].str.contains('Desconocido')].sample(10))
print("\n")
print("   ----------    Filas Comentarios con 'Desconocido'    ----------    ")
print("\n")
print(df[df['Comentarios'].str.contains('Desconocido')].sample(10))

# Guardamos el dataset limpio
df.to_csv('../MantenimientoLimpio.csv', index=False)
print("\n")
print("Dataset limpio guardado")

   ----------    10 filas aleatorias    ----------    


              ID FECHA_INTERVENCION TIPO_INTERVENCION ESTADO_PREVIO ESTADO_POSTERIOR  JuegoID           Tipo                              Comentarios
10752  MNT-10753         26/11/2023        Emergencia          Malo             Malo    58368  queja_usuario  Comentario sobre el mantenimiento 10753
7282   MNT-07283         06/02/2024        Emergencia          Malo            Bueno    25015  queja_usuario   Comentario sobre el mantenimiento 7283
8541   MNT-08542         01/06/2024        Emergencia       Regular             Malo    59583  queja_usuario   Comentario sobre el mantenimiento 8542
9906   MNT-09907         03/02/2024        Correctivo          Malo            Bueno  3573416  queja_usuario   Comentario sobre el mantenimiento 9907
4978   MNT-04979         19/01/2024        Correctivo         Bueno            Bueno    25019  queja_usuario   Comentario sobre el mantenimiento 4979
12305  MNT-12306         01/10/2024        