# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [1]:
# Importación de librerías
import pandas as pd

# Lectura dataset
df = pd.read_csv('../JuegosSucio.csv')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [2]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)

# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [3]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

                 ID    COD_BARRIO  COD_DISTRITO    COORD_GIS_X   COORD_GIS_Y       LATITUD      LONGITUD    COD_POSTAL           NDP
count  1.457300e+04  14573.000000  14563.000000   14572.000000  1.457200e+04  14573.000000  14573.000000  14274.000000  1.339300e+04
mean   3.814316e+06    128.042819     12.428071  442711.912339  4.474460e+06     40.416010     -3.675021  27815.398136  1.979662e+07
std    3.742758e+06     53.288250      5.333806    4293.667555  4.637075e+03      0.337419      0.059007   2451.379141  8.411893e+06
min    1.864600e+04     11.000000      1.000000  429536.820000  4.464943e+06      0.000000     -3.831256      0.000000  1.100019e+07
25%    3.331400e+04     91.000000      9.000000  439600.892500  4.470545e+06     40.383502     -3.712022  28022.000000  1.109662e+07
50%    3.580354e+06    131.000000     13.000000  442744.680000  4.473559e+06     40.410791     -3.674777  28031.000000  2.007771e+07
75%    7.802495e+06    171.000000     17.000000  446219.894250  4.478

## 1.4 Observación inicial del dataset
Vamos a mostrar 30 entradas para poder observar cómo es realmente por dentro el dataset

In [4]:
# Mostramos las 10 primeras filas, 10 filas aleatorias y las 10 últimas
print("   ----------    10 primeras filas    ----------    ")
print("\n")
print(df.head(10))
print("\n")
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")
print("   ----------    10 últimas filas    ----------    ")
print("\n")
print(df.tail(10))

   ----------    10 primeras filas    ----------    


        ID           DESC_CLASIFICACION  COD_BARRIO          BARRIO  COD_DISTRITO               DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD    LATITUD  LONGITUD TIPO_VIA NOM_VIA NUM_VIA  COD_POSTAL              DIRECCION_AUX         NDP    FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD MODELO  tipo_juego ACCESIBLE
0  9536972         Varios Juegos en CDE         125        MOSCARDO          12.0                  USERA  OPERATIVO   440127.235  4471484.870        ETRS89  40.391812 -3.705463      NaN     NaN     NaN     28026.0                   C/TORERO  11084099.0  2024-01-31 00:00:00        D127106         AE21    NaN  deportivas       NaN
1  9536966         Varios Juegos en CDE         125        MOSCARDO          12.0                  USERA  OPERATIVO   440120.720  4471484.010        ETRS89  40.391804 -3.705540      NaN     NaN     NaN     28026.0                   C/TORERO  11084099.0           31/01/2024        D1

## 1.5 Revisión de valores nulos
Como ya se ha visto en el anterior apartado (info), podemos observar los valores nulos de esa forma. Pero se puede observar de una forma más visual en esta sección y, además, hay que tener en cuenta valores como el cero que también pueden considerarse nulos.

In [5]:
# Para poder saber el número de valores faltantes
print("    ----------    Valores faltantes    ----------    ")
print("\n")
print(df.isnull().sum())
print("\n")

# Para poder saber el número de ceros en cada columna
print("    ----------    Valores cero    ----------    ")
print("\n")
print((df == 0).sum())

    ----------    Valores faltantes    ----------    


ID                        0
DESC_CLASIFICACION        0
COD_BARRIO                0
BARRIO                    0
COD_DISTRITO             10
DISTRITO                 10
ESTADO                    0
COORD_GIS_X               1
COORD_GIS_Y               1
SISTEMA_COORD             0
LATITUD                   0
LONGITUD                  0
TIPO_VIA              12613
NOM_VIA               12614
NUM_VIA               12611
COD_POSTAL              299
DIRECCION_AUX          2760
NDP                    1180
FECHA_INSTALACION       698
CODIGO_INTERNO          706
CONTRATO_COD              0
MODELO                 6473
tipo_juego                0
ACCESIBLE             12384
dtype: int64


    ----------    Valores cero    ----------    


ID                      0
DESC_CLASIFICACION      0
COD_BARRIO              0
BARRIO                  0
COD_DISTRITO            0
DISTRITO                0
ESTADO                  0
COORD_GIS_X             

No existen valores nulos en este dataset, por lo que no se hará una limpieza de nulos

## 1.6 Identificación de fechas no estandarizadas
Se deben identificar las fechas que no se encuentran en el formato adecuado para MongoDB (DD/MM/YYYY)

In [68]:
# Vamos a mostrar algunas fechas para poder observar en qué formato están
print("   ----------    Fechas    ----------    ")
print("\n")
print(df['FECHA_REPORTE'].sample(20))

   ----------    Fechas    ----------    


16615    2024-10-04
15503    2024/09/19
9663     06-04-2024
10234    08-09-2024
9823     02-21-2024
16560    04-16-2024
10158    2024-04-30
4953     28-01-2024
4294     02/01/2024
12459    14/07/2024
4554     02-21-2024
6221     18/11/2023
11768    2024/08/08
1362     11-01-2024
9543     2024/08/20
4575     2024-02-23
7518     10-21-2023
4187     2023/11/05
8780     19/03/2024
15235    08/08/2024
Name: FECHA_REPORTE, dtype: object


Como se puede apreciar, las fechas se encuentran en diversos formatos que deben ser homogeneizados

## 1.7 Identificación de registros duplicados
Debemos validar que no existen filas iguales que ensucien el dataset, sobre todo estando pendiente de duplicaciones de la clave primaria

In [69]:
# Ver las filas duplicadas
print("   ----------    Filas duplicadas    ----------    ")
print("\n")
print(df[df.duplicated()])
print("\n")
# Número de filas duplicadas
print("Número de filas duplicadas: ", df.duplicated().sum())
print("\n")

# Filtrar filas que tienen el mismo NIF
duplicados = df.groupby('ID').filter(lambda x: len(x) > 1)

# Ordenar por NIF para que las filas con el mismo NIF se visualicen una encima de la otra
duplicados = duplicados.sort_values(by='ID')

# Mostrar las filas con la misma PK
print("   ----------    Filas con el mismo ID    ----------    ")
print("\n")
print(duplicados)
print("\n")
print("Número de filas con el mismo ID: ", duplicados.shape[0])

   ----------    Filas duplicadas    ----------    


          ID TIPO_INCIDENCIA FECHA_REPORTE   ESTADO        UsuarioID MantenimeintoID
17630  12633      Vandalismo    02/12/2023  Cerrada  ['903-64-1048']   ['MNT-11152']


Número de filas duplicadas:  1


   ----------    Filas con el mismo ID    ----------    


          ID TIPO_INCIDENCIA FECHA_REPORTE   ESTADO                                      UsuarioID                          MantenimeintoID
430      431          Rotura    08-14-2024  Cerrada  ['122-92-6750', '293-31-6681', '599-62-2214']                            ['MNT-03964']
17628    431          Rotura    14/08/2024  Cerrada  ['122-92-6750', '293-31-6681', '599-62-2214']                            ['MNT-03964']
9947    9948        Desgaste    03-04-2024  Cerrada                                ['722-68-2700']                            ['MNT-14428']
17631   9948        Desgaste    04-03-2024  Cerrada                                ['722-68-2700']                        

Existen filas iguales que solo difieren en el formato de la fecha, por lo que se pueden considerar filas iguales que deberán ser eliminadas, ya que no aportan información adicional y solo ensucian el dataset

## 1.8 Búsqueda de errores tipográficos
Hay ciertos atributos de texto que pueden contar con determinados errores tipográficos que deben ser solucionados, como los nombres de áreas, juegos, usuarios y ubicaciones

En este dataset no encontramos ningún atributo similar, por lo que este paso no se realizará

## 1.9 Identificación de valores enum fuera de campo
Hay ciertos atributos que solo deben poseer ciertos valores (como Operativo-NoOperativo). Hace falta identificar aquellos valores de ese campo fuera de la norma

In [70]:
# Muestra todos los valores distintos de la columna 'TIPO_INCIDENCIA'
print("   ----------    Valores distintos de la columna 'TIPO:INCIDENCIA'    ----------    ")
print("\n")
print(df['TIPO_INCIDENCIA'].unique())
print("\n")

# Muestra todos los valores distintos de la columna 'ESTADO'
print("   ----------    Valores distintos de la columna 'ESTADO'    ----------    ")
print("\n")
print(df['ESTADO'].unique())

   ----------    Valores distintos de la columna 'TIPO:INCIDENCIA'    ----------    


['Desgaste' 'Rotura' 'Vandalismo' 'Mal funcionamiento']


   ----------    Valores distintos de la columna 'ESTADO'    ----------    


['Cerrada' 'Abierta']


Todos los Enums poseen valores acordes con lo esperado, por lo que no se va a realizar una limpieza de ellos.

## 1.10 Validación de las coordenadas y otros campos geoespaciales
Hay algunas veces en las que los códigos postales no respetan la identificación de Madrid (280..) o el formato, ya sean códigos postales u otros atributos de geolocalización

En este dataset no encontramos valores de localización, por lo que este paso no se realizará

## 1.11 Identificación de unidades de medida en un formato no estandarizado
Se deben identificar las filas que no posean un formato estándar

En este dataset no encontramos valores de unidades de medida, por lo que este paso no se realizará

## 1.12 Otros atributos a corregir
En esta sección se mencionarán aquellos atributos que también deban ser limpiados por errores

### 1.12.1 Búsqueda de IDs

In [71]:
# Vamos a mostrar 10 IDs para ver cómo se encuentran
print("   ----------    IDs    ----------    ")
print("\n")
print(df['ID'].sample(10))

   ----------    IDs    ----------    


4451      4452
2816      2817
14954    14955
13827    13828
1340      1341
7977      7978
13084    13085
7611      7612
17027    17028
7205      7206
Name: ID, dtype: int64


Vamos a validar que los IDs son números enteros

In [72]:
# Validar que todos los valores de ID sean enteros
print("   ----------    Validación de ID    ----------    ")
print("\n")
print(df['ID'].apply(lambda x: x.is_integer()).all())

   ----------    Validación de ID    ----------    


True


Por ende, todos los IDs son válidos y no se deberán limpiar

### 1.12.2 Validar todos los valores de la columna UsuarioID y MantenimientoID
Hay que comprobar que todos los valores de estos campos siguen el formato de los ID de usuarios (XXX-XX-XXXX) sacado de Usuarios y de los IDs de mantenimiento, sacados de Mantenimiento

In [73]:
# Extraemos todos los valores del campo de 'UsuarioID' a una lista
# Como todos están en formato string aunque parezcan listas, solo debemos eliminar los corchetes y las comillas y comas para colocarlo en una lista
usuarios = df['UsuarioID'].tolist()
usuarios = [x.replace('[', '').replace(']', '').replace(', ', '|').replace("'", '') for x in usuarios]
valido = True
for elem in usuarios:
    # Si el elemento posee un | hacer un split del |:
    if '|' in elem:
        lista = elem.split('|')
        for e in lista:
            # Si el elemento no tiene el formato "XXX-XX-XXXX", siendo X un número, entonces devuelve False
            if not e[0:3].isdigit() or not e[4:6].isdigit() or not e[7:].isdigit(): 
                valido = False
    else:
        if not e[0:3].isdigit() or not e[4:6].isdigit() or not e[7:].isdigit():
            valido = False
print("Todos los valores son IDs válidos de Usuarios: ", valido)

# Extraemos todos los valores del campo de 'MantenimientoID' a una lista
# Como todos están en formato string aunque parezcan listas, solo debemos eliminar los corchetes y las comillas y comas para colocarlo en una lista
mantenimiento = df['MantenimeintoID'].tolist()
mantenimiento = [x.replace('[', '').replace(']', '').replace(', ', '|').replace("'", '') for x in mantenimiento]
valido = True
for elem in mantenimiento:
    # Si el elemento posee un | hacer un split del |:
    if '|' in elem:
        lista = elem.split('|')
        for e in lista:
            # Si el elemento no tiene el formato "MNT-XXXXX", siendo X un número, entonces devuelve False
            if not e[0:4] == 'MNT-' or not e[4:].isdigit():
                valido = False
    else:
        if not elem[0:4] == 'MNT-' or not elem[4:].isdigit():
            print(elem)
            print(elem[0:4])
            print(elem[4:])
            valido = False
print("Todos los valores son IDs válidos de Mantenimiento: ", valido)


Todos los valores son IDs válidos de Usuarios:  True
Todos los valores son IDs válidos de Mantenimiento:  True


Gracias al script anterior se puede observar como todos los IDs son válidos, tanto de mantenimiento como de usuario

### 1.12.3 Consideraciones extras de Fechas
Cabe recalcar que si el campo de fechas no posee un formato esperado, las funciones de limpieza darán error, por lo que no hace falta hacer ahora las comprobaciones de sus valores para determinar si son correctos.

### 1.12.4 Cambio de nombre columna de "MantenimeintoID" a "MantenimientoID"
Esa columna posee una errata en su nombre que debe ser solucionada 

In [74]:
# Cambiar nombre de la columna "MantenimeintoID" a "MantenimientoID"
df.rename(columns={'MantenimeintoID': 'MantenimientoID'}, inplace=True)

# Mostramos el resultado del cambio con una muestra de 1 fila
print(df.sample(1))

        ID     TIPO_INCIDENCIA FECHA_REPORTE   ESTADO        UsuarioID             MantenimientoID
2605  2606  Mal funcionamiento    12-03-2023  Abierta  ['721-49-2694']  ['MNT-02011', 'MNT-14469']


Como se puede observar, el nombre de la columna ha cambiado

# 2. Limpieza de los datasets
En este apartado se realizará la limpieza según la información obtenida en el análisis exploratorio de datos:
- Se deben eliminar las filas repetidas que no aportan más información
- Se deben corregir las fechas y dejarlas en un formato estándar

## 2.1 Limpieza de filas repetidas

Debemos eliminar las filas repetidas que no aportan información nueva. Para ello se va a eliminar una de las dos repetidas indistintivamente, ya que solo varían en el formato de la fecha, el resto de datos son iguales (incluso la fecha, solo que se encuentra en distinto formato y por eso Pandas lo reconoce como distinta)

In [75]:
# Filtrar filas que tienen el mismo NIF
duplicados = df.groupby('ID').filter(lambda x: len(x) > 1)

# Ordenar por NIF para que las filas con el mismo NIF se visualicen una encima de la otra
duplicados = duplicados.sort_values(by='ID')

# Mostrar las filas con la misma PK
print("   ----------    Filas con el mismo ID    ----------    ")
print("\n")
print(duplicados)
print("\n")
print("Número de filas con el mismo ID: ", duplicados.shape[0])
print("\n")

# Limpiamos una de las dos filas con el mismo ID de duplicados
df.drop_duplicates(subset='ID', keep='first', inplace=True)

# Mostramos el resultado por pantalla
print("   ----------    Filas con el mismo ID después de limpiar    ----------    ")
print("\n")
print(df[df.duplicated()])
print("\n")
# Número de filas duplicadas
print("Número de filas duplicadas: ", df.duplicated().sum())
print("\n")

# Mostramos, para comprobar, 2 filas de las que antes estaban duplicadas
print("   ----------    2 filas de las que antes estaban duplicadas    ----------    ")
print("\n")
print(df.loc[df['ID'] == 431])
print(df.loc[df['ID'] == 9948])
print("\n")

# Mostramos el intento de acceder a una fila eliminada
print("   ----------    Intento de acceder a una fila eliminada    ----------    ")
print("\n")
# Accedemos a la fila con ID 431 y FECHA_REPORTE 14/08/2024
print(df.loc[(df['ID'] == 431) & (df['FECHA_REPORTE'] == '14/08/2024')])

   ----------    Filas con el mismo ID    ----------    


          ID TIPO_INCIDENCIA FECHA_REPORTE   ESTADO                                      UsuarioID                          MantenimientoID
430      431          Rotura    08-14-2024  Cerrada  ['122-92-6750', '293-31-6681', '599-62-2214']                            ['MNT-03964']
17628    431          Rotura    14/08/2024  Cerrada  ['122-92-6750', '293-31-6681', '599-62-2214']                            ['MNT-03964']
9947    9948        Desgaste    03-04-2024  Cerrada                                ['722-68-2700']                            ['MNT-14428']
17631   9948        Desgaste    04-03-2024  Cerrada                                ['722-68-2700']                            ['MNT-14428']
17630  12633      Vandalismo    02/12/2023  Cerrada                                ['903-64-1048']                            ['MNT-11152']
12632  12633      Vandalismo    02/12/2023  Cerrada                                ['903-64-1048']   

Se puede apreciar que ya no hay filas duplicadas y que, si intentamos acceder a una fila de las repetidas y eliminadas, no podemos

## 2.2 Limpieza de FECHA_REPORTE

Debemos dejar las fechas en un formato estándar lejible por MongoDB, como 'DD/MM/YYYY'

In [76]:
# Leemos toda la columna de fechas y almacenamos todas las fechas en una lista
fechas = df['FECHA_REPORTE'].tolist()

# Ahora, pasamos por todas las fechas y corregimos las fechas que están mal escritas
fechas_corregidas = []
año_al_final = False

for fecha in fechas:
    # Si fecha contiene un guion, hacer fecha.split('-') y si fecha contiene una barra, hacer fecha.split('/')
    if '-' in fecha:
        fecha_split = fecha.split('-')
    elif '/' in fecha:
        fecha_split = fecha.split('/')
    # Condiciones para saber el día, mes y año
    # Encontrar el año
    if (int(fecha_split[0])>31):
        año = fecha_split[0]
        año_al_final = False
    elif (int(fecha_split[2])>31):
        año = fecha_split[2]
        año_al_final = True
    else:
        print("No se ha encontrado el año")
        fechas_corregidas.append("fecha incorrecta")
        break
    # Encontrar el día y el mes
    # Si el año está al final, no comprobamos el primer caracter
    if año_al_final:
        if (int(fecha_split[0])<32 and int(fecha_split[0])>12):
            dia = fecha_split[0]
            mes = fecha_split[1]
        elif (int(fecha_split[1])<32 and int(fecha_split[1])>12):
            dia = fecha_split[1]
            mes = fecha_split[0]
        # Si no hay ningun número entre el 13 y el 31, se asume que el mes es el segundo siempre y el día es el primero
        else:
            dia = fecha_split[0]
            mes = fecha_split[1]
    else:
        if (int(fecha_split[1])<32 and int(fecha_split[1])>12):
            dia = fecha_split[1]
            mes = fecha_split[2]
        elif (int(fecha_split[2])<32 and int(fecha_split[2])>12):
            dia = fecha_split[2]
            mes = fecha_split[1]
        # Si no hay ningun número entre el 13 y el 31, se asume que el mes es el segundo siempre y el día es el tercero
        else:
            dia = fecha_split[2]
            mes = fecha_split[1]
    fechas_corregidas.append(dia+"/"+mes+"/"+año)
    
# Ahora, cambiamos toda la columna de FECHAS_INTERVENCION por las fechas corregidas
df['FECHA_REPORTE'] = fechas_corregidas

# Mostramos las fechas corregidas
print("   ----------    Columna de fechas corregidas    ----------    ")
print("\n")
print(df['FECHA_REPORTE'].sample(20))

   ----------    Columna de fechas corregidas    ----------    


14930    11/06/2024
8584     01/03/2024
5553     12/08/2024
16877    05/05/2024
2369     17/10/2023
15694    27/06/2024
814      26/05/2024
10010    29/10/2023
9381     09/01/2024
3920     22/03/2024
9920     11/05/2024
1378     14/09/2024
2680     21/04/2024
8058     20/01/2024
10514    15/02/2024
3355     03/07/2024
11096    07/02/2024
11611    27/01/2024
16780    13/09/2024
15260    24/06/2024
Name: FECHA_REPORTE, dtype: object


Como se puede apreciar, las fechas ya están estandarizadas

## 2.4 Mostrar Dataset Limpio y guardar CSV
Vamos a mostrar algunas filas del dataset limpio para validar que todo está OK y guardamos el Dataset

In [77]:
# Enseñamos 20 filas aleatorias para ver cómo quedan
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")

# Guardamos el dataset limpio
df.to_csv('../MantenimientoLimpio.csv', index=False)
print("\n")
print("Dataset limpio guardado")

   ----------    10 filas aleatorias    ----------    


          ID     TIPO_INCIDENCIA FECHA_REPORTE   ESTADO                                      UsuarioID                                       MantenimientoID
3947    3948            Desgaste    29/06/2024  Cerrada  ['134-29-4351', '396-23-3416', '854-77-1271']                                         ['MNT-01847']
16770  16771              Rotura    18/04/2024  Cerrada                                ['041-84-6414']                                         ['MNT-02968']
14202  14203          Vandalismo    30/07/2024  Cerrada                                ['790-67-9089']  ['MNT-01311', 'MNT-05562', 'MNT-08793', 'MNT-10815']
8526    8527  Mal funcionamiento    23/02/2024  Cerrada                                ['177-75-6218']                                         ['MNT-11555']
7335    7336  Mal funcionamiento    10/01/2024  Cerrada                                ['711-74-3953']                                         ['MNT-14227']
1