# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [4]:
# Importación de librerías
import pandas as pd

# Lectura dataset
df = pd.read_csv('../AreasSucio.csv')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [5]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)

# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [6]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

                 ID   COD_BARRIO  COD_DISTRITO    COORD_GIS_X   COORD_GIS_Y      LATITUD     LONGITUD    COD_POSTAL           NDP   TOTAL_ELEM
count  2.724000e+03  2724.000000   2714.000000    2724.000000  2.724000e+03  2724.000000  2724.000000   2635.000000  2.525000e+03  2724.000000
mean   1.563270e+06   127.056167     12.341931  442527.739333  4.474631e+06    40.420314    -3.677460  27829.775712  1.950833e+07    10.016887
std    2.815716e+06    52.377876      5.238038    4316.806283  4.726069e+03     0.042621     0.050819   2372.231422  8.437088e+06     5.405864
min    1.665700e+04    11.000000      1.000000  429551.330000  4.464949e+06    40.332965    -3.831085      0.000000  1.100019e+07     0.000000
25%    1.742875e+04    91.000000      9.000000  439432.046750  4.470593e+06    40.383852    -3.713989  28022.000000  1.109013e+07     7.000000
50%    1.812750e+04   131.000000     13.000000  442622.004500  4.473629e+06    40.411559    -3.676429  28032.000000  2.006377e+07     9.000000

## 1.4 Observación inicial del dataset
Vamos a mostrar 30 entradas para poder observar cómo es realmente por dentro el dataset

In [7]:
# Mostramos las 10 primeras filas, 10 filas aleatorias y las 10 últimas
print("   ----------    10 primeras filas    ----------    ")
print("\n")
print(df.head(10))
print("\n")
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")
print("   ----------    10 últimas filas    ----------    ")
print("\n")
print(df.tail(10))

   ----------    10 primeras filas    ----------    


        ID            DESC_CLASIFICACION  COD_BARRIO                        BARRIO  COD_DISTRITO               DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD    LATITUD  LONGITUD   TIPO_VIA                  NOM_VIA NUM_VIA  COD_POSTAL                                     DIRECCION_AUX         NDP    FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD  TOTAL_ELEM        tipo
0  3568711  Circuito deportivo elemental          85                        lA paz           8.0  fuencaRrAL - eL PARdO  OPERATIVO   440597.410  4481480.160        ETRS89  40.481888 -3.700858      CALLE               PEDRO RICO       1     28029.0             PARQUE NORTE 3 (ANTONIO LOPEZ AGUADO)  20103366.0             08/03/17          D0852         AE21           5  deportivas
1  3569210  Circuito deportivo elemental          87                    MIrásIErRá           8.0  fueNCArral - el pArDO  OPERATIVO   438497.360  4482668.090        ETRS89  40.4924

## 1.5 Revisión de valores nulos
Como ya se ha visto en el anterior apartado (info), podemos observar los valores nulos de esa forma. Pero se puede observar de una forma más visual en esta sección y, además, hay que tener en cuenta valores como el cero que también pueden considerarse nulos.

In [8]:
# Para poder saber el número de valores faltantes
print("    ----------    Valores faltantes    ----------    ")
print("\n")
print(df.isnull().sum())
print("\n")

# Para poder saber el número de ceros en cada columna
print("    ----------    Valores cero    ----------    ")
print("\n")
print((df == 0).sum())

    ----------    Valores faltantes    ----------    


ID                      0
DESC_CLASIFICACION      0
COD_BARRIO              0
BARRIO                  0
COD_DISTRITO           10
DISTRITO               10
ESTADO                  0
COORD_GIS_X             0
COORD_GIS_Y             0
SISTEMA_COORD           0
LATITUD                 0
LONGITUD                0
TIPO_VIA              177
NOM_VIA               176
NUM_VIA               164
COD_POSTAL             89
DIRECCION_AUX         440
NDP                   199
FECHA_INSTALACION     129
CODIGO_INTERNO        126
CONTRATO_COD            0
TOTAL_ELEM              0
tipo                    0
dtype: int64


    ----------    Valores cero    ----------    


ID                     0
DESC_CLASIFICACION     0
COD_BARRIO             0
BARRIO                 0
COD_DISTRITO           0
DISTRITO               0
ESTADO                 0
COORD_GIS_X            0
COORD_GIS_Y            0
SISTEMA_COORD          0
LATITUD                0
LONGI

Hay bastantes valores nulos, nos los podemos encontrar en:
- COD_DISTRITO
- DISTRITO
- TIPO_VIA
- NOM_VIA
- NUM_VIA
- CÓDIGO_POSTAL (Además posee valores cero)
- DIRECCION_AUX
- NDP
- FECHA_INSTALACION
- CODIGO_INTERNO

Hace falta limpiar todos estos valores nulos, o bien rellenando esa columna con otros atributos presentes o con una cadena auxiliar

## 1.6 Identificación de fechas no estandarizadas
Se deben identificar las fechas que no se encuentran en el formato adecuado para MongoDB (DD/MM/YYYY)

In [10]:
# Vamos a mostrar algunas fechas para poder observar en qué formato están
print("   ----------    Fechas    ----------    ")
print("\n")
print(df['FECHA_INSTALACION'].sample(20))

   ----------    Fechas    ----------    


681              07/02/2006
2689               03/07/20
865     2006-01-16 00:00:00
987        fecha_incorrecta
219     2022-04-30 00:00:00
354     2004-01-01 00:00:00
2143             2002/01/01
1820             2007/02/15
520              12-17-2019
1404             2004/01/01
344              01/08/2013
952              12-13-2004
94                 29/12/09
876              2007/04/19
917              2007/01/09
1037             2003/01/01
482              11-01-2015
844     2005-09-20 00:00:00
2413             01/01/2006
1546    2004-01-01 00:00:00
Name: FECHA_INSTALACION, dtype: object


Como se puede apreciar, las fechas se encuentran en diversos formatos que deben ser homogeneizados. En este caso, incluso cadenas como 'fecha_incorrecta' o fechas con horas:minutos:segundos

## 1.7 Identificación de registros duplicados
Debemos validar que no existen filas iguales que ensucien el dataset, sobre todo estando pendiente de duplicaciones de la clave primaria

In [14]:
# Ver las filas duplicadas
print("   ----------    Filas duplicadas    ----------    ")
print("\n")
print(df[df.duplicated()])
print("\n")

# Número de filas duplicadas
print("Número de filas duplicadas: ", df.duplicated().sum())
print("\n")

# Filtrar filas que tienen el mismo ID
duplicados = df.groupby('ID').filter(lambda x: len(x) > 1)

# Ordenar por ID para que las filas con el mismo ID se visualicen una encima de la otra
duplicados = duplicados.sort_values(by='ID')

# Mostrar las filas con la misma PK
print("   ----------    Filas con el mismo ID    ----------    ")
print("\n")
print(duplicados)
print("\n")
print("Número de filas con el mismo ID: ", duplicados.shape[0])

# Mostramos las filas duplicadas con mismo CODIGO_INTERNO
duplicados = df.groupby('CODIGO_INTERNO').filter(lambda x: len(x) > 1)
duplicados = duplicados.sort_values(by='CODIGO_INTERNO')
print("   ----------    Filas con el mismo CODIGO_INTERNO    ----------    ")
print("\n")
print(duplicados)

   ----------    Filas duplicadas    ----------    


Empty DataFrame
Columns: [ID, DESC_CLASIFICACION, COD_BARRIO, BARRIO, COD_DISTRITO, DISTRITO, ESTADO, COORD_GIS_X, COORD_GIS_Y, SISTEMA_COORD, LATITUD, LONGITUD, TIPO_VIA, NOM_VIA, NUM_VIA, COD_POSTAL, DIRECCION_AUX, NDP, FECHA_INSTALACION, CODIGO_INTERNO, CONTRATO_COD, TOTAL_ELEM, tipo]
Index: []


Número de filas duplicadas:  0


   ----------    Filas con el mismo ID    ----------    


Empty DataFrame
Columns: [ID, DESC_CLASIFICACION, COD_BARRIO, BARRIO, COD_DISTRITO, DISTRITO, ESTADO, COORD_GIS_X, COORD_GIS_Y, SISTEMA_COORD, LATITUD, LONGITUD, TIPO_VIA, NOM_VIA, NUM_VIA, COD_POSTAL, DIRECCION_AUX, NDP, FECHA_INSTALACION, CODIGO_INTERNO, CONTRATO_COD, TOTAL_ELEM, tipo]
Index: []


Número de filas con el mismo ID:  0
   ----------    Filas con el mismo CODIGO_INTERNO    ----------    


           ID       DESC_CLASIFICACION  COD_BARRIO     BARRIO  COD_DISTRITO            DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COOR

No existen filas iguales, por lo que no es necesario limpiar nada. Aunque, hay dos flas con el mismo código interno, por lo que deben ser arregladas

## 1.8 Búsqueda de errores tipográficos
Hay ciertos atributos de texto que pueden contar con determinados errores tipográficos que deben ser solucionados, como los nombres de áreas, juegos, usuarios y ubicaciones

In [12]:
# Muestra 20 filas aleatorias con solo las columnas de BARRIO y DISTRITO
print("   ----------    20 filas aleatorias con BARRIO y DISTRITO    ----------    ")
print("\n")
print(df[['BARRIO', 'DISTRITO']].sample(20))

   ----------    20 filas aleatorias con BARRIO y DISTRITO    ----------    


                            BARRIO               DISTRITO
971                     BUEnAVíStA            CArAbanchel
1857                    cáníLLEjás  sáN blAS - CánIlLEJáS
1737          ENSANche de VallECaS      VIlLa De VAllEcAS
1045                    BuenAvISTA            CaRAbANCHEl
1473                 PinAr DEL REY              horTaLeZA
1480                  vIsTa aLEgre            CaRaBanchel
1699                      NUMAnCiA     puEnTE De vaLLECas
1200                     EL gOLoso  FUenCArrAl - eL paRDo
1395                        LucErO                 LATiNA
876                  cásA DE CámPO      MóNClóá - áRAvAcA
2516                         TiMon                barAjAs
2366  cASCo hisToricO De vicaLvAro              vicAlvaRO
2490                         RejAs  San bLAS - cANiLLejAs
1470                 PinAR DeL rEY              hOrtaLEzA
1326                    VaLDEzarza      MonCLoA - a

Barrio y distrito poseen nombres raros que deben ser limpiados

## 1.9 Identificación de valores enum fuera de campo
Hay ciertos atributos que solo deben poseer ciertos valores (como Operativo-NoOperativo). Hace falta identificar aquellos valores de ese campo fuera de la norma

In [13]:
# Muestra todos los valores distintos de la columna 'ESTADO'
print("   ----------    Valores distintos de la columna 'ESTADO'    ----------    ")
print("\n")
print(df['ESTADO'].unique())
print("\n")

   ----------    Valores distintos de la columna 'ESTADO'    ----------    


['OPERATIVO']




Todos los Enums poseen valores acordes con lo esperado, por lo que no se va a realizar una limpieza como tal de ellos.

## 1.10 Validación de las coordenadas y otros campos geoespaciales
Hay algunas veces en las que los códigos postales no respetan la identificación de Madrid (280..) o el formato, ya sean códigos postales u otros atributos de geolocalización

Como en el dataset nos encontramos valores numéricos no nulos válidos para ser insertados en MongoDB, no es necesario realizar limpieza de ellos. Además, según las consideraciones de la práctica, no entra en el ámbito de esta práctica validar si las coordenadas son correctas o no

## 1.11 Identificación de unidades de medida en un formato no estandarizado
Se deben identificar las filas que no posean un formato estándar

Vamos a observar las medidas en este dataset:

In [16]:
# Vamos a mostrar los valores únicos de la columna 'SISTEMA_COORD'
print("   ----------    Valores únicos de la columna 'SISTEMA_COORD'    ----------    ")
print("\n")
print(df['SISTEMA_COORD'].unique())

   ----------    Valores únicos de la columna 'SISTEMA_COORD'    ----------    


['ETRS89']


No hay ninguna unidad de medida fuera de lugar, por lo que no es necesario limpiar este atributo

## 1.12 Otros atributos a corregir
En esta sección se mencionarán aquellos atributos que también deban ser limpiados por errores

### 1.12.1 Validación de IDs
Para este paso debemos comprobar que todos los IDs son enteros y únicos, ya que en el paso de los duplicados ya hemos comprobado esto

In [18]:
# Debemos validar que todos los IDs son únicos y enteros
print("   ----------    Validación de IDs    ----------    ")
print("\n")
print('El ID es un entero: ', df['ID'].apply(lambda x: x.is_integer()).all())

# El ID es único
print('El ID es único: ', df['ID'].is_unique)

   ----------    Validación de IDs    ----------    


El ID es un entero:  True
El ID es único:  True


Todos los IDs son enteros y únicos, por lo que no se precisará su limpieza

### 1.12.2 Validación de DESC_CLASIFICACION
En esta seccion veremos los posibles valores de DESC_CLASIFICACION y si tienen sentido

In [19]:
# Muestra todos los posibles valores de DESC_CLASIFICACION
print("   ----------    Valores únicos de la columna 'DESC_CLASIFICACION'    ----------    ")
print("\n")
print(df['DESC_CLASIFICACION'].unique())

   ----------    Valores únicos de la columna 'DESC_CLASIFICACION'    ----------    


['Circuito deportivo elemental' 'Area de juegos/especial'
 'Área de mayores' 'Área Infantil']


Este atributo tiene sentido y no posee nulos, por lo que no hará falta limpiarlo

### 1.12.3 Validación COD_BARRIO y BARRIO
Para poder validar estas dos columnas debemos observar sus valores y ver si hay consistencia entre estas 2 columnas

In [None]:
# Muestra todos los valores únicos de la columna 'COD_BARRIO' junto con 'BARRIO'
print("   ----------    Valores únicos de la columna 'COD_BARRIO' junto con 'BARRIO'    ----------    ")
print("\n")
distritos = df[['COD_BARRIO', 'BARRIO']].drop_duplicates()
# Ordena los barrios según el código de barrio
# Estandarizamos los nombres en los barrios, incluso las tildes
distritos['BARRIO'] = distritos['BARRIO'].str.upper()
distritos['BARRIO'] = distritos['BARRIO'].str.replace('Á', 'A')
distritos['BARRIO'] = distritos['BARRIO'].str.replace('É', 'E')
distritos['BARRIO'] = distritos['BARRIO'].str.replace('Í', 'I')
distritos['BARRIO'] = distritos['BARRIO'].str.replace('Ó', 'O')
distritos['BARRIO'] = distritos['BARRIO'].str.replace('Ú', 'U')

# Elimina las filas iguales
distritos = distritos.drop_duplicates()

distritos = distritos.sort_values(by='COD_BARRIO')
print(distritos)

   ----------    Valores únicos de la columna 'COD_BARRIO' junto con 'BARRIO'    ----------    


      COD_BARRIO                                           BARRIO
240           11                                          PALACIO
266           12                                      EMBAJADORES
568           13                                           CORTES
252           14                                         JUSTICIA
107           15                                      UNIVERSIDAD
268           21                                         IMPERIAL
172           22                                          ACACIAS
442           23                                          CHOPERA
32            24                                          LEGAZPI
163           25                                         DELICIAS
253           26                             PALOS DE LA FRONTERA
175           27                                           ATOCHA
479           31                            

Se puede observar que todos corresponden a un barrio válido y es una relacion 1 a 1, por lo que no hace falta limpiarlos. Solo eliminar sus errores tipográficos 

### 1.12.4 Validacion de CODIGO_DISTRITO y DISTRITO
Vamos a validar que ambas tienen coherencia

In [32]:
# Muestra todos los valores únicos de la columna 'COD_DISTRITO' junto con 'DISTRITO'
print("   ----------    Valores únicos de la columna 'COD_DISTRITO' junto con 'DISTRITO'    ----------    ")
print("\n")
distritos = df[['COD_DISTRITO', 'DISTRITO']].drop_duplicates()
# Ordena los barrios según el código de distrito
# Estandarizamos los nombres en los distrito, incluso las tildes
distritos['DISTRITO'] = distritos['DISTRITO'].str.upper()
distritos['DISTRITO'] = distritos['DISTRITO'].str.replace('Á', 'A')
distritos['DISTRITO'] = distritos['DISTRITO'].str.replace('É', 'E')
distritos['DISTRITO'] = distritos['DISTRITO'].str.replace('Í', 'I')
distritos['DISTRITO'] = distritos['DISTRITO'].str.replace('Ó', 'O')
distritos['DISTRITO'] = distritos['DISTRITO'].str.replace('Ú', 'U')

# Elimina las filas iguales
distritos = distritos.drop_duplicates()

distritos = distritos.sort_values(by='COD_DISTRITO')
print(distritos)

   ----------    Valores únicos de la columna 'COD_DISTRITO' junto con 'DISTRITO'    ----------    


      COD_DISTRITO               DISTRITO
562            1.0                    NaN
107            1.0                 CENTRO
32             2.0             ARGANZUELA
743            2.0                    NaN
38             3.0                 RETIRO
14             4.0              SALAMANCA
681            5.0                    NaN
12             5.0              CHAMARTIN
15             6.0                 TETUAN
64             7.0               CHAMBERI
0              8.0  FUENCARRAL - EL PARDO
13             9.0      MONCLOA - ARAVACA
29            10.0                 LATINA
458           10.0                    NaN
17            11.0            CARABANCHEL
27            12.0                  USERA
1672          12.0                    NaN
10            13.0     PUENTE DE VALLECAS
1768          13.0                    NaN
76            14.0              MORATALAZ
2666          14

Gracias a este análisis, podemos cambiar cada distrito a su código asociado, por lo que se deberá hacer una limpieza de esto

### 1.12.2 Consideraciones extras de Fechas
Cabe recalcar que si el campo de fechas no posee un formato esperado, las funciones de limpieza darán error, por lo que no hace falta hacer ahora las comprobaciones de sus valores para determinar si son correctos.

### 1.12.3 Consideraciones extras de AreaRecreativaID
Se ha observado que los IDs presentes en el dataset de juegos comparten formato con estos y que, en este dataset, no hay nulos, por lo que lo único que validaremos es que todos los datos de esta columna están presentes en el dataset de áreas

In [10]:
# Comprobar que todos los valores de la columna 'AreaRecreativaID' existen en la columna 'ID' del dataset 'AreasSucio.csv'
areas = pd.read_csv('../AreasSucio.csv')
print("   ----------    Comprobación de valores en 'AreaRecreativaID'    ----------    ")
print("\n")
print("Todos los valores se encuentran en el otro dataset: ", df['AreaRecreativaID'].isin(areas['ID']).all())

   ----------    Comprobación de valores en 'AreaRecreativaID'    ----------    


Todos los valores se encuentran en el otro dataset:  True


# 2. Limpieza de los datasets
En este apartado se realizará la limpieza según la información obtenida en el análisis exploratorio de datos:
- Se debe corregir las fechas y dejarlas en un formato homogéneo
- Se deben solucionar las filas repetidas, eliminando una de las dos iguales
- Se deben limpiar los errores tipográficos de TIPO_INCIDENTE

## 2.1 Limpieza de FECHA_REPORTE
Como en otros datasets, debemos dejar todas las fechas en formato apto para MongoDB (DD/MM/YYYY)

In [11]:
# Leemos toda la columna de fechas y almacenamos todas las fechas en una lista
fechas = df['FECHA_REPORTE'].tolist()

# Ahora, pasamos por todas las fechas y corregimos las fechas que están mal escritas
fechas_corregidas = []
año_al_final = False

for fecha in fechas:
    # Si fecha contiene un guion, hacer fecha.split('-') y si fecha contiene una barra, hacer fecha.split('/')
    if '-' in fecha:
        fecha_split = fecha.split('-')
    elif '/' in fecha:
        fecha_split = fecha.split('/')
    # Condiciones para saber el día, mes y año
    # Encontrar el año
    if (int(fecha_split[0])>31):
        año = fecha_split[0]
        año_al_final = False
    elif (int(fecha_split[2])>31):
        año = fecha_split[2]
        año_al_final = True
    else:
        print("No se ha encontrado el año")
        fechas_corregidas.append("fecha incorrecta")
        break
    # Encontrar el día y el mes
    # Si el año está al final, no comprobamos el primer caracter
    if año_al_final:
        if (int(fecha_split[0])<32 and int(fecha_split[0])>12):
            dia = fecha_split[0]
            mes = fecha_split[1]
        elif (int(fecha_split[1])<32 and int(fecha_split[1])>12):
            dia = fecha_split[1]
            mes = fecha_split[0]
        # Si no hay ningun número entre el 13 y el 31, se asume que el mes es el segundo siempre y el día es el primero
        else:
            dia = fecha_split[0]
            mes = fecha_split[1]
    else:
        if (int(fecha_split[1])<32 and int(fecha_split[1])>12):
            dia = fecha_split[1]
            mes = fecha_split[2]
        elif (int(fecha_split[2])<32 and int(fecha_split[2])>12):
            dia = fecha_split[2]
            mes = fecha_split[1]
        # Si no hay ningun número entre el 13 y el 31, se asume que el mes es el segundo siempre y el día es el tercero
        else:
            dia = fecha_split[2]
            mes = fecha_split[1]
    fechas_corregidas.append(dia+"/"+mes+"/"+año)
    
# Ahora, cambiamos toda la columna de FECHAS_INTERVENCION por las fechas corregidas
df['FECHA_REPORTE'] = fechas_corregidas

# Mostramos las fechas corregidas
print("   ----------    Columna de fechas corregidas    ----------    ")
print("\n")
print(df['FECHA_REPORTE'].sample(20))

   ----------    Columna de fechas corregidas    ----------    


264     17/11/2019
1666    21/06/2021
3288    05/04/2024
1010    19/11/2021
2287    17/02/2024
137     04/10/2021
1280    06/10/2020
2428    22/09/2022
1286    12/02/2022
1188    04/08/2024
4645    04/11/2022
1742    04/12/2020
2131    17/11/2021
2151    12/01/2022
2926    19/05/2024
1310    20/05/2022
4844    28/07/2023
4387    17/01/2020
4600    10/05/2022
839     25/07/2020
Name: FECHA_REPORTE, dtype: object


## 2.2 Limpieza de filas repetidas
Se deben limpiar las filas iguales, eliminando una de las dos repetidas

In [12]:
# Filtrar filas que tienen el mismo ID
duplicados = df.groupby('ID').filter(lambda x: len(x) > 1)

# Ordenar por NIF para que las filas con el mismo ID se visualicen una encima de la otra
duplicados = duplicados.sort_values(by='ID')

# Mostrar las filas con la misma PK
print("   ----------    Filas con el mismo ID    ----------    ")
print("\n")
print(duplicados)
print("\n")
print("Número de filas con el mismo ID: ", duplicados.shape[0])
print("\n")

# Limpiamos una de las dos filas con el mismo ID de duplicados
df.drop_duplicates(subset='ID', keep='first', inplace=True)

# Mostramos el resultado por pantalla
print("   ----------    Filas con el mismo ID después de limpiar    ----------    ")
print("\n")
print(df[df.duplicated()])
print("\n")
# Número de filas duplicadas
print("Número de filas duplicadas: ", df.duplicated().sum())
print("\n")

# Mostramos, para comprobar, 2 filas de las que antes estaban duplicadas
print("   ----------    2 filas de las que antes estaban duplicadas    ----------    ")
print("\n")
print(df.loc[df['ID'] == 1321])
print(df.loc[df['ID'] == 3353])

   ----------    Filas con el mismo ID    ----------    


        ID FECHA_REPORTE TIPO_INCIDENTE GRAVEDAD  AreaRecreativaID
1320  1321    31/12/2023      Accidente     Baja             17931
5004  1321    31/12/2023      Accidente     Baja             17931
5003  3353    19/08/2020          Cáídá     Baja             18590
3352  3353    19/08/2020          Cáídá     Baja             18590
3500  3501    07/07/2020     Vandalismo    Media           7125670
5000  3501    07/07/2020     Vandalismo    Media           7125670
3957  3958    16/03/2020          Caída     Baja             18567
5002  3958    16/03/2020          Caída     Baja             18567
5001  4346    27/08/2020     Vándálísmó     Baja             17297
4345  4346    27/08/2020     Vándálísmó     Baja             17297


Número de filas con el mismo ID:  10


   ----------    Filas con el mismo ID después de limpiar    ----------    


Empty DataFrame
Columns: [ID, FECHA_REPORTE, TIPO_INCIDENTE, GRAVEDAD, AreaRecreativa

## 2.3 Limpieza de TIPO_INCIDENTE
En esta columna Enum, tenemos ciertos valores con tildes cuando no deberían poseerlas. Hace falta limpiarlas

In [13]:
# Limpiamos la columna de 'TIPO_INCIDENTE' para que no haya tildes en lugares raros
df['TIPO_INCIDENTE'] = df['TIPO_INCIDENTE'].str.replace('Cáídá', 'Caída')
df['TIPO_INCIDENTE'] = df['TIPO_INCIDENTE'].str.replace('Róbó', 'Robo')
df['TIPO_INCIDENTE'] = df['TIPO_INCIDENTE'].str.replace('Accídénté', 'Accidente')
df['TIPO_INCIDENTE'] = df['TIPO_INCIDENTE'].str.replace('Vándálísmó', 'Vandalismo')
df['TIPO_INCIDENTE'] = df['TIPO_INCIDENTE'].str.replace('Dáñó éstrúctúrál', 'Daño estructural')

# Muestra todos los valores distintos de la columna 'TIPO_INCIDENTE'
print("   ----------    Valores distintos de la columna 'TIPO_INCIDENTE'    ----------    ")
print("\n")
print(df['TIPO_INCIDENTE'].unique())

   ----------    Valores distintos de la columna 'TIPO_INCIDENTE'    ----------    


['Robo' 'Caída' 'Accidente' 'Vandalismo' 'Daño estructural']


## 2.4 Mostrar Dataset Limpio y guardar CSV
Vamos a mostrar algunas filas del dataset limpio para validar que todo está OK y guardamos el Dataset

In [15]:
# Enseñamos 20 filas aleatorias para ver cómo quedan
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")

# Guardamos el dataset limpio
df.to_csv('../AreasLimpio.csv', index=False)
print("\n")
print("Dataset limpio guardado")

   ----------    10 filas aleatorias    ----------    


          ID DESC_CLASIFICACION  COD_BARRIO                        BARRIO  COD_DISTRITO       DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD    LATITUD  LONGITUD TIPO_VIA            NOM_VIA NUM_VIA  COD_POSTAL                                                           DIRECCION_AUX         NDP    FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD  TOTAL_ELEM      tipo
1066   17568      Área Infantil         114                  vísTA áléGRé          11.0    CaRabAnCHEL  OPERATIVO   436330.835  4470573.904        ETRS89  40.383324 -3.750100    CALLE   FERNANDO DELGADO       6     28047.0                                                FERNANDO DELGADO, 000006  11074898.0           01-01-2004          11203         AE21           8  infantil
2113   52170      Área Infantil         166                  vAlDefUeNTES          16.0      HoRtAlEZa  OPERATIVO   448537.580  4482709.050        ETRS89  40.493489 -3.607281    CALLE    