# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [348]:
# Importación de librerías
import pandas as pd
# Lectura dataset
df = pd.read_csv('../AreasSucio.csv')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [349]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)
# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [350]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])

print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

                 ID   COD_BARRIO  COD_DISTRITO    COORD_GIS_X   COORD_GIS_Y      LATITUD     LONGITUD    COD_POSTAL           NDP   TOTAL_ELEM
count  2.724000e+03  2724.000000   2714.000000    2724.000000  2.724000e+03  2724.000000  2724.000000   2635.000000  2.525000e+03  2724.000000
mean   1.563270e+06   127.056167     12.341931  442527.739333  4.474631e+06    40.420314    -3.677460  27829.775712  1.950833e+07    10.016887
std    2.815716e+06    52.377876      5.238038    4316.806283  4.726069e+03     0.042621     0.050819   2372.231422  8.437088e+06     5.405864
min    1.665700e+04    11.000000      1.000000  429551.330000  4.464949e+06    40.332965    -3.831085      0.000000  1.100019e+07     0.000000
25%    1.742875e+04    91.000000      9.000000  439432.046750  4.470593e+06    40.383852    -3.713989  28022.000000  1.109013e+07     7.000000
50%    1.812750e+04   131.000000     13.000000  442622.004500  4.473629e+06    40.411559    -3.676429  28032.000000  2.006377e+07     9.000000

## 1.4 Observación inicial del dataset
Vamos a mostrar 30 entradas para poder observar cómo es realmente por dentro el dataset

In [351]:
# Mostramos las 10 primeras filas, 10 filas aleatorias y las 10 últimas
print("   ----------    10 primeras filas    ----------    ")
print("\n")
print(df.head(10))
print("\n")
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")
print("   ----------    10 últimas filas    ----------    ")
print("\n")
print(df.tail(10))

   ----------    10 primeras filas    ----------    


        ID            DESC_CLASIFICACION  COD_BARRIO                        BARRIO  COD_DISTRITO               DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD    LATITUD  LONGITUD   TIPO_VIA                  NOM_VIA NUM_VIA  COD_POSTAL                                     DIRECCION_AUX         NDP    FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD  TOTAL_ELEM        tipo
0  3568711  Circuito deportivo elemental          85                        lA paz           8.0  fuencaRrAL - eL PARdO  OPERATIVO   440597.410  4481480.160        ETRS89  40.481888 -3.700858      CALLE               PEDRO RICO       1     28029.0             PARQUE NORTE 3 (ANTONIO LOPEZ AGUADO)  20103366.0             08/03/17          D0852         AE21           5  deportivas
1  3569210  Circuito deportivo elemental          87                    MIrásIErRá           8.0  fueNCArral - el pArDO  OPERATIVO   438497.360  4482668.090        ETRS89  40.4924

## 1.5 Revisión de valores nulos
Como ya se ha visto en el anterior apartado, no existen valores nulos como tal, pero pueden encontrarse en el dataset como "NaN" o "0" o de otras formas. Para asegurarnos, aplicaremos la siguiente función

In [352]:
# Para poder saber el número de valores faltantes:
print(df.isnull().sum())

ID                      0
DESC_CLASIFICACION      0
COD_BARRIO              0
BARRIO                  0
COD_DISTRITO           10
DISTRITO               10
ESTADO                  0
COORD_GIS_X             0
COORD_GIS_Y             0
SISTEMA_COORD           0
LATITUD                 0
LONGITUD                0
TIPO_VIA              177
NOM_VIA               176
NUM_VIA               164
COD_POSTAL             89
DIRECCION_AUX         440
NDP                   199
FECHA_INSTALACION     129
CODIGO_INTERNO        126
CONTRATO_COD            0
TOTAL_ELEM              0
tipo                    0
dtype: int64


In [353]:
# Ahora, comprobaremos, como todos son números decimales, si por casualidad hay algún cero que no tengan sentido en el dataset
# Para ello, veremos el número de ceros que hay en cada columna
print((df == 0).sum())

ID                     0
DESC_CLASIFICACION     0
COD_BARRIO             0
BARRIO                 0
COD_DISTRITO           0
DISTRITO               0
ESTADO                 0
COORD_GIS_X            0
COORD_GIS_Y            0
SISTEMA_COORD          0
LATITUD                0
LONGITUD               0
TIPO_VIA               0
NOM_VIA                0
NUM_VIA                0
COD_POSTAL            19
DIRECCION_AUX          0
NDP                    0
FECHA_INSTALACION      0
CODIGO_INTERNO         0
CONTRATO_COD           0
TOTAL_ELEM             5
tipo                   0
dtype: int64


## 1.6 Identificación de fechas no estandarizadas
Se deben identificar las fechas que no se encuentran en el formato adecuado para MongoDB (DD/MM/YYYY). Como vemos, hay fechas en una gran cantidad de varios formatos, incluyendo valores nulos y "fecha_incorrecta".

In [354]:
print(df['FECHA_INSTALACION'].sample(50))

883              04/05/2006
1338             2008/01/01
256                03/02/14
691     2005-01-03 00:00:00
1039               01/01/03
988     2007-01-09 00:00:00
1715               01/01/03
2387             2010/01/01
807        fecha_incorrecta
1071               01/01/03
938              10/12/2004
1990             01-01-2003
1631             2003/01/01
1308       fecha_incorrecta
1252             13/03/2011
565              01-01-2004
148              2022/04/05
1325             15/08/2010
1745             2013/06/06
2410             2010/01/01
2622                    NaN
339              11/12/2017
731     2007-11-22 00:00:00
2591             01/01/2003
965     2007-03-08 00:00:00
2324                    NaN
2059             2013/07/23
722        fecha_incorrecta
2541             12-25-2014
348        fecha_incorrecta
1767             09/04/2007
1921             01-01-2007
384              18/12/2017
1310               01/01/07
737                26/12/06
1295             200

## 1.8 Búsqueda de errores tipográficos
Hay ciertos atributos de texto que pueden contar con determinados errores tipográficos que deben ser solucionados. Hay grandes cantidades de estos errores en campos de distrito y barrio.

In [355]:
print(df['DISTRITO'].sample(20))
print(df['BARRIO'].sample(20))

1692                    úséRA
1084                 chaMBErI
2672        moNCLoa - ArAVaCa
2445    San BLaS - cAnILlejas
784                    rEtIrO
1419                   lATInA
1948    saN blaS - CAnilLejAS
970               cArAbANChéL
727                  cHAmbERI
2311        vIllA dE vALlEcAS
1828                viCalvaRO
676                 cHáMártín
1652                    uSERa
302        PUENte dE vAlLEcas
992                 CHAMArtIn
2178                   REtIrO
827     fueNCARral - EL PaRdo
1017              CARaBaNCheL
1649                    USERa
2120                hOrtALezA
Name: DISTRITO, dtype: object
2584                        cAsCo HIStORICO De vaLleCas
677                                             él vísO
461                                       cAsA dE CAmpO
58                                           GuiNDalErA
2235                                             Ventas
2165                                      PíNAr déL rEy
1566                              

## 1.9 Identificación de valores enum fuera de campo
Hay ciertos atributos que solo deben poseer ciertos valores (como Operativo-NoOperativo). Como vemos, para los tres atributos que son enumerables en el dataset, son todos sencillos salvo tipo de via - "CALLE" y "Calle"

In [356]:
print(df['ESTADO'].unique())
print(df['tipo'].unique())
print(df['TIPO_VIA'].unique())

['OPERATIVO']
['deportivas' 'mayores' 'infantil']
['CALLE' 'AVENIDA' 'CARRETERA' 'AUTOVIA' 'PASEO' nan 'PLAZA' 'RONDA'
 'Calle' 'CAMINO' 'PARQUE' 'BULEVAR' 'GLORIETA' 'TRAVESIA' 'CUESTA'
 'PASAJE']


## 1.10 Validación de las coordenadas y otros campos geoespaciales
Hay algunas veces en las que los códigos postales no respetan la identificación de Madrid (280..) o el formato, ya sean códigos postales u otros atributos de geolocalización. Como vemos, para este dataset no hay ninguna ocurrencia de este tipo.

In [357]:
df[(df['LATITUD'] < 40.3) | (df['LATITUD'] > 40.6)]
df[(df['LONGITUD'] < -3.84) | (df['LONGITUD'] > -3.5)]
df[(df['COD_POSTAL'] < 28000) | (df['COD_POSTAL'] > 28999)]

Unnamed: 0,ID,DESC_CLASIFICACION,COD_BARRIO,BARRIO,COD_DISTRITO,DISTRITO,ESTADO,COORD_GIS_X,COORD_GIS_Y,SISTEMA_COORD,LATITUD,LONGITUD,TIPO_VIA,NOM_VIA,NUM_VIA,COD_POSTAL,DIRECCION_AUX,NDP,FECHA_INSTALACION,CODIGO_INTERNO,CONTRATO_COD,TOTAL_ELEM,tipo
427,6819623,Area de juegos/especial,131,EntrevIas,13.0,PUENTe dE vaLlEcAs,OPERATIVO,441699.23,4470033.57,ETRS89,40.37885,-3.686809,,,,0.0,,,,AM_100002,6,18,mayores
428,6819625,Area de juegos/especial,123,sán FéRMín,12.0,USerA,OPERATIVO,441581.44,4469320.66,ETRS89,40.372419,-3.688131,,,,0.0,,,05-10-2018,AM_100003,6,14,mayores
429,6819627,Area de juegos/especial,123,sAn fERmin,12.0,UsErA,OPERATIVO,441916.76,4468339.22,ETRS89,40.363601,-3.684092,,,,0.0,,,2019/05/10,AM_100005,6,12,mayores
531,6819624,Area de juegos/especial,123,SáN fERmín,12.0,uSeRA,OPERATIVO,441528.51,4469732.63,ETRS89,40.376127,-3.688792,,,,0.0,,,,AM_100001,6,9,mayores
532,6819626,Area de juegos/especial,173,BUTArQúE,17.0,ViLlAveRdE,OPERATIVO,442411.51,4467434.35,ETRS89,40.355484,-3.678184,,,,0.0,,,,AM_100004,6,11,mayores
2369,6819612,Area de juegos/especial,123,sAn feRMin,12.0,useRa,OPERATIVO,441512.94,4469640.26,ETRS89,40.375293,-3.688967,,,,0.0,,,,AI_100001,6,13,infantil
2370,6819614,Area de juegos/especial,131,eNTrEVIAs,13.0,PuENTe dE VaLLEcAS,OPERATIVO,441736.34,4469988.42,ETRS89,40.378446,-3.686368,,,,0.0,,,,AI_100003,6,1,infantil
2371,6819616,Area de juegos/especial,123,sAn ferMIn,12.0,UserA,OPERATIVO,441540.55,4469414.91,ETRS89,40.373265,-3.688622,,,,0.0,,,2018-05-10 00:00:00,AI_100006,6,13,infantil
2372,6819618,Area de juegos/especial,123,saN fErMiN,12.0,UseRA,OPERATIVO,441960.43,4468277.04,ETRS89,40.363044,-3.683572,,,,0.0,,,2018-10-26 00:00:00,AI_100008,6,2,infantil
2373,6819620,Area de juegos/especial,173,bútárqUé,17.0,VíLLáVERdE,OPERATIVO,442208.7,4467525.47,ETRS89,40.356291,-3.68058,,,,0.0,,,10-03-2019,AI_100010,6,4,infantil


## 1.11 Identificación de unidades de medida en un formato no estandarizado
Columnas como "Codigo postal", "Codigo distrito" y "NDP" estan en formato float, aunque son numeros enteros.

# 2. Limpieza de los datasets
En este apartado limpiaremos los datos según lo mencionado en el enunciado:
- Hace falta corregir los valores nulos
    - Rellenarlos con lo de “ID_CAMPO_DESCONOCIDO”
- Cambiar todas las fechas a “DD/MM/YYYY”
- Eliminar registros duplicados
- Corregir errores tipográficos
    - Solo en areas, juegos, usuarios y ubicaciones
- Corregir valores fuera del dominio de tipo enum
- Hace falta eliminar espacios adicionales y caracteres especiales que afecten a la BBDD
- Corregir (si las hay) las incoherencias de las coordenadas y otros campos geoespaciales
- Corrección de formato no estándar de unidades de medida
- Otras correcciones a atributos

## 2.1 Errores tipograficos
Antes de todo, estandarizamos nombres de distritos y barrios. Ademas, populamos valores de distrito nulos.

In [358]:
df['DISTRITO']=df['DISTRITO'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8').str.lower()
df['DISTRITO']=df['DISTRITO'].fillna("Desconocido")
df['BARRIO']=df['BARRIO'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8').str.lower()
print(df['DISTRITO'].sample(20))
print(df['BARRIO'].sample(20))

1309        moncloa - aravaca
2520    fuencarral - el pardo
775     fuencarral - el pardo
691                arganzuela
558                    centro
408                    retiro
324                   barajas
612                arganzuela
880                 salamanca
2398                vicalvaro
2618            ciudad lineal
2417    san blas - canillejas
1920    san blas - canillejas
2282                hortaleza
473                 salamanca
2535                   tetuan
636                 salamanca
954                    latina
1756        villa de vallecas
238                     usera
Name: DISTRITO, dtype: object
1991        canillejas
1214           pavones
1292        marroquina
2019     la concepcion
931     hispanoamerica
114           valverde
1376            aluche
1224          valverde
1083          arapiles
2679         entrevias
1397            lucero
1261           aravaca
2665        marroquina
2057           acacias
520           almenara
1536            opanel
11

## 2.2 Fechas no estandarizadas
Por primero populamos las fechas nulas y vacias. Como fecha por defecto tomamos 1-ro de Enero 1970:

In [359]:
print((df['FECHA_INSTALACION'] == "fecha_incorrecta").sum())
print(df['FECHA_INSTALACION'].isnull().sum())

435
129


In [360]:
df['FECHA_INSTALACION']=df['FECHA_INSTALACION'].replace("fecha_incorrecta","01/01/1970")
df['FECHA_INSTALACION']=df['FECHA_INSTALACION'].fillna("01/01/1970")

In [361]:
print((df['FECHA_INSTALACION'] == "fecha_incorrecta").sum())
print(df['FECHA_INSTALACION'].isnull().sum())

0
0


Falta conversion al formato MongoDB, Pandas es capaz de hacerla de manera automatica, reconociendo varios formatos:

In [362]:
df['FECHA_INSTALACION']=pd.to_datetime(df['FECHA_INSTALACION']).dt.strftime('%Y-%m-%d')
print(df['FECHA_INSTALACION'].sample(20))

447     1970-01-01
2647    1970-01-01
197     2021-03-22
469     2017-11-05
724     1970-01-01
756     2006-01-09
1864    2003-01-01
1013    2002-01-01
494     2017-12-12
611     2009-01-22
1489    1970-01-01
226     1970-01-01
511     2015-01-04
636     2006-01-26
658     2006-11-13
1760    2006-01-01
774     2005-09-30
130     1970-01-01
1207    2007-04-27
972     1970-01-01
Name: FECHA_INSTALACION, dtype: object


  df['FECHA_INSTALACION']=pd.to_datetime(df['FECHA_INSTALACION']).dt.strftime('%Y-%m-%d')


## 2.3 Codigos postal y de distrito
Creamos mapa usando datos existences de distrito y su codigo, y la usamos para rellenar los valores vacios:

In [363]:
mapa_distritos = df.dropna(subset=['COD_DISTRITO']).groupby('DISTRITO')['COD_DISTRITO'].first().to_dict()

df['COD_DISTRITO'] = df.apply(lambda row: mapa_distritos.get(row['DISTRITO'], row['COD_DISTRITO']), axis=1)

print(df['COD_DISTRITO'].isnull().sum())

0


Arreglamos codigos postales de manera similar:

In [364]:
postal_map = df.dropna(subset=['COD_POSTAL']).groupby(['BARRIO', 'DISTRITO'])['COD_POSTAL'].first().to_dict()

def imputar_codigo_postal(row):
    if pd.isna(row['COD_POSTAL']):
        return postal_map.get((row['BARRIO'], row['DISTRITO']), row['COD_POSTAL'])
    return row['COD_POSTAL']

df['COD_POSTAL'] = df.apply(imputar_codigo_postal, axis=1)

Arreglamos el formato de codigo postal y los valores nulos y todavia vacios se cambian a 28000 por defecto:

In [365]:
df['COD_POSTAL']=df['COD_POSTAL'].fillna(28000)
df['COD_POSTAL']=df['COD_POSTAL'].astype('int64')
df['COD_POSTAL']=df['COD_POSTAL'].replace(0,28000)

NDP se popula de manera similar, usando datos de barrio y distrito para buscar el codigo ya existente en el dataset. Tambien se cambia de formato.

In [366]:
df['NDP'] = df.groupby(['BARRIO', 'DISTRITO'])['NDP'].transform(lambda x: x.fillna(x.mode()[0] if not x.mode().empty else 0))
df['NDP']=df['NDP'].astype('int64')
print(df['NDP'].isnull().sum())

0


## 2.4 Otros valores faltantes
Reemplazamos datos faltantes de direccion y codigo interno con valores por defecto:

In [367]:
df['TIPO_VIA']=df['TIPO_VIA'].fillna('SIN TIPO')
df['NOM_VIA']=df['NOM_VIA'].fillna('DESCONOCIDO')
df['NUM_VIA']=df['NUM_VIA'].fillna('S/N')
df['DIRECCION_AUX']=df['DIRECCION_AUX'].fillna("Sin información")

In [368]:
df['CODIGO_INTERNO']=df['CODIGO_INTERNO'].fillna('F000000')
print(df['CODIGO_INTERNO'].isnull().sum())

0


## 2.5. Ultimos cambios y finalizacion
Arreglamos duplicacion de "Calle" en posibles valores de tipo de via, y finalizamos borrando filas duplicadas y guardando el archivo.

In [369]:
df['TIPO_VIA']=df['TIPO_VIA'].str.upper()
print(df['TIPO_VIA'].unique())

['CALLE' 'AVENIDA' 'CARRETERA' 'AUTOVIA' 'PASEO' 'SIN TIPO' 'PLAZA'
 'RONDA' 'CAMINO' 'PARQUE' 'BULEVAR' 'GLORIETA' 'TRAVESIA' 'CUESTA'
 'PASAJE']


In [370]:
df.drop_duplicates(inplace=True)
df.to_csv('../AreasLimpio.csv', index=False)

# 3. Resultados
Como se puede ver, ya no hay valores nulos en el dataset. Otras irregularidades, como el tipo de via, ya verificamos al hacer el cambio.

In [88]:
print(df.isnull().sum())

ID                    0
DESC_CLASIFICACION    0
COD_BARRIO            0
BARRIO                0
COD_DISTRITO          0
DISTRITO              0
ESTADO                0
COORD_GIS_X           0
COORD_GIS_Y           0
SISTEMA_COORD         0
LATITUD               0
LONGITUD              0
TIPO_VIA              0
NOM_VIA               0
NUM_VIA               0
COD_POSTAL            0
DIRECCION_AUX         0
NDP                   0
FECHA_INSTALACION     0
CODIGO_INTERNO        0
CONTRATO_COD          0
TOTAL_ELEM            0
tipo                  0
dtype: int64
