# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [1]:
# Importación de librerías
import pandas as pd
# Lectura dataset
df = pd.read_csv('../AreasSucio.csv')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [2]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)
# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [3]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])

print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

                 ID   COD_BARRIO  COD_DISTRITO    COORD_GIS_X   COORD_GIS_Y      LATITUD     LONGITUD    COD_POSTAL           NDP   TOTAL_ELEM
count  2.724000e+03  2724.000000   2714.000000    2724.000000  2.724000e+03  2724.000000  2724.000000   2635.000000  2.525000e+03  2724.000000
mean   1.563270e+06   127.056167     12.341931  442527.739333  4.474631e+06    40.420314    -3.677460  27829.775712  1.950833e+07    10.016887
std    2.815716e+06    52.377876      5.238038    4316.806283  4.726069e+03     0.042621     0.050819   2372.231422  8.437088e+06     5.405864
min    1.665700e+04    11.000000      1.000000  429551.330000  4.464949e+06    40.332965    -3.831085      0.000000  1.100019e+07     0.000000
25%    1.742875e+04    91.000000      9.000000  439432.046750  4.470593e+06    40.383852    -3.713989  28022.000000  1.109013e+07     7.000000
50%    1.812750e+04   131.000000     13.000000  442622.004500  4.473629e+06    40.411559    -3.676429  28032.000000  2.006377e+07     9.000000

## 1.4 Observación inicial del dataset
Vamos a mostrar 30 entradas para poder observar cómo es realmente por dentro el dataset

In [4]:
# Mostramos las 10 primeras filas, 10 filas aleatorias y las 10 últimas
print("   ----------    10 primeras filas    ----------    ")
print("\n")
print(df.head(10))
print("\n")
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")
print("   ----------    10 últimas filas    ----------    ")
print("\n")
print(df.tail(10))

   ----------    10 primeras filas    ----------    


        ID            DESC_CLASIFICACION  COD_BARRIO                        BARRIO  COD_DISTRITO               DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD    LATITUD  LONGITUD   TIPO_VIA                  NOM_VIA NUM_VIA  COD_POSTAL                                     DIRECCION_AUX         NDP    FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD  TOTAL_ELEM        tipo
0  3568711  Circuito deportivo elemental          85                        lA paz           8.0  fuencaRrAL - eL PARdO  OPERATIVO   440597.410  4481480.160        ETRS89  40.481888 -3.700858      CALLE               PEDRO RICO       1     28029.0             PARQUE NORTE 3 (ANTONIO LOPEZ AGUADO)  20103366.0             08/03/17          D0852         AE21           5  deportivas
1  3569210  Circuito deportivo elemental          87                    MIrásIErRá           8.0  fueNCArral - el pArDO  OPERATIVO   438497.360  4482668.090        ETRS89  40.4924

## 1.5 Revisión de valores nulos
Como ya se ha visto en el anterior apartado, no existen valores nulos como tal, pero pueden encontrarse en el dataset como "NaN" o "0" o de otras formas. Para asegurarnos, aplicaremos la siguiente función

In [5]:
# Para poder saber el número de valores faltantes:
print(df.isnull().sum())

ID                      0
DESC_CLASIFICACION      0
COD_BARRIO              0
BARRIO                  0
COD_DISTRITO           10
DISTRITO               10
ESTADO                  0
COORD_GIS_X             0
COORD_GIS_Y             0
SISTEMA_COORD           0
LATITUD                 0
LONGITUD                0
TIPO_VIA              177
NOM_VIA               176
NUM_VIA               164
COD_POSTAL             89
DIRECCION_AUX         440
NDP                   199
FECHA_INSTALACION     129
CODIGO_INTERNO        126
CONTRATO_COD            0
TOTAL_ELEM              0
tipo                    0
dtype: int64


In [6]:
# Ahora, comprobaremos, como todos son números decimales, si por casualidad hay algún cero que no tengan sentido en el dataset
# Para ello, veremos el número de ceros que hay en cada columna
print((df == 0).sum())

ID                     0
DESC_CLASIFICACION     0
COD_BARRIO             0
BARRIO                 0
COD_DISTRITO           0
DISTRITO               0
ESTADO                 0
COORD_GIS_X            0
COORD_GIS_Y            0
SISTEMA_COORD          0
LATITUD                0
LONGITUD               0
TIPO_VIA               0
NOM_VIA                0
NUM_VIA                0
COD_POSTAL            19
DIRECCION_AUX          0
NDP                    0
FECHA_INSTALACION      0
CODIGO_INTERNO         0
CONTRATO_COD           0
TOTAL_ELEM             5
tipo                   0
dtype: int64


## 1.6 Identificación de fechas no estandarizadas
Se deben identificar las fechas que no se encuentran en el formato adecuado para MongoDB (DD/MM/YYYY)

## 1.7 Identificación de registros duplicados
Debemos validar que no existen filas iguales que ensucien el dataset

## 1.8 Búsqueda de errores tipográficos
Hay ciertos atributos de texto que pueden contar con determinados errores tipográficos que deben ser solucionados

## 1.9 Identificación de valores enum fuera de campo
Hay ciertos atributos que solo deben poseer ciertos valores (como Operativo-NoOperativo). Hace falta identificar aquellos valores de ese campo fuera de la norma

## 1.10 Validación de las coordenadas y otros campos geoespaciales
Hay algunas veces en las que los códigos postales no respetan la identificación de Madrid (280..) o el formato, ya sean códigos postales u otros atributos de geolocalización

## 1.11 Identificación de unidades de medida en un formato no estandarizado
Se deben identificar las filas que no posean un formato estándar

## 1.12 Otros atributos a corregir
En esta sección se mencionarán aquellos atributos que también deban ser limpiados por errores

# 2. Limpieza de los datasets
En este apartado limpiaremos los datos según lo mencionado en el enunciado:
- Hace falta corregir los valores nulos
    - Rellenarlos con lo de “ID_CAMPO_DESCONOCIDO”
- Cambiar todas las fechas a “DD/MM/YYYY”
- Eliminar registros duplicados
- Corregir errores tipográficos
    - Solo en areas, juegos, usuarios y ubicaciones
- Corregir valores fuera del dominio de tipo enum
- Hace falta eliminar espacios adicionales y caracteres especiales que afecten a la BBDD
- Corregir (si las hay) las incoherencias de las coordenadas y otros campos geoespaciales
- Corrección de formato no estándar de unidades de medida
- Otras correcciones a atributos