# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [188]:
# Importación de librerías
import pandas as pd

# Lectura dataset
df = pd.read_csv('../JuegosSucio.csv')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [189]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)

# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [190]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

                 ID    COD_BARRIO  COD_DISTRITO    COORD_GIS_X   COORD_GIS_Y       LATITUD      LONGITUD    COD_POSTAL           NDP
count  1.457300e+04  14573.000000  14563.000000   14572.000000  1.457200e+04  14573.000000  14573.000000  14274.000000  1.339300e+04
mean   3.814316e+06    128.042819     12.428071  442711.912339  4.474460e+06     40.416010     -3.675021  27815.398136  1.979662e+07
std    3.742758e+06     53.288250      5.333806    4293.667555  4.637075e+03      0.337419      0.059007   2451.379141  8.411893e+06
min    1.864600e+04     11.000000      1.000000  429536.820000  4.464943e+06      0.000000     -3.831256      0.000000  1.100019e+07
25%    3.331400e+04     91.000000      9.000000  439600.892500  4.470545e+06     40.383502     -3.712022  28022.000000  1.109662e+07
50%    3.580354e+06    131.000000     13.000000  442744.680000  4.473559e+06     40.410791     -3.674777  28031.000000  2.007771e+07
75%    7.802495e+06    171.000000     17.000000  446219.894250  4.478

Además, para poder ver mejor algunos datos como BARRIOS o DISTRITOS vamos a ver sus valores únicos y así nos hacemos una idea de como podemos limpiar los datos, el uso de tildes y de caracteres especiales

In [191]:
# Recorrer cada columna no numérica y mostrar sus valores únicos
for column in df.select_dtypes(include='object').columns:
    print(f"Valores únicos en la columna '{column}':")
    print(df[column].unique())
    print("\n------------------------------------\n")


Valores únicos en la columna 'DESC_CLASIFICACION':
['Varios Juegos en CDE' 'Barras paralelas en CDE' 'Multiejercicio en CDE'
 'Banco de abdominales en CDE' 'Barra defFlexiones en CDE'
 'Escalera Horizontal en CDE' 'Barra de estiramientos en CDE'
 'Barra de equilibrio en CDE' 'Vallas de salto en CDE' 'Escalada en CDE'
 'Columpio en Área Infantil' 'Balancín en Área Infantil'
 'Carrusel en Área Infantil' 'Multijuego en Área Infantil'
 'Escalada en Área Infantil' 'Tobogan Autoportante en Área Infantil'
 'Redes en Áreas Infantiles' 'Varios Juegos en Áreas Infantiles'
 'Arenero en Área Infantil' 'Muelle en Área Infantil'
 'Casita en Área Infantil' 'Tirolina en Área Infantil'
 'Equilibrio en Área Infantil' 'Laberinto en Área Infantil'
 'Escalera-Rampa en Áreas de Mayores' 'Banco pedales en Áreas de Mayores'
 'Ejercicio de dedos en Áreas de Mayores'
 'Ejercicio de muñeca en Áreas de Mayores'
 'Ejercicio de brazos en Áreas de Mayores'
 'Ejercicio de cintura en Áreas de Mayores'
 'Varios Juegos 

Una vez visto todo esto, podemos empezar con la limpieza

## 2. LIMPIEZA

### 2.1 Limpieza de IDs

Para limpiar este dataser, iremos columna por columna comprobando todos los requisitos.

Para empezar comprobaremos que no existen ID nulos

In [192]:
# Comprobar si existen valores nulos en la columna ID
if df['ID'].isnull().sum() == 0:
    print("No hay valores nulos en la columna 'ID'.")
else:
    print(f"Existen {df['ID'].isnull().sum()} valores nulos en la columna 'ID'.")

No hay valores nulos en la columna 'ID'.


### 2.2 Limpieza de COD_BARRIO

Para el Codigo de barrio, comprobamos que no hay valores nulos

In [193]:
# Comprobar si existen valores nulos en la columna COD_BARRIO
if df['COD_BARRIO'].isnull().sum() == 0:
    print("No hay valores nulos en la columna 'COD_BARRIO'.")
else:
    print(f"Existen {df['COD_BARRIO'].isnull().sum()} valores nulos en la columna 'COD_BARRIO'.")

# Revisar el rango de valores únicos en COD_BARRIO
print("\nValores únicos en la columna 'COD_BARRIO':")
print(sorted(df['COD_BARRIO'].unique()))

No hay valores nulos en la columna 'COD_BARRIO'.

Valores únicos en la columna 'COD_BARRIO':
[11, 12, 13, 14, 15, 21, 22, 23, 24, 25, 26, 27, 31, 32, 33, 35, 36, 42, 43, 44, 45, 46, 51, 52, 53, 54, 55, 56, 61, 62, 63, 64, 65, 66, 71, 72, 73, 74, 75, 76, 81, 82, 83, 84, 85, 86, 87, 88, 91, 93, 94, 95, 96, 97, 101, 102, 103, 104, 105, 106, 107, 111, 112, 113, 114, 115, 116, 117, 121, 122, 123, 124, 125, 126, 127, 131, 132, 133, 134, 135, 136, 141, 142, 143, 144, 145, 146, 151, 152, 153, 154, 155, 156, 157, 158, 159, 161, 162, 163, 164, 165, 166, 171, 172, 173, 174, 175, 181, 182, 183, 191, 192, 193, 194, 201, 202, 203, 204, 205, 206, 207, 208, 211, 212, 213, 214, 215]


### 2.3 Limpiamos Barrios

Para ello, Normalizamos los nombres y hacemos que no se repitan

In [194]:
import unidecode

# Estandarizar los nombres en la columna BARRIO
df['BARRIO'] = df['BARRIO'].apply(unidecode.unidecode)  # Eliminar acentos y caracteres especiales
df['BARRIO'] = df['BARRIO'].str.strip()  # Eliminar espacios adicionales
df['BARRIO'] = df['BARRIO'].str.title()  # Convertir a formato de título (primera letra en mayúscula)

# Verificar los valores únicos después de la limpieza
print("Valores únicos en la columna 'BARRIO' después de la limpieza:")
print(df['BARRIO'].unique())

Valores únicos en la columna 'BARRIO' después de la limpieza:
['Moscardo' 'Buenavista' 'Valdeacederas' 'Hispanoamerica' 'Valverde'
 'Penagrande' 'Pilar' 'La Paz' 'Lucero' 'Entrevias' 'Ventas'
 'Casco Historico De Barajas' 'Aeropuerto' 'Zofio' 'Rosas' 'Almendrales'
 'Marroquina' 'Castilla' 'Orcasur' 'Atocha' 'Campamento' 'Quintana'
 'La Concepcion' 'Aluche' 'El Pardo' 'Palacio' 'Acacias' 'Numancia'
 'Puerta Bonita' 'Cuatro Caminos' 'Ciudad Jardin'
 'Casco Historico De Vallecas' 'San Isidro' 'Bellas Vistas' 'San Diego'
 'Aguilas' 'Abrantes' 'Palomeras Sureste' 'Fuentelarreina' 'Orcasitas'
 'Prosperidad' 'Butarque'
 'Villaverde Alto - Casco Historico De Villaverde' 'Piovera' 'Costillares'
 'Guindalera' 'Canillas' 'Palomeras Bajas' 'Delicias' 'Santa Eugenia'
 'Alameda De Osuna' 'Corralejos' 'Ensanche De Vallecas' 'Valdefuentes'
 'Pavones' 'Mirasierra' 'Aravaca' 'Timon' 'El Salvador' 'Fontarron'
 'Opanel' 'Legazpi' 'Horcajo' 'Arcos' 'Los Rosales' 'Apostol Santiago'
 'Pinar Del Rey' 'Valderr

### 2.4 Limpiamos COD_DISTRITO

Para ello comprobamos que no hay valores nulos y si los hay, los identificamos con -1

In [195]:
# Comprobar si existen valores nulos en la columna COD_DISTRITO
if df['COD_DISTRITO'].isnull().sum() > 0:
    print(f"Existen {df['COD_DISTRITO'].isnull().sum()} valores nulos en la columna 'COD_DISTRITO'.")
    # Rellenar valores nulos con un valor predeterminado, como 0 o -1
    df['COD_DISTRITO'].fillna(-1, inplace=True)  # Usar -1 si se necesita identificar los valores faltantes

# Convertir la columna COD_DISTRITO a tipo entero
df['COD_DISTRITO'] = df['COD_DISTRITO'].astype(int)

# Verificar el tipo de datos después de la conversión
print(df['COD_DISTRITO'].dtype)


Existen 10 valores nulos en la columna 'COD_DISTRITO'.
int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['COD_DISTRITO'].fillna(-1, inplace=True)  # Usar -1 si se necesita identificar los valores faltantes


### 2.5 Limpiamos Distrito

Normalizamos Distrito para que tengan todos la misma forma (primera letra mayúscula y sin tildes ni caracteres especiales), además se nos ocurrió que como faltaban valores en el código, podríamos buscar coincidencias de Distrito para ver si los valores faltantes tenían el mismo distrito y por lo tanto el mismo Código, lo que nos hizo quitar los valores faltantes de Código de Distrito

In [196]:
# Estandarizar los nombres en la columna DISTRITO
df['DISTRITO'] = df['DISTRITO'].fillna('Desconocido')  # Rellenar valores nulos con un valor predeterminado si los hay
df['DISTRITO'] = df['DISTRITO'].apply(unidecode.unidecode)  # Eliminar acentos y caracteres especiales
df['DISTRITO'] = df['DISTRITO'].str.strip()  # Eliminar espacios adicionales
df['DISTRITO'] = df['DISTRITO'].str.title()  # Convertir a formato de título

# Verificar los valores únicos después de la limpieza
print("Valores únicos en la columna 'DISTRITO' después de la limpieza:")
print(df['DISTRITO'].unique())

Valores únicos en la columna 'DISTRITO' después de la limpieza:
['Usera' 'Carabanchel' 'Tetuan' 'Chamartin' 'Fuencarral - El Pardo'
 'Latina' 'Puente De Vallecas' 'Ciudad Lineal' 'Barajas'
 'San Blas - Canillejas' 'Moratalaz' 'Arganzuela' 'Centro'
 'Villa De Vallecas' 'Villaverde' 'Hortaleza' 'Salamanca'
 'Moncloa - Aravaca' 'Vicalvaro' 'Chamberi' 'Retiro' 'Desconocido']


In [197]:
# Mostrar las filas donde COD_DISTRITO originalmente era nulo (ahora tiene -1)
nulos_cod_distrito = df[df['COD_DISTRITO'] == -1]
print(nulos_cod_distrito)

            ID                       DESC_CLASIFICACION  COD_BARRIO                        BARRIO  COD_DISTRITO               DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD    LATITUD  LONGITUD TIPO_VIA  NOM_VIA NUM_VIA  COD_POSTAL                                      DIRECCION_AUX         NDP    FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD                      MODELO  tipo_juego ACCESIBLE
618    7889391                     Varios Juegos en CDE          97                       Aravaca            -1      Moncloa - Aravaca  OPERATIVO   433240.930  4478344.260        ETRS89  40.453080 -3.787315   CAMINO  POZUELO      13     28023.0                                                NaN  31065983.0           05-12-2021        D095408         AE21                   MONOPOSTE  deportivas       NaN
3639     22574    Tobogan Autoportante en Área Infantil         204                         Arcos            -1  San Blas - Canillejas  OPERATIVO   447186.200  4474895.220        ETRS89 

In [198]:
# Crear un diccionario de mapeo entre DISTRITO y COD_DISTRITO (sin valores nulos)
mapa_distritos = df.dropna(subset=['COD_DISTRITO']).groupby('DISTRITO')['COD_DISTRITO'].first().to_dict()

# Rellenar los valores nulos en COD_DISTRITO utilizando el diccionario
df['COD_DISTRITO'] = df.apply(lambda row: mapa_distritos.get(row['DISTRITO'], row['COD_DISTRITO']), axis=1)

# Verificar si aún hay valores nulos en COD_DISTRITO
print(df['COD_DISTRITO'].isnull().sum())


0


Aquí tenemos la correspondencia de Distrito y Códigos

In [199]:
# Crear el diccionario de mapeo entre DISTRITO y COD_DISTRITO
mapa_distritos = df.dropna(subset=['COD_DISTRITO']).groupby('DISTRITO')['COD_DISTRITO'].first().to_dict()

# Mostrar el mapeo de cada DISTRITO con su correspondiente COD_DISTRITO
for distrito, cod_distrito in mapa_distritos.items():
    print(f"DISTRITO: {distrito} -> COD_DISTRITO: {cod_distrito}")


DISTRITO: Arganzuela -> COD_DISTRITO: 2
DISTRITO: Barajas -> COD_DISTRITO: 21
DISTRITO: Carabanchel -> COD_DISTRITO: 11
DISTRITO: Centro -> COD_DISTRITO: 1
DISTRITO: Chamartin -> COD_DISTRITO: 5
DISTRITO: Chamberi -> COD_DISTRITO: 7
DISTRITO: Ciudad Lineal -> COD_DISTRITO: 15
DISTRITO: Desconocido -> COD_DISTRITO: 17
DISTRITO: Fuencarral - El Pardo -> COD_DISTRITO: 8
DISTRITO: Hortaleza -> COD_DISTRITO: 16
DISTRITO: Latina -> COD_DISTRITO: 10
DISTRITO: Moncloa - Aravaca -> COD_DISTRITO: 9
DISTRITO: Moratalaz -> COD_DISTRITO: 14
DISTRITO: Puente De Vallecas -> COD_DISTRITO: 13
DISTRITO: Retiro -> COD_DISTRITO: 3
DISTRITO: Salamanca -> COD_DISTRITO: 4
DISTRITO: San Blas - Canillejas -> COD_DISTRITO: 20
DISTRITO: Tetuan -> COD_DISTRITO: 6
DISTRITO: Usera -> COD_DISTRITO: 12
DISTRITO: Vicalvaro -> COD_DISTRITO: 19
DISTRITO: Villa De Vallecas -> COD_DISTRITO: 18
DISTRITO: Villaverde -> COD_DISTRITO: 17


### 2.6 Limpiamos ESTADO

Para ello comprobamos que no hay valores nulos y si los hay ponemos NO OPERATIVO

In [200]:
# Comprobar si existen valores nulos en la columna ESTADO
if df['ESTADO'].isnull().sum() > 0:
    print(f"Existen {df['ESTADO'].isnull().sum()} valores nulos en la columna 'ESTADO'.")
    # Rellenar valores nulos con "NO OPERATIVO"
    df['ESTADO'].fillna('NO OPERATIVO', inplace=True)
else:
    print("No hay valores nulos en la columna 'ESTADO'.")

# Verificar los valores únicos después de la operación
print("Valores únicos en la columna 'ESTADO':")
print(df['ESTADO'].unique())


No hay valores nulos en la columna 'ESTADO'.
Valores únicos en la columna 'ESTADO':
['OPERATIVO']


### 2.7 Limpiamos Coordenadas

Miramos que no haya coordenadas faltantes y comprobamos posibles coincidencias

In [201]:
# Mostrar la fila donde COORD_GIS_X o COORD_GIS_Y es nulo
fila_nula = df[df['COORD_GIS_X'].isnull() | df['COORD_GIS_Y'].isnull()]
print(fila_nula)


         ID         DESC_CLASIFICACION  COD_BARRIO     BARRIO  COD_DISTRITO  DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD  LATITUD  LONGITUD TIPO_VIA     NOM_VIA NUM_VIA  COD_POSTAL DIRECCION_AUX         NDP FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD             MODELO  tipo_juego ACCESIBLE
9684  58390  Balancín en Área Infantil          73  Trafalgar             7  Chamberi  OPERATIVO          NaN          NaN        ETRS89      0.0       0.0    CALLE  FUENCARRAL     139     28010.0           NaN  11039965.0        06-01-2006        0702506         AE21  MADERA CABALLITOS  infantiles        NO


In [202]:
# Filtrar filas que coincidan con DESC_CLASIFICACION, DISTRITO y BARRIO de la fila con valores nulos
coincidencias = df[
    (df['DESC_CLASIFICACION'] == 'Balancín en Área Infantil') &
    (df['DISTRITO'] == 'Chamberi') &
    (df['BARRIO'] == 'Trafalgar')
]

# Mostrar las coincidencias y verificar si tienen coordenadas para poder rellenarlas
print(coincidencias[['ID', 'DESC_CLASIFICACION', 'DISTRITO', 'BARRIO', 'COORD_GIS_X', 'COORD_GIS_Y']])


           ID         DESC_CLASIFICACION  DISTRITO     BARRIO  COORD_GIS_X  COORD_GIS_Y
7456    34836  Balancín en Área Infantil  Chamberi  Trafalgar   440318.114  4475921.915
7819  5108853  Balancín en Área Infantil  Chamberi  Trafalgar   440314.702  4475921.758
9684    58390  Balancín en Área Infantil  Chamberi  Trafalgar          NaN          NaN


Calculamos la distancia entre coordenadas para ver si puede ser el mismo área, y sí lo es, por lo que damos por hecho que ese juego está también en ese parque porque coincide con DESC_CLASIFICACION, DISTRITO y BARRIO

In [203]:
from math import sqrt

# Coordenadas de las dos ubicaciones no nulas
coord1_x, coord1_y = 440318.114, 4475921.915
coord2_x, coord2_y = 440314.702, 4475921.758

# Calcular la distancia en metros entre las dos coordenadas
distancia = sqrt((coord2_x - coord1_x)**2 + (coord2_y - coord1_y)**2)
print(f"La distancia en metros es: {distancia}")

La distancia en metros es: 3.4156101943823516


Le ponemos coordenadas aproximadas, igual son unos metros más lejos, pero como hemos visto, están a 3 metros unos juegos de otros

In [204]:
# Calcular el promedio de las coordenadas para las filas coincidentes
coord_x = coincidencias['COORD_GIS_X'].mean()
coord_y = coincidencias['COORD_GIS_Y'].mean()

# Rellenar los valores nulos en COORD_GIS_X y COORD_GIS_Y de la fila específica
df.loc[9684, 'COORD_GIS_X'] = coord_x
df.loc[9684, 'COORD_GIS_Y'] = coord_y

# Verificar los valores rellenados
print(df.loc[9684, ['ID', 'DESC_CLASIFICACION', 'DISTRITO', 'BARRIO', 'COORD_GIS_X', 'COORD_GIS_Y']])

ID                                        58390
DESC_CLASIFICACION    Balancín en Área Infantil
DISTRITO                               Chamberi
BARRIO                                Trafalgar
COORD_GIS_X                          440316.408
COORD_GIS_Y                        4475921.8365
Name: 9684, dtype: object


In [205]:
# Comprobar si existen valores nulos en la columna SISTEMA_COORD
nulos_sistema_coord = df['SISTEMA_COORD'].isnull().sum()
print(f"Existen {nulos_sistema_coord} valores nulos en la columna 'SISTEMA_COORD'.")


Existen 0 valores nulos en la columna 'SISTEMA_COORD'.


### 2.8 Limpiamos LATITUD y LONGITUD

In [206]:
# Identificar valores fuera del rango para LATITUD y LONGITUD
latitud_fuera_rango = df[(df['LATITUD'] < 40.3) | (df['LATITUD'] > 40.6)]
longitud_fuera_rango = df[(df['LONGITUD'] < -3.84) | (df['LONGITUD'] > -3.5)]

# Mostrar resultados
print("Valores fuera de rango en LATITUD:")
print(latitud_fuera_rango[['ID', 'LATITUD', 'LONGITUD']])

print("\nValores fuera de rango en LONGITUD:")
print(longitud_fuera_rango[['ID', 'LATITUD', 'LONGITUD']])

Valores fuera de rango en LATITUD:
         ID  LATITUD  LONGITUD
9684  58390      0.0       0.0

Valores fuera de rango en LONGITUD:
         ID  LATITUD  LONGITUD
9684  58390      0.0       0.0


In [207]:
# Tomar los valores de LATITUD y LONGITUD de una de las filas coincidentes
latitud = coincidencias['LATITUD'].iloc[0]
longitud = coincidencias['LONGITUD'].iloc[0]

# Asignar estos valores a la fila con ID 9684
df.loc[9684, 'LATITUD'] = latitud
df.loc[9684, 'LONGITUD'] = longitud

# Verificar los cambios
print(df.loc[9684, ['ID', 'LATITUD', 'LONGITUD']])


ID              58390
LATITUD     40.431797
LONGITUD     -3.70363
Name: 9684, dtype: object


### 2.9 Limpiamos TIPO_VIA, NOM_VIA y NUM_VIA

In [208]:
from unidecode import unidecode

# Rellenar valores nulos en las columnas de dirección
df['TIPO_VIA'].fillna('SIN TIPO', inplace=True)
df['NOM_VIA'].fillna('DESCONOCIDO', inplace=True)
df['NUM_VIA'].fillna('S/N', inplace=True)

# Convertir NUM_VIA a string
df['NUM_VIA'] = df['NUM_VIA'].astype(str)

# Normalizar NOM_VIA a modo título sin caracteres especiales
df['NOM_VIA'] = df['NOM_VIA'].apply(lambda x: unidecode(x).title())

# Verificar los primeros valores únicos en NOM_VIA después de la limpieza
print("Valores únicos en TIPO_VIA después de limpieza:", df['TIPO_VIA'].unique())
print("Valores únicos en NOM_VIA después de la limpieza:", df['NOM_VIA'].unique())
print("Valores únicos en NUM_VIA después de limpieza:", df['NUM_VIA'].unique())


Valores únicos en TIPO_VIA después de limpieza: ['SIN TIPO' 'AVENIDA' 'CALLE' 'PASEO' 'CAMINO' 'CARRETERA' 'PLAZA'
 'CALLEJON' 'TRAVESIA' 'PASAJE' 'RONDA']
Valores únicos en NOM_VIA después de la limpieza: ['Desconocido' 'Doctor Garcia Tapia' 'Avenida Del Doctor Garcia Tapia'
 'Antonio Gades' 'Liberacion' 'Bahia De Malaga'
 'Raimundo Fernandez Villaverde' 'General Peron' 'El Provencio' 'Deyanira'
 'Valladolid' 'Soledad Cazorla' 'Ribera Del Manzanares'
 'Infanta Catalina Micaela' 'Monasterio De El Escorial' 'Ginebra'
 'Poeta Esteban De Villegas' 'Ribadavia' 'El Ferrol' 'Villarrobledo'
 'Pozuelo' 'Uruguay' 'Fuenteovejuna' 'Fermin Caballero'
 'Concejal Francisco Jose Jimenez Martin' 'Cuart De Poblet'
 'Florestan Aguilar' 'Santuario De Valverde' 'Direccion'
 'Capitan Blanco Argibay' 'Villaamil' 'Navia' 'Mar Adriatico' 'Arcentales'
 'Valdemarin' 'Escultor Peresejo' 'Boadilla Del Monte'
 'Virgen De Los Rosales' 'Afueras A Valverde' 'Tineo' 'Fromista'
 'Machupichu' 'Avenida De Las Fuerzas Arm

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['TIPO_VIA'].fillna('SIN TIPO', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['NOM_VIA'].fillna('DESCONOCIDO', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting va

### 2.10 Limpiamos COD_POSTAL

Para ello nos creamos un diccionario con el BARRIO y DISTRITO porque tendrán todos los coincidentes el mismo código postal, por lo que si hay alguno que falte, se puede llegar a rellenar

In [209]:
# Crear un diccionario que mapea cada combinación de BARRIO y DISTRITO a su COD_POSTAL correspondiente
postal_map = df.dropna(subset=['COD_POSTAL']).groupby(['BARRIO', 'DISTRITO'])['COD_POSTAL'].first().to_dict()

# Función para rellenar el código postal basado en el diccionario
def imputar_codigo_postal(row):
    if pd.isna(row['COD_POSTAL']):
        return postal_map.get((row['BARRIO'], row['DISTRITO']), row['COD_POSTAL'])
    return row['COD_POSTAL']

# Aplicar la función a la columna COD_POSTAL
df['COD_POSTAL'] = df.apply(imputar_codigo_postal, axis=1)

# Convertir todos los valores de COD_POSTAL a enteros
df['COD_POSTAL'] = df['COD_POSTAL'].fillna(0).astype(int)

# Verificar si aún quedan valores nulos en COD_POSTAL
cod_postal_nulos = df[df['COD_POSTAL'] == 0]

# Imprimir las filas restantes con COD_POSTAL nulo
print("Filas con COD_POSTAL nulo después de la imputación y conversión a enteros:")
print(cod_postal_nulos)

# Opcional: si deseas ver cuántos valores nulos quedan
print(f"Cantidad de valores nulos en COD_POSTAL después de la imputación y conversión a enteros: {cod_postal_nulos.shape[0]}")


Filas con COD_POSTAL nulo después de la imputación y conversión a enteros:
            ID                        DESC_CLASIFICACION  COD_BARRIO      BARRIO  COD_DISTRITO            DISTRITO     ESTADO  COORD_GIS_X  COORD_GIS_Y SISTEMA_COORD    LATITUD  LONGITUD  TIPO_VIA      NOM_VIA NUM_VIA  COD_POSTAL DIRECCION_AUX  NDP    FECHA_INSTALACION CODIGO_INTERNO CONTRATO_COD                                         MODELO  tipo_juego ACCESIBLE
276    8938191                      Varios Juegos en CDE         173    Butarque            17          Villaverde  OPERATIVO   443441.258  4465982.425        ETRS89  40.342474 -3.665929  SIN TIPO  Desconocido     S/N           0           NaN  NaN     fecha_incorrecta     EAD_100052            6                                Barra flexiones  deportivas       NaN
277    8938188                      Varios Juegos en CDE         173    Butarque            17          Villaverde  OPERATIVO   443448.785  4465987.114        ETRS89  40.342517 -3.665841  SIN

### 2.11 Limpiamos DIRECCION_AUX

No hay mucho que decir aquí, simplemente que tengan un formato más o menos parecido.

In [210]:
import re
import pandas as pd

# Definir una función de limpieza para DIRECCION_AUX
def limpiar_direccion(direccion):
    if pd.isna(direccion):
        return "Sin información"
    # Mantener letras, números, y los caracteres / - . y convertir a formato título
    direccion_limpia = re.sub(r'[^a-zA-Z0-9 /.-]', '', direccion)
    return direccion_limpia.title()

# Aplicar la función de limpieza a la columna DIRECCION_AUX
df['DIRECCION_AUX'] = df['DIRECCION_AUX'].apply(limpiar_direccion)

# Verificar valores únicos después de la limpieza
valores_unicos_direccion = df['DIRECCION_AUX'].unique()
print("Valores únicos en la columna 'DIRECCION_AUX' después de la limpieza:")
print(valores_unicos_direccion)


Valores únicos en la columna 'DIRECCION_AUX' después de la limpieza:
['C/Torero' 'C/Blanca Cv C/Dinero' 'Paseo De La Direccin 215' ...
 'Avda Nuestra Seora De Valvanera 000115' 'Pz Cantora 000008'
 'Cestona 000082']


### 2.12 Limpiamos NDP

Al igual que otras veces, hacemos una comparacion con valores coincidentes para poder rellenar

In [211]:
# Verificar valores nulos en NDP
print("Cantidad de valores nulos en NDP antes de la limpieza:", df['NDP'].isnull().sum())

# Rellenar valores nulos en NDP basados en BARRIO y DISTRITO
df['NDP'] = df.groupby(['BARRIO', 'DISTRITO'])['NDP'].transform(lambda x: x.fillna(x.mode()[0] if not x.mode().empty else 0))

# Convertir todos los valores de NDP a enteros
df['NDP'] = df['NDP'].astype(int)

# Verificar si se han rellenado correctamente los valores nulos
print("Cantidad de valores nulos en NDP después de la limpieza:", df['NDP'].isnull().sum())

Cantidad de valores nulos en NDP antes de la limpieza: 1180
Cantidad de valores nulos en NDP después de la limpieza: 0


### 2.13 Limpiamos Fechas a formato válido

In [212]:
# Convertir a formato de fecha uniforme y corregir formatos no válidos
def convertir_fecha(fecha):
    try:
        return pd.to_datetime(fecha, errors='coerce', dayfirst=True).strftime('%Y-%m-%d')
    except:
        return None

# Crear una copia de la columna original para comparación temporal sin modificar el DataFrame
fecha_instalacion_original = df['FECHA_INSTALACION'].copy()

# Aplicar la normalización de fecha en la columna FECHA_INSTALACION
df['FECHA_INSTALACION'] = df['FECHA_INSTALACION'].apply(convertir_fecha)

# Rellenar valores nulos con la fecha mínima no nula
fecha_minima = df['FECHA_INSTALACION'].dropna().min()
df['FECHA_INSTALACION'].fillna(fecha_minima, inplace=True)

# Identificar las filas donde se han modificado los valores de FECHA_INSTALACION
modificaciones_fecha = df[df['FECHA_INSTALACION'] != fecha_instalacion_original][['ID']]
modificaciones_fecha['FECHA_INSTALACION_ORIGINAL'] = fecha_instalacion_original
modificaciones_fecha['FECHA_INSTALACION'] = df['FECHA_INSTALACION']

# Mostrar el resultado
print(modificaciones_fecha)


  return pd.to_datetime(fecha, errors='coerce', dayfirst=True).strftime('%Y-%m-%d')
  return pd.to_datetime(fecha, errors='coerce', dayfirst=True).strftime('%Y-%m-%d')
  return pd.to_datetime(fecha, errors='coerce', dayfirst=True).strftime('%Y-%m-%d')


            ID FECHA_INSTALACION_ORIGINAL FECHA_INSTALACION
0      9536972        2024-01-31 00:00:00        2024-01-31
1      9536966                 31/01/2024        2024-01-31
2      9536965                 2024/01/31        2024-01-31
3      9535131                 09-15-2023        2023-09-15
4      9535128           fecha_incorrecta        1998-01-01
5      9535127                 09-15-2023        2023-09-15
6      9494201           fecha_incorrecta        1998-01-01
7      9493030           fecha_incorrecta        1998-01-01
8      9493021        2024-03-07 00:00:00        2024-07-03
9      9492867                 04/04/2024        2024-04-04
10     9492624                   14/02/24        2024-02-14
11     9438562                 03-26-2024        2024-03-26
12     9438560                 26/03/2024        2024-03-26
13     9438380           fecha_incorrecta        1998-01-01
14     9438367                   26/03/24        2024-03-26
15     9438316        2024-03-26 00:00:0

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['FECHA_INSTALACION'].fillna(fecha_minima, inplace=True)


### 2.14 Limpiamos CODIGO INTERNO

Lo nulos los rellenamos de F000000

In [213]:
# Rellenar valores nulos con "F000000"
df['CODIGO_INTERNO'].fillna("F000000", inplace=True)

# Asegurar que todos los valores de la columna estén en formato string
df['CODIGO_INTERNO'] = df['CODIGO_INTERNO'].astype(str)

# Verificar el resultado y contar valores nulos restantes
print("Cantidad de valores nulos en 'CODIGO_INTERNO' después del rellenado y conversión:", df['CODIGO_INTERNO'].isnull().sum())


Cantidad de valores nulos en 'CODIGO_INTERNO' después del rellenado y conversión: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['CODIGO_INTERNO'].fillna("F000000", inplace=True)


### 2.15 Limpiamos Contrato

Si hay valores nulos ponemos Sin Contrato

In [214]:
# Comprobar si hay valores vacíos en la columna 'CONTRATO_COD'
valores_vacios_contrato = df['CONTRATO_COD'].isnull().sum()

# Si hay valores vacíos, reemplazarlos por un valor por defecto
if valores_vacios_contrato > 0:
    df['CONTRATO_COD'].fillna('SIN CONTRATO', inplace=True)
    print(f"Se encontraron {valores_vacios_contrato} valores vacíos en 'CONTRATO_COD', los cuales fueron reemplazados por 'SIN CONTRATO'.")
else:
    print("No hay valores vacíos en 'CONTRATO_COD'.")

# Convertir la columna 'CONTRATO_COD' a string
df['CONTRATO_COD'] = df['CONTRATO_COD'].astype(str)

# Verificar los valores únicos después de la limpieza
valores_unicos_contrato = df['CONTRATO_COD'].unique()
print("Valores únicos en la columna 'CONTRATO_COD' después de la limpieza:")
print(valores_unicos_contrato)


No hay valores vacíos en 'CONTRATO_COD'.
Valores únicos en la columna 'CONTRATO_COD' después de la limpieza:
['AE21' '6']


### 2.16 Normalizamos MODELO

Para que tengan las tres opciones un formato similar, primera letra en mayúsculas

In [215]:
import re

# Normalizar la columna 'MODELO'
def normalizar_modelo(valor):
    if pd.isnull(valor):
        return "Desconocido"
    # Remover caracteres especiales, mantener números y letras
    valor_normalizado = re.sub(r'[^A-Za-z0-9 ]+', '', valor)
    if valor_normalizado.isdigit():  # Si es un número, mantenerlo como está
        return valor_normalizado
    else:
        return valor_normalizado.title()  # Convertir a título para texto alfabético

# Aplicar la función de normalización a 'MODELO'
df['MODELO'] = df['MODELO'].apply(normalizar_modelo).astype(str)

# Verificar y contar valores nulos en la columna 'MODELO' después de la normalización
nulos_modelo = df['MODELO'].isnull().sum()
print(f"Cantidad de valores nulos en la columna 'MODELO' después de la normalización: {nulos_modelo}")

# Verificar los valores únicos en la columna 'MODELO' después de la normalización
valores_unicos_modelo = df['MODELO'].unique()
print("Valores únicos en la columna 'MODELO' después de la normalización:")
print(valores_unicos_modelo)


Cantidad de valores nulos en la columna 'MODELO' después de la normalización: 0
Valores únicos en la columna 'MODELO' después de la normalización:
['Desconocido' 'Barra Flexiones' 'Espaldera' ... '0067'
 'Ejercicio De Muecas  Is6S07' 'Ejercicio De Brazo  Is6S06']


### 2.17 Normalizamos Tipo

Igual que en el paso anterior

In [216]:
# Lista de valores válidos para tipo_juego con la primera letra en mayúscula
valores_validos_tipo_juego = ['Deportivas', 'Infantiles', 'Mayores']
# Normalizar la columna 'tipo_juego' a valores válidos con la primera letra en mayúscula
def normalizar_tipo_juego(valor):
    if pd.isnull(valor) or valor.capitalize() not in valores_validos_tipo_juego:
        return 'Desconocido'  # Rellenar valores nulos o inválidos con 'Desconocido'
    return valor.capitalize()  # Convertir a formato con primera letra en mayúscula

# Aplicar la función de normalización
df['tipo_juego'] = df['tipo_juego'].apply(normalizar_tipo_juego)

# Verificar y contar valores 'Desconocido' en la columna 'tipo_juego' después de la normalización
desconocidos_tipo_juego = (df['tipo_juego'] == 'Desconocido').sum()
print(f"Cantidad de valores 'Desconocido' en la columna 'tipo_juego' después de la normalización: {desconocidos_tipo_juego}")

Cantidad de valores 'Desconocido' en la columna 'tipo_juego' después de la normalización: 0


### 2.18 Normalizamos ACCESIBILIDAD

Comprobar que no hay nulos, si los hay se da por hecho de que NO es accesible

In [217]:
# Normalizar la columna 'ACCESIBLE' a solo la primera letra en mayúscula
def normalizar_accesible(valor):
    if pd.isnull(valor) or valor.capitalize() not in ['Si', 'No']:
        return 'No'  # Reemplazar valores nulos o inválidos con 'No'
    return valor.capitalize()  # Convertir a formato con primera letra en mayúscula

# Aplicar la función de normalización
df['ACCESIBLE'] = df['ACCESIBLE'].apply(normalizar_accesible)

# Verificar y contar valores 'No' en la columna 'ACCESIBLE' después de la normalización
no_accesible_count = (df['ACCESIBLE'] == 'No').sum()
print(f"Cantidad de valores 'No' en la columna 'ACCESIBLE' después de la normalización: {no_accesible_count}")


Cantidad de valores 'No' en la columna 'ACCESIBLE' después de la normalización: 13797


## 3. ELIMINAMOS DUPLICADOS Y GUARDAMOS

In [218]:
# 6. Eliminación de filas duplicadas
df.drop_duplicates(inplace=True)

# 7. Guardar el dataset limpio en un archivo CSV
df.to_csv('../JuegosLimpio.csv', index=False)

print("Dataset limpio guardado como 'JuegosLimpio.csv'")

Dataset limpio guardado como 'JuegosLimpio.csv'
