In [4]:
import pandas as pd


In [5]:
# Cargar los dos datasets
df_internet = pd.read_csv('Limpieza/data/INFORMACIÓN_TRIMESTRAL_DE_ACCESOS_FIJOS_A_INTERNET_POR_PROVEEDOR,_DEPARTAMENTO,_MUNICIPIO,_SEGMENTO,_TECNOLOGIA,_Y_VELOCIDAD_DE_CONEXIÓN_COMPLETO.csv')
df_coordenadas = pd.read_csv('Limpieza/data/DatasetCoordenadas.csv')


In [6]:
# Renombrar la columna 'Ciudad' a 'MUNICIPIO' en el dataset de coordenadas
df_coordenadas.rename(columns={'Ciudad': 'MUNICIPIO'}, inplace=True)


In [7]:
# Normalizar los nombres de municipios en ambos datasets
df_internet['MUNICIPIO'] = df_internet['MUNICIPIO'].str.strip().str.upper()
df_coordenadas['MUNICIPIO'] = df_coordenadas['MUNICIPIO'].str.strip().str.upper()


In [8]:
# Unir ambos datasets usando la columna 'MUNICIPIO' como clave
df_unido = pd.merge(df_internet, df_coordenadas, on='MUNICIPIO', how='left')


In [9]:
# Identificar municipios sin coordenadas
municipios_sin_coordenadas = df_unido[df_unido['Latitud'].isnull()]['MUNICIPIO'].unique()
print("Municipios sin coordenadas:", municipios_sin_coordenadas)


Municipios sin coordenadas: ['BARBOSA' 'CAROLINA' 'GÓMEZ PLATA' 'MACEO' 'YALÍ' 'PEÑOL' 'IBAGUÉ'
 'PRADO' 'PURIFICACIÓN' 'BOGOTÁ, D.C.' 'ARMENIA' 'BUENAVISTA' 'CIRCASIA'
 'CÓRDOBA' 'GÉNOVA' 'QUIMBAYA' 'SALENTO' 'ALCALÁ' 'TARAZÁ' 'BOYACÁ'
 'CIÉNEGA' 'JENESANO' 'NUEVO COLÓN' 'PAZ DE RÍO' 'RAMIRIQUÍ' 'SAMACÁ'
 'SOCHA' 'TIBANÁ' 'TURMEQUÉ' 'VENTAQUEMADA' 'VIRACACHÁ' 'CERETÉ'
 'CIÉNAGA DE ORO' 'MONTERÍA' 'SAN CARLOS' 'SAN PELAYO' 'JERICÓ'
 'SATIVASUR' 'SOCOTÁ' 'TUTAZÁ' 'LA VICTORIA' 'ARCABUCO' 'CHÍQUIZA'
 'GACHANTIVÁ' 'SÁCHICA' 'SANTA SOFÍA' 'SUTAMARCHÁN' 'TINJACÁ' 'MANATÍ'
 'PUERTO LÓPEZ' 'CAQUEZA' 'CHIPAQUE' 'CHOACHÍ' 'FOMEQUE' 'FOSCA'
 'GUAYABETAL' 'QUETAME' 'SIBATÉ' 'UBAQUE' 'UNE' 'LÍBANO' 'TOCANCIPÁ'
 'FUNDACIÓN' 'LA MACARENA' 'POTOSÍ' 'PUERRES' 'PUPIALES' 'PIEDRAS'
 'VILLANUEVA' 'PUERTO GAITÁN' 'PUERTO ASÍS' 'SAN PEDRO' 'ARIGUANÍ'
 'NUEVA GRANADA' 'SABANAS DE SAN ANGEL' 'PUEBLO BELLO' 'LA MESA'
 'PUERTO BOYACÁ' 'PINCHOTE' 'AMAGÁ' 'COCORNÁ' 'AGUADAS' 'GARZÓN'
 'SIMIJACA' 'GRANADA' 'CONCE

In [10]:
# Guardar los municipios sin coordenadas para posible corrección manual o uso de API
df_sin_coordenadas = df_unido[df_unido['Latitud'].isnull()]
df_sin_coordenadas.to_csv('Limpieza/data/municipios_sin_coordenadas.csv', index=False)


In [11]:
# Crear dataset limpio eliminando valores nulos en coordenadas
df_unificado_limpio = df_unido.dropna(subset=['Latitud', 'Longitud'])


In [12]:
# Validar la cantidad de datos eliminados
print(f"Total de filas antes de limpiar: {len(df_unido)}")
print(f"Total de filas después de limpiar: {len(df_unificado_limpio)}")
print(f"Porcentaje de datos eliminados: {100 * (1 - len(df_unificado_limpio) / len(df_unido)):.2f}%")


Total de filas antes de limpiar: 1964335
Total de filas después de limpiar: 965717
Porcentaje de datos eliminados: 50.84%


In [13]:
# Guardar el DataFrame limpio en un archivo CSV
df_unificado_limpio.to_csv('Limpieza/data/df_unificado_limpio.csv', index=False)


In [14]:
# Opcional: Guardar los datos incompletos para análisis futuro
df_incompleto = df_unido[df_unido['Latitud'].isnull() | df_unido['Longitud'].isnull()]
df_incompleto.to_csv('Limpieza/data/datos_incompletos.csv', index=False)


In [15]:
# Mostrar las columnas del dataset limpio para validación
df_unificado_limpio.columns


Index(['AÑO', 'TRIMESTRE', 'PROVEEDOR', 'CÓDIGO DANE', 'DEPARTAMENTO',
       'CÓDIGO DANE.1', 'MUNICIPIO', 'SEGMENTO', 'TECNOLOGÍA',
       'VELOCIDAD BAJADA', 'VELOCIDAD SUBIDA', 'No. ACCESOS FIJOS A INTERNET',
       'Latitud', 'Longitud'],
      dtype='object')