In [18]:
import pandas as pd
import os

In [10]:
# Cargar los datasets originales
df_internet = pd.read_csv('Limpieza/data/INFORMACIÓN_TRIMESTRAL_DE_ACCESOS_FIJOS_A_INTERNET_POR_PROVEEDOR,_DEPARTAMENTO,_MUNICIPIO,_SEGMENTO,_TECNOLOGIA,_Y_VELOCIDAD_DE_CONEXIÓN_COMPLETO.csv')

# Cargar las nuevas coordenadas obtenidas
df_coordenadas_actualizadas = pd.read_csv('Limpieza/data/coordenadas_unicas.csv')


In [11]:
# Normalizar los nombres de municipios en ambos datasets para asegurar coincidencia
df_internet['MUNICIPIO'] = df_internet['MUNICIPIO'].str.strip().str.upper()
df_coordenadas_actualizadas['MUNICIPIO'] = df_coordenadas_actualizadas['MUNICIPIO'].str.strip().str.upper()


In [12]:
# Unir ambos datasets usando la columna 'MUNICIPIO' como clave
df_unido = pd.merge(df_internet, df_coordenadas_actualizadas, on='MUNICIPIO', how='left')


In [13]:
# Resolver el problema de duplicación de columnas
# Mantener solo una columna DEPARTAMENTO
if 'DEPARTAMENTO_x' in df_unido.columns and 'DEPARTAMENTO_y' in df_unido.columns:
    # Eliminar la columna duplicada
    df_unido = df_unido.drop(columns=['DEPARTAMENTO_y'])
    df_unido.rename(columns={'DEPARTAMENTO_x': 'DEPARTAMENTO'}, inplace=True)


In [14]:
# Crear dataset limpio eliminando valores nulos en coordenadas
df_unificado_limpio = df_unido.dropna(subset=['Latitud', 'Longitud'])


In [15]:
# Validar la cantidad de datos eliminados
print(f"Total de filas antes de limpiar: {len(df_unido)}")
print(f"Total de filas después de limpiar: {len(df_unificado_limpio)}")
print(f"Porcentaje de datos eliminados: {100 * (1 - len(df_unificado_limpio) / len(df_unido)):.2f}%")


Total de filas antes de limpiar: 1964335
Total de filas después de limpiar: 998618
Porcentaje de datos eliminados: 49.16%


In [16]:
# Guardar el nuevo DataFrame limpio en un archivo CSV
df_unificado_limpio.to_csv('Limpieza/data/df_unificado_limpio.csv', index=False)

print("El nuevo archivo 'df_unificado_limpio.csv' se ha generado con éxito.")


El nuevo archivo 'df_unificado_limpio.csv' se ha generado con éxito.


In [19]:
# Crear directorio para los archivos por departamento si no existe
os.makedirs('Limpieza/data/departamentos', exist_ok=True)

# Separar el dataset por departamento
for departamento in df_unificado_limpio['DEPARTAMENTO'].unique():
    # Filtrar los datos del departamento actual
    df_departamento = df_unificado_limpio[df_unificado_limpio['DEPARTAMENTO'] == departamento]

    # Guardar en un archivo CSV con el nombre del departamento
    nombre_archivo = f'Limpieza/data/departamentos/{departamento}.csv'
    df_departamento.to_csv(nombre_archivo, index=False)

    print(f"Archivo guardado: {nombre_archivo}")

Archivo guardado: Limpieza/data/departamentos/ANTIOQUIA.csv
Archivo guardado: Limpieza/data/departamentos/TOLIMA.csv
Archivo guardado: Limpieza/data/departamentos/BOGOTÁ D.C..csv
Archivo guardado: Limpieza/data/departamentos/QUINDÍO.csv
Archivo guardado: Limpieza/data/departamentos/VALLE DEL CAUCA.csv
Archivo guardado: Limpieza/data/departamentos/SANTANDER.csv
Archivo guardado: Limpieza/data/departamentos/BOYACÁ.csv
Archivo guardado: Limpieza/data/departamentos/CÓRDOBA.csv
Archivo guardado: Limpieza/data/departamentos/ATLÁNTICO.csv
Archivo guardado: Limpieza/data/departamentos/META.csv
Archivo guardado: Limpieza/data/departamentos/CUNDINAMARCA.csv
Archivo guardado: Limpieza/data/departamentos/MAGDALENA.csv
Archivo guardado: Limpieza/data/departamentos/NARIÑO.csv
Archivo guardado: Limpieza/data/departamentos/CASANARE.csv
Archivo guardado: Limpieza/data/departamentos/PUTUMAYO.csv
Archivo guardado: Limpieza/data/departamentos/CESAR.csv
Archivo guardado: Limpieza/data/departamentos/CALDAS.