### Limpieza de Código, Distrito, Departamento, Municipio (David Aragón)

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [2]:
data = pd.read_csv('UnifiedData/UnifiedDataV3.csv')

In [3]:
data[['CODIGO', 'DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO']]

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN
...,...,...,...,...
9325,19-09-0040-46,19-021,ZACAPA,LA UNION
9326,19-09-0048-46,19-021,ZACAPA,LA UNION
9327,19-10-0013-46,19-015,ZACAPA,HUITE
9328,19-10-1009-46,19-015,ZACAPA,HUITE


La variable CODIGO al ser una variable de identificacion no es relevante, por lo que no se estara tabajando con esta variable

In [4]:
# Función para limpiar datos categóricos nominales
def limpiarDatosCategNominales(data):
    columnas = ['DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO']

    print("🔍 Verificando valores nulos en cada columna...")
    display(data[columnas].isnull().sum())
    print()

    # Convertir a tipo 'category'
    print("🔄 Convirtiendo columnas a tipo 'category'...")
    for col in columnas:
        data[col] = data[col].astype('category')
        print(f"✅ Columna {col} convertida correctamente.")
    print()

    # Mostrar categorías únicas de cada columna
    print("🔢 Mostrando categorías únicas por columna:")
    for col in columnas:
        print(f"📊 {col}: {data[col].cat.categories}")
    print()

    return data

In [5]:
# Limpiar datos categóricos
data = limpiarDatosCategNominales(data)

🔍 Verificando valores nulos en cada columna...


DISTRITO        208
DEPARTAMENTO      0
MUNICIPIO         0
dtype: int64


🔄 Convirtiendo columnas a tipo 'category'...
✅ Columna DISTRITO convertida correctamente.
✅ Columna DEPARTAMENTO convertida correctamente.
✅ Columna MUNICIPIO convertida correctamente.

🔢 Mostrando categorías únicas por columna:
📊 DISTRITO: Index(['01-', '01-001', '01-101', '01-102', '01-103', '01-104', '01-105',
       '01-106', '01-107', '01-108',
       ...
       '22-032', '22-033', '22-034', '22-035', '22-036', '22-037', '22-038',
       '22-039', '25-000', '99-001'],
      dtype='object', length=690)
📊 DEPARTAMENTO: Index(['ALTA VERAPAZ', 'BAJA VERAPAZ', 'CHIMALTENANGO', 'CHIQUIMULA',
       'CIUDAD CAPITAL', 'EL PROGRESO', 'ESCUINTLA', 'GUATEMALA',
       'HUEHUETENANGO', 'IZABAL', 'JALAPA', 'JUTIAPA', 'PETEN',
       'QUETZALTENANGO', 'QUICHE', 'RETALHULEU', 'SACATEPEQUEZ', 'SAN MARCOS',
       'SANTA ROSA', 'SOLOLA', 'SUCHITEPEQUEZ', 'TOTONICAPAN', 'ZACAPA'],
      dtype='object')
📊 MUNICIPIO: Index(['ACATENANGO', 'AGUA BLANCA', 'AGUACATAN', 'ALMOLONGA', 'ALOTENANGO',
       

In [6]:
# Función para agrupar distritos por prefijo
def agruparPorPrefijo(data, columna, longitud_prefijo=2, nuevaCategoria='Otros'):
    print(f"🔧 Agrupando categorías en la columna '{columna}' por prefijos...")
    
    # Extraer los primeros 'longitud_prefijo' dígitos
    prefijos = data[columna].str[:longitud_prefijo]
    
    # Crear un mapeo de prefijos a la nueva categoría
    categorias_prefijo = prefijos.unique()
    print("Categorías originales:", categorias_prefijo)
    
    # Agrupar todas las categorías con el mismo prefijo bajo una nueva categoría
    data[columna] = data[columna].apply(lambda x: f"{x[:longitud_prefijo]}" if x else x)
    
    print(f"✅ Las categorías han sido agrupadas por prefijos en '{nuevaCategoria}'.")
    
    # Convertir nuevamente a categoría para optimizar
    data[columna] = data[columna].astype('category')

    return data

In [7]:
# Agrupar distritos por prefijo
data = agruparPorPrefijo(data, 'DISTRITO')

🔧 Agrupando categorías en la columna 'DISTRITO' por prefijos...
Categorías originales: ['16' nan '25' '15' '04' '20' '99' '01' '02' '05' '13' '18' '21' '22' '17'
 '09' '14' '11' '03' '06' '12' '07' '10' '08' '19']
✅ Las categorías han sido agrupadas por prefijos en 'Otros'.


In [8]:
# Función para contar categorías
def contarCategorias(data, columna):
    print(f"🔍 Contando categorías en la columna '{columna}'...")
    conteoCategorias = data[columna].value_counts()
    print("📊 Conteo de cada categoría:")
    display(conteoCategorias)
    return conteoCategorias

In [9]:
# Verificar el resultado
contarCategorias(data, 'DISTRITO')

🔍 Contando categorías en la columna 'DISTRITO'...
📊 Conteo de cada categoría:


DISTRITO
01    2896
05     617
12     555
13     510
09     472
10     378
16     371
18     366
04     356
17     354
03     317
11     313
22     303
14     242
20     167
06     155
21     150
07     136
02     122
15     112
19      90
08      88
99      34
25      18
Name: count, dtype: int64

DISTRITO
01    2896
05     617
12     555
13     510
09     472
10     378
16     371
18     366
04     356
17     354
03     317
11     313
22     303
14     242
20     167
06     155
21     150
07     136
02     122
15     112
19      90
08      88
99      34
25      18
Name: count, dtype: int64

In [10]:
# Función para analizar la distribución de una columna categórica
def analizarDistribucionColumna(data, columna, umbral=0.05, flag=False):
    print(f"🔍 Analizando la distribución de la columna '{columna}'...")
    distribucion = data[columna].value_counts(normalize=True)
    print("📊 Distribución de frecuencias:")
    display(distribucion)

    categoriasAgrupar = distribucion[distribucion < umbral].index.tolist()

    if categoriasAgrupar:
        print(f"⚠️ Se sugiere agrupar las siguientes categorías en '{columna}': {categoriasAgrupar}\n")
    else:
        print("✅ No es necesario agrupar categorías en esta columna.\n")

    if flag:
        return distribucion

In [11]:
# Analizar distribución de columnas
analizarDistribucionColumna(data, 'DISTRITO')
analizarDistribucionColumna(data, 'DEPARTAMENTO')
analizarDistribucionColumna(data, 'MUNICIPIO')

🔍 Analizando la distribución de la columna 'DISTRITO'...
📊 Distribución de frecuencias:


DISTRITO
01    0.317474
05    0.067639
12    0.060842
13    0.055909
09    0.051743
10    0.041438
16    0.040671
18    0.040123
04    0.039027
17    0.038807
03    0.034751
11    0.034313
22    0.033216
14    0.026529
20    0.018307
06    0.016992
21    0.016444
07    0.014909
02    0.013374
15    0.012278
19    0.009866
08    0.009647
99    0.003727
25    0.001973
Name: proportion, dtype: float64

⚠️ Se sugiere agrupar las siguientes categorías en 'DISTRITO': ['10', '16', '18', '04', '17', '03', '11', '22', '14', '20', '06', '21', '07', '02', '15', '19', '08', '99', '25']

🔍 Analizando la distribución de la columna 'DEPARTAMENTO'...
📊 Distribución de frecuencias:


DEPARTAMENTO
CIUDAD CAPITAL    0.167631
GUATEMALA         0.158307
ESCUINTLA         0.067310
SAN MARCOS        0.061522
HUEHUETENANGO     0.055305
QUETZALTENANGO    0.052626
SUCHITEPEQUEZ     0.041265
ALTA VERAPAZ      0.040086
IZABAL            0.039443
PETEN             0.039228
CHIMALTENANGO     0.038478
SACATEPEQUEZ      0.034191
RETALHULEU        0.033869
JUTIAPA           0.033226
QUICHE            0.026152
CHIQUIMULA        0.018221
SANTA ROSA        0.016827
JALAPA            0.016184
SOLOLA            0.014791
EL PROGRESO       0.013398
BAJA VERAPAZ      0.012219
ZACAPA            0.010075
TOTONICAPAN       0.009646
Name: proportion, dtype: float64

⚠️ Se sugiere agrupar las siguientes categorías en 'DEPARTAMENTO': ['SUCHITEPEQUEZ', 'ALTA VERAPAZ', 'IZABAL', 'PETEN', 'CHIMALTENANGO', 'SACATEPEQUEZ', 'RETALHULEU', 'JUTIAPA', 'QUICHE', 'CHIQUIMULA', 'SANTA ROSA', 'JALAPA', 'SOLOLA', 'EL PROGRESO', 'BAJA VERAPAZ', 'ZACAPA', 'TOTONICAPAN']

🔍 Analizando la distribución de la columna 'MUNICIPIO'...
📊 Distribución de frecuencias:


MUNICIPIO
ZONA 1                       0.067846
MIXCO                        0.045874
VILLA NUEVA                  0.039657
QUETZALTENANGO               0.026581
RETALHULEU                   0.019829
                               ...   
SAN BARTOLOME JOCOTENANGO    0.000107
SAN MARCOS LA LAGUNA         0.000107
PETATAN                      0.000107
CHICHE                       0.000107
ZUNIL                        0.000107
Name: proportion, Length: 349, dtype: float64

⚠️ Se sugiere agrupar las siguientes categorías en 'MUNICIPIO': ['MIXCO', 'VILLA NUEVA', 'QUETZALTENANGO', 'RETALHULEU', 'ZONA 7', 'MAZATENANGO', 'ESCUINTLA', 'CHIMALTENANGO', 'HUEHUETENANGO', 'PUERTO BARRIOS', 'SAN MIGUEL PETAPA', 'MORALES', 'ZONA 12', 'AMATITLAN', 'SANTA LUCIA COTZUMALGUAPA', 'ANTIGUA GUATEMALA', 'COBAN', 'ZONA 18', 'JUTIAPA', 'SAN JUAN SACATEPEQUEZ', 'MALACATAN', 'COATEPEQUE', 'JALAPA', 'SAN PEDRO SACATEPEQUEZ', 'LA LIBERTAD', 'ZONA 6', 'VILLA CANALES', 'SAN MARCOS', 'TIQUISATE', 'ZONA 11', 'SANTA CRUZ DEL QUICHE', 'LA DEMOCRACIA', 'SAN JOSE', 'CHINAUTLA', 'CHIQUIMULA', 'ZONA 2', 'ZONA 19', 'ZONA 13', 'SAN BENITO', 'SAN PEDRO CARCHA', 'SAN JOSE PINULA', 'NUEVA CONCEPCION', 'ZACAPA', 'FLORES', 'PALIN', 'LIVINGSTON', 'IXCAN', 'FRAIJANES', 'ZONA 3', 'TOTONICAPAN', 'SOLOLA', 'SAYAXCHE', 'SAN AGUSTIN ACASAGUASTLAN', 'SAN CRISTOBAL VERAPAZ', 'LOS AMATES', 'ZONA 21', 'SALAMA', 'CHIQUIMULILLA', 'ZONA 5', 'CIUDAD VIEJA', 'SANTA CRUZ BARILLAS', 'SANTA CATARINA PINULA', 'JALPA

In [12]:
# Función para agrupar categorías
def agruparCategorias(data, columna, categoriasAgrupar, nuevaCategoria='Otras'):
    print(f"🔧 Agrupando categorías en la columna '{columna}'...")
    data[columna] = data[columna].apply(lambda x: nuevaCategoria if x in categoriasAgrupar else x)
    print(f"✅ Las categorías {categoriasAgrupar} se han agrupado bajo '{nuevaCategoria}'.")
    
    # Convertir nuevamente a categoría para optimizar
    data[columna] = data[columna].astype('category')

    return data

In [13]:
# Agrupar categorías en 'DEPARTAMENTO'
categorias_para_agrupar = ['SUCHITEPEQUEZ', 'ALTA VERAPAZ', 'IZABAL', 'PETEN', 'CHIMALTENANGO', 'SACATEPEQUEZ', 'RETALHULEU', 'JUTIAPA', 'QUICHE', 'CHIQUIMULA', 'SANTA ROSA', 'JALAPA', 'SOLOLA', 'EL PROGRESO', 'BAJA VERAPAZ', 'ZACAPA', 'TOTONICAPAN']
data = agruparCategorias(data, 'DEPARTAMENTO', categorias_para_agrupar, nuevaCategoria='Otros')


🔧 Agrupando categorías en la columna 'DEPARTAMENTO'...
✅ Las categorías ['SUCHITEPEQUEZ', 'ALTA VERAPAZ', 'IZABAL', 'PETEN', 'CHIMALTENANGO', 'SACATEPEQUEZ', 'RETALHULEU', 'JUTIAPA', 'QUICHE', 'CHIQUIMULA', 'SANTA ROSA', 'JALAPA', 'SOLOLA', 'EL PROGRESO', 'BAJA VERAPAZ', 'ZACAPA', 'TOTONICAPAN'] se han agrupado bajo 'Otros'.


In [14]:
# Lista de categorías a agrupar en 'DISTRITO'
categoriasParaAgrupar = ['10', '16', '18', '04', '17', 
                         '03', '11', '22', '14', '20', 
                         '06', '21', '07', '02', '15', 
                         '19', '08', '99', '25']

# Agrupar las categorías en 'DISTRITO'
data = agruparCategorias(data, 'DISTRITO', categoriasParaAgrupar, nuevaCategoria='Otros')

🔧 Agrupando categorías en la columna 'DISTRITO'...
✅ Las categorías ['10', '16', '18', '04', '17', '03', '11', '22', '14', '20', '06', '21', '07', '02', '15', '19', '08', '99', '25'] se han agrupado bajo 'Otros'.


In [15]:
# Función para reemplazar valores nulos en los distritos agrupados
def reemplazarDistritosVacios(data, columna_distrito, valor_reemplazo='No identificado'):
    """
    Reemplaza los valores nulos en una columna específica por un valor dado.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna_distrito: Nombre de la columna de distritos.
    - valor_reemplazo: Valor con el cual se reemplazarán los nulos.

    Retorna:
    - El DataFrame con la columna de distritos modificada.
    """
    print(f"🔧 Reemplazando valores nulos en la columna '{columna_distrito}' con '{valor_reemplazo}'...")

    # Identificar las filas donde el distrito está vacío y pertenece a la categoría 'Otros'
    data[columna_distrito] = data[columna_distrito].replace(np.nan, valor_reemplazo)

    print(f"✅ Los valores nulos en la columna '{columna_distrito}' se han reemplazado con '{valor_reemplazo}'.")

    return data

# Reemplazar valores nulos en los distritos agrupados en 'Otros'
data = reemplazarDistritosVacios(data, 'DISTRITO')

# Verificar el resultado
contarCategorias(data, 'DISTRITO')

🔧 Reemplazando valores nulos en la columna 'DISTRITO' con 'No identificado'...
✅ Los valores nulos en la columna 'DISTRITO' se han reemplazado con 'No identificado'.
🔍 Contando categorías en la columna 'DISTRITO'...
📊 Conteo de cada categoría:


DISTRITO
Otros    4072
01       2896
05        617
12        555
13        510
09        472
Name: count, dtype: int64

DISTRITO
Otros    4072
01       2896
05        617
12        555
13        510
09        472
Name: count, dtype: int64

In [16]:
# Función para convertir categorías a numéricas
def convertirCategoriasANumericas(data, columns):
    print("🔢 Convirtiendo categorías a representación numérica...")
    for col in columns:
        labelEncoder = LabelEncoder()
        data[f"{col}_num"] = labelEncoder.fit_transform(data[col])
        print(f"\n🔍 Mapeo para la columna '{col}':")
        for categoria, numero in zip(labelEncoder.classes_, labelEncoder.transform(labelEncoder.classes_)):
            print(f"  {categoria} -> {numero}")
        print(f"🆕 Columna {col}_num añadida con éxito.")
    return data

In [17]:
# Función para agrupar municipios basados en la categoría del departamento
def agruparMunicipiosPorDepartamento(data, columna_municipio, columna_departamento, departamentos_agrupados, nuevaCategoria='Otros'):
    """
    Agrupa municipios cuyos departamentos han sido agrupados bajo una categoría específica.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna_municipio: Nombre de la columna de municipios.
    - columna_departamento: Nombre de la columna de departamentos.
    - departamentos_agrupados: Lista de departamentos que han sido agrupados.
    - nuevaCategoria: Nombre de la nueva categoría para los municipios.

    Retorna:
    - El DataFrame con la columna de municipios modificada.
    """
    print(f"🔧 Agrupando municipios en la columna '{columna_municipio}' para los departamentos agrupados...")

    # Reemplazar los municipios correspondientes a los departamentos agrupados
    data[columna_municipio] = data.apply(
        lambda x: nuevaCategoria if x[columna_departamento] in departamentos_agrupados else x[columna_municipio], axis=1)

    print(f"✅ Los municipios de los departamentos {departamentos_agrupados} se han agrupado bajo '{nuevaCategoria}'.")

    # Convertir nuevamente a categoría para optimizar
    data[columna_municipio] = data[columna_municipio].astype('category')

    return data

# Lista de departamentos que se han agrupado en 'Otros'
departamentos_agrupados = ['Otros']

# Agrupar los municipios correspondientes a los departamentos agrupados
data = agruparMunicipiosPorDepartamento(data, 'MUNICIPIO', 'DEPARTAMENTO', departamentos_agrupados, nuevaCategoria='Otros')

# Verificar el resultado
contarCategorias(data, 'MUNICIPIO')


🔧 Agrupando municipios en la columna 'MUNICIPIO' para los departamentos agrupados...
✅ Los municipios de los departamentos ['Otros'] se han agrupado bajo 'Otros'.
🔍 Contando categorías en la columna 'MUNICIPIO'...
📊 Conteo de cada categoría:


MUNICIPIO
Otros                     4080
ZONA 1                     633
MIXCO                      428
VILLA NUEVA                370
QUETZALTENANGO             248
                          ... 
SAN FRANCISCO LA UNION       1
SAN JUAN ATITAN              1
SAN MIGUEL SIGUILA           1
SANTA BARBARA                1
ZUNIL                        1
Name: count, Length: 137, dtype: int64

MUNICIPIO
Otros                     4080
ZONA 1                     633
MIXCO                      428
VILLA NUEVA                370
QUETZALTENANGO             248
                          ... 
SAN FRANCISCO LA UNION       1
SAN JUAN ATITAN              1
SAN MIGUEL SIGUILA           1
SANTA BARBARA                1
ZUNIL                        1
Name: count, Length: 137, dtype: int64

In [18]:
# Convertir categorías a numéricas si es necesario
data = convertirCategoriasANumericas(data, ['DISTRITO', 'DEPARTAMENTO', 'MUNICIPIO'])


🔢 Convirtiendo categorías a representación numérica...

🔍 Mapeo para la columna 'DISTRITO':
  01 -> 0
  05 -> 1
  09 -> 2
  12 -> 3
  13 -> 4
  Otros -> 5
  nan -> 6
🆕 Columna DISTRITO_num añadida con éxito.

🔍 Mapeo para la columna 'DEPARTAMENTO':
  CIUDAD CAPITAL -> 0
  ESCUINTLA -> 1
  GUATEMALA -> 2
  HUEHUETENANGO -> 3
  Otros -> 4
  QUETZALTENANGO -> 5
  SAN MARCOS -> 6
🆕 Columna DEPARTAMENTO_num añadida con éxito.

🔍 Mapeo para la columna 'MUNICIPIO':
  AGUACATAN -> 0
  ALMOLONGA -> 1
  AMATITLAN -> 2
  AYUTLA -> 3
  CABRICAN -> 4
  CAJOLA -> 5
  CANTEL -> 6
  CATARINA -> 7
  CHIANTLA -> 8
  CHINAUTLA -> 9
  CHUARRANCHO -> 10
  COATEPEQUE -> 11
  COLOMBA COSTA CUCA -> 12
  COLOTENANGO -> 13
  COMITANCILLO -> 14
  CONCEPCION CHIQUIRICHAPA -> 15
  CONCEPCION HUISTA -> 16
  CONCEPCION TUTUAPA -> 17
  CUILCO -> 18
  EL PALMAR -> 19
  EL QUETZAL -> 20
  EL TUMBADOR -> 21
  ESCUINTLA -> 22
  ESQUIPULAS PALO GORDO -> 23
  FLORES COSTA CUCA -> 24
  FRAIJANES -> 25
  GENOVA COSTA CUCA ->

In [19]:
# Encontrar los 5 municipios más frecuentes y sus porcentajes
def top5Municipios(data, columna):
    """
    Encuentra los 5 municipios que más aparecen en la columna especificada y calcula su porcentaje.

    Parámetros:
    - data: DataFrame que contiene los datos.
    - columna: Nombre de la columna de municipios.

    Retorna:
    - Un DataFrame con los 5 municipios más frecuentes y sus porcentajes.
    """
    # Calcular la frecuencia de cada municipio
    conteo_municipios = data[columna].value_counts()

    # Calcular el porcentaje para cada municipio
    porcentaje_municipios = (conteo_municipios / len(data)) * 100

    # Seleccionar los 5 municipios más frecuentes
    top_5_municipios = porcentaje_municipios.head(5)

    return top_5_municipios

# Obtener los 5 municipios más frecuentes y sus porcentajes
top_municipios = top5Municipios(data, 'MUNICIPIO')

# Mostrar el resultado
print(top_municipios)


MUNICIPIO
Otros             43.729904
ZONA 1             6.784566
MIXCO              4.587353
VILLA NUEVA        3.965702
QUETZALTENANGO     2.658092
Name: count, dtype: float64


In [20]:
# Contar categorías para una columna específica
contarCategorias(data, 'MUNICIPIO')

🔍 Contando categorías en la columna 'MUNICIPIO'...
📊 Conteo de cada categoría:


MUNICIPIO
Otros                     4080
ZONA 1                     633
MIXCO                      428
VILLA NUEVA                370
QUETZALTENANGO             248
                          ... 
SAN FRANCISCO LA UNION       1
SAN JUAN ATITAN              1
SAN MIGUEL SIGUILA           1
SANTA BARBARA                1
ZUNIL                        1
Name: count, Length: 137, dtype: int64

MUNICIPIO
Otros                     4080
ZONA 1                     633
MIXCO                      428
VILLA NUEVA                370
QUETZALTENANGO             248
                          ... 
SAN FRANCISCO LA UNION       1
SAN JUAN ATITAN              1
SAN MIGUEL SIGUILA           1
SANTA BARBARA                1
ZUNIL                        1
Name: count, Length: 137, dtype: int64

In [21]:
# Verificar el resultado
contarCategorias(data, 'DISTRITO')

🔍 Contando categorías en la columna 'DISTRITO'...
📊 Conteo de cada categoría:


DISTRITO
Otros    4072
01       2896
05        617
12        555
13        510
09        472
Name: count, dtype: int64

DISTRITO
Otros    4072
01       2896
05        617
12        555
13        510
09        472
Name: count, dtype: int64

In [22]:
data.to_csv('UnifiedData/UnifiedDataV4.csv', index=False)