### **Importacion de Librerias**

In [1]:
import pandas as pd
from IPython.display import Markdown, display

### **Conversion de csv a Df**

In [4]:
df = pd.read_csv('../data/institutions.csv', encoding='latin1')

### Descripción del Dataset:

In [5]:
shape = df.shape
rows = f"- **`Número de filas (datos crudos):`** {shape[0]}"
columns = f"- **`Número de variables (columnas):`** {shape[1]}"

In [6]:
display(Markdown(rows))
display(Markdown(columns))

- **`Número de filas (datos crudos):`** 56457

- **`Número de variables (columnas):`** 18

### Nombres de las variables:
1. `Unnamed: 0` (El indice original del archivo al momento de hacer el scrapping)
2. `CODIGO`
3. `DISTRITO`
4. `DEPARTAMENTO`
5. `MUNICIPIO`
6. `ESTABLECIMIENTO`
7. `DIRECCION`
8. `TELEFONO`
9. `SUPERVISOR`
10. `DIRECTOR`
11. `NIVEL`
12. `SECTOR`
13. `AREA`
14. `STATUS`
15. `MODALIDAD`
16. `JORNADA`
17. `PLAN`
18. `DEPARTAMENTAL`


Antes de realizar limpieza o transformación, observamos los primeros 5 datos crudos:

In [7]:
df.head()

Unnamed: 0.1,Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,0,12-01-0001-42,12-002,SAN MARCOS,SAN MARCOS,"EODP NO. 1 ""FRANCISCA SANDOVAL""",7A. AVENIDA 5-74 ZONA 2,55315928,AMILSA YAMILETH ESTRADA RODRÃGUEZ,ROXANA ELIZABETH LÃPEZ FUENTES,PARVULOS,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),SAN MARCOS
1,1,12-01-0002-42,12-002,SAN MARCOS,SAN MARCOS,EODP NO. 2 'GEORGINA RODAS DE ESCOBAR',AVE. EL REFORMADOR COLONIA JUSTO RUFINO BARRIO...,42914527,AMILSA YAMILETH ESTRADA RODRÃGUEZ,EMILIA MAXIMINA CARDONA BAUTISTA,PARVULOS,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),SAN MARCOS
2,2,12-01-0003-42,12-100,SAN MARCOS,SAN MARCOS,COLEGIO PARTICULAR MIXTO SAGRADO CORAZON,10A. AVENIDA 9-71 ZONA 3,77601164,JORGE EBERTO SOLORZANO SANCHEZ,MAGNOLIA ROSALETT CIFUENTES BARRIOS,PARVULOS,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),SAN MARCOS
3,3,12-01-0004-42,12-002,SAN MARCOS,SAN MARCOS,COLEGIO EVANGELICO MIXTO NAZARENO,15 AVENIDA 5-36 ZONA 5,44656690,AMILSA YAMILETH ESTRADA RODRÃGUEZ,ENNA DEL CARMEN GIRÃN RODRÃGUEZ,PARVULOS,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),SAN MARCOS
4,4,12-01-0006-42,12-002,SAN MARCOS,SAN MARCOS,"COLEGIO ""SAN MARCOS""","6A. AVENIDA, 4-92 ZONA 2",77604147,AMILSA YAMILETH ESTRADA RODRÃGUEZ,SOR CAROLINA PATRICIA MARTÃNEZ TRUJILLO,PARVULOS,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),SAN MARCOS


In [8]:
df.dtypes

Unnamed: 0          int64
CODIGO             object
DISTRITO           object
DEPARTAMENTO       object
MUNICIPIO          object
ESTABLECIMIENTO    object
DIRECCION          object
TELEFONO           object
SUPERVISOR         object
DIRECTOR           object
NIVEL              object
SECTOR             object
AREA               object
STATUS             object
MODALIDAD          object
JORNADA            object
PLAN               object
DEPARTAMENTAL      object
dtype: object

El dataset está compuesto por 18 columnas, de las cuales 17 son de tipo texto y 1 es de tipo numérico entero

Datos unicos por columna:

In [9]:
df.nunique()

Unnamed: 0         56457
CODIGO             56457
DISTRITO             841
DEPARTAMENTO          23
MUNICIPIO            356
ESTABLECIMIENTO    14149
DIRECCION          30377
TELEFONO           29393
SUPERVISOR           802
DIRECTOR           32343
NIVEL                  7
SECTOR                 4
AREA                   3
STATUS                 1
MODALIDAD              2
JORNADA                6
PLAN                  12
DEPARTAMENTAL         26
dtype: int64

Resumen estructural del conjunto de datos:

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 56457 entries, 0 to 56456
Data columns (total 18 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       56457 non-null  int64 
 1   CODIGO           56457 non-null  object
 2   DISTRITO         56457 non-null  object
 3   DEPARTAMENTO     56457 non-null  object
 4   MUNICIPIO        56457 non-null  object
 5   ESTABLECIMIENTO  56457 non-null  object
 6   DIRECCION        56457 non-null  object
 7   TELEFONO         56457 non-null  object
 8   SUPERVISOR       56457 non-null  object
 9   DIRECTOR         56457 non-null  object
 10  NIVEL            56457 non-null  object
 11  SECTOR           56457 non-null  object
 12  AREA             56457 non-null  object
 13  STATUS           56457 non-null  object
 14  MODALIDAD        56457 non-null  object
 15  JORNADA          56457 non-null  object
 16  PLAN             56457 non-null  object
 17  DEPARTAMENTAL    56457 non-null

### **Lista de Variables que más operaciones de limpieza necesitaran**
1. `ESTABLECIMIENTO`
2. `TELEFONO`
3. `DIRECCION`


## **Estrategia de Limpieza del Conjunto de Datos**

1. **Para la variable `Unnamed: 0` se planea:**
   - Eliminar completamente esta columna, ya que representa un índice redundante generado al momento de exportar el archivo original. Su presencia puede generar confusión y no aporta valor analítico.

2. **Para la variable `CODIGO` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Verificar los valores únicos presentes para detectar anomalías.

3. **Para la variable `DISTRITO` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Eliminar espacios extra.
   - Verificar los valores únicos presentes para detectar anomalías.

4. **Para la variable `DEPARTAMENTO` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Eliminar espacios extra.
   - Revisar errores ortográficos o cambios de letras.
   - Verificar los valores únicos presentes para detectar anomalía.

5. **Para la variable `MUNICIPIO` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Eliminar espacios extra.
   - Revisar errores ortográficos.
   - Verificar los valores únicos presentes para detectar anomalías.

6. **Para la variable `ESTABLECIMIENTO` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Eliminar espacios extra.
   - Revisar errores ortográficos.
   - Verificar los valores únicos presentes para detectar anomalías.

7. **Para la variable `DIRECCION` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Eliminar espacios innecesarios.
   - Verificar valores únicos en busca de direcciones incompletas o erróneas.

8. **Para la variable `SUPERVISOR` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

9. **Para la variable `DIRECTOR` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

10. **Para la variable `NIVEL` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Filtrar únicamente los niveles: preprimaria, primaria, básico y diversificado.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

11. **Para la variable `SECTOR` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

12. **Para la variable `AREA` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

13. **Para la variable `STATUS` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

14. **Para la variable `MODALIDAD` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

15. **Para la variable `JORNADA` se planea:**
   - Convertir a tipo `string`.
   - Convertir a mayúsculas.
   - Eliminar espacios adicionales.
   - Verificar los valores únicos para detectar variaciones innecesarias ("MATUTINA", "MATUTINO", etc.).

16. **Para la variable `PLAN` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

17. **Para la variable `DEPARTAMENTAL` se planea:**
   - Convertir a tipo `string`.
   - Verificar que no haya datos nulos.
   - Convertir a mayúsculas.
   - Verificar valores únicos para detectar para detectar anomalías.

18. **Para la variable `TELEFONO` se planea:**
   - Convertir a tipo `Int64` 
   - Eliminar caracteres no numéricos si existieran.
   - Verificar que no haya datos nulos


## **Limpieza de datos**

### **Unnamed: 0:**


In [14]:
def resumen_columna(df: pd.DataFrame, col: str, top_n: int = 20) -> None:
    print(f"\n=== {col} ===")
    if col not in df.columns:
        print("-> La columna no existe en el DataFrame.")
        return
    print("dtype:", df[col].dtype)
    print("Nulos:", df[col].isna().sum())
    try:
        print("Únicos (n):", df[col].nunique(dropna=True))
        print("Top valores:")
        print(df[col].value_counts(dropna=False).head(top_n))
    except Exception as e:
        print("No se pudo calcular resumen de únicos:", e)

In [17]:
def normalizar_texto(df: pd.DataFrame, col: str) -> None:
    if col not in df.columns:
        print(f"[AVISO] No se encontró la columna {col}. Se omite.")
        return
    df[col] = df[col].astype("string")
    df[col] = (
        df[col]
        .fillna("")
        .str.replace(r"\s+", " ", regex=True)
        .str.strip()
        .str.upper()
        .astype("string")
    )
    df.loc[df[col].str.len() == 0, col] = pd.NA

In [11]:
df.drop(columns=["Unnamed: 0"], inplace=True)
print("-> Columna 'Unnamed: 0' eliminada.")

-> Columna 'Unnamed: 0' eliminada.


In [None]:
def valores_raros_por_frecuencia(df: pd.DataFrame, col: str, max_freq: int = 3) -> None:
    if col not in df.columns:
        return
    vc = df[col].value_counts(dropna=False)
    raros = vc[vc <= max_freq]
    print(f"\nValores raros en {col} (freq <= {max_freq}):")
    if raros.empty:
        print("(ninguno)")
    else:
        print(raros)

### **CODIGO**

In [12]:
df["CODIGO"] = df["CODIGO"].astype("string")
print("Chequeos `CODIGO` después de convertir a string:")

Chequeos `CODIGO` después de convertir a string:


In [15]:
resumen_columna(df, "CODIGO")


=== CODIGO ===
dtype: string
Nulos: 0
Únicos (n): 56457
Top valores:
CODIGO
12-01-0001-42    1
12-01-0012-42    1
12-01-0029-43    1
12-01-0028-43    1
12-01-0027-43    1
12-01-0003-42    1
12-01-0004-42    1
12-01-0006-42    1
12-01-0007-42    1
12-01-0008-42    1
12-01-0009-42    1
12-01-0010-43    1
12-01-0011-43    1
12-01-0012-43    1
12-01-0055-42    1
12-01-0013-43    1
12-01-0014-43    1
12-01-0015-43    1
12-01-0016-43    1
12-01-0017-43    1
Name: count, dtype: Int64


### **DISTRITO**

In [18]:
normalizar_texto(df, "DISTRITO"); resumen_columna(df, "DISTRITO")


=== DISTRITO ===
dtype: string
Nulos: 0
Únicos (n): 841
Top valores:
DISTRITO
01-403    350
11-017    339
01-110    233
01-641    220
01-639    210
01-411    204
05-033    200
05-026    187
16-023    184
20-017    181
03-002    174
16-014    174
01-620    172
16-031    168
05-017    167
03-005    164
01-220    162
01-602    160
01-603    157
10-019    157
Name: count, dtype: Int64


### **DEPARTAMENTO**

In [20]:
normalizar_texto(df, "DEPARTAMENTO")
resumen_columna(df, "DEPARTAMENTO")


=== DEPARTAMENTO ===
dtype: string
Nulos: 0
Únicos (n): 23
Top valores:
DEPARTAMENTO
GUATEMALA         5768
ALTA VERAPAZ      4961
SAN MARCOS        4347
HUEHUETENANGO     4326
QUICHE            3596
CIUDAD CAPITAL    3418
QUETZALTENANGO    2713
PETEN             2554
CHIQUIMULA        2411
IZABAL            2252
JUTIAPA           2163
CHIMALTENANGO     2162
ESCUINTLA         2144
SUCHITEPEQUEZ     1752
SOLOLA            1731
TOTONICAPAN       1612
RETALHULEU        1506
SANTA ROSA        1464
BAJA VERAPAZ      1453
JALAPA            1279
Name: count, dtype: Int64


In [22]:
valores_raros_por_frecuencia(df, "DEPARTAMENTO")


Valores raros en DEPARTAMENTO (freq <= 3):
(ninguno)


### **MUNICIPIO**

In [23]:
normalizar_texto(df, "MUNICIPIO"); 

In [24]:
resumen_columna(df, "MUNICIPIO")


=== MUNICIPIO ===
dtype: string
Nulos: 0
Únicos (n): 356
Top valores:
MUNICIPIO
MIXCO                    1413
VILLA NUEVA              1166
COBAN                    1020
SAN PEDRO CARCHA          850
ZONA 1                    746
QUETZALTENANGO            707
RETALHULEU                597
MORALES                   596
JUTIAPA                   534
JALAPA                    524
SAN JUAN SACATEPEQUEZ     515
PUERTO BARRIOS            499
LA LIBERTAD               483
CHIMALTENANGO             483
SAN MIGUEL PETAPA         477
ESCUINTLA                 461
LIVINGSTON                455
CHIQUIMULA                455
ZONA 18                   454
HUEHUETENANGO             432
Name: count, dtype: Int64


In [25]:
valores_raros_por_frecuencia(df, "MUNICIPIO")



Valores raros en MUNICIPIO (freq <= 3):
(ninguno)


### **ESTABLECIMIENTO**

In [26]:
normalizar_texto(df, "ESTABLECIMIENTO")
resumen_columna(df, "ESTABLECIMIENTO")


=== ESTABLECIMIENTO ===
dtype: string
Nulos: 0
Únicos (n): 13242
Top valores:
ESTABLECIMIENTO
EORM                                                            13541
EODP ANEXA A EORM                                                5339
COPB ANEXO A EORM                                                2468
CENTRO COMUNITARIO DE DESARROLLO INFANTIL INTEGRAL -CECODII-     1979
EODP                                                             1616
INEB DE TELESECUNDARIA                                           1456
COPB ANEXA A EORM                                                 676
INEB                                                              601
EODP ANEXA EORM                                                   415
EOUM                                                              354
INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA                     286
COPB                                                              281
CEIN -PAIN-                                                      

### **DIRECCION**

In [27]:
normalizar_texto(df, "DIRECCION")
resumen_columna(df, "DIRECCION")


=== DIRECCION ===
dtype: string
Nulos: 0
Únicos (n): 29919
Top valores:
DIRECCION
CABECERA MUNICIPAL      547
BARRIO EL CENTRO        210
ALDEA BUENA VISTA        93
BARRIO EL CALVARIO       75
BARRIO EL PORVENIR       56
ALDEA EL ROSARIO         51
ALDEA EL NARANJO         47
ALDEA LLANO GRANDE       44
BARRIO SAN SEBASTIAN     39
BARRIO LA REFORMA        38
ALDEA TIERRA BLANCA      37
BARRIO EL MITCHAL        36
ALDEA LOS ANGELES        36
ALDEA AGUA CALIENTE      36
ALDEA EL CARRIZAL        36
BARRIO LAS FLORES        36
ALDEA LA LAGUNA          35
ALDEA PLAYITAS           34
Â                        34
ALDEA OJO DE AGUA        34
Name: count, dtype: Int64


### **SUPERVISOR**

In [28]:
normalizar_texto(df, "SUPERVISOR") 
resumen_columna(df, "SUPERVISOR")


=== SUPERVISOR ===
dtype: string
Nulos: 0
Únicos (n): 801
Top valores:
SUPERVISOR
MIGUEL ANGEL ARMAS ROCHA                     486
CARLOS HUMBERTO GONZÃLEZ DE LEÃN           350
IDALIA DEL ROSARIO LOPEZ SANDOVAL DE PAIZ    264
ZUHILEM YESENIA ESTRADA ORTIZ                233
RONALD MAURICIO MORALES VIVAR                224
MILTON ALONSO ALVAREZ FUENTES                220
LUDVIN RICARDO URRUTIA LORENTI               210
JUAN ENRIQUE MARTINEZ SOLANO                 204
ABELARDO MEFIBOSET VILLATORO HERRERA         201
REMY ARTURO SINAY GUDIEL                     200
MARCO TULIO SAMAYOA CARDONA                  187
ELVIS BENJAMÃN IXÃM HERNANDEZ              184
GLENDY ARACELY GARCÃA PÃREZ                181
VICTOR YAT MAQUIN                            174
ZOILA ESTHELA JONFE OROZCO                   174
PATRICIO NAJARRO ASENCIO                     168
ESTHER AVIGAIL YUMAN ALVIZURES               167
RODOLFO MEDINA                               167
ROSALBINA SISIMIT PEREN DE SOCOP   

### **DIRECTOR**

In [29]:
normalizar_texto(df, "DIRECTOR") 
resumen_columna(df, "DIRECTOR")


=== DIRECTOR ===
dtype: string
Nulos: 0
Únicos (n): 32301
Top valores:
DIRECTOR
Â                                      187
S/D                                    141
---                                     71
--                                      34
ANA REBECA MORALES PÃREZ               26
NERY EDUARDO VÃSQUEZ ALONZO            25
MELVIN RAFAEL REYES LÃPEZ              20
EVA JUDITH HERNÃNDEZ MARQUEZ           18
ANA VIRGINIA CHOC CABNAL                18
TEODORA GABRIELA CABNAL VALDIZON        17
AXEL EDUARDO ESTRADA CHÃVEZ            17
SILVIA MARLENI ALVARADO GUARDADO        16
HÃCTOR REYNALDO GÃMEZ AGUILAR         16
ANTOLIANO RENE FUENTES FUENTES          16
JHONATAN EDUARDO SAC CAYAX              16
LUIS MIGUEL COJOC POP                   15
MARÃA DOLORES PÃREZ TUCHÃN           15
RUDY ALBERTO GÃLVEZ VALLEJO            14
JAVIER SANCHEZ                          14
CRISTIAN ALEXANDER PÃREZ GONZÃLEZ     14
Name: count, dtype: Int64


### **DIRECTO**

In [30]:
normalizar_texto(df, "DIRECTOR")
resumen_columna(df, "DIRECTOR")


=== DIRECTOR ===
dtype: string
Nulos: 0
Únicos (n): 32301
Top valores:
DIRECTOR
Â                                      187
S/D                                    141
---                                     71
--                                      34
ANA REBECA MORALES PÃREZ               26
NERY EDUARDO VÃSQUEZ ALONZO            25
MELVIN RAFAEL REYES LÃPEZ              20
EVA JUDITH HERNÃNDEZ MARQUEZ           18
ANA VIRGINIA CHOC CABNAL                18
TEODORA GABRIELA CABNAL VALDIZON        17
AXEL EDUARDO ESTRADA CHÃVEZ            17
SILVIA MARLENI ALVARADO GUARDADO        16
HÃCTOR REYNALDO GÃMEZ AGUILAR         16
ANTOLIANO RENE FUENTES FUENTES          16
JHONATAN EDUARDO SAC CAYAX              16
LUIS MIGUEL COJOC POP                   15
MARÃA DOLORES PÃREZ TUCHÃN           15
RUDY ALBERTO GÃLVEZ VALLEJO            14
JAVIER SANCHEZ                          14
CRISTIAN ALEXANDER PÃREZ GONZÃLEZ     14
Name: count, dtype: Int64
