# Proyecto 1 Data Science

Para este proyecto se analizaran los datos de los establecimientos educativos de todo el país que lleguen hasta el nivel de diversificado.

## Descripción de los datos

In [97]:
import pandas as pd

df = pd.read_csv('institutions_data.csv')
df.columns = df.iloc[0]
df =df[1:] #Lo que se hace con esto es eliminar la primera fila que contiene los numeros de las columnas

In [98]:
num_rows = df.shape[0]
print(f"Se tiene un total de: {num_rows}, para el dataset que contiene todos los datos de los establecimientos crudos")

Se tiene un total de: 7413, para el dataset que contiene todos los datos de los establecimientos crudos


Para el dataset tenemos las siguientes variables: 

In [99]:
for column in df.columns:
    print(column)

CODIGO
DISTRITO
DEPARTAMENTO
MUNICIPIO
ESTABLECIMIENTO
DIRECCION
TELEFONO
SUPERVISOR
DIRECTOR
NIVEL
SECTOR
AREA
STATUS
MODALIDAD
JORNADA
PLAN
DEPARTAMENTAL


Para un total de 17 variables tenemos la siguiente clasificación:
- Cualitativas:
    - Codigo: Código único del establecimiento.
    - Distrito: Código o nombre del distrito administrativo del Mineduc.
    - Departamento: Nombre del departamento de Guatemala.
    - Municipio: Nombre del municipio donde esta ubicado el centro educativo.
    - Establecimiento: Nombre del establecimiento educativo.
    - Dirección: Dirección física del establecimiento.
    - Teléfono: Número telefónico del establecimiento.
    - Supervisor: Nombre completo del supervisor asignado.
    - Director: Nombre del director o directora del establecimiento.
    - Nivel: nivel educativo ofrecido (diversificado, primaria, etc)
    - Sector: Sector administrativo (oficial, privado, cooperativa, etc) 
    - Area: Área geográfica (rural, urbana)
    - Status: Estado operativo (abierta, cerrada, etc)
    - Modalidad: Modalidad educativa (monolingüe, bilingüe, etc)
    - Jornada: Horario (matutino, vespertino, nocturno, etc)
    - Plan: Tipo de plan educativo (Diario, Semipresencial, etc)
    - Departamental: Nombre del departamento.

### Normalizar textos

In [100]:
# Normalizar textos de todas las columnas a MAYÚSCULAS y sin espacios extras
def normalizar_texto(texto):
    if pd.isnull(texto):
        return texto
    return ' '.join(str(texto).strip().upper().split())

for col in df.columns:
    df[col] = df[col].apply(normalizar_texto)

df.head()


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
1,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
5,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,NORA LILIANA FIGUEROA HERNÁNDEZ,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


### Vamos a ver valores nulos por filas.
Ver cuántas filas tienen valores nulos en las columnas clave

In [101]:
print("Valores nulos por columna:")
print(df.isnull().sum())

Valores nulos por columna:
0
CODIGO             23
DISTRITO           23
DEPARTAMENTO       23
MUNICIPIO          23
ESTABLECIMIENTO    23
DIRECCION          25
TELEFONO           67
SUPERVISOR         23
DIRECTOR           52
NIVEL              23
SECTOR             23
AREA               23
STATUS             23
MODALIDAD          23
JORNADA            23
PLAN               23
DEPARTAMENTAL      23
dtype: int64


Lo que nos da esto es como una señal que habran filas completamentes vacias con el numero en comun 23. Pero para verificar haremos el siguiente paso.. 

In [102]:
# Filas completamente vacías
print(f"Filas completamente vacías: {(df.isnull().all(axis=1)).sum()}")

Filas completamente vacías: 23


Nos confirma las sospechas de que se fueron 23 filas sin datos enteros.
Ultima cosa que podriamos hacer para verificar datos importantes o incluso un paso antes es verificar que filas sin codigo o sin establecimiento existen ya que no importaria tener los siguientes datos si no tenemos estos. 

In [103]:
# Filas sin código o sin establecimiento
incompletas = df[df['CODIGO'].isnull() | df['ESTABLECIMIENTO'].isnull()]
print(f"Filas sin CODIGO o sin ESTABLECIMIENTO: {incompletas.shape[0]}")

Filas sin CODIGO o sin ESTABLECIMIENTO: 23


Bueno luego de ver esto ya podemos empezar con la elimacion.. 

In [104]:

# Eliminar filas completamente vacías
df = df.dropna(how='all')

In [105]:

# Eliminar filas sin código o sin establecimiento
df = df.dropna(subset=['CODIGO', 'ESTABLECIMIENTO'])

Ahora reiniciamos los indices despues de la eliminacion de los datos. 

In [106]:
df = df.reset_index(drop=True)
print(f"Después de limpiar, el dataset tiene {df.shape[0]} filas. Comparadas con las {num_rows} filas originales, se eliminaron {num_rows - df.shape[0]} filas.")
df.head()

Después de limpiar, el dataset tiene 7390 filas. Comparadas con las 7413 filas originales, se eliminaron 23 filas.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,NORA LILIANA FIGUEROA HERNÁNDEZ,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ


### Podriamos empezar con identificar datos duplicados. Esto nos vamos a guiar por la columna codigo

In [107]:
duplicados = df[df.duplicated(subset=['CODIGO'], keep=False)]
print(f"Registros con CODIGO duplicado: {duplicados.shape[0]}")

Registros con CODIGO duplicado: 1754


In [108]:
# Ver algunos duplicados para inspeccionar
duplicados.sort_values(by='CODIGO').head(10)

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
1699,00-01-0158-46,01-312,CIUDAD CAPITAL,ZONA 1,COLEGIO TECNICO PROGRESISTA CETECPRO,2A. AVENIDA 3-59,22512759,AMADO SALOMON FLORES PEREZ,IRMA AMPARO TOLEDO HERNANDEZ,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,DIARIO(REGULAR),GUATEMALA NORTE
832,00-01-0158-46,01-312,CIUDAD CAPITAL,ZONA 1,COLEGIO TECNICO PROGRESISTA CETECPRO,2A. AVENIDA 3-59,22512759,AMADO SALOMON FLORES PEREZ,IRMA AMPARO TOLEDO HERNANDEZ,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,DOBLE,DIARIO(REGULAR),GUATEMALA NORTE
833,00-01-0173-46,01-301,CIUDAD CAPITAL,ZONA 1,INSTITUTO NORMAL PARA SEÑORITAS CENTRO AMERICA,1A CALLE 2-64,22323424,LUCRECIA MARISOL CERMEÑO GONZÁLEZ,INGRID MARIELA ESPINA ORELLANA,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),GUATEMALA NORTE
1700,00-01-0173-46,01-301,CIUDAD CAPITAL,ZONA 1,INSTITUTO NORMAL PARA SEÑORITAS CENTRO AMERICA,1A CALLE 2-64,22323424,LUCRECIA MARISOL CERMEÑO GONZÁLEZ,INGRID MARIELA ESPINA ORELLANA,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),GUATEMALA NORTE
1701,00-01-0174-46,01-307,CIUDAD CAPITAL,ZONA 1,ESCUELA NACIONAL CENTRAL DE FORMACION SECRETARIAL,12 AVENIDA 9-27,22322985,NORMA ARACELY PALOMO FRANCO DE DIAZ,FRANCISCO RENÉ CONTRERAS AQUINO,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),GUATEMALA NORTE
834,00-01-0174-46,01-307,CIUDAD CAPITAL,ZONA 1,ESCUELA NACIONAL CENTRAL DE FORMACION SECRETARIAL,12 AVENIDA 9-27,22322985,NORMA ARACELY PALOMO FRANCO DE DIAZ,FRANCISCO RENÉ CONTRERAS AQUINO,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),GUATEMALA NORTE
1702,00-01-0176-46,01-301,CIUDAD CAPITAL,ZONA 1,INSTITUTO NACIONAL DE BACHILLERATO EN COMPUTACION,3A CALLE 15-45,22202223,LUCRECIA MARISOL CERMEÑO GONZÁLEZ,FREDY HUMBERTO GONZÁLEZ SANTISTEBAN,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),GUATEMALA NORTE
835,00-01-0176-46,01-301,CIUDAD CAPITAL,ZONA 1,INSTITUTO NACIONAL DE BACHILLERATO EN COMPUTACION,3A CALLE 15-45,22202223,LUCRECIA MARISOL CERMEÑO GONZÁLEZ,FREDY HUMBERTO GONZÁLEZ SANTISTEBAN,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,VESPERTINA,DIARIO(REGULAR),GUATEMALA NORTE
1703,00-01-0178-46,01-403,CIUDAD CAPITAL,ZONA 1,ESCUELA NACIONAL CENTRAL DE CIENCIAS COMERCIALES,10A. AVENIDA 9-42,22320914,CARLOS HUMBERTO GONZÁLEZ DE LEÓN,ESWIN NOE ROSALES LÓPEZ,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),GUATEMALA NORTE
836,00-01-0178-46,01-403,CIUDAD CAPITAL,ZONA 1,ESCUELA NACIONAL CENTRAL DE CIENCIAS COMERCIALES,10A. AVENIDA 9-42,22320914,CARLOS HUMBERTO GONZÁLEZ DE LEÓN,ESWIN NOE ROSALES LÓPEZ,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,NOCTURNA,DIARIO(REGULAR),GUATEMALA NORTE


Como vimos 5 datos exactamente iguales quiere decir que si el codigo se repite los datos iban a ser exactamente iguales por lo que decidimos eliminarlos. 

In [109]:
df = df.drop_duplicates(subset=['CODIGO'], keep='first').reset_index(drop=True)
print(f"Después de eliminar duplicados, el dataset tiene {df.shape[0]} filas.")

Después de eliminar duplicados, el dataset tiene 6503 filas.


### Ahora vamos a evaluar formatos en los numeros de telefono... 

In [110]:
# Primero trabajamos una copia para no perder datos originales
df['TELEFONO_ORIGINAL'] = df['TELEFONO']

# Reemplazamos separadores comunes por un guión único
df['TELEFONO_ORIGINAL'] = df['TELEFONO_ORIGINAL'].str.replace(r'[\s/,]+', '-', regex=True)

# Dividimos en máximo dos teléfonos
telefonos_divididos = df['TELEFONO_ORIGINAL'].str.split('-', n=1, expand=True)

# Asignamos a nuevas columnas
df['TELEFONO_1'] = telefonos_divididos[0]
df['TELEFONO_2'] = telefonos_divididos[1]

# Limpiamos cada uno para dejar solo números
df['TELEFONO_1'] = df['TELEFONO_1'].str.replace(r'\D', '', regex=True)
df['TELEFONO_2'] = df['TELEFONO_2'].str.replace(r'\D', '', regex=True)

# Si alguno queda vacío, lo marcamos como NaN
df['TELEFONO_1'] = df['TELEFONO_1'].replace('', pd.NA)
df['TELEFONO_2'] = df['TELEFONO_2'].replace('', pd.NA)

# Verificamos los resultados
df[['ESTABLECIMIENTO', 'TELEFONO_1', 'TELEFONO_2']].head(10)


Unnamed: 0,ESTABLECIMIENTO,TELEFONO_1,TELEFONO_2
0,COLEGIO COBAN,77945104,
1,COLEGIO PARTICULAR MIXTO VERAPAZ,77367402,
2,"COLEGIO ""LA INMACULADA""",78232301,
3,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,79514215,
4,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,79521468,
5,COLEGIO PARTICULAR MIXTO IMPERIAL,57101061,
6,"LICEO ""MODERNO LATINO""",79522555,
7,INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA,77930045,
8,"COLEGIO DE INFORMATICA ""CENINFAV""",79545566,
9,LICEO AMERICANO DEL NORTE,79514754,


In [111]:
# Eliminar columnas innecesarias
df = df.drop(columns=['TELEFONO', 'TELEFONO_ORIGINAL'])

# Verificar
df.head()


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,TELEFONO_1,TELEFONO_2
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,77945104,
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,77367402,
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,78232301,
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,79514215,
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,NORA LILIANA FIGUEROA HERNÁNDEZ,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ,79521468,


### Ahora pasamos a verificar categorías en variables categóricas
Esto lo hacemos para que por ejemplo en area no digan valores como URBANA Y URBANO o algo asi de errores pequeños de escritura.

In [112]:
categorical_cols = ['AREA', 'SECTOR', 'MODALIDAD', 'STATUS', 'JORNADA', 'PLAN']

for col in categorical_cols:
    print(f"\nValores únicos en {col}:")
    print(df[col].unique())



Valores únicos en AREA:
['URBANA' 'RURAL' 'AREA' 'SIN ESPECIFICAR']

Valores únicos en SECTOR:
['PRIVADO' 'OFICIAL' 'MUNICIPAL' 'COOPERATIVA' 'SECTOR']

Valores únicos en MODALIDAD:
['MONOLINGUE' 'BILINGUE' 'MODALIDAD']

Valores únicos en STATUS:
['ABIERTA' 'STATUS']

Valores únicos en JORNADA:
['MATUTINA' 'VESPERTINA' 'DOBLE' 'NOCTURNA' 'SIN JORNADA' 'JORNADA'
 'INTERMEDIA']

Valores únicos en PLAN:
['DIARIO(REGULAR)' 'FIN DE SEMANA' 'A DISTANCIA' 'SEMIPRESENCIAL'
 'SEMIPRESENCIAL (FIN DE SEMANA)' 'SEMIPRESENCIAL (UN DÍA A LA SEMANA)'
 'VIRTUAL A DISTANCIA' 'PLAN' 'SEMIPRESENCIAL (DOS DÍAS A LA SEMANA)'
 'SABATINO' 'INTERCALADO' 'DOMINICAL' 'MIXTO']


Como podemos observar los datos no hay ninguno que sean parecidos a otros asi que estas columnas categoricas estan bien.

Pero nos faltan revisar columnas clave..

In [113]:
categorical_cols = ['DEPARTAMENTO', 'MUNICIPIO', 'ESTABLECIMIENTO']

for col in categorical_cols:
    print(f"\nValores únicos en {col}:")
    print(df[col].unique())


Valores únicos en DEPARTAMENTO:
['ALTA VERAPAZ' 'DEPARTAMENTO' 'BAJA VERAPAZ' 'CHIMALTENANGO' 'CHIQUIMULA'
 'CIUDAD CAPITAL' 'ESCUINTLA' 'GUATEMALA' 'HUEHUETENANGO' 'IZABAL'
 'JALAPA' 'JUTIAPA' 'PETEN' 'QUETZALTENANGO' 'QUICHE' 'RETALHULEU'
 'SACATEPEQUEZ' 'SANTA ROSA' 'SAN MARCOS' 'SOLOLA' 'SUCHITEPEQUEZ'
 'TOTONICAPAN' 'ZACAPA']

Valores únicos en MUNICIPIO:
['COBAN' 'SANTA CRUZ VERAPAZ' 'SAN CRISTOBAL VERAPAZ' 'TACTIC' 'TAMAHU'
 'SAN MIGUEL TUCURU' 'PANZOS' 'SENAHU' 'SAN PEDRO CARCHA'
 'SAN JUAN CHAMELCO' 'LANQUIN' 'SANTA MARIA CAHABON' 'CHISEC' 'CHAHAL'
 'FRAY BARTOLOME DE LAS CASAS' 'LA TINTA' 'RAXRUHA' 'MUNICIPIO' 'SALAMA'
 'SAN MIGUEL CHICAJ' 'RABINAL' 'CUBULCO' 'GRANADOS' 'SANTA CRUZ EL CHOL'
 'SAN JERONIMO' 'PURULHA' 'CHIMALTENANGO' 'SAN JOSE POAQUIL'
 'SAN MARTIN JILOTEPEQUE' 'SAN JUAN COMALAPA' 'SANTA APOLONIA'
 'TECPAN GUATEMALA' 'PATZUN' 'SAN MIGUEL POCHUTA' 'PATZICIA'
 'SANTA CRUZ BALANYA' 'ACATENANGO' 'SAN PEDRO YEPOCAPA'
 'SAN ANDRES ITZAPA' 'PARRAMOS' 'ZARAGOZA' 'EL T

Como podemos ver encontramos datos con comillas simples, comillas dobles por lo que no es buena señal asi que vamos a remover comillas innecesarias 

In [118]:
import re
# Quitamos las comillas simples y dobles del texto
def limpiar_nombre_completo(texto):
    if pd.isnull(texto):
        return texto
    # Quitamos las comillas internas
    texto = re.sub(r"[\"']", '', texto)
    texto = texto.strip()
    return texto

# Aplicar a las columnas clave
for col in ['ESTABLECIMIENTO', 'DEPARTAMENTO', 'MUNICIPIO']:
    df[col] = df[col].apply(limpiar_nombre_completo)

Vamos a revisar y agrupar variantes por ejemplo si hubiesen escrito GUATEMALA, GUATEMALAA., GUA TE MALA o cosas asi aunque en los datos que vemos pues no vemos algo asi pero por si acaso. 

In [None]:
for col in [ 'DEPARTAMENTO']:
    print(f"\nValores únicos en {col}:")
    print(df[col].value_counts().head(20))


Valores únicos en ESTABLECIMIENTO:
ESTABLECIMIENTO
INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA                        277
INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA                         97
CENTRO DE EDUCACIÓN EXTRAESCOLAR -CEEX-                               32
INSTITUTO DE EDUCACION DIVERSIFICADA POR COOPERATIVA DE ENSEÑANZA     22
INSTITUTO DE EDUCACIÓN DIVERSIFICADA POR COOPERATIVA DE ENSEÑANZA     20
ESCUELA NORMAL DE EDUCACION FISICA                                    17
INSTITUTO DIVERSIFICADO POR COOPERATIVA                               15
INSTITUTO DIVERSIFICADO POR COOPERATIVA DE ENSEÑANZA                  14
LICEO CANADIENSE SOCIEDAD ANONIMA                                     13
ESCUELA NACIONAL DE CIENCIAS COMERCIALES                              13
COLEGIO PARTICULAR MIXTO SAGRADO CORAZÓN                              12
COLEGIO PRIVADO MIXTO AMERICANO                                       10
ESCUELA NORMAL INTERCULTURAL                                          10

Vemos demasiados datos que se ponen en dos categorias distintas unicamente por las tildes en que existen en unas pero en la otra no... Investigando un poco de que se hace en esos casos y lo mas facil pues es eliminar las tildes.

In [121]:
import unicodedata

def quitar_tildes(texto):
    if pd.isnull(texto):
        return texto
    texto = unicodedata.normalize('NFKD', texto)
    texto = ''.join([c for c in texto if not unicodedata.combining(c)])
    return texto

# Aplicar a las columnas clave
for col in ['ESTABLECIMIENTO', 'DEPARTAMENTO', 'MUNICIPIO']:
    df[col] = df[col].apply(quitar_tildes)



Volvemos a verificar...

In [122]:
for col in ['ESTABLECIMIENTO', 'MUNICIPIO']:
    print(f"\nValores únicos en {col}:")
    print(df[col].value_counts().head(20))


Valores únicos en ESTABLECIMIENTO:
ESTABLECIMIENTO
INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA                        375
INSTITUTO DE EDUCACION DIVERSIFICADA POR COOPERATIVA DE ENSENANZA     42
CENTRO DE EDUCACION EXTRAESCOLAR -CEEX-                               33
ESCUELA NORMAL DE EDUCACION FISICA                                    21
INSTITUTO DE COMPUTACION INFORMATICA                                  18
LICEO SAN JOSE                                                        15
INSTITUTO DIVERSIFICADO POR COOPERATIVA                               15
INSTITUTO DIVERSIFICADO POR COOPERATIVA DE ENSENANZA                  14
INSTITUTO DE EDUCACION DIVERSIFICADA POR COOPERATIVA                  14
ESCUELA NACIONAL DE CIENCIAS COMERCIALES                              13
COLEGIO PARTICULAR MIXTO SAGRADO CORAZON                              13
LICEO CANADIENSE SOCIEDAD ANONIMA                                     13
INSTITUTO TECNICO INDUSTRIAL HENRY FORD                               12

### Ya que terminamos con la limpieza podemos guardar el dataset.

In [115]:
df.to_csv('institutions_data_limpio.csv', index=False)
print("Archivo limpio guardado como institutions_data_limpio.csv")

Archivo limpio guardado como institutions_data_limpio.csv


Esto es verificacion de como queda un datos con dos numeros de telefono. 

In [116]:
codigo_buscado = "16-03-1388-46"

registro = df[df['CODIGO'] == codigo_buscado]

# Mostrar el resultado
if not registro.empty:
    display(registro)
else:
    print(f"No se encontró ningún registro con CODIGO: {codigo_buscado}")

Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL,TELEFONO_1,TELEFONO_2
110,16-03-1388-46,16-008,ALTA VERAPAZ,SAN CRISTOBAL VERAPAZ,COLEGIO MESON,8A. AVENIDA 6-00 ZONA 1,EMIILIO RUBÉN CAÁL GUALIB,LUIS EMILIO SOLARES MARROQUIN,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ,79504027,79504028
