# Obtención y Limpieza de Datos

In [67]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

## Obtención de datos
Los datos fueron obtenidos de la página de [Ministerio de Educación](http://www.mineduc.gob.gt/BUSCAESTABLECIMIENTO_GE/). Los datos representan todas las instituciones escolares (con diversificado) a todo el nivel nacional. Descargados en ``data/raw`` y juntados en un solo archivo llamado ``dataframe.xlsx``.

## Limpieza de datos

In [68]:
df = pd.read_excel('data/dataframe.xlsx')
df.head()

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

### Descripción del Set de Datos
Los datos incluyen información específica de los diferentes centros educativos en Guatemala con diversificado. Esta información incluye identificadores, ubicación, encargados, contacto y otros datos relevantes.

In [None]:
rows, cols = df.shape
print(f'Observaciones: {rows}, Variables: {cols}')

In [69]:
df.info()

NameError: name 'df' is not defined

In [70]:
df.describe()

NameError: name 'df' is not defined

In [71]:
df.isnull().sum()

NameError: name 'df' is not defined

### Limpieza del Set de Datos

#### Variables con más operaciones de Limpieza


#### Estrategia por Variable
- CODIGO
    - Debido a que esta variable es un identificador único, se debe verificar que no existan duplicados o valores nulos.
- DISTRITO
    - Se debe verificar que no existan valores nulos.
- DEPARTAMENTO
    - Se debe verificar que no existan valores nulos.
    - Que los departamentos estén escritos correctamente y en mayúsculas.
- MUNICIPIO
    - Se debe verificar que no existan valores nulos.
    - Que los municipios estén escritos correctamente y en mayúsculas.
- ESTABLECIMIENTO
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.
- DIRECCION
    - Que las direcciones estén escritas en mayúsculas.
    - Se debe verificar que no existan valores nulos.
        - Imputar valores nulos con un valor que represente la ausencia de una dirección.
- TELEFONO
    - Imputar valores nulos con un valor que represente la ausencia de un número de teléfono.
    - Eliminar valores que no sean números
    - Eliminar valores que no tengan 8 dígitos
- SUPERVISOR
    - Imputar valores nulos con un valor que represente la ausencia de un supervisor.
    - Que los nombres estén escritos en mayúsculas.
- DIRECTOR
    - Imputar valores nulos con un valor que represente la ausencia de un director.
    - Que los nombres estén escritos en mayúsculas.
- NIVEL
    - Verificar que no existan valores nulos.
    - Que los niveles estén escritos en mayúsculas.
    - Que sean todos de DIVERSIFICADO.
- SECTOR
    - Verificar que no existan valores nulos.
    - Que los sectores estén escritos en mayúsculas.
    - Que sean todos de OFICIAL | PRIVADO | COOPERATIVA | MUNICIPAL.
- AREA
    - Verificar que no existan valores nulos.
    - Que las áreas estén escritos en mayúsculas.
    - Que sean todos de URBANA | RURAL.
- STATUS
    - Verificar que no existan valores nulos.
    - Que los status estén escritos en mayúsculas.
- MODALIDAD
    - Verificar que no existan valores nulos.
    - Que sean todos de BILINGÜE | MONOLINGÜE.
    - Dado que es una variable binaria, cambiar de tipo y nombre a "BILINGUE".
        - 0: MONOLINGÜE
        - 1: BILINGÜE
- JORNADA
    - Se debe verificar que no existan valores nulos.
    - Que las jornadas estén escritas en mayúsculas.
- PLAN
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.
- DEPARTAMENTAL
    - Se debe verificar que no existan valores nulos.
    - Que los establecimientos estén escritos en mayúsculas.

### Ejecución de la Limpieza

#### CODIGO

In [72]:
df['CODIGO'].duplicated().sum()

NameError: name 'df' is not defined

Podemos observar que no existen valores duplicados en la variable de ``CODIGO``

#### DISTRITO

In [73]:
df['DISTRITO'].isna().sum()

NameError: name 'df' is not defined

Al existir 208 valores nulos, procedemos a colocar un valor que represente la ausencia de un distrito.

In [74]:
df['DISTRITO'] = df['DISTRITO'].fillna('SIN DISTRITO')

NameError: name 'df' is not defined

In [75]:
df['DISTRITO'].isna().sum()

NameError: name 'df' is not defined

In [76]:
df.head()

NameError: name 'df' is not defined

#### DEPARTAMENTO

In [77]:
df['DEPARTAMENTO'].isna().sum()

NameError: name 'df' is not defined

La variable ``DEPARTAMENTO`` no tiene valores nulos

In [78]:
# VALUE COUNTS SORTED BY DEPARTAMENTO
df['DEPARTAMENTO'].value_counts().sort_index()

NameError: name 'df' is not defined

Los departamentos están escritos correctamente y en mayúsculas.

#### MUNICIPIO

In [79]:
df['MUNICIPIO'].isna().sum()

NameError: name 'df' is not defined

La variable ``MUNICIPIO`` no tiene valores nulos

In [80]:
df[df['MUNICIPIO'].str.contains('[a-z]')]

NameError: name 'df' is not defined

Los municipios están escritos correctamente y en mayúsculas.

#### ESTABLECIMIENTO

In [81]:
df['ESTABLECIMIENTO'].isna().sum()

NameError: name 'df' is not defined

La variable ``ESTABLECIMIENTO`` no tiene valores nulos

In [82]:
df[df['ESTABLECIMIENTO'].str.contains('[a-z]')]

NameError: name 'df' is not defined

Los establecimientos están escritos en mayúsculas.

#### DIRECCION

In [83]:
df.shape

NameError: name 'df' is not defined

In [84]:
df['DIRECCION'].isna().sum()

NameError: name 'df' is not defined

In [85]:
df[df['DIRECCION'].isna()][['ESTABLECIMIENTO', 'DIRECCION']]

NameError: name 'df' is not defined

Existen 51 establecimientos que no tienen especificada una dirección. Procedemos a imputar estos valores con un valor que represente la ausencia de una dirección.

In [86]:
df['DIRECCION'] = df['DIRECCION'].fillna('SIN DIRECCION')

NameError: name 'df' is not defined

In [87]:
df['DIRECCION'].isna().sum()

NameError: name 'df' is not defined

In [88]:
df[df['DIRECCION'].str.contains('[a-z]')]

NameError: name 'df' is not defined

In [89]:
df['DIRECCION'] = df['DIRECCION'].str.upper()

NameError: name 'df' is not defined

En la dirección, al referirse a algunas calles/avenidas ordinales, se tenía una minúscula.

#### TELEFONO

In [90]:
df['TELEFONO'].isna().sum()

NameError: name 'df' is not defined

In [91]:
df['TELEFONO'] = df['TELEFONO'].fillna('')

NameError: name 'df' is not defined

In [92]:
df['TELEFONO'] = df['TELEFONO'].astype(str)

NameError: name 'df' is not defined

Podemos ver el pésimo formato de los números del teléfono. Existen también algunos con longitud de 7 dígitos, lo que implica que son números de teléfono de antes del 2000.

Hay números de teléfono separados por '-', '  ' o ', ', se elimina este carácter para los números con longitud de 8 dígitos (XXXX-XXXX) y para los de 7 (XXX-XXXX)

In [93]:
df['TELEFONO'] = df['TELEFONO'].apply(
    lambda x:
    x.split('/')[0]
    if len(x.split('/')[0]) in [8, 7]
    else x
)

NameError: name 'df' is not defined

Si el número se encuentra dividido por partes, lo unimos

In [94]:
df['TELEFONO'] = df['TELEFONO'].apply(
    lambda x:
    x.replace('-', '')
    if len(x.split('-')) == 2 and len(x.split('-')[0]) in [3, 4] and len(x.split('-')[1]) == 4
    else x
)

NameError: name 'df' is not defined

Función que realiza el procesado de números alternativos si es que existe más de un número en la celda, ya sea separado por un espacio en blanco, un guion o una coma.

In [95]:
def extract_phones(phone_str):

    phones = re.split(r'[\s,/-]+', phone_str)
    valid_phones = [phone for phone in phones if len(phone) in [7, 8]]
    primary_phone = valid_phones[0] if valid_phones else ''
    alt_phones = valid_phones[1:] if len(valid_phones) > 1 else []

    return primary_phone, alt_phones

In [96]:
df['TELEFONO'], df['TELEFONO_ALT'] = zip(*df['TELEFONO'].apply(extract_phones))

NameError: name 'df' is not defined

Dado que puede existir más de un teléfono alternativo la separacion de estos se estadariza usando comas.

In [97]:
df['TELEFONO_ALT'] = df['TELEFONO_ALT'].apply(lambda x: ','.join(x) if x else -1)

NameError: name 'df' is not defined

Ahora, la columna de número de teléfono puede ser numérica, los valores nulos se representan con -1

In [98]:
df['TELEFONO'] = df['TELEFONO'].replace('', -1).astype(int)
df['TELEFONO_ALT'] = df['TELEFONO_ALT'].replace('', -1)

NameError: name 'df' is not defined

Se verifica que no existan numeros con una longitud inválida, es decir, que no sea 7 ni 8.

In [99]:
df[df['TELEFONO'].apply(lambda x: len(str(x)) not in [7, 8] and x != -1)]

NameError: name 'df' is not defined

In [100]:
df['TELEFONO'] = df['TELEFONO'].apply(lambda x: x if len(str(x)) in [7, 8] else -1)

NameError: name 'df' is not defined

Verificar que no existan número de teléfono nulos mientras que sí existen números de teléfono alternativos.

In [101]:
df[(df['TELEFONO'] == -1) & (df['TELEFONO_ALT'] != -1)]

NameError: name 'df' is not defined

In [102]:
df.loc[df['TELEFONO'] == -1, 'TELEFONO'] = df.loc[df['TELEFONO'] == -1, 'TELEFONO_ALT'].apply(lambda x: int(x) if x != -1 else -1)

NameError: name 'df' is not defined

In [103]:
df

NameError: name 'df' is not defined

#### SUPERVISOR

In [104]:
df['SUPERVISOR'].isna().sum()

NameError: name 'df' is not defined

In [105]:
df['SUPERVISOR'] = df['SUPERVISOR'].fillna('SIN SUPERVISOR')

NameError: name 'df' is not defined

In [106]:
df['SUPERVISOR'] = df['SUPERVISOR'].str.upper()

NameError: name 'df' is not defined

In [107]:
df['SUPERVISOR'].isna().sum()

NameError: name 'df' is not defined

#### DIRECTOR

In [108]:
df['DIRECTOR'].isna().sum()

NameError: name 'df' is not defined

In [109]:
df['DIRECTOR'] = df['DIRECTOR'].fillna('SIN DIRECTOR')

NameError: name 'df' is not defined

In [110]:
df['DIRECTOR'] = df['DIRECTOR'].str.upper()

NameError: name 'df' is not defined

#### NIVEL

In [111]:
df['NIVEL'].isna().sum()

NameError: name 'df' is not defined

In [112]:
df['NIVEL'].value_counts()

NameError: name 'df' is not defined

Todos los valores son válidos. Hacemos el one hot encoding y eliminamos la variable original.

In [113]:
df = pd.concat([df, pd.get_dummies(df['NIVEL'], prefix='NIVEL')], axis=1)
df = df.drop(columns=['NIVEL'])

NameError: name 'df' is not defined

Se puede observar que todos los establecimientos son de nivel diversificado.

#### SECTOR

In [114]:
df['SECTOR'].isna().sum()

NameError: name 'df' is not defined

In [115]:
df['SECTOR'].value_counts()

NameError: name 'df' is not defined

Se puede observar que todos los establecimientos son de un sector válido.

#### AREA

In [116]:
df['AREA'].isna().sum()

NameError: name 'df' is not defined

In [117]:
df['AREA'].value_counts()

NameError: name 'df' is not defined

Solamente 2 establecimientos no tienen especificada el área. Esto se reflejará al momento de hacer el one hot encoding.

In [118]:
df = pd.concat([df, pd.get_dummies(df['AREA'], prefix='AREA')], axis=1)
df = df.drop(columns=['AREA', 'AREA_SIN ESPECIFICAR'])

NameError: name 'df' is not defined

#### STATUS

In [119]:
df['STATUS'].isna().sum()

NameError: name 'df' is not defined

In [120]:
df['STATUS'].value_counts()

NameError: name 'df' is not defined

Todos los valores son válidos.

#### MODALIDAD

In [121]:
df['MODALIDAD'].isna().sum()

NameError: name 'df' is not defined

In [122]:
df['MODALIDAD'].value_counts()

NameError: name 'df' is not defined

Dado que representa un valor numérico de los idiomas enseñados en la institución, se reemplaza por una variable ``MODALIDAD_NUM_IDIOMAS`` y se elimina la variable original.

In [123]:
df['MODALIDAD'] = df['MODALIDAD'].map({'MONOLINGUE': 1, 'BILINGUE': 2})
df = df.rename(columns={'MODALIDAD': 'MODALIDAD_NUM_IDIOMAS'})

NameError: name 'df' is not defined

#### JORNADA

In [124]:
df['JORNADA'].isna().sum()

NameError: name 'df' is not defined

In [125]:
df['JORNADA'].value_counts()

NameError: name 'df' is not defined

Todos los valores son válidos.

#### PLAN

In [126]:
df['PLAN'].isna().sum()

NameError: name 'df' is not defined

In [127]:
df['PLAN'].value_counts()

NameError: name 'df' is not defined

Todos los valores son válidos.

#### DEPARTAMENTAL

In [128]:
df['DEPARTAMENTAL'].isna().sum()

NameError: name 'df' is not defined

In [129]:
df['DEPARTAMENTAL'].value_counts()

NameError: name 'df' is not defined

Todos los valores son válidos.

### Exportación de Datos

In [130]:
df.head()

NameError: name 'df' is not defined

Exportamos los datos limpios a un archivo CSV.

In [None]:
df.to_csv('data/clean.csv', index=False)