# Directorio Oficial de Establecimientos
En este Jupyter Notebook, se limpia el directorio oficial de establecimientos, para que pueda ser utilizado en el análisis de datos.

Este dataset contiene información de los establecimientos educacionales de Chile, incluyendo su ubicación, tipo de establecimiento, etc.

## 1. Importar librerías
A continuación, se importan las librerías que se utilizarán en el Jupyter Notebook.

In [4]:
import pandas as pd

## 2. Cargar datos
Se cargan los datos desde el archivo `Directorio.csv` y se guardan en un DataFrame de pandas.

In [5]:
data_path = 'data/Directorio.csv'
df = pd.read_csv(data_path, sep=';')

### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- `RBD`: Rol Base de Datos
- `NOM_RBD`: Nombre del establecimiento
- `COD_COM_RBD`: Código de la comuna
- `COD_DEPE2`: Código de dependencia (agrupado)
- `LATITUD`: Latitud
- `LONGITUD`: Longitud
- `MAT_TOTAL`: Matrícula total
- `ESTADO_ESTAB`: Estado del establecimiento
- `ENS_01`: Código de enseñanza 01*

* Esta columna posee información relevante que podría servir a futuro.

In [6]:
# Mantiene las columnas que se encuentran en la lista
columns = ['RBD', 'NOM_RBD', 'COD_COM_RBD', 'COD_DEPE2', 'LATITUD', 'LONGITUD', 'MAT_TOTAL', 'ESTADO_ESTAB', 'ENS_01']
df = df[columns]

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16601 entries, 0 to 16600
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   RBD           16601 non-null  int64 
 1   NOM_RBD       16571 non-null  object
 2   COD_COM_RBD   16601 non-null  int64 
 3   COD_DEPE2     16601 non-null  int64 
 4   LATITUD       16601 non-null  object
 5   LONGITUD      16601 non-null  object
 6   MAT_TOTAL     16601 non-null  int64 
 7   ESTADO_ESTAB  16601 non-null  int64 
 8   ENS_01        16601 non-null  int64 
dtypes: int64(6), object(3)
memory usage: 1.1+ MB


## 3. Limpieza de datos
A continuación, se realiza la limpieza de datos del DataFrame con la finalidad de que pueda ser utilizado en el análisis de datos.

### 3.1 Filtro de comunas
Primero que todo, nos aseguraremos que los datos se encuentren solo en las comunas de 'Copiapo' o 'RM'

In [8]:
# Asegura que 'COD_COM_RBD' empieze con 13 (RM) o 31 (Copiapó)
df = df[df['COD_COM_RBD'].astype(str).str.startswith('13') | df['COD_COM_RBD'].astype(str).str.startswith('31')]

### 3.2 Filtro de estado del establecimiento
Luego, nos aseguraremos que ĺos establecimientos no se encuentren cerrados.

In [9]:
# Asegura que 'ESTADO_ESTAB' sea distinto a 3 (Cerrado)
df = df[df['ESTADO_ESTAB'] != 3]

### 3.3 Check de tipos de datos
A continuación, se revisan los tipos de datos de cada columna.

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3456 entries, 306 to 16594
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   RBD           3456 non-null   int64 
 1   NOM_RBD       3456 non-null   object
 2   COD_COM_RBD   3456 non-null   int64 
 3   COD_DEPE2     3456 non-null   int64 
 4   LATITUD       3456 non-null   object
 5   LONGITUD      3456 non-null   object
 6   MAT_TOTAL     3456 non-null   int64 
 7   ESTADO_ESTAB  3456 non-null   int64 
 8   ENS_01        3456 non-null   int64 
dtypes: int64(6), object(3)
memory usage: 270.0+ KB


In [11]:
# Aseguramos que 'LATITUD' y 'LONGITUD' no sean strings vacios
df = df[(df['LATITUD'] != ' ') & (df['LONGITUD'] != ' ')]

# Cambiamos el tipo de dato de Latitud y Longitud a float, asegurando el cambio de ',' a '.'
df['LATITUD'] = df['LATITUD'].str.replace(',', '.').astype(float)
df['LONGITUD'] = df['LONGITUD'].str.replace(',', '.').astype(float)

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3353 entries, 306 to 16549
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   RBD           3353 non-null   int64  
 1   NOM_RBD       3353 non-null   object 
 2   COD_COM_RBD   3353 non-null   int64  
 3   COD_DEPE2     3353 non-null   int64  
 4   LATITUD       3353 non-null   float64
 5   LONGITUD      3353 non-null   float64
 6   MAT_TOTAL     3353 non-null   int64  
 7   ESTADO_ESTAB  3353 non-null   int64  
 8   ENS_01        3353 non-null   int64  
dtypes: float64(2), int64(6), object(1)
memory usage: 262.0+ KB


### 3.4 Filtro de errores en los datos
Finalmente, verificamos que los datos tengan sentido lógico y no posean errores.

In [12]:
# Asegura que 'MAT_TOTAL' sea mayor a cero
df = df[df['MAT_TOTAL'] > 0]

In [13]:
# Asegura que 'NOM_RBD' no sea vacío
df = df[df['NOM_RBD'] != ' ']

In [14]:
# Asegura que no existan valores NaN o repetidos
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2982 entries, 306 to 16548
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   RBD           2982 non-null   int64  
 1   NOM_RBD       2982 non-null   object 
 2   COD_COM_RBD   2982 non-null   int64  
 3   COD_DEPE2     2982 non-null   int64  
 4   LATITUD       2982 non-null   float64
 5   LONGITUD      2982 non-null   float64
 6   MAT_TOTAL     2982 non-null   int64  
 7   ESTADO_ESTAB  2982 non-null   int64  
 8   ENS_01        2982 non-null   int64  
dtypes: float64(2), int64(6), object(1)
memory usage: 233.0+ KB


## 4. Cambio de nombre a las columnas
A continuación, se cambia el nombre de las columnas para que sea más fácil trabajar con ellas.

In [16]:
# 

## 5. Exportar datos
Finalmente, se exportan los datos a un archivo csv.

In [17]:
df.to_csv('output_data/directorio.csv', index=False)