<h1 style="text-align:center;"><b>Data Science - Proyecto 1: Limpieza de Datos</b></h1>
<h3 style="text-align:center;">Alina Carías, Marcos Díaz, Ariela Mishaan </h3>

In [26]:
import os
import glob
import pandas as pd 
import re

# 1. Carga de datos

En este paso, no solamente se importaron los CSVs desde el fólder en el directorio, sino también se aprovechó el ciclo for para eliminar las filas y columnas vacías o inútiles que traían los exceles. Dado que todos venían en exactamente el mismo formato, se pudo inspeccionar exactamente qué era lo que se necesitaba, para hacer el proceso de forma masiva. El proceso es el siguiente: 

1. Carga de archivo csv en un dataframe de pandas. 
2. Leer solamente las filas donde hay datos relevantes (de la 27 hasta antes de las últimas 5)
3. Cambiar el encabezado, poner en él los nombres de las columnas. 
4. Borrar las columnas con solo datos inexistentes (NA - estas son por el formato en el que venían los archivos)
5. Resetear los índices del dataframe de pandas para que sean manejables los datos. 
6. Agregar el dataframe del departamento a la lista con todos los dataframes. 

In [27]:
folder_path = "Datos/CSVs" 
contenido = os.listdir(folder_path)
csv_files = glob.glob(f'{folder_path}/*.csv')

datos = []

for file_path in csv_files:
    print(f"Leyendo archivo: {file_path}")

    # Leer el df, borrando las primeras 27 filas de todos los archivos y las últimas 7
    df = pd.read_csv(file_path, header = None )[25:-5]

    # Cambiar el header para poner los nombres de las columnas
    new_header = df.iloc[0]  
    df2 = df[1:].copy()     
    df2.columns = new_header   

    # Borrar la segunda columna y las últimas dos
    indices = [1, -1,-2]
    df_dropped_multiple = df2.drop(df2.columns[indices], axis=1)

    # Resetear los índices
    df2 = df2.reset_index(drop = True)

    #Meter el dataframe a la lista
    datos.append(df2)

df_unido = pd.concat(datos, ignore_index=True)

print("\nImportación realizada con éxito")

Leyendo archivo: Datos/CSVs\Alta Verapaz.csv
Leyendo archivo: Datos/CSVs\Baja Verapaz.csv
Leyendo archivo: Datos/CSVs\Chimaltenango.csv
Leyendo archivo: Datos/CSVs\Chiquimula.csv
Leyendo archivo: Datos/CSVs\Ciudad Capital.csv
Leyendo archivo: Datos/CSVs\El Progreso.csv
Leyendo archivo: Datos/CSVs\Escuintla.csv
Leyendo archivo: Datos/CSVs\Guatemala.csv
Leyendo archivo: Datos/CSVs\Huehuetenango.csv
Leyendo archivo: Datos/CSVs\Izabal.csv
Leyendo archivo: Datos/CSVs\Jalapa.csv
Leyendo archivo: Datos/CSVs\Jutiapa.csv
Leyendo archivo: Datos/CSVs\Petén.csv
Leyendo archivo: Datos/CSVs\Quetzaltenango.csv
Leyendo archivo: Datos/CSVs\Quiché.csv
Leyendo archivo: Datos/CSVs\Retalhuleu.csv
Leyendo archivo: Datos/CSVs\Sacatepéquez.csv
Leyendo archivo: Datos/CSVs\San Marcos.csv
Leyendo archivo: Datos/CSVs\Santa Rosa.csv
Leyendo archivo: Datos/CSVs\Sololá.csv
Leyendo archivo: Datos/CSVs\Suchitepéquez.csv
Leyendo archivo: Datos/CSVs\Totonicapán.csv
Leyendo archivo: Datos/CSVs\Zacapa.csv

Importación rea

# 2. Análisis del estado de los datos crudos

In [28]:
# Muestra la información del dataset unido
print(df_unido.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6600 entries, 0 to 6599
Data columns (total 17 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   CODIGO           6600 non-null   object
 1   DISTRITO         6600 non-null   object
 2   DEPARTAMENTO     6600 non-null   object
 3   MUNICIPIO        6600 non-null   object
 4   ESTABLECIMIENTO  6600 non-null   object
 5   DIRECCION        6598 non-null   object
 6   TELEFONO         6554 non-null   object
 7   SUPERVISOR       6600 non-null   object
 8   DIRECTOR         6574 non-null   object
 9   NIVEL            6600 non-null   object
 10  SECTOR           6600 non-null   object
 11  AREA             6600 non-null   object
 12  STATUS           6600 non-null   object
 13  MODALIDAD        6600 non-null   object
 14  JORNADA          6600 non-null   object
 15  PLAN             6600 non-null   object
 16  DEPARTAMENTAL    6600 non-null   object
dtypes: object(17)
memory usage: 876.7

In [29]:
# Revisa valores únicos por columna
for col in df_unido.columns:
    print(f"\nColumna: {col}")
    print(df_unido[col].value_counts(dropna=False).head())

# Revisa valores nulos
print()
print(df_unido.isnull().sum())


Columna: CODIGO
CODIGO
19-11-0018-46    1
16-01-0138-46    1
16-01-0139-46    1
16-01-0140-46    1
16-01-0141-46    1
Name: count, dtype: int64

Columna: DISTRITO
DISTRITO
01-403    160
11-017    139
01-411    103
05-033     94
18-039     84
Name: count, dtype: int64

Columna: DEPARTAMENTO
DEPARTAMENTO
GUATEMALA         1038
CIUDAD CAPITAL     867
SAN MARCOS         432
ESCUINTLA          393
QUETZALTENANGO     365
Name: count, dtype: int64

Columna: MUNICIPIO
MUNICIPIO
ZONA 1            303
MIXCO             300
VILLA NUEVA       223
QUETZALTENANGO    175
RETALHULEU        156
Name: count, dtype: int64

Columna: ESTABLECIMIENTO
ESTABLECIMIENTO
INSTITUTO NACIONAL DE EDUCACION DIVERSIFICADA                        286
INSTITUTO NACIONAL DE EDUCACIÓN DIVERSIFICADA                        102
CENTRO DE EDUCACIÓN EXTRAESCOLAR -CEEX-                               32
INSTITUTO DE EDUCACION DIVERSIFICADA POR COOPERATIVA DE ENSEÑANZA     22
INSTITUTO DE EDUCACIÓN DIVERSIFICADA POR COOPERATIVA D

In [30]:
# Vista previa de los datos
print(df_unido.sample(10))

25           CODIGO DISTRITO    DEPARTAMENTO               MUNICIPIO  \
3990  22-01-0627-46   22-001         JUTIAPA                 JUTIAPA   
5556  12-02-0138-46   12-055      SAN MARCOS  SAN PEDRO SACATEPEQUEZ   
5131  11-01-0478-46   11-017      RETALHULEU              RETALHULEU   
3744  18-04-0496-46   18-039          IZABAL                 MORALES   
5360  03-01-1341-46   03-002    SACATEPEQUEZ       ANTIGUA GUATEMALA   
4723  09-17-0056-46   09-039  QUETZALTENANGO      COLOMBA COSTA CUCA   
4143  22-13-0028-46   22-036         JUTIAPA                CONGUACO   
2331  01-07-0061-46   01-114       GUATEMALA       SAN PEDRO AYAMPUC   
4835  09-23-0047-46   09-020  QUETZALTENANGO            LA ESPERANZA   
4362  17-09-0004-46   17-015           PETEN                SAN LUIS   

25                                     ESTABLECIMIENTO  \
3990               COLEGIO PARTICULAR MIXTO SAN MIGUEL   
5556              COLEGIO PARTICULAR MIXTO "SANTA ANA"   
5131                          COL

# 3. Operaciones de limpieza

### A. Unir los datos horizontalmente

Se unen los 23 dataframes para obtener un solo archivo y limpiarlo más efectivamente. 

In [31]:
todos = pd.concat(datos, ignore_index=True)
todos

# Verificación de que las filas son la cantidad correcta
contador = 0
for archivo in datos:
    contador = contador + len(archivo)

print(f'La cantidad de filas coincide: {len(todos) == contador}')
print(f'Hay {len(todos)} establecimientos educativos en Guatemala.')

# Cambiar encabezado a minúsculas


La cantidad de filas coincide: True
Hay 6600 establecimientos educativos en Guatemala.


#### Renombramiento de columnas (mayúsculas a minúsculas)

In [33]:
df_unido.columns = df_unido.columns.str.strip().str.lower().str.replace(' ', '_')

### B. Limpiar variable Teléfono

1. Se eliminan todos los espacios vacíos de la columna (" ")
2. Se mantienen solo los primeros 8 caracteres. 
3. No se eliminan los registros nulos, sino solo se pone el valor NA. 

In [39]:
def clean_phone(phone):
    phone = str(phone)
    phone = re.sub(r'\D', '', phone)  # elimina cualquier carácter no numérico
    if len(phone) == 8:
        return f' {phone[:4]}-{phone[4:]}'
    elif len(phone) == 0:
        return None
    else:
        return phone  # conservar si no es estándar

df_unido['telefono'] = df_unido['telefono'].apply(clean_phone)

df_unido['telefono'].head(10)


0     7794-5104
1     7736-7402
2     7823-2301
3     7951-4215
4     7952-1468
5     5710-1061
6     7952-2555
7     7793-0045
8     7954-5566
9     7951-4754
Name: telefono, dtype: object

### C. Limpiar variables con nombres (director, supervisor) y dirección 

#### Eliminación de espacios duplicados y caracteres invisibles

In [None]:
text_cols = ['departamento', 'municipio', 'establecimiento', 'direccion', 'supervisor', 'director', 'nivel', 'sector', 'area', 'status', 'modalidad', 'jornada', 'plan', 'departamental']

for col in text_cols:
    df_unido[col] = df_unido[col].astype(str).str.strip()
    df_unido[col] = df_unido[col].str.replace(r'\s+', ' ', regex=True)


# 4. Guardar datos limpios