# Proyecto 1 Data Science

Para este proyecto se analizaran los datos de los establecimientos educativos de todo el país que lleguen hasta el nivel de diversificado.

## Descripción de los datos

In [2]:
import pandas as pd

df = pd.read_csv('institutions_data.csv')
df.columns = df.iloc[0]
df =df[1:] #Lo que se hace con esto es eliminar la primera fila que contiene los numeros de las columnas

In [3]:
num_rows = df.shape[0]
print(f"Se tiene un total de: {num_rows}, para el dataset que contiene todos los datos de los establecimientos crudos")

Se tiene un total de: 7413, para el dataset que contiene todos los datos de los establecimientos crudos


Para el dataset tenemos las siguientes variables: 

In [4]:
for column in df.columns:
    print(column)

CODIGO
DISTRITO
DEPARTAMENTO
MUNICIPIO
ESTABLECIMIENTO
DIRECCION
TELEFONO
SUPERVISOR
DIRECTOR
NIVEL
SECTOR
AREA
STATUS
MODALIDAD
JORNADA
PLAN
DEPARTAMENTAL


Para un total de 17 variables tenemos la siguiente clasificación:
- Cualitativas:
    - Codigo: Código único del establecimiento.
    - Distrito: Código o nombre del distrito administrativo del Mineduc.
    - Departamento: Nombre del departamento de Guatemala.
    - Municipio: Nombre del municipio donde esta ubicado el centro educativo.
    - Establecimiento: Nombre del establecimiento educativo.
    - Dirección: Dirección física del establecimiento.
    - Teléfono: Número telefónico del establecimiento.
    - Supervisor: Nombre completo del supervisor asignado.
    - Director: Nombre del director o directora del establecimiento.
    - Nivel: nivel educativo ofrecido (diversificado, primaria, etc)
    - Sector: Sector administrativo (oficial, privado, cooperativa, etc) 
    - Area: Área geográfica (rural, urbana)
    - Status: Estado operativo (abierta, cerrada, etc)
    - Modalidad: Modalidad educativa (monolingüe, bilingüe, etc)
    - Jornada: Horario (matutino, vespertino, nocturno, etc)
    - Plan: Tipo de plan educativo (Diario, Semipresencial, etc)
    - Departamental: Nombre del departamento.

Ver cuántas filas tienen valores nulos en las columnas clave

In [5]:
print("Valores nulos por columna:")
print(df.isnull().sum())

Valores nulos por columna:
0
CODIGO             23
DISTRITO           23
DEPARTAMENTO       23
MUNICIPIO          23
ESTABLECIMIENTO    23
DIRECCION          25
TELEFONO           67
SUPERVISOR         23
DIRECTOR           52
NIVEL              23
SECTOR             23
AREA               23
STATUS             23
MODALIDAD          23
JORNADA            23
PLAN               23
DEPARTAMENTAL      23
dtype: int64


Lo que nos da esto es como una señal que habran filas completamentes vacias con el numero en comun 23. Pero para verificar haremos el siguiente paso.. 

In [6]:
# Filas completamente vacías
print(f"Filas completamente vacías: {(df.isnull().all(axis=1)).sum()}")

Filas completamente vacías: 23


Nos confirma las sospechas de que se fueron 23 filas sin datos enteros.
Ultima cosa que podriamos hacer para verificar datos importantes o incluso un paso antes es verificar que filas sin codigo o sin establecimiento existen ya que no importaria tener los siguientes datos si no tenemos estos. 

In [8]:
# Filas sin código o sin establecimiento
incompletas = df[df['CODIGO'].isnull() | df['ESTABLECIMIENTO'].isnull()]
print(f"Filas sin CODIGO o sin ESTABLECIMIENTO: {incompletas.shape[0]}")

Filas sin CODIGO o sin ESTABLECIMIENTO: 23


Bueno luego de ver esto ya podemos empezar con la elimacion.. 

In [10]:

# Eliminar filas completamente vacías
df = df.dropna(how='all')

In [11]:

# Eliminar filas sin código o sin establecimiento
df = df.dropna(subset=['CODIGO', 'ESTABLECIMIENTO'])

Ahora reiniciamos los indices despues de la eliminacion de los datos. 

In [14]:
df = df.reset_index(drop=True)
print(f"Después de limpiar, el dataset tiene {df.shape[0]} filas. Comparadas con las {num_rows} filas originales, se eliminaron {num_rows - df.shape[0]} filas.")
df.head()

Después de limpiar, el dataset tiene 7390 filas. Comparadas con las 7413 filas originales, se eliminaron 23 filas.


Unnamed: 0,CODIGO,DISTRITO,DEPARTAMENTO,MUNICIPIO,ESTABLECIMIENTO,DIRECCION,TELEFONO,SUPERVISOR,DIRECTOR,NIVEL,SECTOR,AREA,STATUS,MODALIDAD,JORNADA,PLAN,DEPARTAMENTAL
0,16-01-0138-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO COBAN,KM.2 SALIDA A SAN JUAN CHAMELCO ZONA 8,77945104,PATRICIO NAJARRO ASENCIO,GUSTAVO ADOLFO SIERRA POP,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
1,16-01-0139-46,16-031,ALTA VERAPAZ,COBAN,COLEGIO PARTICULAR MIXTO VERAPAZ,KM 209.5 ENTRADA A LA CIUDAD,77367402,PATRICIO NAJARRO ASENCIO,GILMA DOLORES GUAY PAZ DE LEAL,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
2,16-01-0140-46,16-031,ALTA VERAPAZ,COBAN,"COLEGIO ""LA INMACULADA""",7A. AVENIDA 11-109 ZONA 6,78232301,PATRICIO NAJARRO ASENCIO,VIRGINIA SOLANO SERRANO,DIVERSIFICADO,PRIVADO,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
3,16-01-0141-46,16-005,ALTA VERAPAZ,COBAN,ESCUELA NACIONAL DE CIENCIAS COMERCIALES,2A CALLE 11-10 ZONA 2,79514215,NORA LILIANA FIGUEROA HERNÁNDEZ,HÉCTOR ROLANDO CHUN POOU,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,MONOLINGUE,MATUTINA,DIARIO(REGULAR),ALTA VERAPAZ
4,16-01-0142-46,16-005,ALTA VERAPAZ,COBAN,INSTITUTO NORMAL MIXTO DEL NORTE 'EMILIO ROSAL...,3A AVE 6-23 ZONA 11,79521468,NORA LILIANA FIGUEROA HERNÁNDEZ,VICTOR HUGO DOMÍNGUEZ REYES,DIVERSIFICADO,OFICIAL,URBANA,ABIERTA,BILINGUE,VESPERTINA,DIARIO(REGULAR),ALTA VERAPAZ
