# Analisis de Datos OPENCAMPUS 2020

In [9]:
import pandas as pd 
import os
import glob
import numpy as np
from IPython.display import display  # Mejor salida en Jupyter

# Ruta de la carpeta con los CSV
carpeta = 'notas-opencampus2020'

# Definir los límites de los rangos
rangos = [0.00, 0.40, 0.50, 0.60, 0.70, 1.01]  # Último valor para incluir 1.00
etiquetas = [
    '0.00 - 0.39',
    '0.40 - 0.49',
    '0.50 - 0.59',
    '0.60 - 0.69'
]

# Lista para almacenar resumen por curso
resumen = []

# Leer todos los archivos CSV de la carpeta
archivos = glob.glob(os.path.join(carpeta, '*.csv'))

for archivo in archivos:
    try:
        df = pd.read_csv(archivo, encoding='utf-8')

        # Verificar si existe la columna 'grade'
        if 'grade' not in df.columns:
            continue

        notas = df['grade']
        notas = notas[(notas >= 0) & (notas <= 1)]  # Asegurar datos válidos

        # Contar por rango definido
        conteo, _ = np.histogram(notas, bins=rangos)

        fila = {
            'Curso': os.path.basename(archivo),
            'Participantes': len(notas)
        }

        # Añadir conteo por rango
        for i, etiqueta in enumerate(etiquetas):
            fila[etiqueta] = conteo[i]

        # Estudiantes aprobados (nota >= 0.70)
        total_aprobados = (notas >= 0.70).sum()
        fila['Total ≥ 0.70'] = total_aprobados

        # Porcentaje de aprobación
        porcentaje_aprobacion = (total_aprobados / len(notas)) * 100 if len(notas) > 0 else 0
        fila['Porcentaje Aprobación (%)'] = round(porcentaje_aprobacion, 2)

        resumen.append(fila)

    except Exception as e:
        print(f"⚠ Error en {archivo}: {e}")

# Crear DataFrame
df_resumen = pd.DataFrame(resumen)

# Ordenar columnas
columnas_ordenadas = ['Curso', 'Participantes'] + etiquetas + ['Total ≥ 0.70', 'Porcentaje Aprobación (%)']
df_resumen = df_resumen[columnas_ordenadas]

# Agregar fila de totales generales
totales = df_resumen[etiquetas + ['Participantes', 'Total ≥ 0.70']].sum(numeric_only=True)
totales['Curso'] = 'ΣUMA'
totales['Porcentaje Aprobación (%)'] = round((totales['Total ≥ 0.70'] / totales['Participantes']) * 100, 2)
df_resumen = pd.concat([df_resumen, pd.DataFrame([totales])], ignore_index=True)

# Mostrar con display
display(df_resumen)


Unnamed: 0,Curso,Participantes,0.00 - 0.39,0.40 - 0.49,0.50 - 0.59,0.60 - 0.69,Total ≥ 0.70,Porcentaje Aprobación (%)
0,UTPL_AKOMP14_2020_2_grade_report_2020-12-29-18...,1918,1434,50,73,56,305,15.9
1,UTPL_ANTRPY7_2020_2_grade_report_2020-12-29-18...,832,596,31,45,36,124,14.9
2,UTPL_AUDIOVPRO8_2020_2_grade_report_2020-12-29...,1881,1458,42,53,41,287,15.26
3,UTPL_CD14_2020_2_grade_report_2020-12-29-1706.csv,1698,1276,27,52,15,328,19.32
4,UTPL_COMPFUND4_2020_2_grade_report_2020-12-29-...,2626,1903,124,147,44,408,15.54
5,UTPL_EAAM7_2020_2_grade_report_2020-12-29-1718...,1150,899,23,22,44,162,14.09
6,UTPL_EAIG7_2020_2_grade_report_2020-12-29-1720...,3055,2915,26,18,17,79,2.59
7,UTPL_EAUF7_2020_2_grade_report_2020-12-29-1724...,1188,798,33,3,17,337,28.37
8,UTPL_EFHE14_2020_2_grade_report_2020-12-29-172...,2812,2073,81,97,38,523,18.6
9,UTPL_ETHIC4_2020_2_grade_report_2020-12-29-173...,1568,1209,23,23,37,276,17.6
