#                          Diseño dataSet para crear el modelo 

In [1]:
from pymongo import MongoClient
import pandas as pd
import base64
from io import BytesIO
import datetime
import numpy as np

In [2]:
import plotly.express as px

## Funciones para extraer la información de la base de datos

In [3]:
def get_db():
    '''
    Esta función realiza la conexión con la base de datos
    '''
    try:
        client = MongoClient("mongodb+srv://kevindev:qAWDpxE0GnoZPoAF@colegiosai.qs31n.mongodb.net/myFirstDatabase", retryWrites=False)
        db = client['ColegiosAI']
    except BaseException as ex:
        print(f'Error de conexion {ex}')
    return db

In [4]:
def createDataFrameMaterias(ciclo,materia,gradosAcademicos):
    '''
    Esta función extrae la información de la base de datos para cada una de las materias dependiendo del ciclo
    académico. Además, crea un DataFrame con la información que se usara en el modelo.
    Input: 
        ciclo:
            tipo: diccionario
            descripción: define el ciclo académico, opciones: primaria, secundaria_1 o secundaria_2             
        materia:
            tipo: lista
            descripción: son las materiales relacionadas con el ciclo académico. 
        gradosAcademicos:
            tipo: grados relacionados con el ciclo académico.
    Output:
        DataFrame con la información extraida de la base de datos en el formato requerido.
        
    '''
    
    query_dos = db.estudiantes.aggregate([
        {
            '$project': {
                '_id': 0, 
	            'full_name': 1,
	            'full_name': 1,
	            ciclo[materia]: 1,
	            'year': 1,
	            'segment': 1
            }
        }
    ])
    df = pd.json_normalize(query_dos)
    df = df[df.segment.isin(gradosAcademicos)]
    df.drop([ciclo[materia]+'.f'],axis=1,inplace=True)
    df_nuevo = pd.DataFrame(columns=['nombre','segment', 'fecha', 'periodo',ciclo[materia]+'-nota'])
    fecha = ['03/01/','06/01/','09/01/','12/01/']
    for i in range(0,len(df),1):
        for j in range(1,5,1):
            dff = pd.DataFrame([[df.full_name.iloc[i],df.segment.iloc[i],fecha[j-1]+str(df.year.iloc[i]),'p'+str(j),df[ciclo[materia]+'.p'+str(j)].iloc[i]]],columns=['nombre', 'segment', 'fecha', 'periodo' ,ciclo[materia]+'-nota'])
            df_nuevo = pd.concat([df_nuevo, dff],ignore_index=True)
    return df_nuevo

In [5]:
def createDataFrame(ciclo,materias,gradosAcademicos):
    '''
    Esta función agrupa los DataFrames creados con la funcion "createDataFrameMaterias()" para cada una de 
    las materias del ciclo académico
    Input: 
        ciclo:
            tipo: diccionario
            descripción: define el ciclo académico, opciones: primaria, secundaria_1 o secundaria_2             
        materia:
            tipo: lista
            descripción: son las materiales relacionadas con el ciclo académico. 
        gradosAcademicos:
            tipo: grados relacionados con el ciclo académico.
    Output:
        DataFrame con la información extraida de la base de datos en el formato requerido.
        
    '''
    for materia in materias:
        df = createDataFrameMaterias(ciclo,materia,gradosAcademicos)
        try:
            df_temp = df_temp.merge(df, on=['nombre','segment','fecha','periodo'])
        except:
            df_temp = df[['nombre', 'fecha','segment', 'periodo', ciclo[materia]+'-nota']]
            df_temp = df_temp.merge(df, on=['nombre','segment','fecha','periodo'])
    #df_temp.drop(df_temp[df_temp['subject_2-nota']==''].index,inplace=True)
    filtro_notas = {'AB':2, 'AA':4, 'NA':1, 'AM':3, '':np.nan, 'NP':np.nan}
    df_temp = df_temp.replace(filtro_notas)
    df_temp=df_temp.fillna(method='bfill')
    df_temp['fecha'] = pd.to_datetime(df_temp['fecha'])
    return df_temp

In [6]:
#Crea la conexción con la base de datos
db = get_db()

# PRIMARIA

In [7]:
gradosPrimaria = ['CUARTO 401 - 3',
       'CUARTO 402 - 3', 'CUARTO 403 - 3', 'PRIMERO 101 - 3',
       'PRIMERO 102 - 3', 'PRIMERO 103 - 3', 'QUINTO 501 - 3',
       'QUINTO 502 - 3', 'QUINTO 503 - 3', 'SEGUNDO 201 - 3',
       'SEGUNDO 202 - 3', 'SEGUNDO 203 - 3', 'TERCERO 301 - 3',
       'TERCERO 302 - 3', 'TERCERO 303 - 3', 'CUARTO 401 - 4',
       'CUARTO 402 - 4', 'PRIMERO 101 - 4', 'PRIMERO 102 - 4',
       'QUINTO 501 - 4', 'QUINTO 502 - 4', 'SEGUNDO 201 - 4',
       'SEGUNDO 202 - 4', 'SEGUNDO 203 - 4', 'TERCERO 301 - 4',
       'TERCERO 302 - 4', 'TERCERO 303 - 4', 'PRIMERO 104 - 3',
       'PRIMERO 103 - 4', 'CUARTO 1 - 3', 'CUARTO 2 - 3', 'CUARTO 3 - 3',
       'PRIMERO 1 - 3', 'PRIMERO 2 - 3', 'PRIMERO 3 - 3', 'QUINTO 1 - 3',
       'QUINTO 2 - 3', 'QUINTO 3 - 3', 'SEGUNDO 1 - 3', 'SEGUNDO 2 - 3',
       'SEGUNDO 3 - 3', 'SEGUNDO 4 - 3', 'TERCERO 1 - 3', 'TERCERO 2 - 3',
       'TERCERO 3 - 3', 'CUARTO 1 - 4', 'CUARTO 2 - 4', 'PRIMERO 1 - 4',
       'PRIMERO 2 - 4', 'PRIMERO 3 - 4', 'QUINTO 1 - 4', 'QUINTO 2 - 4',
       'SEGUNDO 1 - 4', 'SEGUNDO 2 - 4', 'SEGUNDO 3 - 4', 'TERCERO 1 - 4',
       'TERCERO 2 - 4', 'CUARTO 403 - 4']

In [8]:
materiasPrimaria = ["Ciencias naturales y educación ambiental",
			'Ciencias sociales, historia, geografía, constitución política y democracia',
			"Educación artística y Cultural",
			"Educación ética y en valores humanos. ",
			"Educación física,  recreación y deportes",
			"Educación religiosa. ",
			"Humanidades, lengua castellana",
			"Idioma extranjero  Inglés",
			"Matemáticas",
			"Sensibilización Pedagógica",
			"Tecnología e informática"]

In [9]:
primaria = {"Ciencias naturales y educación ambiental":'subject_1',
			'Ciencias sociales, historia, geografía, constitución política y democracia':'subject_2',
			"Educación artística y Cultural":'subject_3',
			"Educación ética y en valores humanos. ":'subject_4',
			"Educación física,  recreación y deportes":'subject_5',
			"Educación religiosa. ":'subject_6',
			"Humanidades, lengua castellana":'subject_7',
			"Idioma extranjero  Inglés":'subject_8',
			"Matemáticas":'subject_9',
			"Sensibilización Pedagógica":'subject_10',
			"Tecnología e informática":'subject_11'}

In [10]:
def dataPrimaria(df):
    '''
    Esta función realiza las siguientes modificaciones:
        Elimina los espacios al inicio y al final de la columna de nombres
        De la columna de los grados elimina el número, es decir 'CUARTO 403 - 3' pasa a ser 'CUARTO'
        Existe una fecha en la cual no se cuentan con datos, la completamos con la del trimestre anterior
        se unieron dos columnas: "Educación ética y en valores humanos. ":'subject_4' y 
            "Educación religiosa. ":'subject_6', de estas se obtuvo el promedio y se nombro como 
            'subject_12-nota':"Humanidades"
    '''
    df['nombre'] = df.nombre.str.strip()
    df['segment']=df.segment.str.split(expand = True)[0]
    df_2 = df[df.fecha=='2020-09-01'].reset_index().drop('index',axis=1)
    n=0
    for i in df[df.fecha=='2020-12-01'].index:
        for j in range(4,17):
            df.iloc[i,j:j+1] = df_2.iloc[n,j:j+1]
        n=n+1
    df['mes'] = df.fecha.dt.month
    df=df.fillna(method='bfill')
    df['subject_12-nota'] = (df['subject_4-nota']+df['subject_6-nota'])/2
    df['subject_12-nota'] = df['subject_12-nota'].astype(float)
    df['subject_12-nota'] = df['subject_12-nota'].round()
    for i in df[(df.mes==12)&(df.periodo=='p3')].index:
        df.iloc[i,4] = 'p4'
    df = df.drop(['subject_1-nota_x', 'subject_4-nota', 'subject_6-nota'], axis=1)
    return df

In [11]:
df_primaria = createDataFrame(primaria,materiasPrimaria,gradosPrimaria)

In [12]:
df_primaria= dataPrimaria(df_primaria)

In [13]:
#df_primaria.info()

In [14]:
maping_primaria =  {'subject_1-nota_y':"Ciencias naturales-nota",
			'subject_2-nota':'Ciencias sociales-nota',
			'subject_3-nota':"Educación artística-nota",
			'subject_5-nota':"Educación física-nota",
			'subject_7-nota':"Lengua castellana-nota",
			'subject_8-nota':"Idioma extranjero-nota",
			'subject_9-nota':"Matemáticas-nota",
			'subject_10-nota':"Sensibilización Pedagógica-nota",
			'subject_11-nota':"Tecnología e informática-nota",
            'subject_12-nota':"Humanidades-nota"}

In [15]:
df_primaria = df_primaria.rename(columns=maping_primaria)

In [16]:
df_primaria.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17144 entries, 0 to 17143
Data columns (total 15 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   nombre                           17144 non-null  object        
 1   fecha                            17144 non-null  datetime64[ns]
 2   segment                          17144 non-null  object        
 3   periodo                          17144 non-null  object        
 4   Ciencias naturales-nota          17144 non-null  float64       
 5   Ciencias sociales-nota           17144 non-null  float64       
 6   Educación artística-nota         17144 non-null  float64       
 7   Educación física-nota            17144 non-null  float64       
 8   Lengua castellana-nota           17144 non-null  float64       
 9   Idioma extranjero-nota           17144 non-null  float64       
 10  Matemáticas-nota                 17144 non-null  float64  

# Secundaria_1

In [17]:
gradosSecundaria_1 = ['ONCE 1101 - 6', 'ONCE 1102 - 6', 'ONCE 1103 - 6', 'ONCE 1104 - 6',
       'DIEZ 1001 - 6', 'DIEZ 1002 - 6', 'DIEZ 1003 - 6', 'DIEZ 1004 - 6',
       'DIEZ 1005 - 6', 'NUEVE 901 - 5', 'NUEVE 902 - 5', 'NUEVE 903 - 5',
       'NUEVE 904 - 5', 'NUEVE 905 - 5', 'OCHO 801 - 5', 'OCHO 802 - 5',
       'OCHO 803 - 5', 'OCHO 804 - 5', 'OCHO 805 - 5', 'OCHO 806 - 5',
       'SEIS 601 - 5', 'SEIS 602 - 5', 'SEIS 603 - 5', 'SEIS 604 - 5',
       'SEIS 605 - 5', 'SIETE 701 - 5', 'SIETE 702 - 5', 'SIETE 703 - 5',
       'SIETE 704 - 5', 'SIETE 705 - 5', 'SIETE 706 - 5', 'SEIS 606 - 5',
       'NUEVE 1 - 5', 'NUEVE 2 - 5', 'NUEVE 3 - 5', 'NUEVE 4 - 5',
       'NUEVE 5 - 5', 'OCHO 1 - 5', 'OCHO 2 - 5', 'OCHO 3 - 5',
       'OCHO 4 - 5', 'OCHO 5 - 5', 'OCHO 6 - 5', 'SEIS 1 - 5',
       'SEIS 2 - 5', 'SEIS 3 - 5', 'SEIS 4 - 5', 'SEIS 5 - 5',
       'SEIS 6 - 5', 'SIETE 1 - 5', 'SIETE 2 - 5', 'SIETE 3 - 5',
       'SIETE 4 - 5', 'SIETE 5 - 5', 'SIETE 6 - 5', 'DIEZ 1 - 6',
       'DIEZ 2 - 6', 'DIEZ 3 - 6', 'DIEZ 4 - 6', 'DIEZ 5 - 6',
       'ONCE 1 - 6', 'ONCE 2 - 6', 'ONCE 3 - 6']

In [18]:
materiasSecundaria_1 = ["Ciencias naturales y educación ambiental",
				'Ciencias sociales, historia, geografía, constitución política y democracia',
				"Educación artística y Cultural",
				"Educación ética y en valores humanos. ",
				"Educación física,  recreación y deportes",
				"Educación religiosa. ",
				"Humanidades, lengua castellana",
				"Idioma extranjero:  Inglés",
				"Idioma extranjero: Francés",
				"Matemáticas",
				"Sensibilización Pedagógica",
				"Tecnología e informática"]

In [19]:
secundaria_1 = {"Ciencias naturales y educación ambiental":'subject_1',
				'Ciencias sociales, historia, geografía, constitución política y democracia':'subject_2',
				"Educación artística y Cultural":'subject_3',
				"Educación ética y en valores humanos. ":'subject_4',
				"Educación física,  recreación y deportes":'subject_5',
				"Educación religiosa. ":'subject_6',
				"Humanidades, lengua castellana":'subject_7',
				"Idioma extranjero:  Inglés":'subject_8',
				"Idioma extranjero: Francés":'subject_9',
				"Matemáticas":'subject_10',
				"Sensibilización Pedagógica":'subject_11',
				"Tecnología e informática":'subject_12'}

In [20]:
maping_secundaria_1 =  {'subject_1-nota_y':"Ciencias naturales-nota",
			'subject_2-nota':'Ciencias sociales-nota',
			'subject_3-nota':"Educación artística-nota",
			'subject_5-nota':"Educación física-nota",
			'subject_7-nota':"Lengua castellana-nota",
			'subject_13-nota':"Idioma extranjero-nota",
			'subject_10-nota':"Matemáticas-nota",
			'subject_11-nota':"Sensibilización Pedagógica-nota",
			'subject_12-nota':"Tecnología e informática-nota",
            'subject_14-nota':"Humanidades-nota"}

def dataSecundaria_1(df):
    '''
    Esta función realiza las siguientes modificaciones en el dataset de dataSecundaria_1:
        Elimina los espacios al inicio y al final de la columna de nombres
        De la columna de los grados elimina el número, es decir 'ONCE 1101 - 6' pasa a ser 'ONCE'
        Desde la fila con indice 16864 no se tenian notas de frances, estos datos nulos se reemplazaron por las notas
            de ingles.
        se unieron dos columnas: se realizaron los siguientes cambios:
            "Idioma extranjero:  Inglés":'subject_8', y "Idioma extranjero: Francés":'subject_9' pasa a ser
            "Idioma extranjero":'subject_13'.
            "Educación ética y en valores humanos. ":'subject_4' y "Educación religiosa. ":'subject_6' pasan a ser
            "Humanidades. ":'subject_14'.
'''
    df['nombre'] = df.nombre.str.strip()
    df['segment']=df.segment.str.split(expand = True)[0]
    df['mes'] = df.fecha.dt.month
    df['subject_13-nota'] = (df['subject_8-nota']+df['subject_9-nota'])/2
    df['subject_14-nota'] = (df['subject_4-nota']+df['subject_6-nota'])/2
    return df

In [21]:
df_secundaria_1 = createDataFrame(secundaria_1,materiasSecundaria_1,gradosSecundaria_1)

# Secundaria_2

In [22]:
gradosSecundaria_2 = ['ONCE 1101 - 6', 'ONCE 1102 - 6', 'ONCE 1103 - 6', 'ONCE 1104 - 6',
       'DIEZ 1001 - 6', 'DIEZ 1002 - 6', 'DIEZ 1003 - 6', 'DIEZ 1004 - 6',
       'DIEZ 1005 - 6', 'NUEVE 901 - 5', 'NUEVE 902 - 5', 'NUEVE 903 - 5',
       'NUEVE 904 - 5', 'NUEVE 905 - 5', 'OCHO 801 - 5', 'OCHO 802 - 5',
       'OCHO 803 - 5', 'OCHO 804 - 5', 'OCHO 805 - 5', 'OCHO 806 - 5',
       'SEIS 601 - 5', 'SEIS 602 - 5', 'SEIS 603 - 5', 'SEIS 604 - 5',
       'SEIS 605 - 5', 'SIETE 701 - 5', 'SIETE 702 - 5', 'SIETE 703 - 5',
       'SIETE 704 - 5', 'SIETE 705 - 5', 'SIETE 706 - 5', 'SEIS 606 - 5',
       'NUEVE 1 - 5', 'NUEVE 2 - 5', 'NUEVE 3 - 5', 'NUEVE 4 - 5',
       'NUEVE 5 - 5', 'OCHO 1 - 5', 'OCHO 2 - 5', 'OCHO 3 - 5',
       'OCHO 4 - 5', 'OCHO 5 - 5', 'OCHO 6 - 5', 'SEIS 1 - 5',
       'SEIS 2 - 5', 'SEIS 3 - 5', 'SEIS 4 - 5', 'SEIS 5 - 5',
       'SEIS 6 - 5', 'SIETE 1 - 5', 'SIETE 2 - 5', 'SIETE 3 - 5',
       'SIETE 4 - 5', 'SIETE 5 - 5', 'SIETE 6 - 5', 'DIEZ 1 - 6',
       'DIEZ 2 - 6', 'DIEZ 3 - 6', 'DIEZ 4 - 6', 'DIEZ 5 - 6',
       'ONCE 1 - 6', 'ONCE 2 - 6', 'ONCE 3 - 6']

In [23]:
materiasSecundaria_2 = ["Ciencias naturales y educación ambiental",
			'Ciencias sociales, historia, geografía, constitución política y democracia',
			"Educación artística y Cultural: Práctica instrumental",
			"Educación ética y en valores humanos. ",
			"Educación física,  recreación y deportes",
			"Educación religiosa. ",
			"Filosofía",
			"Humanidades, lengua castellana",
			"Idioma extranjero:  Inglés",
			"Idioma extranjero: Francés",
			"Matemáticas",
			"Práctica Pedagógica Investigativa",
			"Tecnología e informática"]

In [24]:
secundaria_2 = {"Ciencias naturales y educación ambiental":'subject_1',
				'Ciencias sociales, historia, geografía, constitución política y democracia':'subject_2',
				"Educación artística y Cultural: Práctica instrumental":'subject_3',
				"Educación ética y en valores humanos. ":'subject_4',
				"Educación física,  recreación y deportes":'subject_5',
				"Educación religiosa. ":'subject_6',
				"Filosofía":'subject_7',
				"Humanidades, lengua castellana":'subject_8',
				"Idioma extranjero:  Inglés":'subject_9',
				"Idioma extranjero: Francés":'subject_10',
				"Matemáticas":'subject_11',
				"Práctica Pedagógica Investigativa":'subject_12',
				"Tecnología e informática":'subject_13'}

In [25]:
maping_secundaria_2 =  {'subject_1-nota_y':"Ciencias naturales-nota",
			'subject_2-nota':'Ciencias sociales-nota',
			'subject_3-nota':"Educación artística-nota",
			'subject_5-nota':"Educación física-nota",
			'subject_8-nota':"Lengua castellana-nota",
			'subject_14-nota':"Idioma extranjero-nota",
			'subject_11-nota':"Matemáticas-nota",
			'subject_12-nota':"Sensibilización Pedagógica-nota",
			'subject_13-nota':"Tecnología e informática-nota",
            'subject_15-nota':"Humanidades-nota"}

In [26]:
def dataSecundaria_2(df):
    '''
    Esta función realiza las siguientes modificaciones en el dataset de dataSecundaria_1:
        Elimina los espacios al inicio y al final de la columna de nombres
        De la columna de los grados elimina el número, es decir 'ONCE 1101 - 6' pasa a ser 'ONCE'
        Desde la fila con indice 16864 no se tenian notas de frances, estos datos nulos se reemplazaron por las notas
            de ingles.
        se unieron dos columnas: se realizaron los siguientes cambios:
            "Idioma extranjero:  Inglés":'subject_9', y "Idioma extranjero: Francés":'subject_10' pasa a ser
            "Idioma extranjero":'subject_14'
            "Educación ética y en valores humanos. ":'subject_4' y "Filosofía":'subject_7' y "Educación religiosa. ":'subject_6' pasan a ser
            "Humanidades. ":'subject_15'.
    '''
    df['nombre'] = df.nombre.str.strip()
    df['segment']=df.segment.str.split(expand = True)[0]
    df['mes'] = df.fecha.dt.month
    df['subject_14-nota'] = (df['subject_9-nota']+df['subject_10-nota'])/2
    df['subject_15-nota'] = (df['subject_4-nota']+df['subject_6-nota']+df['subject_7-nota'])/3
    df['subject_14-nota'] = df['subject_14-nota'].round()
    df['subject_15-nota'] = df['subject_15-nota'].round()
    return df

In [27]:
df_secundaria_2 = createDataFrame(secundaria_2,materiasSecundaria_2,gradosSecundaria_2)

In [28]:
df_secundaria_2['subject_9-nota'].iloc[16864:] = df_secundaria_1['subject_8-nota'].iloc[16864:]
df_secundaria_2['subject_13-nota'].iloc[18704:] = df_secundaria_1['subject_12-nota'].iloc[18704:]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [29]:
df_secundaria = dataSecundaria_2(df_secundaria_2)

In [30]:
#df_secundaria.info()

In [31]:
df_secundaria = df_secundaria.drop(['subject_1-nota_x', 'subject_4-nota', 'subject_6-nota','subject_7-nota',
                                   'subject_9-nota', 'subject_10-nota'], axis=1)

In [32]:
df_secundaria = df_secundaria.rename(columns=maping_secundaria_2)

In [33]:
df_secundaria.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18928 entries, 0 to 18927
Data columns (total 15 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   nombre                           18928 non-null  object        
 1   fecha                            18928 non-null  datetime64[ns]
 2   segment                          18928 non-null  object        
 3   periodo                          18928 non-null  object        
 4   Ciencias naturales-nota          18928 non-null  float64       
 5   Ciencias sociales-nota           18928 non-null  float64       
 6   Educación artística-nota         18928 non-null  float64       
 7   Educación física-nota            18928 non-null  float64       
 8   Lengua castellana-nota           18928 non-null  float64       
 9   Matemáticas-nota                 18928 non-null  float64       
 10  Sensibilización Pedagógica-nota  18928 non-null  float64  

### Consolidación del dataframe con la información de primaria y secundaria

In [34]:
df = pd.concat([df_primaria, df_secundaria])

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36072 entries, 0 to 18927
Data columns (total 15 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   nombre                           36072 non-null  object        
 1   fecha                            36072 non-null  datetime64[ns]
 2   segment                          36072 non-null  object        
 3   periodo                          36072 non-null  object        
 4   Ciencias naturales-nota          36072 non-null  float64       
 5   Ciencias sociales-nota           36072 non-null  float64       
 6   Educación artística-nota         36072 non-null  float64       
 7   Educación física-nota            36072 non-null  float64       
 8   Lengua castellana-nota           36072 non-null  float64       
 9   Idioma extranjero-nota           36072 non-null  float64       
 10  Matemáticas-nota                 36072 non-null  float64  

In [36]:
def periodos(fecha,df):
    '''
    Filtra la información de los tres periodos anteriores a la fecha escogida. Luego asigna como p4
    al periodo de la fecha escogida, este será el target, y modifica las asignaciones de los periodos
    para que vaya hacia atras como periodo p2, luego el p2 y por ultimo el p1. Con esto
    garantizamos la estandarización, de p1 a p3 como datos de entrada para predecir p4.
    PARAMETROS: Fecha en la cual se quiere realizar que vamos a utilizar como target para entrenar el modelo
    RETORNA: DataFrame filtrado con los periodos en orden.
    '''
    fecha_prediccion = pd.to_datetime(fecha)# aca se escoge una fecha en particular
    df = df[df.nombre.isin(df[df.fecha == fecha_prediccion].nombre)]
    fecha_inicio_prediccion = fecha_prediccion - datetime.timedelta(weeks=52) # se obtiene la fecha para incluir los tres periodos anteriores a la fecha elegida para la predicción
    df1 = df[(df.fecha>= fecha_inicio_prediccion) & (df.fecha<=fecha_prediccion)]# se filtra entre las fechas escogidas
    if fecha_prediccion.month == 3:
        df_final = df1.replace({'p1':'p4','p4':'p3','p3':'p2','p2':'p1'})
    elif fecha_prediccion.month == 6:
        df_final = df1.replace({'p2':'p4','p1':'p3','p4':'p2','p3':'p1'})
    elif fecha_prediccion.month == 9:
        df_final = df1.replace({'p3':'p4','p2':'p3','p1':'p2','p4':'p1'})
    elif fecha_prediccion.month == 12:
        df_final = df1.replace({'p3':'p3','p2':'p2','p1':'p1','p4':'p4'})
    return df_final  

def finalDataFrame(df,fecha):
    fecha_prediccion = pd.to_datetime(fecha)
    dict_segment = df[df.fecha == fecha_prediccion][['nombre','segment']].set_index('nombre').T.to_dict('list')
    df2=pd.pivot_table(df,index='nombre',columns='periodo',
                       values=['Ciencias naturales-nota','Ciencias sociales-nota', 'Educación artística-nota',
                               'Educación física-nota', 'Lengua castellana-nota','Idioma extranjero-nota', 
                               'Matemáticas-nota','Sensibilización Pedagógica-nota', 'Tecnología e informática-nota',
                               'Humanidades-nota'],dropna=False)
    df2.columns = df2.columns.map('_'.join)
    df2['fecha'] = fecha_prediccion
    df2['segment'] = 'NAN'
    df2 = df2.reset_index()   
    names = df2.nombre.unique()
    
    for i in range(len(df2.nombre)):
        df2.segment.iloc[i] = dict_segment[df2.nombre.iloc[i]][0]
        
    return df2

df_final = pd.DataFrame(columns=['nombre', 'Ciencias naturales-nota_p1', 'Ciencias naturales-nota_p2',
       'Ciencias naturales-nota_p3', 'Ciencias naturales-nota_p4', 'Ciencias sociales-nota_p1',
       'Ciencias sociales-nota_p2', 'Ciencias sociales-nota_p3', 'Ciencias sociales-nota_p4',
       'Educación artística-nota_p1', 'Educación artística-nota_p2', 'Educación artística-nota_p3',
       'Educación artística-nota_p4', 'Educación física-nota_p1','Educación física-nota_p2',
        'Educación física-nota_p3', 'Educación física-nota_p4','Lengua castellana-nota_p1', 
        'Lengua castellana-nota_p2', 'Lengua castellana-nota_p3', 'Lengua castellana-nota_p4', 
        'Idioma extranjero-nota_p1', 'Idioma extranjero-nota_p2', 'Idioma extranjero-nota_p3', 
        'Idioma extranjero-nota_p4', 'Matemáticas-nota_p1', 'Matemáticas-nota_p2', 
        'Matemáticas-nota_p3','Matemáticas-nota_p4', 'Sensibilización Pedagógica-nota_p1', 
        'Sensibilización Pedagógica-nota_p2', 'Sensibilización Pedagógica-nota_p3', 'Sensibilización Pedagógica-nota_p4', 
        'Tecnología e informática-nota_p1', 'Tecnología e informática-nota_p2', 'Tecnología e informática-nota_p3', 
        'Tecnología e informática-nota_p4', 'Humanidades-nota_p1', 'Humanidades-nota_p2', 
        'Humanidades-nota_p3', 'Humanidades-nota_p4', 'fecha'])
lista_fecha_periodos = ['2021-03-01','2021-06-01','2021-09-01','2021-12-01','2020-03-01','2020-06-01','2020-09-01',
                        '2020-12-01','2019-03-01','2019-06-01','2019-09-01','2019-12-01','2018-12-01']

for fecha in lista_fecha_periodos:
    df_periodo=periodos(fecha,df)
    df_pivot = finalDataFrame(df_periodo,fecha)
    df_final = pd.concat([df_final, df_pivot])
#df_final

  dict_segment = df[df.fecha == fecha_prediccion][['nombre','segment']].set_index('nombre').T.to_dict('list')


In [37]:
#df_final.info()

In [38]:
df_final = df_final.dropna()
df_final = df_final.reset_index(drop=True)

In [39]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26733 entries, 0 to 26732
Data columns (total 43 columns):
 #   Column                              Non-Null Count  Dtype         
---  ------                              --------------  -----         
 0   nombre                              26733 non-null  object        
 1   Ciencias naturales-nota_p1          26733 non-null  float64       
 2   Ciencias naturales-nota_p2          26733 non-null  float64       
 3   Ciencias naturales-nota_p3          26733 non-null  float64       
 4   Ciencias naturales-nota_p4          26733 non-null  float64       
 5   Ciencias sociales-nota_p1           26733 non-null  float64       
 6   Ciencias sociales-nota_p2           26733 non-null  float64       
 7   Ciencias sociales-nota_p3           26733 non-null  float64       
 8   Ciencias sociales-nota_p4           26733 non-null  float64       
 9   Educación artística-nota_p1         26733 non-null  float64       
 10  Educación artística-no

# BANDERAS

In [40]:
def flagsFirst(df,nombre,fecha,segment):
    df_labels = df[df.fecha==fecha]
    df_labels = df_labels[df_labels.segment==segment]
    q1, q2, q3 = 0.1,0.4,0.8
    quantiles = df_labels.groupby(['subject']).grade.quantile([q1, q2, q3])
    df_labels = df_labels[df_labels.nombre == nombre]
    materias = df_labels.subject.unique()
    lista = []
    for materia in materias:
        grade = df_labels[df_labels.subject==materia].grade.iloc[0]
        if grade>=quantiles[materia][q3]:
            lista.append(4)
        elif (grade>=quantiles[materia][q2]) and (grade<quantiles[materia][q3]):
            lista.append(3)
        elif (grade>=quantiles[materia][q1]) and (grade<quantiles[materia][q2]):
            lista.append(2)
        elif grade<quantiles[materia][q1]:
            lista.append(1)
    return(lista)  

In [41]:
def evaluateFlagsFirst(lista):
    if lista.count(1)>=5:
        return('RedFlag')
    elif lista.count(1)>=4:
        return('OrangeFlag')
    elif lista.count(1)>=3:
        return('YellowFlag')
    elif lista.count(1)>=2:
        return('WhiteFlag')
    elif lista.count(4)>=1:
        return('GreenFlag')

In [42]:
def flagsSecond(df,fecha,nombre):
    diccionario = {'danger':0,'neutral':0,'positive':0}
    df_final = tableSubject(fecha,df)
    materias = df_final.subject.unique()
    df_final = df_final[df_final.nombre == nombre]
    for materia in materias:
        df_final2 = df_final[df_final['subject']==materia]
        highest = df_final2[df_final2.periodo!='p4'].grade.max()
        actual = df_final2[df_final2.periodo=='p4'].grade.iloc[0]
        diff = actual - highest
        if diff <= -2:
            diccionario['danger'] = diccionario['danger']+1
        elif (diff >= -1) & (diff < 2):
            diccionario['neutral'] = diccionario['neutral']+1
        elif diff == 2:
            diccionario['positive'] = diccionario['positive']+1
    return diccionario

In [43]:
def evaluateFlagsSecond(diccionario):
    if diccionario['danger']>=5:
        return('RedFlag')
    elif diccionario['danger']>=3:
        return('OrangeFlag')
    elif diccionario['danger']>=1:
        return('YellowFlag')
    elif diccionario['positive']>=5:
        return('GreenFlag')
    else:
        return('WhiteFlag')

In [44]:
#df = data()
df_melt= df.melt(id_vars=['nombre', 'fecha', 'segment','periodo'], 
                               value_vars=['Ciencias naturales-nota','Ciencias sociales-nota', 'Educación artística-nota',
                               'Educación física-nota', 'Lengua castellana-nota','Idioma extranjero-nota', 
                               'Matemáticas-nota','Sensibilización Pedagógica-nota', 'Tecnología e informática-nota',
                               'Humanidades-nota'],value_name='grade',var_name='subject')

In [45]:
df_melt.head()

Unnamed: 0,nombre,fecha,segment,periodo,subject,grade
0,AGUIRRE CASTAÑO AVRIL LUCCIANA,2021-03-01,CUARTO,p1,Ciencias naturales-nota,4.0
1,AGUIRRE CASTAÑO AVRIL LUCCIANA,2021-06-01,CUARTO,p2,Ciencias naturales-nota,3.0
2,AGUIRRE CASTAÑO AVRIL LUCCIANA,2021-09-01,CUARTO,p3,Ciencias naturales-nota,4.0
3,AGUIRRE CASTAÑO AVRIL LUCCIANA,2021-12-01,CUARTO,p4,Ciencias naturales-nota,3.0
4,HURTADO GIRALDO SALOME,2021-03-01,CUARTO,p1,Ciencias naturales-nota,3.0


In [46]:
def tableSubject(fecha,df):
    '''
    esta función retornara un dataframe que sera usado para graficar las notas de un 
    estudiante en específico para todas las materias
    '''
    df_periodo=periodos(fecha,df)
    df_nueva = df_periodo.melt(id_vars=['nombre', 'fecha', 'segment','periodo'], 
                               value_vars=['Ciencias naturales-nota','Ciencias sociales-nota', 'Educación artística-nota',
                               'Educación física-nota', 'Lengua castellana-nota','Idioma extranjero-nota', 
                               'Matemáticas-nota','Sensibilización Pedagógica-nota', 'Tecnología e informática-nota',
                               'Humanidades-nota'],value_name='grade',var_name='subject')
    return df_nueva

In [47]:
df_final_copy = df_final.copy()

In [48]:
df_final_copy['firstLabel'] = 'NAN'
df_final_copy['secondLabel'] = 'NAN'
for i in df_final_copy.index:
    fecha = df_final_copy.fecha[i]
    nombre = df_final_copy.nombre[i]
    segment = df_final_copy.segment[i]
    #first
    lista = flagsFirst(df_melt,nombre,fecha,segment)
    df_final_copy['firstLabel'].iloc[i] = evaluateFlagsFirst(lista)
    #second
    diccionario = flagsSecond(df,fecha,nombre)
    df_final_copy['secondLabel'].iloc[i] = evaluateFlagsSecond(diccionario)
df_final_copy.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


Unnamed: 0,nombre,Ciencias naturales-nota_p1,Ciencias naturales-nota_p2,Ciencias naturales-nota_p3,Ciencias naturales-nota_p4,Ciencias sociales-nota_p1,Ciencias sociales-nota_p2,Ciencias sociales-nota_p3,Ciencias sociales-nota_p4,Educación artística-nota_p1,...,Tecnología e informática-nota_p3,Tecnología e informática-nota_p4,Humanidades-nota_p1,Humanidades-nota_p2,Humanidades-nota_p3,Humanidades-nota_p4,fecha,segment,firstLabel,secondLabel
0,ACEVEDO MOLANO MATIAS,3.0,4.0,4.0,4.0,3.0,4.0,4.0,4.0,3.0,...,3.0,3.0,3.0,3.0,3.0,4.0,2021-03-01,SEGUNDO,GreenFlag,WhiteFlag
1,ACEVEDO MOLANO THOMAS,3.0,4.0,4.0,4.0,3.0,3.0,3.0,4.0,3.0,...,3.0,3.0,3.0,3.0,3.0,3.0,2021-03-01,QUINTO,GreenFlag,WhiteFlag
2,ACEVEDO VELEZ MARIA FERNANDA,3.0,3.0,4.0,4.0,4.0,3.0,2.0,3.0,3.0,...,2.0,4.0,3.0,3.0,3.0,3.0,2021-03-01,DIEZ,GreenFlag,YellowFlag
3,ACOSTA BASTO SARA SOFIA,3.0,3.0,3.0,3.0,3.0,3.0,3.0,3.0,3.0,...,3.0,3.0,3.0,4.0,4.0,3.0,2021-03-01,TERCERO,GreenFlag,WhiteFlag
4,AGUDELO ARANGO FEDERICO,4.0,2.0,2.0,2.0,4.0,3.0,2.0,2.0,4.0,...,4.0,4.0,3.0,2.0,2.0,3.0,2021-03-01,OCHO,GreenFlag,OrangeFlag


In [54]:
df_final_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26733 entries, 0 to 26732
Data columns (total 45 columns):
 #   Column                              Non-Null Count  Dtype         
---  ------                              --------------  -----         
 0   nombre                              26733 non-null  object        
 1   Ciencias naturales-nota_p1          26733 non-null  float64       
 2   Ciencias naturales-nota_p2          26733 non-null  float64       
 3   Ciencias naturales-nota_p3          26733 non-null  float64       
 4   Ciencias naturales-nota_p4          26733 non-null  float64       
 5   Ciencias sociales-nota_p1           26733 non-null  float64       
 6   Ciencias sociales-nota_p2           26733 non-null  float64       
 7   Ciencias sociales-nota_p3           26733 non-null  float64       
 8   Ciencias sociales-nota_p4           26733 non-null  float64       
 9   Educación artística-nota_p1         26733 non-null  float64       
 10  Educación artística-no

In [74]:
df_final_copy = df_final_copy.dropna()

In [75]:
df_final_copy.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26363 entries, 0 to 26732
Data columns (total 45 columns):
 #   Column                              Non-Null Count  Dtype         
---  ------                              --------------  -----         
 0   nombre                              26363 non-null  object        
 1   Ciencias naturales-nota_p1          26363 non-null  float64       
 2   Ciencias naturales-nota_p2          26363 non-null  float64       
 3   Ciencias naturales-nota_p3          26363 non-null  float64       
 4   Ciencias naturales-nota_p4          26363 non-null  float64       
 5   Ciencias sociales-nota_p1           26363 non-null  float64       
 6   Ciencias sociales-nota_p2           26363 non-null  float64       
 7   Ciencias sociales-nota_p3           26363 non-null  float64       
 8   Ciencias sociales-nota_p4           26363 non-null  float64       
 9   Educación artística-nota_p1         26363 non-null  float64       
 10  Educación artística-no

# Crear archivo csv

In [76]:
# para crear archivo csv
df_final_copy.to_csv('data_model.csv',index=False)

# Graficas comparativa con las notas del año actual

## Grafica comparativa con las notas del año actual

In [81]:
def graphSubjectActual(df,nombre,materia,q1=0.1,q2=0.4,q3=0.8):
    actual_segment = df[df.nombre == nombre].segment.unique()[0]
    df = df[(df.segment == actual_segment) & (df.subject == materia)]
    df['periodo'] = df['periodo'].map({'p1':'1','p2':'2','p3':'3','p4':'4'})
    quantiles = df.groupby('periodo').grade.quantile([q1, q2, q3])
    df = df[df.nombre == nombre]
    df = df[['periodo','subject','grade']]
    fig = px.line(df, x="periodo", y="grade", color='subject', title='Grades per student: '+nombre)
    fig.update_yaxes(range=[0, 5])
    fig.update_xaxes(range=[0, 5])
    fig.add_scatter(y=[quantiles[0],quantiles[3],quantiles[6],quantiles[9]], x=[1, 2, 3,4], mode="markers",marker=dict(size=10, color="MediumPurple"),name="Quantil-"+str(quantiles.index[0][1]))
    fig.add_scatter(y=[quantiles[1],quantiles[4],quantiles[7],quantiles[10]], x=[1, 2, 3,4], mode="markers",marker=dict(size=10, color="LightSeaGreen"),name="Quantil-"+str(quantiles.index[1][1]))
    fig.add_scatter(y=[quantiles[2],quantiles[5],quantiles[8],quantiles[11]], x=[1, 2, 3,4], mode="markers",marker=dict(size=10, color="RoyalBlue"),name="Quantil-"+str(quantiles.index[2][1]))

    fig.show()

In [82]:
fecha = '2021-12-01'
nombre = 'GUEVARA ROJAS SAMUEL'
materia = 'Ciencias naturales-nota'
graphSubjectActual(df_melt,nombre,materia)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



## Grafica comparativa con las notas del historico de los años anteriores


In [86]:
def graphSubjectHistorico(df,nombre,materia,fecha,q1=0.1,q2=0.4,q3=0.8):
    actual_segment = df[(df.nombre == nombre)&(df.fecha == fecha)].segment.unique()[0]
    df_quantil = df[(df.segment == actual_segment) & (df.subject == materia)]
    df2 = df[(df.segment == actual_segment) & (df.subject == materia) & (df.fecha.dt.year == fecha.year)]
    quantiles = df.groupby('periodo').grade.quantile([q1,q2,q3])
    df2 = df2[df2.nombre == nombre]
    df2 = df2[['periodo','subject','grade']]
    fig = px.line(df2, x="periodo", y="grade", color='subject', title='Grades per student: '+nombre)
    fig.update_yaxes(range=[0, 5])
    fig.update_xaxes(range=[0, 5])
    fig.add_scatter(y=[quantiles.iloc[0],quantiles.iloc[3],quantiles.iloc[6],quantiles.iloc[9]], x=[1, 2, 3,4], mode="markers",marker=dict(size=10, color="MediumPurple"),name="Quantil-"+str(quantiles.index[0][1]))
    fig.add_scatter(y=[quantiles.iloc[1],quantiles.iloc[4],quantiles.iloc[7],quantiles.iloc[10]], x=[1, 2, 3,4], mode="markers",marker=dict(size=10, color="LightSeaGreen"),name="Quantil-"+str(quantiles.index[1][1]))
    fig.add_scatter(y=[quantiles.iloc[2],quantiles.iloc[5],quantiles.iloc[8],quantiles.iloc[11]], x=[1, 2, 3,4], mode="markers",marker=dict(size=10, color="RoyalBlue"),name="Quantil-"+str(quantiles.index[2][1]))
    fig.show()

In [87]:
fecha = '2021-12-01'
nombre = 'GUEVARA ROJAS SAMUEL'
materia = 'Ciencias naturales-nota'
graphSubjectActual(df_melt,nombre,materia)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

