In [1]:
import pandas as pd
from source.transformer import DataTransformer
with open('alumnos_test.json', 'r') as archivo_alumnos:
    data=archivo_alumnos.read()
dataframe = DataTransformer(data).transform_to_dataframe()
df = dataframe
df.loc[df.nota == 'A', 'nota'] = 7
df = df.loc[df.nota != 'PA'] #No me interesan los pendientes de aprobacion
df = df.fillna(value=1) #Lleno los austenes con un 1
df.nota=df.nota.astype(float)
df

Unnamed: 0,alumno,carrera,fecha,id,materia,nota,resultado
0,1,D,2002-08-22,1,FISICA I,7.0,A
1,1,D,2002-08-22,2,ELECTRÓNICA ANALÓGICA,7.0,A
2,1,D,2002-08-22,3,INSTRUMENTACIÓN I,7.0,A
3,1,D,2003-10-31,4,ALGORITMOS Y PROG. I,7.0,A
4,1,D,2002-08-22,5,12 CREDITOS,7.0,A
5,1,D,2002-08-22,6,12 CREDITOS,7.0,A
6,1,D,2004-04-21,7,TÉCNICAS DIGITALES,7.0,A
7,1,D,2002-08-22,8,ECONOMÍA,7.0,A
8,1,D,2002-08-22,9,TALLER DE TRABAJO INTELEC.,7.0,A
9,1,D,2002-08-22,10,TEORÍA DE CIRCUITOS I,7.0,A


## ¿Qué materias tenía el alumno X en una fecha determinada?

In [2]:
def materias_hasta(fecha, alumno, df):
    df = df.loc[df.alumno == alumno] #Obtengo los resultados del alumno
    df = df.loc[df.fecha < fecha] #Obtengo las materias hasta la fecha
    return df

materias_hasta('2004-01-01', 1, df)

Unnamed: 0,alumno,carrera,fecha,id,materia,nota,resultado
0,1,D,2002-08-22,1,FISICA I,7.0,A
1,1,D,2002-08-22,2,ELECTRÓNICA ANALÓGICA,7.0,A
2,1,D,2002-08-22,3,INSTRUMENTACIÓN I,7.0,A
3,1,D,2003-10-31,4,ALGORITMOS Y PROG. I,7.0,A
4,1,D,2002-08-22,5,12 CREDITOS,7.0,A
5,1,D,2002-08-22,6,12 CREDITOS,7.0,A
7,1,D,2002-08-22,8,ECONOMÍA,7.0,A
8,1,D,2002-08-22,9,TALLER DE TRABAJO INTELEC.,7.0,A
9,1,D,2002-08-22,10,TEORÍA DE CIRCUITOS I,7.0,A
10,1,D,2002-08-22,11,ANALISIS MATEMATICO I,7.0,A


## ¿Qué promedio tenía el alumno X en una fecha determinada?

In [3]:
def promedio_hasta(fecha, alumno, df):
    """
        Quiero calcular el promedio del alumno hasta una determinada fecha
        Se asume que la columna nota del dataframe ya es de tipo float
        Retorna un numero, que representa el promedio

    """
    df = materias_hasta(fecha, alumno, df) #Obtengo las materias del alumno hasta la fecha
    return df.nota.mean()

promedio_hasta('2004-01-01', 1, df)

7.095238095238095

## ¿Qué promedio tenía el alumno X en una fecha determinada?

In [4]:
def fecha_anterior(fecha):
    """
        Dada una fecha, retorno la misma fecha del año anterior
    """
    from datetime import datetime, timedelta
    return (datetime.strptime(fecha, '%Y-%m-%d') - timedelta(days=365)).strftime('%Y-%m-%d')

def score_hasta(fecha, alumno, df):
    """
        Quiero calcular el score del alumno hasta una determinada fecha
        Se asume que la columna nota del dataframe ya es de tipo float
        El score consiste en el promedio del ultimo año
        Retorna un numero, que representa el promedio

    """
    
    df = materias_hasta(fecha, alumno, df)
    df = df.loc[df.fecha > fecha_anterior(fecha)] #Filtro las materias del ultimo año anterior a "fecha"
    return df.nota.mean()

score_hasta('2004-01-01', 1, df)

7.166666666666667

## ¿Qué porcentaje de carrera tenía el alumno X al momento de hacer la materia Y?

Teniendo en cuenta que el numero de materias de una carrera es fijo, ya debería tenerlo en algun lugar, **supongamos que es 40**

In [5]:
def test(row):
    row['porcentaje_carrera'] = 45
    row['promedio'] = promedio_hasta(row.fecha, row.alumno, df)
    row['score'] = score_hasta(row.fecha, row.alumno, df)
    return row
df = df.apply(test, axis=1)
df = df.fillna(value=7) #Lleno los austenes con un 7
df

Unnamed: 0,alumno,carrera,fecha,id,materia,nota,resultado,porcentaje_carrera,promedio,score
0,1,D,2002-08-22,1,FISICA I,7.0,A,45,7.500000,7.500000
1,1,D,2002-08-22,2,ELECTRÓNICA ANALÓGICA,7.0,A,45,7.500000,7.500000
2,1,D,2002-08-22,3,INSTRUMENTACIÓN I,7.0,A,45,7.500000,7.500000
3,1,D,2003-10-31,4,ALGORITMOS Y PROG. I,7.0,A,45,7.166667,7.666667
4,1,D,2002-08-22,5,12 CREDITOS,7.0,A,45,7.500000,7.500000
5,1,D,2002-08-22,6,12 CREDITOS,7.0,A,45,7.500000,7.500000
6,1,D,2004-04-21,7,TÉCNICAS DIGITALES,7.0,A,45,7.090909,7.142857
7,1,D,2002-08-22,8,ECONOMÍA,7.0,A,45,7.500000,7.500000
8,1,D,2002-08-22,9,TALLER DE TRABAJO INTELEC.,7.0,A,45,7.500000,7.500000
9,1,D,2002-08-22,10,TEORÍA DE CIRCUITOS I,7.0,A,45,7.500000,7.500000


## Quiero un nuevo DataFrame que me diga, por cada materia qué nota tenia el alumno, qué score tenia y qué porcentaje de carrera tenía al momento de hacer esa materia.

    - Por cada fila, agarro el alumno y la fecha
    - Hago los calculos anteriores y genero una nueva columna por cada dato que quiero agregar. 
    - En este caso, voy a agregar 3 columnas nuevas: Promedio hasta esa fecha, score hasta esa fecha y porcentaje de carrera hasta esa fecha.