# Introducción

El trabajo de un profesor es un trabajo difícil, pues son los encargados de que el día de mañana sus pequeños aprendices sean personas que puedan aportar a la sociedad con su conocimiento y trabajo, pero al mismo tiempo también acaban teniendo un trabajo en valores debido a la gran cantidad de horas que conviven con sus pupilos.

Es por todo esto que la etapa escolar es bastante definitoria, y aunque haya opiniones diversas, al final esta etapa se superará y quedará marcada por el rendimiento que tenga el alumno en ella. Esto vuelve aún más complejo el trabajo de un profesor, pues debe ser capaz de hacer que sus alumnos tengan un buen rendimiento teniendo en cuenta que cada uno es distinto, y que cada uno tiene unas situaciones particulares. Ya no es algo solamente lógico, sino que también se ha notado que en muchas ocasiones los profesores no son capaces de prestar atención a aquel que más lo necesita, para poner especial empeño y adaptaciones para que este consiga el éxito en la etapa escolar.

Este estudio trata de echar una mano a estos profesores que no saben identificar a tiempo a aquellos alumnos que van a acabar necesitando más ayuda. Vamos a realizar un análisis de datos de una encuesta realizada en Bangladesh a ciertos alumnos. Esta encuesta contiene ciertos valores que nos parecen interesantes de revisar ya que pensamos que afectan o acabarán afectando al rendimiento escolar de un alumno

# Dataset

## Columnas del dataset que vamos a usar
- `Gender`: Género del alumno
- `Age` : Edad del alumno
- `Study Hour/Day` : Horas de estudio al día
- `Learning mode` : Modalidad de aprendizaje
- `How many hour do you spent daily in social media?` : Horas diarias en redes sociales
- `Average attendance` : Asistencia media
- `With whom you are living?` : Con quién vive
- `What was your previous SGPA?` : Nota media anterior
- `What is your monthly family income?` : Ingresos familiares

Lo primero que hemos hecho ha sido renombrar algunas de las columnas ya que no estaban muy bien redactadas. Además, hemos eliminado las columnas que no vamos a utilizar en nuestro análisis. 

Lo siguiente que hemos hecho ha sido eliminar las filas que contienen valores nulos.

In [None]:
#Limpieza del dataset de los datos de los estudiantes.
import numpy as np
import matplotlib.pyplot as plt
#import seaborn as sns
import pandas as pd
import regex as re

#Cargamos el dataset

data = pd.read_csv('Students_Performance_data_set.csv')

pd.set_option('display.max_columns', None)

data.shape

#Renombramos las columnas que nos interesan

new_columns = {'Gender':'Gender', 'Age':'Age', 'Study Hour/day':'Study time', 'Learning mode':'Learning mode', 'How many hour do you spent daily in social media?':'Time on social media', 'Average attendance on class':'Average attendance', 'With whom you are living with?':'Cohabitants', 'What was your previous SGPA?':'Previous SGPA', 'What is your current CGPA?':'Current CPGA', 'What is your monthly family income?':'Family income'}

data.rename(columns=new_columns, inplace=True)

#Seleccionamos las columnas que nos interesan

columns_of_interest = ['Gender', 'Age', 'Study time', 'Learning mode', 'Time on social media', 'Average attendance', 'Cohabitants', 'Previous SGPA', 'Current CPGA',  'Family income']

data = data[columns_of_interest]

#Eliminamos las filas con valores nulos
data = data.dropna()

## Estandarización de Age
Hemos usado la funcion unique() para ver que tipos de valores pueden tomar estos datos. Hemos apuntados aquellos que no son numéricos o dan un rango y hemos decidido cambiarlos a numéricos. Esto se puede ver el bloque de código siguiente.

In [None]:
data['Age'].unique()

# notamos que hay 6 valores que se salen de un numero como tal asi que usamos un replace para cambiarlos a un valor que no afecte el analisis
data['Age'] = data['Age'].replace({
    '21+' : 21,
    '23.6' : 23,
    '20+' : 20,
    '22+' : 22,
    '24+' : 24,
    '20 years 6 months' : 20
})

## Estandarizacion de tiempos

Lo que hemos hecho en el codigo que sigue este bloque de markdown es estandarizar los tiempos para poder tener los datos correctos tanto como para el Study Time como para el Time on Social Media.

In [None]:
### Usamos la función unique para ver los valores únicos de la columna y asi saber como estandarizarlos
# print(data['Study time'].unique())

def standarise_time(time): # sigue teniendo un error en la función cuando tiene un valor de minutos y otro seguido de horas
    # we extract the number and hour/minute from the string
    hours_numeric = re.findall(r'\d+', str(time))
    
    # extract the numeric value for the hours
    if 'hours' in str(time).lower() or 'hour' in str(time).lower() or 'hrs' in str(time).lower() or 'hr' in str(time).lower():
        if hours_numeric:
            return int(hours_numeric[0])
        else:
            return None
    # extract the numeric value for the minutes and convert them to hours convert to lower case to avoid case sensitivity
    elif 'minutes' in str(time).lower() or 'minute' in str(time).lower() or 'mins' in str(time).lower() or 'min' in str(time).lower() :
        if hours_numeric:
            return int(hours_numeric[0])/60
        else:
            return None

    # Some of the data is written in a range format, so we need to calculate the average
    elif '-' in str(time) or 'to' in str(time).lower() or 'or' in str(time).lower() or '/' in str(time):
        # we calculate the average
        if len(hours_numeric) == 2:
            return (int(hours_numeric[0]) + int(hours_numeric[1]))/2
        else:
            return None
    # if the data is in a numeric format, we just return the number
    elif hours_numeric:
        return int(hours_numeric[0])
    else:
        return None

# Aplicamos la función a la columna "Study time"
data['Study stand'] = data['Study time'].apply(standarise_time)

# Aplicamos la función a la columna "Time on social media"
data['Social stand'] = data['Time on social media'].apply(standarise_time)

# TODO faltan nulos



## Estandarizacion de Attendance

En el siguiente bloque de codigo hemos implementado la funcion standarise_attendance(value) convirtiendo los datos para que siguan el mismo formato compuesto por un numero y ya esta. Para aquellos valores que sean NaN, cogeremos el valor medio de la columna. 

In [None]:
def standarise_attendance(attendance):
    
    # primero quitamos todos los caracteres que no sean alfanuméricos o un signo de porcentaje
    value = re.sub(r'[^a-zA-Z0-9%]', '', str(attendance))
    
    if '%' in value:
        value = re.search(r'\d+', value).group()
        value = int(value)
    # si no es un porcentaje intentar convertirlo a un número
    else:
        try:
            value = int(value)
        except ValueError:
            value = float('nan')
            
    # asegurarse de que el valor esté entre 0 y 100
    value = min(max(value, 0), 100)
    return value

## Aplicamos la función a la columna "Average attendance"
data['Attendance stand'] = data['Average attendance'].apply(standarise_attendance)

## TODO faltan nulos

## Estandarizacion de CGPA y SGPA

En este caso en vez de definir una funcion como todos los datos que estan en formato numerico son correctos usamos to_numeric() de pandas, cuando se encuentre con una valor que no se puede convertir a numerico devolvemos NaN con errors='coerce'.

In [None]:
data["Current CPGA stand"] = pd.to_numeric(data["Current CPGA"], errors='coerce')

data["Previous SGPA stand"] = pd.to_numeric(data["Previous SGPA"], errors='coerce')

# TODO faltan nulos

## Estandandarizacion de Family Income
Como siempre usamos data.unique() para ver los valores que toman los datos y de ahi decidir como vamos a tratar los datos que consideramos "anomalos" o mal escritos.

1. Convertir de otras monedas y otras magnitudes a bdt 10E
2. Transformar los rangos a un valor numerico
3. Quitar el BDT que es la moneda de Bangladesh
4. Dejar numeros limpios. Alguna gente a puesto valores como "Approximately 30000". Lo hemos convertido al valor numerico

In [None]:

# transform currency to bdt 10E
def convert_to_bdt_standard(income):
    if isinstance(income, str) and '$' in income.lower():
        number = re.findall(r'\d+', income)
        if number:
            return int(number[0])*109.7 #Conversion de dolar a taka 10.04.2024
    if isinstance(income, str) and 'lac' in income.lower():
        number = re.findall(r'\d+', income)
        if number:
            return int(number[0])*100000 #Conversion de lakh(lac) a estandard
    if isinstance(income, str) and 'k' in income.lower():
        number = re.findall(r'\d+', income)
        if number:
            return int(number[0])*1000
    return income

# transformamos rangos a la media
def remove_range(income):
    if isinstance(income, str) and ('-' in income or '/' in income) :
        numbers = re.findall(r'\d+', income)
        if len(numbers) == 2:
            return (int(numbers[0]) + int(numbers[1]))/2
    return income
    
# quitando el BDT
def remove_BDT(income):
    if isinstance(income, str) and ('bdt' in income.lower() or 'DBT' in income or 'BTD' in income or 'taka' in income):
        number = re.findall(r'\d+', income)
        if number:
            return int(number[0])
    return income

def clean_numbers(income):
    if isinstance(income, str):
        number = re.findall(r'\d+', income)
        if number:
            return number[0]
    return income

# apply the function to the column
data['Family income stand'] = data['Family income'].apply(convert_to_bdt_standard)
data['Family income stand'] = data['Family income stand'].apply(remove_range)
data['Family income stand'] = data['Family income stand'].apply(remove_BDT)
data['Family income stand'] = data['Family income stand'].apply(clean_numbers)
data['Family income stand'] = pd.to_numeric(data['Family income stand'], errors='coerce')

## TODO si queremos inferir aquellos datos que no se pudieron estandarizar en vez de hacer la media guarra
mean_income = data['Family income stand'].mean()
data['Family income stand'] = data['Family income stand'].fillna(mean_income)
data['Family income stand'] = data['Family income stand'].astype(int) 


## Conversion de datos

Convertimos los numeros a numericos

In [None]:
data['Family income stand'] = pd.to_numeric(data['Family income stand'], errors='coerce')
data['Attendance stand'] = pd.to_numeric(data['Attendance stand'], errors='coerce')
data['Study stand'] = pd.to_numeric(data['Study stand'], errors='coerce')
data['Social stand'] = pd.to_numeric(data['Social stand'], errors='coerce')
data['Age stand'] = pd.to_numeric(data['Age'], errors='coerce')

## creamos un nuevo dataset con las columnas que nos interesan
new_columns = ['Gender', 'Age stand', 'Study stand', 'Learning mode', 'Social stand', 'Attendance stand', 'Cohabitants', 'Previous SGPA stand', 'Current CPGA stand', 'Family income stand']

data = data[new_columns]

## data.dropna()
display(data)

## mostrar numero de valores nulos
print(data.isnull().sum())

data.to_csv('Students_Performance_data_set_cleaned.csv', index=False)
dataCL = pd.read_csv('Students_Performance_data_set_cleaned.csv')

## Preparación datos para entrenamieto
Utilizamos preprocessing y KNNImputer para transformar los datos cualitativos a valores discretos que el algoritmo entienda y podamos realizar imputaciones con ellos.

1. Codificamos las columnas de género, modo de aprendizaje y convivientes a valores discretos.
2. Creamos nuestro imputador para que utilize los 5 vecinos más cercanos y rellenamos los datos nulos que hemos ido preparando.
3. Separamos los datos entre los utilizados para el entrenamiento y el dato objetivo a predecir

In [None]:
# Rellenamos los valores nulos con la imputación de los K(5) vecinos más cercanos
from sklearn.impute import KNNImputer
from sklearn import preprocessing

le = preprocessing.LabelEncoder()
dataCL['Gender'] = le.fit_transform(dataCL['Gender'])
dataCL['Learning mode'] = le.fit_transform(dataCL['Learning mode'])
dataCL['Cohabitants'] = le.fit_transform(dataCL['Cohabitants'])

## print new matrix
display(dataCL)

imputer = KNNImputer(missing_values=np.nan, n_neighbors=5, weights='distance', metric='nan_euclidean')
values = imputer.fit_transform(dataCL)
dataCL = pd.DataFrame(values, columns = dataCL.columns)
display(dataCL)

data_columns = ['Gender', 'Age stand', 'Study stand', 'Learning mode','Social stand', 'Attendance stand', 'Cohabitants','Previous SGPA stand', 'Family income stand']
data_target = ['Current CPGA stand']

dataCL.data = dataCL[data_columns]
dataCL.target = dataCL[data_target]

X_train = dataCL.data[:-250]
y_train = dataCL.target[:-250]
X_test = dataCL.data[-250:]
y_test = dataCL.target[-250:]

## KNN

In [None]:
from sklearn.neighbors import KNeighborsRegressor

# Crear el modelo
knn = KNeighborsRegressor(n_neighbors=3)

# Ajustar el modelo a los datos de entrenamiento
knn.fit(X_train, y_train)

prediction = knn.predict(X_test)
print("Prediccion")
print(prediction)
print("Test")
print(y_test)

knn.score(X_test, y_test)

## Árboles de decisión

In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.tree import export_text

decision_tree = DecisionTreeRegressor(random_state=0, max_depth=2)

decision_tree = decision_tree.fit(X_train, y_train)
r = export_text(decision_tree)
print(r)
decision_tree.score(X_test, y_test)

## SVM

In [None]:
from sklearn.svm import SVC
classifier = SVC(kernel='linear', random_state=0)

classifier.fit(X_train, y_train)

y_pred = classifier.predict(X_test)
print(y_pred)
model.score(X_test, y_test) ## no se lo que es model

## Red Neuronal

In [None]:
from sklearn.neural_network import MLPRegressor
from sklearn.model_selection import train_test_split

X, y = make_classification(n_samples=100, random_state=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=1)
clf = MLPRegressor(random_state=1, max_iter=300, verbose=True).fit(X_train, y_train)
clf.predict_proba(X_test[:1])
y_pred = clf.predict(X_test[:, :])
print(y_test)
print(y_pred)
clf.score(X_test, y_test)