# Regresión Logistica para predecir - Admisiones a Universidades de Ranking Mundial

This dataset is created for prediction of Graduate Admissions from an Indian perspective

[Dataset Predicción de Admisión](https://www.kaggle.com/mohansacharya/graduate-admissions?select=Admission_Predict.csv)

In [None]:
from __future__ import print_function

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.datasets import load_digits
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

### Obtener los datos de un dataset y almacenarlos en un dataframe de pandas. 

In [None]:
admision_df = pd.read_csv("/content/drive/MyDrive/Admission_Predict_Ver1_1.csv", sep=",")
# remover espacios en blanco en las cabeceras
admision_df.rename(columns=lambda x: x.strip(), inplace=True) 

# Eliminar la columnas 'Serial No.' no hace parte del analisis
admision_df.drop(columns={'Serial No.'}, inplace=True)
admision_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   GRE Score          500 non-null    int64  
 1   TOEFL Score        500 non-null    int64  
 2   University Rating  500 non-null    int64  
 3   SOP                500 non-null    float64
 4   LOR                500 non-null    float64
 5   CGPA               500 non-null    float64
 6   Research           500 non-null    int64  
 7   Chance of Admit    500 non-null    float64
dtypes: float64(4), int64(4)
memory usage: 31.4 KB


### Presentar la cabecera de datos. De esta manera es posible identificar observar los 5 primeros datos del dataset.


In [None]:
admision_df.head()

Unnamed: 0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,337,118,4,4.5,4.5,9.65,1,0.92
1,324,107,4,4.0,4.5,8.87,1,0.76
2,316,104,3,3.0,3.5,8.0,1,0.72
3,322,110,3,3.5,2.5,8.67,1,0.8
4,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
admision_df.columns[1:]

Index(['TOEFL Score', 'University Rating', 'SOP', 'LOR', 'CGPA', 'Research',
       'Chance of Admit'],
      dtype='object')

### En el siguiente mapa de calor se ve cual es la corelación existente entre todos los valores del dataset con la probabilidad de ser admitido en la universidad. 

In [None]:
# Mostrar la correlación entre todos los datos utilizando sns.heatmap
fig, ax = plt.subplots(figsize=(10,8))
sns.heatmap(admision_df.corr(), ax=ax, annot=True, linewidths=1, fmt='.2f',
            cmap="viridis", vmin=0, vmax=1)
plt.show()

In [None]:
admision_df.corr()['Chance of Admit'].round(1)

### **Actividad 1**. Basandose en el mapa de calor eliminar las características que presentan una correlación menor al $70\text{%}$ con "chance of Admit".


In [None]:
#---Introducir Codigo ---

### Se crea una copia del dataframe procesado. 

In [None]:
df_procesado = admision_df.copy()
df_procesado.head()

In [None]:
# Muestra las dimensiones del dataframe procesado
df_procesado.shape

# Implementación del algoritmo de Machine Learning

### Se creara el target, el cual es seleccionado utilizando el valor medio de la probabilidad de ser admitido. El valor de media de dicha característica indica una alta probabilidad de ser seleccionado en un programa de pregrado. 

In [None]:
df_procesado['Chance of Admit'].median()

In [None]:
# Crear los targets, se crea un vector en donde se asigna 1 a los valores mayores a la media de la probabilidad de ser admitido y 0 a los menores. 
targets = np.where(df_procesado['Chance of Admit'] >= df_procesado['Chance of Admit'].median(), 1, 0)
targets.shape

### **Actividad 2.** Agregar una columna nueva al dataset con el target, se puede llamar a la columna 'Prob of Acceptance' crear una copia del mismo dataset y almacenarla en una nueva variable y eliminar la columna 'Chance of Admit'

In [None]:
# --- Introducir el codigo Aqui ---

### Se realiza la selección para los datos de entrada de la regresión. 

In [None]:
inputs = df_targets.iloc[:, :-1]
inputs.head()

### **Actividad 3.** Utilizar la función de **Split the data into train & test sets**, asignar una relación de 80%-20% entre train y test. 

In [None]:
# ---Introducir codigo Aqui ---


In [None]:
# Displaying the shape of the train and test datasets and targets
print(x_train.shape, y_train.shape)
print(x_test.shape, y_test.shape)

### **Actividad 4.** Crear y entrenar el modelo de regresión logistica, aplicando la regularización del tipo L2, solver = 'liblinear'.

In [None]:
#---Introducir Codigo Aqui ----

### **Actividad 5.** Evaluar el Comportamiento del modelo, realizar variaciones en el valor de la regularización y registrar los valores que presenten una mejora en el modelo. 

In [None]:
# --- Introducir Codigo Aqui ---

## Creando Tabla con resumen de resultados

Dado que las entradas no se encuentran escaladas, la columna de coeficiente y la columna de Odds_ratio de la tabla resumen que las caracteristicas que tienen un valor de coeficiente de 0 y un odds ratio de 1 son insignificantes en relación a ser aceptado en un programa de pregrado. 

In [None]:
feature_name = inputs.columns.values
summary_table = pd.DataFrame(columns=['Feature Name'], data=feature_name)
summary_table['Coefficient'] = np.transpose(modelo.coef_)
summary_table.head()

In [None]:
# Encontrando el radio de probabilidad
summary_table['Odds_ratio'] = np.exp(summary_table.Coefficient)
summary_table