# Install packages

First thing is to install pandas, numpy, scikit-learn, matplotlib, and seaborn. Then below you see where we import the packages in our notebook.

In [2]:
import pandas as pd
import numpy as np
import datetime as dt

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split, RandomizedSearchCV, GridSearchCV

from sklearn.linear_model import LinearRegression, LogisticRegression, Ridge, ElasticNet, Lasso
from sklearn.metrics import classification_report, mean_squared_error, confusion_matrix, plot_confusion_matrix, accuracy_score, roc_auc_score, precision_score, recall_score, f1_score, roc_curve, auc
from sklearn.preprocessing import StandardScaler



# Import the data and start exploring it

In [8]:
data = pd.read_excel('../Project Retain Alabama/Survey Data and Info/UABformatChange.xlsx')

Some commands you could start with : 
- data.describe()
- data.shape
- data.isnull().sum()
- data['column name'].value_counts()

# Transform the Data for Regression

In [17]:
# Use get dummies for one hot encoding 
pd.get_dummies(data, dtype=str)

Unnamed: 0,University_9_1,GradTime_2021_0,GradTime_2021_1,GradTime_2022_0,GradTime_2022_1,GradTime_2023_0,GradTime_2023_1,FTPT_Full-time Distance Education_0,FTPT_Full-time Distance Education_1,FTPT_Full-time On-Campus_0,FTPT_Full-time On-Campus_1,FTPT_Part-time Distance Education_0,FTPT_Part-time Distance Education_1,FTPT_Part-time On-Campus_0,FTPT_Part-time On-Campus_1,Distance_nan_1,Full_0_0,Full_0_1,Full_1_0,Full_1_1,STEM_0.0_0,STEM_0.0_1,STEM_1.0_0,STEM_1.0_1,STEM_nan_0,STEM_nan_1,Alcareerlearn_0.0_0,Alcareerlearn_0.0_1,Alcareerlearn_1.0_0,Alcareerlearn_1.0_1,Alcareerlearn_nan_0,Alcareerlearn_nan_1,StayAL_1_0,StayAL_1_1,StayAL_2_0,StayAL_2_1,StayAL_3_0,StayAL_3_1,StayAL_4_0,StayAL_4_1,AL Resident_nan_1,StateHS_nan_1,StateHScode_nan_1,ALHS_nan_1,Gender_nan_1,Race_nan_1,Race Code_nan_1,Age_nan_1,Disability_nan_1,FirstGEn_nan_1,Major_nan_1,Major Code_nan_1,Major Code Revised_nan_1,Rcurric_nan_1,Rk-12_nan_1,Rprof_nan_1,Rfamily_nan_1,Rfriend_nan_1,Rmedia_nan_1,Rextra_nan_1,Rindustry_nan_1,Rhighscho_nan_1,Rcollege_nan_1,Rprospect_nan_1,Rjob_nan_1,Rother_nan_1,ExploreAL_nan_1,Eaubrun_nan_1,Efoley_nan_1,Ebham_nan_1,Edemop_nan_1,Edothan_nan_1,Eflor_nan_1,Epayne_nan_1,Egadsden_nan_1,Egulf_nan_1,Ehunts_nan_1,Emobile_nan_1,Emontg_nan_1,Eselma_nan_1,Etrpy_nan_1,Etuscal_nan_1,Eother_nan_1,ENA_nan_1,Positive1_nan_1,Positive2_nan_1,Positive3_nan_1,Allive_nan_1,Alwork_nan_1,Aloverall_nan_1,Alfriendly_nan_1,Aldiverse_nan_1,Alfaith_nan_1,Alnature_nan_1,Alweather_nan_1,Alsafety_nan_1,Aljob_nan_1,Alsalary_nan_1,Albenefits_nan_1,Aladvance_nan_1,Alcostliving_nan_1,Aleducation_nan_1,Alpolitical_nan_1,Alsocial_nan_1,Alfamily_nan_1,Aldining_nan_1,Alevents_nan_1,Alsporting_nan_1,Aloutdoor_nan_1,Ioverall_nan_1,Ifriendly_nan_1,Idiverse_nan_1,Ifaith_nan_1,Inature_nan_1,Iweather_nan_1,Isafety_nan_1,Ijob_nan_1,Isalary_nan_1,Ibenefits_nan_1,Iadvance_nan_1,Icostlive_nan_1,Ieducation_nan_1,Ipolitical_nan_1,Isocial_nan_1,Ifamily_nan_1,Idining_nan_1,Ievents_nan_1,Isporting_nan_1,Ioutdoor_nan_1,AL_c_live_nan_1,A_c_lwork_nan_1,Al_c_overall_nan_1,Al_c_friendly_nan_1,Al_c_diverse_nan_1,Al_c_faith_nan_1,Al_c_nature_nan_1,Al_c_weather_nan_1,Al_c_safety_nan_1,Al_c_job_nan_1,Al_c_salary_nan_1,Al_c_benefits_nan_1,Al_c_advance_nan_1,Al_c_costliving_nan_1,Al_c_education_nan_1,Al_c_political_nan_1,Al_c_social_nan_1,Al_c_family_nan_1,Al_c_dining_nan_1,Al_c_events_nan_1,Al_c_sporting_nan_1,Al_c_outdoor_nan_1,I_c_overall_nan_1,I_c_friendly_nan_1,I_c_diverse_nan_1,I_c_faith_nan_1,I_c_nature_nan_1,I_c_weather_nan_1,I_c_safety_nan_1,I_c_job_nan_1,I_c_salary_nan_1,I_c_benefits_nan_1,I_c_advance_nan_1,I_c_costlive_nan_1,I_c_education_nan_1,I_c_political_nan_1,I_c_social_nan_1,I_c_family_nan_1,I_c_dining_nan_1,I_c_events_nan_1,I_c_sporting_nan_1,I_c_outdoor_nan_1,Open_nan_1,AL Resident.1_nan_1,StateHS.1_nan_1,StateHScode.1_nan_1,ALHS.1_nan_1,Gender.1_nan_1,Race.1_nan_1,Race Code.1_nan_1,Age.1_nan_1,Disability.1_nan_1,FirstGEn.1_nan_1
0,1,1,,,1,1,,,1,1,,1,,1,,1,1,,,1,1,,,1,1,,1,,,1,1,,1,,1,,1,,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
1,1,,1,1,,1,,,1,1,,1,,1,,1,1,,,1,1,,,1,1,,1,,,1,1,,1,,1,,1,,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
2,1,1,,1,,,1,,1,1,,1,,1,,1,1,,,1,1,,,1,1,,1,,,1,1,,1,,1,,,1,1,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
3,1,,1,1,,1,,,1,1,,1,,1,,1,1,,,1,1,,,1,1,,,1,1,,1,,1,,,1,1,,1,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
4,1,1,,1,,,1,1,,1,,,1,1,,1,,1,1,,1,,,1,1,,1,,,1,1,,,1,1,,1,,1,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1202,1,1,,1,,,1,1,,1,,,1,1,,1,,1,1,,,1,1,,1,,,1,1,,1,,1,,,1,1,,1,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
1203,1,1,,,1,1,,1,,,1,1,,1,,1,,1,1,,,1,1,,1,,,1,1,,1,,1,,,1,1,,1,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
1204,1,,1,1,,1,,1,,,1,1,,1,,1,,1,1,,,1,1,,1,,1,,,1,1,,,1,1,,1,,1,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
1205,1,1,,,1,1,,1,,1,,1,,,1,1,,1,1,,,1,1,,1,,1,,,1,1,,1,,,1,1,,1,,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1


In [18]:
# A useful function for changing strings 
for i in list(data.columns):
    data[i] = data[i].apply(lambda x: str(x)).apply(lambda x: x.replace('|' , ','))

In [None]:
# renaming columns
data = data.rename(columns = {'old_name': 'new_name','old_name': 'new_name'})

# Regression

In [None]:
lin_reg = LinearRegression()
lin_reg.fit(X, y)
lin_reg.intercept_, lin_reg.coef_

# Model Validation

# 