<a href="https://colab.research.google.com/github/VitorGit93/Pesquisa_Evasao/blob/main/Recursos/Notebooks%20de%20exemplo/evasao_edu_categorizado_ifma.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from mlxtend.plotting import plot_decision_regions
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
#plt.style.use('ggplot')
#ggplot is R based visualisation package that provides better graphics with higher level of abstraction

## Basic Data Science and ML Pipeline

## OSEMN Pipeline
* O - Obtendo nossos dados
* S - limpeza de nossos dados
* E - Explorar / visualizar nossos dados nos permitirá encontrar padrões e tendências
* M - Modelar nossos dados nos dará nosso poder preditivo como assistente
* N - Interpretando nossos dados


For reference : https://www.linkedin.com/pulse/life-data-science-osemn-randy-lao/?lipi=urn%3Ali%3Apage%3Ad_flagship3_profile_view_base_post_details%3BmDlg5VsdSBCLBps2R0vRZA%3D%3D

In [None]:
#Carregando nosso dataset
#evasao_data = pd.read_csv('../input/baseeducategorizacaosocial2klimredux/BaseEduCatRedux_Limit.csv')
evasao_data = pd.read_csv('../input/base-edu-cat-social-1-para-1b/BaseEduCat1p1.csv')

#Mostrando as 5 primeiras linhas de nosso dataset
evasao_data.head()

## Análise exploratória de dados


In [None]:
## mostra informações como tipo de dados, colunas, valores null encontrados, memoria usada etc
## function reference : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html
evasao_data.info(verbose=True)

* **DataFrame.describe()** gera estatísticas descritivas que resumem a tendência central, dispersão e forma da distribuição de um conjunto de dados, excluindo os valores de NaN. Este método nos diz muitas coisas sobre um conjunto de dados. Uma coisa importante é que o método describe() lida apenas com valores numéricos. Não funciona com nenhum valor categórico. Portanto, se houver algum valor categórico em uma coluna, o método describe() o ignorará e exibirá um resumo para as outras colunas, a menos que o parâmetro include = "all" seja passado..

Vamos entender as estatísticas que são geradas pelo método describe() :
* count nos diz o numero de linhas não vazias.
* mean indica o valor médio.
* std indica o valor do desvio padrão.
* min indica o valor minimo.
* 25%, 50%, and 75% indicam percentuais de cada recurso. util para identificar valores extremos.
* max indica o valor máximo.

In [None]:
## estatísticas básicas detalhadas sobre o dado (observe que apenas colunas numéricas seriam exibidas aqui, a menos que o parâmetro include="all")
## for reference: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.describe.html#pandas.DataFrame.describe
evasao_data.describe()

## Veja também :
## para retornar colunas de um tipo específico: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.select_dtypes.html#pandas.DataFrame.select_dtypes

In [None]:
evasao_data.describe().T

### Questão Importante

#### O valor mínimo das colunas listadas abaixo pode ser zero (0)?

Nessas colunas, um valor zero não faz sentido e, portanto, indica o valor ausente.

As colunas ou variáveis a seguir possuem um valor zero inválido:

1. ira_novo
2. renda_per_capita

'ira_novo','renda_per_capita'

2. periodo_atual
3. ocorrencias
4. qtd_filhos
5. possui_necessidade_especial
6. ficou_tempo_sem_estudar

8. possui_conhecimento_idiomas
9. possui_conhecimento_informatica



'ira','periodo_atual','ocorrencias','qtd_filhos','possui_necessidade_especial','ficou_tempo_sem_estudar','renda_per_capita','possui_conhecimento_idiomas','possui_conhecimento_informatica'



#### Assim, é melhor substituir zeros por nan, pois depois disso contá-los seria mais fácil e os zeros precisariam ser substituídos por valores adequados


In [None]:
evasao_data_copy = evasao_data.copy(deep = True)
##diabetes_data_copy[['Glucose','BloodPressure','SkinThickness','Insulin','BMI']] = diabetes_data_copy[['Glucose','BloodPressure','SkinThickness','Insulin','BMI']].replace(0,np.NaN)
evasao_data_copy[['ira_novo','renda_per_capita']] = evasao_data_copy[['ira_novo','renda_per_capita']].replace(0,np.NaN)

## showing the count of Nans
print(evasao_data_copy.isnull().sum())

In [None]:
#### Para preencher esses valores Nan, a distribuição de dados precisa ser entendida

In [None]:
evasao_data_copy.head()
evasao_data_copy.describe().T

In [None]:
p = evasao_data.hist(figsize = (20,20))

### Com o objetivo de imputar valores de nan para as colunas de acordo com sua distribuição


In [None]:
## diabetes_data_copy['BMI'].fillna(diabetes_data_copy['BMI'].median(), inplace = True)

evasao_data_copy['ira_novo'].fillna(evasao_data_copy['ira_novo'].median(), inplace = True)
evasao_data_copy['renda_per_capita'].fillna(evasao_data_copy['renda_per_capita'].median(), inplace = True)



## Plotando após renover Nan

In [None]:
p = evasao_data_copy.hist(figsize = (20,20))

## Skewness (Assimetria)

A ***left-skewed distribution*** has a long left tail. Left-skewed distributions are also called negatively-skewed distributions. That’s because there is a long tail in the negative direction on the number line. The mean is also to the left of the peak.

A ***right-skewed distribution*** has a long right tail. Right-skewed distributions are also called positive-skew distributions. That’s because there is a long tail in the positive direction on the number line. The mean is also to the right of the peak.


![](https://www.statisticshowto.datasciencecentral.com/wp-content/uploads/2014/02/pearson-mode-skewness.jpg)


#### to learn more about skewness
https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/skewed-distribution/

In [None]:
## observing the shape of the data
evasao_data_copy.shape

In [None]:
## data type analysis
#plt.figure(figsize=(5,5))
#sns.set(font_scale=2)
sns.countplot(y=evasao_data.dtypes ,data=evasao_data)
plt.xlabel("contagem de cada tipo")
plt.ylabel("tipos de dados")
plt.show()

In [None]:
## null count analysis
import missingno as msno
p=msno.bar(evasao_data_copy)


In [None]:
## checando o balanceamento dos dados para plotar a contagem de resultados por seus valores
color_wheel = {1: "#0392cf",
               2: "#7bc043"}
colors = evasao_data_copy["Outcome"].map(lambda x: color_wheel.get(x + 1))
print(evasao_data_copy.Outcome.value_counts())
p=evasao_data_copy.Outcome.value_counts().plot(kind="bar")


#### O gráfico acima mostra que os dados são direcionados para pontos de dados com valor de resultado igual a 0, onde isso significa que não ocorreu evasão.

#### Scatter matrix of uncleaned data
Matriz de dispersão de dados não limpos

In [None]:
from pandas.tools.plotting import scatter_matrix
p=scatter_matrix(evasao_data,figsize=(25, 25))

###### The pairs plot builds on two basic figures, the histogram and the scatter plot. The histogram on the diagonal allows us to see the distribution of a single variable while the scatter plots on the upper and lower triangles show the relationship (or lack thereof) between two variables.
O gráfico de pares baseia-se em duas figuras básicas, o histograma e o gráfico de dispersão. O histograma na diagonal nos permite ver a distribuição de uma única variável, enquanto os gráficos de dispersão nos triângulos superior e inferior mostram a relação (ou a falta dela) entre duas variáveis.

For Reference: https://towardsdatascience.com/visualizing-data-with-pair-plots-in-python-f228cf529166

#### Pair plot for clean data
Gráfico de par para dados limpos

In [None]:
p=sns.pairplot(evasao_data_copy, hue = 'Outcome')

***Pearson's Correlation Coefficient***: helps you find out the relationship between two quantities. It gives you the measure of the strength of association between two variables. The value of Pearson's Correlation Coefficient can be between -1 to +1. 1 means that they are highly correlated and 0 means no correlation.

A heat map is a two-dimensional representation of information with the help of colors. Heat maps can help the user visualize simple or complex information.

Coeficiente de correlação de Pearson: ajuda a descobrir a relação entre duas quantidades. Ele fornece a medida da força da associação entre duas variáveis. O valor do coeficiente de correlação de Pearson pode estar entre -1 e +1.
* 1 significa que eles são altamente correlacionados e
* 0 significa que não há correlação.

Um mapa de calor é uma representação bidimensional da informação com a ajuda de cores. Os mapas de calor podem ajudar o usuário a visualizar informações simples ou complexas.

#### Mapa de calor para dados impuros

In [None]:
plt.figure(figsize=(12,10))  # on this line I just set the size of figure to 12 by 10.
p=sns.heatmap(evasao_data.corr(), annot=True,cmap ='RdYlGn')  # seaborn has very simple solution for heatmap

#### Mapa de calor para dados limpos

In [None]:
plt.figure(figsize=(12,10))  # on this line I just set the size of figure to 12 by 10.
p=sns.heatmap(evasao_data_copy.corr(), annot=True,cmap ='RdYlGn')  # seaborn has very simple solution for heatmap

## Scaling the data
data Z is rescaled such that μ = 0 and 𝛔 = 1, and is done through this formula:
![](https://cdn-images-1.medium.com/max/800/0*PXGPVYIxyI_IEHP7.)


#### to learn more about scaling techniques
https://medium.com/@rrfd/standardize-or-normalize-examples-in-python-e3f174b65dfc
https://machinelearningmastery.com/rescaling-data-for-machine-learning-in-python-with-scikit-learn/

In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
##X =  pd.DataFrame(sc_X.fit_transform(evasao_data_copy.drop(["Outcome"],axis = 1),),
##        columns=['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin',
##       'BMI', 'DiabetesPedigreeFunction', 'Age'])
##        columns=['ira_novo', 'ativo', 'curso_campus_id', 'turno_id', 'situacao_id',
##                 'periodo_atual', 'periodo_letivo', 'ano_letivo_id', 'ocorrencias',
##                 'raca_id', 'estado_civil_id', 'qtd_filhos', 'pai_nivel_escolaridade_id',
##                 'mae_nivel_escolaridade_id', 'possui_necessidade_especial',
##                 'ficou_tempo_sem_estudar', 'qtd_pessoas_domicilio_antes_ifma',
##                 'tipo_moradia_id', 'renda_per_capita', 'tipo_imovel_residencial_id',
##                 'tipo_area_residencial_id', 'possui_conhecimento_idiomas', 'possui_conhecimento_informatica'])


X =  pd.DataFrame(sc_X.fit_transform(evasao_data_copy.drop(["Outcome"],axis = 1),),
        columns=['ira_novo', 'ativo', 'curso_campus_id', 'turno_id', 'situacao_id',
                 'periodo_atual', 'periodo_letivo', 'ano_letivo_id', 'ocorrencias',
                 'raca_id', 'estado_civil_id', 'qtd_filhos', 'pai_nivel_escolaridade_id',
                 'mae_nivel_escolaridade_id', 'possui_necessidade_especial',
                 'ficou_tempo_sem_estudar', 'qtd_pessoas_domicilio_antes_ifma',
                 'tipo_moradia_id', 'renda_per_capita', 'tipo_imovel_residencial_id',
                 'tipo_area_residencial_id', 'possui_conhecimento_idiomas',
                 'possui_conhecimento_informatica'])

In [None]:
X.head()

In [None]:
#X = diabetes_data.drop("Outcome",axis = 1)
y = evasao_data_copy.Outcome

## Test Train Split and Cross Validation methods



***Train Test Split*** : To have unknown datapoints to test the data rather than testing with the same points with which the model was trained. This helps capture the model performance much better.

***Train Test Split*** : Ter pontos de dados desconhecidos para testar os dados em vez de testar com os mesmos pontos com os quais o modelo foi treinado. Isso ajuda a capturar o desempenho do modelo muito melhor


![](https://cdn-images-1.medium.com/max/1600/1*-8_kogvwmL1H6ooN1A1tsQ.png)

***Cross Validation***: When model is split into training and testing it can be possible that specific type of data point may go entirely into either training or testing portion. This would lead the model to perform poorly. Hence over-fitting and underfitting problems can be well avoided with cross validation techniques.

***Validação Cruzada***: Quando o modelo é dividido em treinamento e teste, pode ser possível que um tipo específico de ponto de dados entre inteiramente na parte de treinamento ou teste. Isso levaria o modelo a ter um desempenho ruim. Portanto, problemas de ajuste excessivo e insuficiente podem ser bem evitados com técnicas de validação cruzada

![](https://cdn-images-1.medium.com/max/1600/1*4G__SV580CxFj78o9yUXuQ.png)


***About Stratify*** : Stratify parameter makes a split so that the proportion of values in the sample produced will be the same as the proportion of values provided to parameter stratify.
***About Stratify*** : O parâmetro Stratify faz uma divisão para que a proporção dos valores na amostra produzida seja a mesma que a proporção dos valores fornecidos para o parâmetro stratify.

For example, if variable y is a binary categorical variable with values 0 and 1 and there are 25% of zeros and 75% of ones, stratify=y will make sure that your random split has 25% of 0's and 75% of 1's.
Por exemplo, se a variável y for uma variável categórica binária com valores 0 e 1 e houver 25% de zeros e 75% de um, estratificar = y garantirá que sua divisão aleatória tenha 25% de 0 e 75% de 1.


For Reference : https://towardsdatascience.com/train-test-split-and-cross-validation-in-python-80b61beca4b6

In [None]:
#importing train_test_split
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=1/3,random_state=42, stratify=y)

In [None]:
from sklearn.neighbors import KNeighborsClassifier


test_scores = []
train_scores = []

for i in range(1,15):

    knn = KNeighborsClassifier(i)
    knn.fit(X_train,y_train)

    train_scores.append(knn.score(X_train,y_train))
    test_scores.append(knn.score(X_test,y_test))

In [None]:
## score that comes from testing on the same datapoints that were used for training
max_train_score = max(train_scores)
train_scores_ind = [i for i, v in enumerate(train_scores) if v == max_train_score]
print('Max train score {} % and k = {}'.format(max_train_score*100,list(map(lambda x: x+1, train_scores_ind))))

In [None]:
## score that comes from testing on the datapoints that were split in the beginning to be used for testing solely
max_test_score = max(test_scores)
test_scores_ind = [i for i, v in enumerate(test_scores) if v == max_test_score]
print('Max test score {} % and k = {}'.format(max_test_score*100,list(map(lambda x: x+1, test_scores_ind))))

## Result Visualisation

In [None]:
plt.figure(figsize=(12,5))
p = sns.lineplot(range(1,15),train_scores,marker='*',label='Train Score')
p = sns.lineplot(range(1,15),test_scores,marker='o',label='Test Score')

#### The best result is captured at k = 11 hence 11 is used for the final model

#### O melhor resultado é capturado em k = 1, portanto, 1 é usado para o modelo final

In [None]:
#Setup a knn classifier with k neighbors
knn = KNeighborsClassifier(1)

knn.fit(X_train,y_train)
knn.score(X_test,y_test)

In [None]:
## trying to plot decision boundary

In [None]:
value = 20000
width = 20000
plot_decision_regions(X.values, y.values, clf=knn, legend=2,
                      filler_feature_values={2: value, 3: value, 4: value, 5: value, 6: value, 7: value,
                                             8: value, 9: value, 10: value, 11: value, 12: value, 13: value,
                                             14: value, 15: value, 16: value, 17: value, 18: value, 19: value,
                                             20: value, 21: value, 22: value},
                      filler_feature_ranges={2: width, 3: width, 4: width, 5: width, 6: width, 7: width,
                                             8: width, 9: width, 10: width, 11: width, 12: width, 13: width,
                                             14: width, 15: width, 16: width, 17: width, 18: width, 19: width,
                                             20: width, 21: width, 22: width},
                      X_highlight=X_test.values)

# Adding axes annotations
#plt.xlabel('sepal length [cm]')
#plt.ylabel('petal length [cm]')
plt.title('KNN com Dados de Evasão')
plt.show()

# Model Performance Analysis

## 1. Matriz de Confusão

The confusion matrix is a technique used for summarizing the performance of a classification algorithm i.e. it has binary outputs.

A matriz de confusão é uma técnica usada para resumir o desempenho de um algoritmo de classificação, ou seja, possui saídas binárias.
![](https://cdn-images-1.medium.com/max/1600/0*-GAP6jhtJvt7Bqiv.png)


##### ***VERDADEIRO POSITIVO***: Os casos em que o sistema previu SIM (eles são evadidos) e eles são realmente evadidos. O sistema previu corretamente que o aluno é evadido.

##### VERDADEIRO NEGATIVO: Os casos em que o sistema previu NÃO (eles não são evadidos) e eles não são evadidos. O sistema previu corretamente que o aluno não é evadido.

##### FALSO POSITIVO: Os casos em que o sistema previu SIM (eles são evadidos) e eles não são evadidos.

##### FALSO NEGATIVO: Os casos em que o sistema previu NÃO (eles não são evadidos) e eles são evadidos.



### ***In the famous cancer example***:


###### Cases in which the doctor predicted YES (they have the disease), and they do have the disease will be termed as TRUE POSITIVES (TP). The doctor has correctly predicted that the patient has the disease.

###### Cases in which the doctor predicted NO (they do not have the disease), and they don’t have the disease will be termed as TRUE NEGATIVES (TN). The doctor has correctly predicted that the patient does not have the disease.

###### Cases in which the doctor predicted YES, and they do not have the disease will be termed as FALSE POSITIVES (FP). Also known as “Type I error”.

###### Cases in which the doctor predicted NO, and they have the disease will be termed as FALSE NEGATIVES (FN). Also known as “Type II error”.

![](https://cdn-images-1.medium.com/max/1600/0*9r99oJ2PTRi4gYF_.jpg)

For Reference: https://medium.com/@djocz/confusion-matrix-aint-that-confusing-d29e18403327

In [None]:
#import confusion_matrix
from sklearn.metrics import confusion_matrix
#let us get the predictions using the classifier we had fit above
y_pred = knn.predict(X_test)
confusion_matrix(y_test,y_pred)
pd.crosstab(y_test, y_pred, rownames=['True'], colnames=['Predicted'], margins=True)

In [None]:
y_pred = knn.predict(X_test)
from sklearn import metrics
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
p = sns.heatmap(pd.DataFrame(cnf_matrix), annot=True, cmap="YlGnBu" ,fmt='g')
plt.title('Matriz de Confusão', y=1.1)
plt.ylabel('Actual label')
plt.xlabel('Predicted label')

## 2. Classification Report

Report which includes Precision, Recall and F1-Score.


#### Precision Score
        TP – True Positives
        FP – False Positives

        Precision – Accuracy of positive predictions.
        Precision = TP/(TP + FP)
        
   
#### Recall Score
        FN – False Negatives

        Recall(sensitivity or true positive rate): Fraction of positives that were correctly identified.
        Recall = TP/(TP+FN)
        
#### F1 Score
        F1 Score (aka F-Score or F-Measure) – A helpful metric for comparing two classifiers.
        F1 Score takes into account precision and the recall.
        It is created by finding the the harmonic mean of precision and recall.

        F1 = 2 x (precision x recall)/(precision + recall)
        
        
        
> > ***Precision*** - Precision is the ratio of correctly predicted positive observations to the total predicted positive observations. The question that this metric answer is of all passengers that labeled as survived, how many actually survived? High precision relates to the low false positive rate. We have got 0.788 precision which is pretty good.
> >
> > Precision = TP/TP+FP
> >
> > ***Recall (Sensitivity)*** - Recall is the ratio of correctly predicted positive observations to the all observations in actual class - yes. The question recall answers is: Of all the passengers that truly survived, how many did we label? A recall greater than 0.5 is good.
> >
> > Recall = TP/TP+FN
> >
> > ***F1 score*** - F1 Score is the weighted average of Precision and Recall. Therefore, this score takes both false positives and false negatives into account. Intuitively it is not as easy to understand as accuracy, but F1 is usually more useful than accuracy, especially if you have an uneven class distribution. Accuracy works best if false positives and false negatives have similar cost. If the cost of false positives and false negatives are very different, it’s better to look at both Precision and Recall.
> >
> > F1 Score = 2*(Recall * Precision) / (Recall + Precision)
        
        
For Reference: http://joshlawman.com/metrics-classification-report-breakdown-precision-recall-f1/
                        : https://blog.exsilio.com/all/accuracy-precision-recall-f1-score-interpretation-of-performance-measures/

In [None]:
#import classification_report
from sklearn.metrics import classification_report
print(classification_report(y_test,y_pred))

## 3. ROC - AUC
ROC (Receiver Operating Characteristic) Curve tells us about how good the model can distinguish between two things (e.g If a patient has a disease or no). Better models can accurately distinguish between the two. Whereas, a poor model will have difficulties in distinguishing between the two


Well Explained in this video: https://www.youtube.com/watch?v=OAl6eAyP-yo



In [None]:
from sklearn.metrics import roc_curve
y_pred_proba = knn.predict_proba(X_test)[:,1]
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)

In [None]:
plt.plot([0,1],[0,1],'k--')
plt.plot(fpr,tpr, label='Knn')
plt.xlabel('fpr')
plt.ylabel('tpr')
plt.title('Knn(n_neighbors=1) ROC curve')
plt.show()

In [None]:
#Area under ROC curve
from sklearn.metrics import roc_auc_score
roc_auc_score(y_test,y_pred_proba)

# Hyper Parameter optimization
Grid search is an approach to hyperparameter tuning that will methodically build and evaluate a model for each combination of algorithm parameters specified in a grid.

Let’s consider the following example:

Suppose, a machine learning model X takes hyperparameters a1, a2 and a3. In grid searching, you first define the range of values for each of the hyperparameters a1, a2 and a3. You can think of this as an array of values for each of the hyperparameters. Now the grid search technique will construct many versions of X with all the possible combinations of hyperparameter (a1, a2 and a3) values that you defined in the first place. This range of hyperparameter values is referred to as the grid.

Suppose, you defined the grid as:
a1 = [0,1,2,3,4,5]
a2 = [10,20,30,40,5,60]
a3 = [105,105,110,115,120,125]

Note that, the array of values of that you are defining for the hyperparameters has to be legitimate in a sense that you cannot supply Floating type values to the array if the hyperparameter only takes Integer values.

Now, grid search will begin its process of constructing several versions of X with the grid that you just defined.

It will start with the combination of [0,10,105], and it will end with [5,60,125]. It will go through all the intermediate combinations between these two which makes grid search computationally very expensive.

In [None]:
#import GridSearchCV
from sklearn.model_selection import GridSearchCV
#In case of classifier like knn the parameter to be tuned is n_neighbors
param_grid = {'n_neighbors':np.arange(1,50)}
knn = KNeighborsClassifier()
knn_cv= GridSearchCV(knn,param_grid,cv=5)
knn_cv.fit(X,y)

print("Best Score:" + str(knn_cv.best_score_))
print("Best Parameters: " + str(knn_cv.best_params_))

#### Don't forget to share and upvote if you found my notebook of use :)