**Autor** : Jeferson Magalhães dos Santos

**e-mail**: jefersonmdossantos@gmail.com
    
**github**: jefersonmglh

#  <a name="indice">  Índice </a>

* [Resumo](#resumo)
* [1. Importação de pacotes](#1)
* [2. Carregamento de dados e preparação](#2)
  * [2.1 Descrição das features](#2.1)
  * [2.2 Análise preliminar](#2.2)
* [3. Análise exploratória](#3)
  * [3.1 Overview](#3.1)
  * [3.2 Distribuições](#3.2)
  * [3.3 Valores Nulos](#3.3)  
  * [3.4 Correlação e Associação](#3.4)
* [4. Modelagem](#4)
  * [4.1 Pré-processamento](#4.1)
  * [4.2 Aplicações](#4.2)
* [5. Avaliação](#5)
* [6. Aprimoramento do modelo](#6)
* [7. Conclusão](#7)

#  <a name="resumo"> RESUMO </a>
[Voltar ao índice](#indice)

""

#  <a name="1">1. Importação de pacotes e dados </a>
[Voltar ao índice](#indice)

In [1]:
#basic
import pandas as pd
import numpy as np
np.random.seed(0)


#graph
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
import plotly.express as px
import plotly.graph_objs as go

#model&metrics
import statsmodels.formula.api as smf
from sklearn.model_selection import train_test_split
from sklearn import metrics
from scipy.stats import chi2, chi2_contingency, iqr, pearsonr
from sklearn.preprocessing import StandardScaler


import warnings
warnings.filterwarnings('ignore')

#  <a name="2">2. Carregamento de dados e preparação</a>
[Voltar ao índice](#indice)

> ####  <a name="2.1">2.1 Descrição das features</a>
[Voltar ao índice](#indice)

> ####  <a name="2.2">2.2 Análise preliminar</a>
[Voltar ao índice](#indice)

In [None]:
def show_info(data):
    print('DATASET SHAPE: ', data.shape, '\n')
    print('-'*50)
    print('FEATURE DATA TYPES:')
    print(data.info())
    print('\n', '-'*50)
    print('NUMBER OF UNIQUE VALUES PER FEATURE:', '\n')
    print(data.nunique())
    print('\n', '-'*50)
    print('NULL VALUES PER FEATURE')
    print(data.isnull().sum())
  

In [None]:
print('TRAIN SET INFO')
show_info(df_train)

In [None]:

print('TEST SET INFO')
show_info(df_test)

In [None]:
print('TRAIN SET QUANT INFO')

df_train.describe()

In [None]:
print('MISSING VALUES ON TRAIN SET')
msno.bar(df_train)

In [None]:
print('MISSING VALUES ON TRAIN SET')
msno.bar(df_test)

In [None]:
target = ['Transported']
features = quanti_columns + quali_columns

quanti_columns = []
quali_columns = [x for x in df_train.columns if x not in quanti_columns and x not in target[0]]


#  <a name="3">3. Análise Exploratória</a>
[Voltar ao índice](#indice)

> ####  <a name="3.1">3.1 Overview</a>
[Voltar ao índice](#indice)

In [None]:
df_train.head()

In [None]:
df_test.head()

> ####  <a name="3.2">3.2 Distribuições</a>
[Voltar ao índice](#indice)

* UniVar


In [None]:
for var_quali in quali_columns:
    print(var_quali)
    sns.countplot(x a df_train[var_quali], palette='flare')
    plt.show()
  

In [None]:
for var_quanti in quanti_columns:
    print(var_quanti)
    df_train[var_quanti].hist(bins=20)
    plt.show()

* BiVar


In [None]:
for var_quali in quali_columns:
    print(var_quali)
    sns.countplot(x = df_train[var_quali], hue=df_train(target[0]), palette='flare')
    plt.show()

In [None]:
for var_quanti in quanti_columns:
    print(var_quanti)
    sns.boxplot(y=df_train[var_quanti], x=target[0], data=df_train, palette='Blues')
    plt.show()

> ####  <a name="3.3">3.3 Valores nulos</a>
[Voltar ao índice](#indice)

> ####  <a name="3.4">3.4 Correlação e associação</a>
[Voltar ao índice](#indice)

In [None]:
plt.figure(figsize=(20,10))
plt.title('Correlação entre as variáveis')
sns.heatmap(df_train.corr(),cmap='flare', center=0, annot=True)

In [None]:

def features_significance(features, target, df):

base = {}
for feature in features:

  df_anali = pd.crosstab(df[target], df[feature])


  stat, p, dof, expected = chi2_contingency(df_anali)

  prob = 0.95

  critical = chi2.ppf(prob, dof)
  alpha = 1.0 - prob


  if abs(stat) >= critical:
    pass
  else:
    if p <= alpha:
      pass
    else:
      base[feature] = p

return base

#  <a name="4">4. Modelagem</a>
[Voltar ao índice](#indice)

> ####  <a name="4.1">4.1 Pré-processamento</a>
[Voltar ao índice](#indice)

> ####  <a name="4.2">4.2 Aplicações</a>
[Voltar ao índice](#indice)

#  <a name="5">5. Avaliação</a>
[Voltar ao índice](#indice)

#  <a name="6">6. Aprimoramento do modelo</a>
[Voltar ao índice](#indice)

#  <a name="7">7. Conclusão</a>
[Voltar ao índice](#indice)