# Regressão Logistíca

<p> É um dos métodos de aprendizado de máquina mais conhecidos. Utiliza conceitos de estatística e probabilidade para analisar uma ou mais variáveis (<i>features</i>) independentes para predizer uma classe mais apropriada.</p>

<p>A função logística é utilizada para estimar essa relação entre as várias independentes com a váriavel dependente, onde a função é uma <b>sigmoid</b> assemelhando-se a um 'S' no plano, transformando qualquer valor no intervalor de zero e um.</p>

<p>Embora a regressão logística seja conhecida pelo modelo de classificação binária (binominal), pode-se aplica-la também para categorias ordenadas (três ou mais classes que possuem uma ordem determinada, por exemplo ruim, bom ou ótimo) e multinomial (três ou mais categorias não ordenadas entre si).</p>

## Vantagens

<ul>
<li>Predição de probabilidade, podendo ser útil quando necessita de medidas de probabilidades, por exemplo ajustar os valores para classificar se um e-mail é <i>spam</i> ou não</li>
<li>Pouco risco de <i>overfitting</i></li>
<li>Flexibilidade de parâmetro de regularização (ajusta a borda de linearidade) para redução de erro no modelo</li>
<li>Eficiente para grandes conjuntos de dados</li>
<li>Não requer recursos computacionais</li>
<li>Desempenho melhor que outros algoritmos de aprendizado de máquina com poucos dados de treinamento</li>
</ul>

## Desvantagens

<ul>
<li>Requer preparação de dados, incluindo normalização e escala</li>
<li>Não consegue tratar dados faltantes</li>
<li>Limitado para alguns casos. Utilizado apenas para métodos de classificação</li>
<li>Destinado apenas para modelos lineares.</li>
<li>Sensível dados com ruídos</li>
<li>Para melhor predição, é necessário remover variáveis com alta correção, pode-se utilizar correlação de <i>Pearson</i> (variaveis seguem uma relação linear ou distribuição normal), <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html">aqui</a></li>

# Exemplo

Vejamos um exemplo para criar modelo preditivo utilizando o algoritmo Random Forest para classificação de flores de íris.

Dataset: UCI Iris Dataset
Esse conjunto de dados de íris contém quatro variáveis (features) ​​que medem várias partes das flores da íris de três espécies relacionadas (target). A utilização desse conjunto de dados é muito comum pela comunidade de aprendizado de máquina, pois os dados exigem muito pouco pré-processamento, sendo ideal para o nosso exemplo onde o foco é na utilização do algoritmo.

Caso tenha interesse em conhecer mais sobre esse conjunto de dado, por favor vide [aqui](https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset).

### Importação dos pacotes

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from sklearn.pipeline import Pipeline

### Carregamento do conjunto de dados

In [2]:
X, y = load_iris( return_X_y = True)

### Configuração dos parâmetros do algoritmo
<p>O algoritmo Regressão Logística requer poucos parâmetros de configuração. Vejamos a seguir uma breve descrição do parâmetro e também dos valores mais adequados de utilização.</p>

<ul>
<li><b>tol</b>: valor de tolerância para critérios de parada. Costuma-se aplicar valores pequenos com o intuito de evitar paradas rápidas, evitando do algoritmo não convergir.</li>
<li><b>penalty</b>: usado para especificar a norma usada na penalização, sendo uma foma de impedir que os coeficientes se ajustem tão perfeitamente ao excesso de ajuste. Essas penalidades devem ser utilizadas de acordo com o solucionador (<i>solver</i>): L1 (a soma dos pesos) para 'liblinear'e 'saga', L2 (soma do quadrado dos pesos) apenas para 'newton-cg', 'sag' e 'lbfgs' solucionadores; elasticnet é uma combinação linear de regularização L1 e L2, suportado apenas para solucionados 'saga'.</li>
<li><b>C</b>: corresponde ao parâmetro de regularização inversa, onde uma variável de controle que retém a modificação de força da regularização ao ser posicionada inversamente ao regulador. Valores baixos fortalece a regularização, então o mais indicado é utilizar maiores valores.</li>
<li><b>solver</b>: represent o algoritmo para tratar o problema de otimização, podendo ser liblinear (ideal para pequenos conjuntos de dados e para classe binária), newton-cg (problemas multiclasse), lbfgs (problemas multiclasse), saga (recomendado para grandes conjuntos de dados e para problemas multiclasse) e sag (usado para grandes conjuntos de dados e para problemas multiclasse).</li>
<li><b>max_iter</b>: define o número máximo de iterações pelo solucionador durante o ajuste do modelo. Valores baixos podem não encontrar melhores resultados enquanto de valores altos podem aumentar o tempo de treinamento. É interessante utilizar valores altos para conjuntos de dados complexos.</li>
</ul>

In [20]:
tols = np.arange(0.0001, 0.1, 0.0005)
c_range = 1.5 ** np.arange(-3, 13)

params = {
    'lg__tol': tols,
    'lg__penalty': ['l2', 'elasticnet'],
    'lg__C': c_range,
    'lg__solver': ['newton-cg', 'sag', 'saga', 'lbfgs'], # apenas esses pois são multinomial
    'lg__max_iter': range(100, 1000, 50)}

pipeline = Pipeline([
    ('scaler', StandardScaler()), 
    ('lg', LogisticRegression(multi_class='multinomial'))])

### Inicia o treinamento da inteligência com espaço de busca

In [21]:
lgc_search = RandomizedSearchCV(pipeline, 
                                param_distributions=params, 
                                n_iter=200,
                                cv=3,
                                scoring = 'f1_macro',
                                verbose=False,
                                n_jobs=-1)

lgc_search.fit(X, y)

RandomizedSearchCV(cv=3, error_score=nan,
                   estimator=Pipeline(memory=None,
                                      steps=[('scaler',
                                              StandardScaler(copy=True,
                                                             with_mean=True,
                                                             with_std=True)),
                                             ('lg',
                                              LogisticRegression(C=1.0,
                                                                 class_weight=None,
                                                                 dual=False,
                                                                 fit_intercept=True,
                                                                 intercept_scaling=1,
                                                                 l1_ratio=None,
                                                                 max_iter=100,
         

### Resultados
<p>Os resultados apresentados aqui dão uma ideia da qualidade do modelo gerado. Vale ressaltar que o propósito deste exemplo é no entendimento e configuração do algoritmo.</p>

In [22]:
classifier_lg = lgc_search.best_estimator_ 
print(f'Best params:\n{lgc_search.best_params_}')
print(f'Best score: {lgc_search.best_score_}')
print(f'Classifier: {classifier_lg}')

Best params:
{'lg__tol': 0.0381, 'lg__solver': 'sag', 'lg__penalty': 'l2', 'lg__max_iter': 250, 'lg__C': 38.443359375}
Best score: 0.9734104394445952
Classifier: Pipeline(memory=None,
         steps=[('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('lg',
                 LogisticRegression(C=38.443359375, class_weight=None,
                                    dual=False, fit_intercept=True,
                                    intercept_scaling=1, l1_ratio=None,
                                    max_iter=250, multi_class='multinomial',
                                    n_jobs=None, penalty='l2',
                                    random_state=None, solver='sag', tol=0.0381,
                                    verbose=0, warm_start=False))],
         verbose=False)
