# Classification

## Probabilidade geral da classificação

$Pr(Y=k|X=x)$

## Termos da classificação em geral:

$Y$ = **Target Value** Valor que estamos buscando prever a probabilidade para cada **classe**

$k$ = **Classes** em que vamos classificar os nossos dados

$X$ = **Set of Predictor Variables**, ou seja, representa o conjuntos de predictors para cada N(dados)

$x$ = **Predictors** no caso de haver 2 ou mais predictors, esse x pode ser representado como $x_1$, $x_2$ ... $x_p$.

$πK$ = **Prior Probability** probabilidade de encontrar dados de cada classe dentro do conjunto de dados

$f_k(x)$ = **Class Conditional Probability** assimilação dos predictors de cada dado às classes K escolhidas

$pk(x)$ - Abreviação de Pr(Y = k|X = x)

## Por que não usar regressão linear

Um dos maiores fatores que são considerados na escolha de uma regressão linear como modelo é o fato dos predictors serem **Quantitativos**. Na regressão existem formas de lidar com predictors quantitativos, por meio de dummy variables, porém, muitas vezes as dummy variables não conseguem mostrar toda a diferença entre os predictors. Um exemplo disso é expressar a diferença de uma doença para outra por meio de uma dummy variable. No caso da dummy variable, serão atribuidos valores -1 e 1 para as doenças, valores esses que não conseguem expressar tanto a diferença como as probabilidades manifestam dentro da classificação

## Maximum Likelihood

Assim como na **Regressão** utilizamos o método **Least Squares**, na **Classificação** usamos o **Maximum Likelihood** que busca as maiores probabilidades dos predictors para uma tal classe K

## Logistic Regression

Uma das maiores características da **Logistic Regression Simples** é que ela é usada somente quanto temos $K <= 2$, ou seja, caso busquemos classificar mais de 2 classes, não poderemos usar a abordagem da **Logistic Regression**. Isso tudo faz com que ela seja mais comumente usada quando temos classes **Binárias**, como "Yes | No"

Seu cálculo é simples e é expresso por:

$log(\frac{p(X)}{1-p(X)}) = B_0 + B_1X_1$

Caso tenhamos $K > 2$ partimos para a **Multinomial Logistic Regression** e por sua parte matemática ser mais complexa como as que vão aparecer adiante, não as cito aqui

## Generative Models For Classification

Nessa modalidade, buscamos prever a probabilidade de cada predictor se assimilar com cada classe K afim de classificar cada Dado em sua classe com maior probabilidade

Quando o valor as classes K são bem distintas uma das outras, essa abordagem tende a ser melhor que a logistic regression

### Linear Discriminant Analysis

Assume o nome Linear pois sua função discriminante é linear, diferentemente da QDA que será apresentada em breve

Ela faz aproximações do πk(Prior Probability), µk(Mean Centroid) e σ2(Standard Deviation)

Sempre assume-se tal classe quando pk(x) ou δˆk(x) representa a maior probabilidade dentre as classes K. Por exemplo, se a probabilidade do meu pk_1(x_1) = 0.8 e a do meu pk_2(x_1) = 0.3. Assumimos que o x_1 pertence à classe k_1, pois essa teve a maior similaridade entre os predictors de x_1

#### Quando devemos utilizar LDA

Devemos utilizar o LDA quando observarmos um padrão chamado Bell Shape ou Gaussian Shape nos nossos dados, como é retratado na imagem:

![image.png](attachment:image.png)

Algo importante a se notar é que caso usemos p > 1 e o formato for mais elíptico do que o gaussian shape, como mostrado na imagem à seguir, é indicativo de correlação entre os predictors

![image-2.png](attachment:image-2.png)

Um perigo que corremos dentro do LDA e em todo modelo **Supervised** é de tentarmos tanto "Fitar" os modelo aos dados de treino que muitas vezes o nosso modelo pode não funcionar bem com **Real World Data**

Vamos propor o seguinte pensamento: É mais importante um banco conseguir classificar bem aqueles que não vão conseguir pagar sua fatura de crédito ou aqueles que vão consegue pagar?. Bom, pensando de uma maneira que visa mais o lucro, podemos imaginar que esse banco vai querer prever com mais exatidão aqueles que não vão conseguir pagar, pois, no fim, o problema maior vai vir deles. Caso exista uma situação assim, podemos ajustar nosso modelo para ter um Error Rate menor ao prever os que não vão pagar a fatura, mesmo que isso aumente o Error Rate daqueles que vão pagar a fatura, já que eles não serão um problema tão grande. Portanto, no fim, devemos sempre estar por dentro do "Domain Knowledge"

Existe uma representação gráfica que nos ajuda a entender a performance do nosso LDA chamada **ROC Curve**

![image-3.png](attachment:image-3.png)

Quanto mais alta no eixo Y desde o início, melhor é a performance do nosso LDA

### Quadratic Discriminant Analysis

