# **<span style="font-family: 'Palatino Linotype', serif;">Uma terça-feira qualquer </span>**

*<span style="font-family: 'Angilla Tattoo'">Nós do Sepulcro de Delfos sabemos que a Guerra das Marretas Voadoras levou muitas vidas, sabemos que a morte é que constrói os sepulcros e é o que nos matem lembrando das nossas dores. <br> <br> Nossos algoritmos são oráculos, nossos dados são ossos ancestrais. <br> Sepulcro de Delfos </span>*


---

**Módulos 3**
==========================================================

**Autores:** Sepulcro de Delfos
* Ana Luz 
* Caio Ruas
* Caio Matheus
* Giovana Martins

## Introdução 

Nesse notebook, iremos explorar o modelo de **regressão logística**. 

A regressão logística é utilizada para classificar dados binários. 

**Funcionamento** 

Inicialmente, o modelo irá trabalhar como uma rregressão linear, na qual faremos o cálculo da soma das variàveis e do intercepto. As variáveis serão os atributos analisados no problema em questão, enquanto o intercepto será o valor do coeficiente quando todas as variáveis forem zero. Além disso, também devemos multiplicar as nossas variáveis pelo peso que cada uma delas exerce na problemática.

Por exemplo: 

 Queremos prever se uma pessoa irá ou não comprar um produto em um site. 
 
 As respostas podem ser: sim ou não, ou seja, temos um problema binário. 

 Nossas variáveis serão a idade, a quantidade de vezes que a pessoa acessou o site e o seu salário, considerando que esses serão atributos interessantes para prever o target.

 Os coeficientes que o modelo aprende dizem respeito a quanto cada um desses atributos irá influenciar no resultado final do nosso target. 
 
 Se o produto for um CD do Xitãozinho e Xororó, é provável que o atributo idade terá mais peso do que os atributos salário e quantidade de vezes que o site foi acessado. 

 A principal diferença da regressão logística em relação a regressão linear é que ao invés de utilizarmos diretamente o valor obtido por essa soma, iremos utilizá-lo para calcular a **função sigmoide** que irá transformar esse valor em uma **probabilidade** entre 0 e 1.

**A fórmula da regressão logística pode ser expressa como:**

$$
P(y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n)}}
$$

Onde:
- $P(y=1|X)$ é a probabilidade de a classe ser 1, dado $X$.
- $X_1, X_2, \dots, X_n$ são as variáveis independentes.
- $\beta_0, \beta_1, \dots, \beta_n$ são os coeficientes do modelo (parâmetros).
- $e$ é a base do logaritmo natural (aproximadamente 2.718).

**Resumindo:**
Na regressão logística iremos transformar variáveis em uma probabilidade entre 0 e 1 através da função sigmoide!

In [50]:
### Importando bibliotecas:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.preprocessing import OneHotEncoder

In [51]:
### Definimos nosso conjunto de dados:
df = pd.read_csv("80b721bc-2128-4f6f-994a-c7e861739543.csv")
df

Unnamed: 0,_id,DT_NOTIFIC,DT_NASC,NU_IDADE_N,CS_SEXO,CS_RACA,ID_MN_RESI,LOCAL_OCOR,OUT_VEZES,LES_AUTOP,VIOL_FISIC,VIOL_PSICO,VIOL_SEXU,NUM_ENVOLV,AUTOR_SEXO,ORIENT_SEX,IDENT_GEN
0,1,02/01/2023,21/03/2008,14,Feminino,Branca,Rio Novo,Residencia,Sim,Sim,Sim,Não,Não,Um,Feminino,Heterossexual,Ignorado
1,2,01/01/2023,29/11/1976,46,Feminino,Branca,Carmo do Rio Claro,Residencia,Sim,Não,Sim,Não,Não,Um,Masculino,Heterossexual,Ignorado
2,3,02/01/2023,10/05/1997,25,Feminino,Parda,Pirapora,Residencia,Ignorado,Sim,Sim,Não,Não,Um,Feminino,Heterossexual,Não se aplica
3,4,02/01/2023,02/10/1982,40,Feminino,Parda,Várzea da Palma,Residencia,Ignorado,Sim,Sim,Não,Não,Um,Feminino,Heterossexual,Não se aplica
4,5,03/01/2023,10/11/2016,6,Feminino,Parda,Guaraciaba,Residencia,Sim,Não,Não,Não,Sim,Um,Masculino,Não se aplica,Não se aplica
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,496,06/01/2023,12/04/1977,45,Feminino,Parda,Congonhas,Residencia,Não,Não,Sim,Sim,Não,Dois ou mais,Feminino,Heterossexual,Não se aplica
496,497,17/01/2023,30/12/1963,59,Feminino,Preta,Cipotânea,Residencia,Sim,Não,Sim,Sim,Não,Dois ou mais,Masculino,Ignorado,Ignorado
497,498,17/01/2023,18/07/1979,43,Feminino,Parda,Cipotânea,Residencia,Sim,Não,Sim,Sim,Não,Dois ou mais,Masculino,Ignorado,Ignorado
498,499,07/01/2023,29/05/2003,19,Feminino,Parda,Conselheiro Lafaiete,Residencia,Não,Sim,Sim,Não,Não,Um,Feminino,Heterossexual,Não se aplica


In [52]:

# Definindo X e y

X = df[["NU_IDADE_N", "CS_SEXO", "CS_RACA"]]
y = df["VIOL_FISIC"]


X = X.dropna().head(250)
y = y.dropna().head(250)


min_length = min(len(X), len(y))
X = X.head(min_length)
y = y.head(min_length)


### Codificando dados qualitativos por OneHot:

encoder = OneHotEncoder()
dados_convertidos_inicial = encoder.fit_transform(X[["CS_SEXO", "CS_RACA"]])


encoded_df = pd.DataFrame(dados_convertidos_inicial.toarray(), columns=encoder.get_feature_names_out(["CS_SEXO", "CS_RACA"]))

dados_convertidos_X = pd.concat([X.drop(columns=["CS_SEXO", "CS_RACA"]).reset_index(drop=True), encoded_df.reset_index(drop=True)], axis=1)

### Codificando dados categóricos em numéricos para y:

ordem_y = [["Não", "Sim"]]  
encoder_y = OrdinalEncoder(categories=ordem_y)


dados_convertidos_y = encoder_y.fit_transform(y.values.reshape(-1, 1))


print("Os dados convertidos de X são:")
print(dados_convertidos_X)
print()
print("Os dados convertidos de y são:")
print(dados_convertidos_y)


Os dados convertidos de X são:
     NU_IDADE_N  CS_SEXO_Feminino  CS_RACA_Amarela  CS_RACA_Branca  \
0            14               1.0              0.0             1.0   
1            46               1.0              0.0             1.0   
2            25               1.0              0.0             0.0   
3            40               1.0              0.0             0.0   
4             6               1.0              0.0             0.0   
..          ...               ...              ...             ...   
245          56               1.0              0.0             0.0   
246          24               1.0              0.0             1.0   
247          38               1.0              0.0             0.0   
248          30               1.0              0.0             0.0   
249          37               1.0              0.0             0.0   

     CS_RACA_Ignorado  CS_RACA_Parda  CS_RACA_Preta  
0                 0.0            0.0            0.0  
1                 0.

In [61]:
# Dividindo os dados em treino e teste:
X_treino, X_teste, y_treino, y_teste = train_test_split(dados_convertidos_X, dados_convertidos_y, test_size=0.2, random_state=42)

# Criando o modelo:
modelo_reg_log= LogisticRegression()

# Treinando o modelo:
modelo_reg_log.fit(X_treino, y_treino.ravel())

# Testando se o modelo é capaz de prever y utilizando o X de teste:
y_predito = modelo_reg_log.predict(X_teste)

print(y_predito)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1.]


### Conclusão:
Com esse notebook aprendemos sobre a regressão logística e como utilizá-la para prever a probabilidade de um determinado evento binário ocorrer com base em atributos qualitativos. 

## Referências:

REMÍGIO, M. Regres são logística (Logistic Regression). Medium, 2020. Disponível em: <https://medium.com/@msremigio/regress%C3%A3o-log%C3%ADstica-logistic-regression-997c6259ff9a>. Acesso em: 23 set. 2024.

DATACAMP. One Hot Encoding in Python: Tutorial. Disponível em: <https://www.datacamp.com/pt/tutorial/one-hot-encoding-python-tutorial.> Acesso em: 23 set. 2024.

OPENAI. ChatGPT. Disponível em: <https://www.openai.com/chatgpt>. Acesso em: 23 set. 2024.

