In [1]:
import pandas as pd
import numpy as np
from scipy.linalg import qr
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score, classification_report
from scipy.optimize import minimize

#Questão 1

A relação entre os dois pode ser representada pela equação do modelo de regressão:

Y = Xβ + E

Y: Variável dependente observada. X: Matriz de variáveis independentes observadas. β: Vetor de coeficientes estimados com base nos dados. E: Vetor de erros.
O objetivo da regressão linear é encontrar os melhores coeficientes (B) que minimizam a soma dos quadrados das diferenças entre as previsões do modelo (X * B) e os valores reais (Y). O processo de minimização leva à equação acima.

#Questão 2

##2.a

O objetivo da análise de regressão é estimar o vetor β^, que é uma aproximação dos parâmetros populacionais verdadeiros β. β^ é calculado para que o modelo de regressão ajuste-se melhor aos seus dados observados.

##2.b


In [32]:
df = pd.read_csv("insurance_treino.csv", sep=';', decimal=',')

In [33]:
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,34,female,23.56,0,no,northeast,4992.3764
1,45,female,33.1,0,no,southwest,7345.084
2,23,male,32.7,3,no,southwest,3591.48
3,38,female,19.95,2,no,northeast,7133.9025
4,32,female,29.8,2,no,southwest,5152.134


In [34]:
# Convertendo categorias em variáveis numéricas
for col in df.columns:
    # Verifica se o tipo da coluna é object (textual)
    if df[col].dtype == 'object':
        le = LabelEncoder()
        df[col] = le.fit_transform(df[col])

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1000 non-null   int64  
 1   sex       1000 non-null   int64  
 2   bmi       1000 non-null   float64
 3   children  1000 non-null   int64  
 4   smoker    1000 non-null   int64  
 5   region    1000 non-null   int64  
 6   charges   1000 non-null   float64
dtypes: float64(2), int64(5)
memory usage: 54.8 KB


In [38]:
# Separe os dados de treinamento em matriz X (variáveis independentes) e vetor y (variável dependente)
X = df.drop("charges", axis=1).values  # Seleciona todas as colunas, exceto "charges"
X = np.column_stack([X, np.ones(X.shape[0])])  # Adiciona uma coluna de 1s para representar o intercepto
y = np.log(df["charges"].values)  # Variável de resposta

# Encontre β^ usando a solução analítica
beta_hat = np.linalg.inv(X.T @ X) @ (X.T @ y)

print("Vetor de coeficientes β^:", beta_hat)

Vetor de coeficientes β^: [ 0.03417658 -0.07386493  0.01516633  0.10899068  1.56137789 -0.05685594
  6.97011119]


In [39]:
# Crie um modelo de regressão linear
model = LinearRegression()

# Ajuste o modelo aos dados de treinamento
model.fit(X, y)

# Obtenha o vetor de coeficientes β^
beta_hat = np.append(model.coef_, model.intercept_)

print("Vetor de coeficientes β^:", beta_hat)

Vetor de coeficientes β^: [ 0.03417658 -0.07386493  0.01516633  0.10899068  1.56137789 -0.05685594
  0.          6.97011119]


##2d

In [41]:
# Carregue os dados em um DataFrame de teste
df_test = pd.read_csv('insurance_teste.csv', sep=';', decimal=',')

# Variáveis categóricas (gênero e status de fumante) transformadas em variáveis binárias
df['gender'] = pd.get_dummies(df['sex'], drop_first=True)  # Codificação do gênero
df['smoker'] = pd.get_dummies(df['smoker'], drop_first=True)  # Codificação do status de fumante

# Split dos dados em conjuntos de treinamento e teste
X = df[['age', 'gender', 'children', 'sex', 'smoker']]  # Variáveis independentes
y = df['charges']  # Variável dependente
y_pred = df_test['charges']

# Ajuste o modelo de regressão linear aos dados de treinamento
model = LinearRegression()
model.fit(X, y)

# Previsões no conjunto de teste
y_pred = model.predict(X)

# Avaliação o modelo
mse = mean_squared_error(y, y_pred)
print(f"Erro Quadrático Médio (MSE): {mse:.2f}")

Erro Quadrático Médio (MSE): 37875141.04


#Questão 3

$f(x) = 2x² + 5 - e^x = 0$

no intervalo [3,4]

In [12]:
def x_update(x):
    return (2*x**2 - e**x +5) / (4*x**3 - x)
e = 1
x_ = 3

for i in range(10):
    x_ = x_ - x_update(x_)
    print(i+1,x_)

1 2.7904761904761903
2 2.557803200756234
3 2.292423783075745
4 1.9762667343488043
5 1.5675443380144307
6 0.9234179717678896
7 -1.639449598939929
8 -1.052982888829125
9 0.6659516312614293
10 -8.815527709614837


#Questão 4

In [10]:
def newton_raphson(f, df, x0, tol):
    while abs(f(x0)) > tol:
        x0 = x0 - f(x0)/df(x0)
    return x0

In [18]:
import math
def f(x):
    return 2 - x**2 - math.sin(x)

def df(x):
    return -2*x - math.cos(x)

x0 = np.linspace(-3,3,1)
x_ = -3

for x_init in x0:
  x = x_init
  for i in range(8):
      x_ = x_ - f(x) / df(x)
      print(i+1,x_)

1 -2.0187571738773795
2 -1.037514347754759
3 -0.056271521632138555
4 0.9249713044904819
5 1.9062141306131024
6 2.887456956735723
7 3.8686997828583434
8 4.849942608980964


#Questão 5

In [21]:
fd = pd.read_csv("bank_customer_treino.csv")
fd_test = pd.read_csv("bank_custoter_teste.csv")

In [22]:
# Convertendo categorias em variáveis numéricas
for col in fd.columns:
    # Verifica se o tipo da coluna é object (textual)
    if fd[col].dtype == 'object':
        le = LabelEncoder()
        fd[col] = le.fit_transform(fd[col])

In [23]:
# Convertendo categorias em variáveis numéricas
for col in fd_test.columns:
    # Verifica se o tipo da coluna é object (textual)
    if fd_test[col].dtype == 'object':
        le = LabelEncoder()
        fd_test[col] = le.fit_transform(fd_test[col])

In [24]:
# Selecionar as covariáveis (variáveis independentes)
X_train = fd[['gender', 'age', 'credit_card', 'credit_score']]
X_test = fd_test[['gender', 'age', 'credit_card', 'credit_score']]
# Variável dependente (classe-alvo)
y_train = fd['churn']
y_test = fd_test['churn']

In [28]:
sk_logistica = LogisticRegression()
sk_logistica.fit(X_train, y_train)
pred_sk = sk_logistica.predict_proba(X_train[:5])

In [29]:

# Inicializar e ajustar o modelo de regressão logística
model = LogisticRegression()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o desempenho do modelo
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f"Acurácia: {accuracy:.2f}")
print("Relatório de Classificação:\n", report)

Acurácia: 0.78
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.80      0.96      0.88      3205
           1       0.27      0.05      0.09       795

    accuracy                           0.78      4000
   macro avg       0.54      0.51      0.48      4000
weighted avg       0.70      0.78      0.72      4000



In [30]:
# Defina a função de verossimilhança negativa
def negative_log_likelihood(beta, X, y):
    p = 1 / (1 + np.exp(-X @ beta))
    return -np.sum(y * np.log(p) + (1 - y) * np.log(1 - p))

# Defina a função para calcular o Jacobiano
def jacobian(beta, X, y):
    p = 1 / (1 + np.exp(-X @ beta))
    return X.T @ (p - y)

# Inicialize os coeficientes β
initial_beta = np.zeros(X_train.shape[1])

# Minimize a função de verossimilhança negativa usando o método de Newton-CG e o Jacobiano
result = minimize(negative_log_likelihood, initial_beta, args=(X_train, y_train), method='Newton-CG', jac=jacobian)

# Os coeficientes estimados β^ estão em result.x
beta_hat_newton = result.x

# Imprima os coeficientes estimados
print("Coeficientes estimados β^:", beta_hat_newton)

Coeficientes estimados β^: [-0.00060578  0.02675856 -0.00015732 -0.00369965]
