In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import Ridge  # Para L2 regularização
from sklearn.linear_model import Lasso  # Para L1 regularização

# Carregar o dataset
df = pd.read_csv('base_unificada_com_casos.csv')

# Converter colunas com percentuais para valores numéricos
df['Taxa de Extrema Pobreza'] = df['Taxa de Extrema Pobreza'].str.replace('%', '').str.replace(',', '.').astype(float) / 100
df['Prevalencia'] = df['Prevalencia'].astype(float)

# Agrupar o dataframe por 'Local'
grupos_por_local = df.groupby('Local')

# Dicionário para armazenar os resultados de cada local
resultados = {}

# Loop por cada grupo de 'Local'
for local, dados_local in grupos_por_local:
    print(f"\nTreinando modelo para: {local}")
    
    # Definir as variáveis independentes (features) e a variável dependente (target)
    X = dados_local[['BCG', 'Hib3', 'DTP3', 'Saneamento Seguro (%)', 'Numero Total de Imigrantes', 'Gini (Indice de Desigualdade no Pais)', 'Populacao', 'Taxa de Extrema Pobreza', 'Numero de Usuario de Internet', 'Prevalencia']]
    y = dados_local['Numero de Casos']
    
    # Imputar valores ausentes com a média (ou outra estratégia)
    imputer = SimpleImputer(strategy='mean')
    X = imputer.fit_transform(X)
    
    # Dividir o conjunto de dados em treinamento e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Instanciar o modelo de regressão linear
    model = LinearRegression()
    
    # Instanciar o modelo de regressão com regularização
    model = Ridge(alpha=1.0)  # alpha controla o grau de regularização
    # ou
    #model = Lasso(alpha=1.0)
    
    # Treinar o modelo
    model.fit(X_train, y_train)
    
    # Fazer previsões no conjunto de teste
    y_pred = model.predict(X_test)
    
    # Avaliar o modelo
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    print(f'Mean Squared Error: {mse}')
    print(f'R² Score: {r2}')
    
    # Coeficientes do modelo
    coeficientes = pd.DataFrame(model.coef_, columns=['Coeficiente'], index=['BCG', 'Hib3', 'DTP3', 'Saneamento Seguro (%)', 'Numero Total de Imigrantes', 'Gini', 'Populacao', 'Taxa de Extrema Pobreza', 'Numero de Usuario de Internet', 'Prevalencia'])
    print(coeficientes)
    
    # Armazenar os resultados para o local
    resultados[local] = {'MSE': mse, 'R²': r2, 'Coeficientes': coeficientes}

# Após o loop, você pode acessar os resultados de cada local, se necessário:
# Exemplo: resultados['Albania']



Treinando modelo para: Albania
Mean Squared Error: 191148828.73658845
R² Score: 0.9902288057252786
                                Coeficiente
BCG                            -2413.008184
Hib3                           -1571.709178
DTP3                           -5540.644872
Saneamento Seguro (%)         -16980.674030
Numero Total de Imigrantes         3.252432
Gini                            1541.611817
Populacao                          1.753597
Taxa de Extrema Pobreza           30.195727
Numero de Usuario de Internet      0.340763
Prevalencia                      441.692634

Treinando modelo para: Algeria
Mean Squared Error: 1071596953.116017
R² Score: -0.8073605958640651
                                Coeficiente
BCG                           -19091.834845
Hib3                             310.465925
DTP3                            5340.890136
Saneamento Seguro (%)           2511.983705
Numero Total de Imigrantes         1.497913
Gini                           -2888.171291
Populaca

  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T
  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T
  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T


Mean Squared Error: 1334923283.2755837
R² Score: 0.6144730179426416
                                Coeficiente
BCG                            -6366.724315
Hib3                             278.194873
DTP3                          -12039.357894
Saneamento Seguro (%)           3381.598906
Numero Total de Imigrantes         1.181469
Gini                          -30178.788462
Populacao                          0.098495
Taxa de Extrema Pobreza         -944.241916
Numero de Usuario de Internet     -0.144376
Prevalencia                      897.410724

Treinando modelo para: Egypt
Mean Squared Error: 323474803197.95465
R² Score: 0.9346742143637073
                                 Coeficiente
BCG                            -10968.358918
Hib3                            -2526.893615
DTP3                            36338.683957
Saneamento Seguro (%)          -72733.957366
Numero Total de Imigrantes        -13.971944
Gini                          -103023.126085
Populacao                          

  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T
  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T
  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T


Mean Squared Error: 4358800054.778198
R² Score: 0.9966886054085659
                                Coeficiente
BCG                            -6835.914944
Hib3                            -933.007066
DTP3                           -5834.711230
Saneamento Seguro (%)          21954.930956
Numero Total de Imigrantes         0.102350
Gini                           -7009.192408
Populacao                          0.306830
Taxa de Extrema Pobreza           11.263193
Numero de Usuario de Internet      0.000327
Prevalencia                      121.892245

Treinando modelo para: Mali
Mean Squared Error: 6636811509.406176
R² Score: 0.8928604940346518
                                Coeficiente
BCG                            -1061.217685
Hib3                             677.397713
DTP3                            1168.096191
Saneamento Seguro (%)           4469.027266
Numero Total de Imigrantes       -26.337388
Gini                          -10272.150772
Populacao                          1.022378
T

  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T


Mean Squared Error: 625762248.819174
R² Score: 0.9647244656995991
                               Coeficiente
BCG                           -2791.333649
Hib3                             97.286429
DTP3                            837.507864
Saneamento Seguro (%)         -6082.793703
Numero Total de Imigrantes        1.267418
Gini                           1180.425058
Populacao                         0.207209
Taxa de Extrema Pobreza        2380.330972
Numero de Usuario de Internet    -0.262378
Prevalencia                     348.921801

Treinando modelo para: Singapore
Mean Squared Error: 11537700.900817677
R² Score: 0.9921154911714205
                               Coeficiente
BCG                            -880.598835
Hib3                            -68.965289
DTP3                            520.568040
Saneamento Seguro (%)             0.000000
Numero Total de Imigrantes        0.101487
Gini                           4035.204637
Populacao                        -0.118573
Taxa de Extrema

  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import Ridge
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# Carregar o dataset
df = pd.read_csv('base_unificada_com_casos.csv')

# Converter colunas com percentuais para valores numéricos
df['Taxa de Extrema Pobreza'] = df['Taxa de Extrema Pobreza'].str.replace('%', '').str.replace(',', '.').astype(float) / 100
df['Prevalencia'] = df['Prevalencia'].astype(float)

# Agrupar o dataframe por 'Local'
grupos_por_local = df.groupby('Local')

# Dicionário para armazenar os resultados de cada local
resultados = {}

# Loop por cada grupo de 'Local'
for local, dados_local in grupos_por_local:
    print(f"\nTreinando modelo para: {local}")
    
    # Definir as variáveis independentes (features) e a variável dependente (target)
    X = dados_local[['BCG', 'Hib3', 'DTP3', 'Saneamento Seguro (%)', 'Numero Total de Imigrantes', 'Gini (Indice de Desigualdade no Pais)', 'Populacao', 'Taxa de Extrema Pobreza', 'Numero de Usuario de Internet', 'Prevalencia']]
    y = dados_local['Numero de Casos']
    
    # Imputar valores ausentes com a média (ou outra estratégia)
    imputer = SimpleImputer(strategy='mean')
    X = imputer.fit_transform(X)
    
    # Dividir o conjunto de dados em treinamento e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Criar um pipeline com escalonamento e regressão Ridge
    pipeline = Pipeline([
        ('scaler', StandardScaler()),  # Escalonar os dados
        ('regressor', Ridge())  # Modelo de regressão com regularização L2
    ])
    
    # Definir o grid de hiperparâmetros para busca
    param_grid = {'regressor__alpha': [0.1, 1.0, 10.0]}
    
    # Configurar a busca em grid com validação cruzada
    grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='r2', n_jobs=-1)
    
    # Treinar o modelo com busca em grid
    grid_search.fit(X_train, y_train)
    
    # Melhor modelo encontrado
    best_model = grid_search.best_estimator_
    
    # Fazer previsões no conjunto de teste
    y_pred = best_model.predict(X_test)
    
    # Avaliar o modelo
    mse = mean_squared_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    print(f'Mean Squared Error: {mse}')
    print(f'R² Score: {r2}')
    
    # Coeficientes do modelo
    coeficientes = pd.DataFrame(best_model.named_steps['regressor'].coef_, columns=['Coeficiente'], index=['BCG', 'Hib3', 'DTP3', 'Saneamento Seguro (%)', 'Numero Total de Imigrantes', 'Gini', 'Populacao', 'Taxa de Extrema Pobreza', 'Numero de Usuario de Internet', 'Prevalencia'])
    print(coeficientes)
    
    # Armazenar os resultados para o local
    resultados[local] = {
        'MSE': mse,
        'R²': r2,
        'Coeficientes': coeficientes,
        'Melhores Hiperparâmetros': grid_search.best_params_
    }

# Após o loop, você pode acessar os resultados de cada local, se necessário:
# Exemplo: resultados['Brazil']



Treinando modelo para: Albania
Mean Squared Error: 147519895.3710071
R² Score: 0.9924590405989718
                                Coeficiente
BCG                            -4004.466996
Hib3                           -6645.362318
DTP3                           -1804.878073
Saneamento Seguro (%)          -1959.872199
Numero Total de Imigrantes      1372.317503
Gini                            9066.834054
Populacao                       9902.591311
Taxa de Extrema Pobreza         6754.572009
Numero de Usuario de Internet  -2448.439949
Prevalencia                    55056.771516

Treinando modelo para: Algeria
Mean Squared Error: 9686961796.380651
R² Score: -15.338076544086139
                                 Coeficiente
BCG                            -50210.423728
Hib3                            -4076.098599
DTP3                            45014.069281
Saneamento Seguro (%)           23743.747483
Numero Total de Imigrantes      33556.922585
Gini                           -22929.294505
Po