## Bibliotecas e Funções Utilizadas

In [371]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import r2_score, mean_squared_error

### Lendo os dados

In [372]:
df_gdp_capita = pd.read_csv('gdppercapita_us_inflation_adjusted.csv')

In [373]:
df_gdp_capita.head(15)

Unnamed: 0,country,1960,1961,1962,1963,1964,1965,1966,1967,1968,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
0,Aruba,,,,,,,,,,...,26.3k,27.8k,27.6k,28.4k,28.9k,30.3k,31.7k,31.8k,25.8k,30.3k
1,Afghanistan,,,,,,,,,,...,596,608,603,592,590,589,579,584,553,426
2,Angola,,,,,,,,,,...,3120,3150,3190,3100,2910,2810,2680,2570,2350,2300
3,Albania,,,,,,,,,,...,3740,3780,3860,3950,4090,4250,4430,4540,4410,4830
4,Andorra,,,,,,,,,,...,39.2k,37.6k,38.4k,38.9k,39.9k,39.3k,39.3k,39.4k,34.4k,36.8k
5,United Arab Emirates,,,,,,,,,,...,36.6k,38k,39.2k,41.5k,43.5k,43.4k,43.6k,43.8k,41.3k,42.5k
6,Argentina,7410,7690,7500,6990,7570,8240,8060,8190,8450,...,13.9k,14.1k,13.6k,13.8k,13.4k,13.6k,13.1k,12.7k,11.3k,12.4k
7,Armenia,,,,,,,,,,...,3280,3400,3540,3670,3690,3990,4220,4560,4260,4520
8,American Samoa,,,,,,,,,,...,12.2k,12.1k,12.5k,13.1k,13.1k,12.4k,13k,13.3k,14.3k,14.4k
9,Antigua and Barbuda,,,,,,,,,,...,14.2k,14k,14.4k,14.9k,15.6k,16k,17k,17.7k,14k,14.7k


In [374]:
df_gdp_capita.shape

(211, 63)

### Fazendo uma busca e filtrando os dados para que sejam da argentina

In [375]:
df_argentina = df_gdp_capita.loc[df_gdp_capita['country'] == 'Argentina']

In [376]:
df_argentina.head()

Unnamed: 0,country,1960,1961,1962,1963,1964,1965,1966,1967,1968,...,2012,2013,2014,2015,2016,2017,2018,2019,2020,2021
6,Argentina,7410,7690,7500,6990,7570,8240,8060,8190,8450,...,13.9k,14.1k,13.6k,13.8k,13.4k,13.6k,13.1k,12.7k,11.3k,12.4k


### Deixando os dados prontos

E aqui faço todo um trabalho para apenas tratar os dados para aplicar machine learning, verificando todo tipo de empecilho que possa existir. é um conjunto de dados relativamente pequeno, ainda mais que filtrei para apenas argentina ficou pouquissímos dados. Mas, ainda sim dá para dar uma noção como o modelo irá se comportar.

### Verificando valor nulo

In [377]:
df_argentina.isnull().sum()

country    0
1960       0
1961       0
1962       0
1963       0
          ..
2017       0
2018       0
2019       0
2020       0
2021       0
Length: 63, dtype: int64

In [378]:
df_argentina = df_argentina.drop(columns='country')

In [379]:
df_gdp_capita.columns
df_gdp_capita_anos = df_gdp_capita.drop(columns='country')
df_gdp_capita_anos.columns

Index(['1960', '1961', '1962', '1963', '1964', '1965', '1966', '1967', '1968',
       '1969', '1970', '1971', '1972', '1973', '1974', '1975', '1976', '1977',
       '1978', '1979', '1980', '1981', '1982', '1983', '1984', '1985', '1986',
       '1987', '1988', '1989', '1990', '1991', '1992', '1993', '1994', '1995',
       '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004',
       '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021'],
      dtype='object')

In [380]:
d = {'anos': df_gdp_capita_anos.columns, 'pib_per_capita': df_argentina.iloc[0].tolist()}
argentina = pd.DataFrame(data=d)
argentina.pib_per_capita.values

array(['7410', '7690', '7500', '6990', '7570', '8240', '8060', '8190',
       '8450', '9130', '9260', '9630', '9630', '9740', '10.1k', '9940',
       '9580', '10.1k', '9480', '10.3k', '10.3k', '9590', '9370', '9620',
       '9620', '8990', '9400', '9510', '9260', '8470', '8140', '8760',
       '9330', '9960', '10.4k', '9970', '10.4k', '11.1k', '11.4k',
       '10.9k', '10.7k', '10.1k', '8900', '9580', '10.3k', '11.1k',
       '11.9k', '12.9k', '13.2k', '12.3k', '13.6k', '14.2k', '13.9k',
       '14.1k', '13.6k', '13.8k', '13.4k', '13.6k', '13.1k', '12.7k',
       '11.3k', '12.4k'], dtype=object)

In [381]:
argentina.head(20)

Unnamed: 0,anos,pib_per_capita
0,1960,7410
1,1961,7690
2,1962,7500
3,1963,6990
4,1964,7570
5,1965,8240
6,1966,8060
7,1967,8190
8,1968,8450
9,1969,9130


In [382]:
argentina.dtypes

anos              object
pib_per_capita    object
dtype: object

In [383]:
def convert_to_float(value):
    if 'k' in value:
        return float(value[:-1]) * 1000
    else:
        return float(value)

# Aplicar a função ao array usando list comprehension
argentina_pib_per_capita = np.array([convert_to_float(val) for val in argentina.pib_per_capita.values])

argentina_pib_per_capita.dtype

dtype('float64')

In [384]:
argentina['anos'] = argentina['anos'].astype(float)

In [385]:
def mostrar_grafico(X, Y):

    fig = go.Figure(
        go.Scatter(x=X, y=Y)
    )

    fig.update_layout(height=600, width=800, title='Gráfico PIB per Capita', xaxis_title='Anos', yaxis_title='PIB per capita')
    fig.show()

# Gráfico de PIB per Capita da Argentina.

In [386]:
mostrar_grafico(df_gdp_capita_anos.columns, argentina_pib_per_capita)

# Testando qual o melhor modelo para essa especifíca situação.

In [387]:
#Treinando o modelo 

x=argentina['anos'].values.reshape(-1, 1)
y=argentina_pib_per_capita

SEED = 42
np.random.randint(SEED)

argentina_model = LinearRegression()
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.20, random_state=SEED)

argentina_model.fit(treino_x, treino_y)
previsoes = argentina_model.predict(teste_x)

# Calcula o coeficiente de determinação R2
r2 = r2_score(teste_y, previsoes)
print("R-squared: %.2f" % r2)

# Calcula o erro médio quadrático (MSE)
mse = mean_squared_error(teste_y, previsoes)
print("Mean Squared Error (MSE): %.2f" % mse)


R-squared: 0.79
Mean Squared Error (MSE): 1160585.47


In [388]:
# Grau do polinômio
grau_polinomio = 2

x=argentina['anos'].values.reshape(-1, 1)
y=argentina_pib_per_capita

poly = PolynomialFeatures(degree=grau_polinomio)
x = poly.fit_transform(x)

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.20, random_state=SEED)

modelo_polinomial = LinearRegression()
modelo_polinomial.fit(treino_x, treino_y)

previsoes_polinomiais = modelo_polinomial.predict(teste_x)

r2_polinomial = r2_score(teste_y, previsoes_polinomiais)
mse_polinomial = mean_squared_error(teste_y, previsoes_polinomiais)

print("Regressão Polinomial")
print("R-squared: %.2f" % r2_polinomial)
print("Mean Squared Error (MSE): %.2f" % mse_polinomial)

Regressão Polinomial
R-squared: 0.81
Mean Squared Error (MSE): 1011571.39


In [389]:
x=argentina['anos'].values.reshape(-1, 1)
y=argentina_pib_per_capita

modelo_svm = SVR(kernel='linear')

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.20, random_state=SEED)

modelo_svm.fit(treino_x, treino_y)

previsoes_svm = modelo_svm.predict(teste_x)

r2_svm = r2_score(teste_y, previsoes_svm)
mse_svm = mean_squared_error(teste_y, previsoes_svm)

print("Máquinas de Vetores de Suporte (SVM)")
print("R-squared: %.2f" % r2_svm)
print("Mean Squared Error (MSE): %.2f" % mse_svm)

Máquinas de Vetores de Suporte (SVM)
R-squared: 0.72
Mean Squared Error (MSE): 1535523.02


In [390]:
x=argentina['anos'].values.reshape(-1, 1)
y=argentina_pib_per_capita

modelo_arvore = DecisionTreeRegressor(random_state=SEED)

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.20, random_state=SEED)

modelo_arvore.fit(treino_x, treino_y)

previsoes_arvore = modelo_arvore.predict(teste_x)

r2_arvore = r2_score(teste_y, previsoes_arvore)
mse_arvore = mean_squared_error(teste_y, previsoes_arvore)

print("Árvores de Decisão")
print("R-squared: %.2f" % r2_arvore)
print("Mean Squared Error (MSE): %.2f" % mse_arvore)


Árvores de Decisão
R-squared: 0.92
Mean Squared Error (MSE): 438084.62


In [391]:
x=argentina['anos'].values.reshape(-1, 1)
y=argentina_pib_per_capita

modelo_rf = RandomForestRegressor(random_state=SEED)

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.20, random_state=SEED)

teste_x_rf = teste_x

modelo_rf.fit(treino_x, treino_y)

previsoes_rf = modelo_rf.predict(teste_x)

r2_rf = r2_score(teste_y, previsoes_rf)
mse_rf = mean_squared_error(teste_y, previsoes_rf)

# Aqui só estou garantindo que estou realmente pegando as variáveis corretas.

teste_y_rf = teste_y

print("Random Forest")
print("R-squared: %.2f" % r2_rf)
print("Mean Squared Error (MSE): %.2f" % mse_rf)


Random Forest
R-squared: 0.94
Mean Squared Error (MSE): 333543.32


Melhor modelo acaba sendo o RandomForestRegressor

In [392]:
previsoes_rf

array([13068. , 13686. ,  7575. , 13336. ,  7689.7, 12137. ,  9981.4,
        9631.4,  9541.3, 12534. ,  8643.8,  8632.6, 11696.8])

In [393]:
teste_y_rf

array([13600., 13400.,  7410., 13600.,  8240., 13200.,  9580.,  9630.,
        8990., 12700.,  8140.,  9130., 12900.])

In [394]:
teste_x_rf

array([[2010.],
       [2016.],
       [1960.],
       [2017.],
       [1965.],
       [2008.],
       [1976.],
       [1972.],
       [1985.],
       [2019.],
       [1990.],
       [1969.],
       [2007.]])

### Funções de gráficos de comparação, gráficos de previsão

In [395]:
def grafico_comparar_markers(valores_reais, valores_previstos, anos):
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=anos, y=valores_reais, mode='markers', name='Valores Reais de Teste'))
    fig.add_trace(go.Scatter(x=anos, y=valores_previstos, mode='markers', name='Valores previstos pelo machine learning'))

    fig.update_layout(height=600, width=800, title='Gráfico de comparação',
                      xaxis_title='Ano', yaxis_title='Valores')
    fig.show()

def grafico_comparar_linha(valores_reais, valores_previstos, anos):
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=anos, y=valores_reais, mode='lines', name='Valores Reais de Teste'))
    fig.add_trace(go.Scatter(x=anos, y=valores_previstos, mode='lines', name='Valores previstos pelo machine learning'))

    fig.update_layout(height=600, width=800, title='Gráfico de comparação',
                      xaxis_title='Ano', yaxis_title='Valores')
    fig.show()
    
def grafico_previsao_markers(valores_reais, valores_previstos, anos_x, anos_y):
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=anos_x, y=valores_reais, mode='markers', name='Valores Reais'))
    fig.add_trace(go.Scatter(x=anos_y, y=valores_previstos, mode='markers', name='Valores previstos pelo machine learning'))

    fig.update_layout(height=600, width=800, title='Gráfico de Previsão dos próximos 4 anos',
                      xaxis_title='Ano', yaxis_title='Valores')
    fig.show()
    
def grafico_previsao_linha(valores_reais, valores_previstos, anos_x, anos_y):
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=anos_x, y=valores_reais, mode='lines', name='Valores Reais'))
    fig.add_trace(go.Scatter(x=anos_y, y=valores_previstos, mode='lines', name='Valores previstos pelo machine learning'))

    fig.update_layout(height=600, width=800, title='Gráfico de Previsão dos próximos 4 anos',
                      xaxis_title='Ano', yaxis_title='Valores')
    fig.show()

# Gráfico de comparação de Valores Reais x Valores Previstos pelo Machine Learning do PIB da Argentina.

In [396]:
grafico_comparar_markers(anos=teste_x_rf.ravel(), valores_reais=teste_y_rf, valores_previstos=previsoes)

Pelo gráfico deu para perceber que é bem disperso, como havia dito, por ter pouco dado, e ainda mais por eu ter filtrado para apenas argentina, o modelo não ficou muito acertivo. 

### Prevendo valores do PIB para os anos de 2022, 2023, 2024 e 2025

In [397]:
valores_prever = np.array([2022., 2023., 2024., 2025.])
valores_prever = valores_prever.reshape(-1, 1)

In [398]:
df_gdp_capita_anos.loc[:, '2000':].columns

Index(['2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008',
       '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017',
       '2018', '2019', '2020', '2021'],
      dtype='object')

# Gráfico de previsão de PIB da Argentina nos próximos 4 anos

In [399]:
grafico_previsao_linha(anos_x=df_gdp_capita_anos.loc[:, '1960':].columns, anos_y=valores_prever.ravel(), 
                 valores_reais=argentina_pib_per_capita, valores_previstos=argentina_model.predict(valores_prever))

In [400]:
grafico_previsao_markers(anos_x=df_gdp_capita_anos.loc[:, '1960':].columns, anos_y=valores_prever.ravel(), 
                 valores_reais=argentina_pib_per_capita, valores_previstos=argentina_model.predict(valores_prever))

### Filtrando para a região do Brasil

In [401]:
brasil = df_gdp_capita.loc[df_gdp_capita['country'] == 'Brazil']
brasil = brasil.drop(columns='country')
brasil.isnull().sum()

1960    0
1961    0
1962    0
1963    0
1964    0
       ..
2017    0
2018    0
2019    0
2020    0
2021    0
Length: 62, dtype: int64

In [402]:
d = {'anos': df_gdp_capita_anos.columns, 'pib_per_capita': brasil.iloc[0].tolist()}
brasil = pd.DataFrame(data=d)
brasil.pib_per_capita.values
brasil_pib_per_capita = np.array([convert_to_float(val) for val in brasil.pib_per_capita.values])

# Gráfico de PIB per Capita do Brasil

In [403]:
mostrar_grafico(df_gdp_capita_anos.columns, brasil_pib_per_capita)

In [404]:
from sklearn.ensemble import RandomForestRegressor

modelo_rf = RandomForestRegressor(random_state=SEED)

treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size=0.20, random_state=SEED)

teste_x_rf = teste_x

modelo_rf.fit(treino_x, treino_y)

previsoes_rf = modelo_rf.predict(teste_x)

r2_rf = r2_score(teste_y, previsoes_rf)
mse_rf = mean_squared_error(teste_y, previsoes_rf)

# Aqui só estou garantindo que estou realmente pegando as variáveis corretas.

teste_y_rf = teste_y

print("Random Forest")
print("R-squared: %.2f" % r2_rf)
print("Mean Squared Error (MSE): %.2f" % mse_rf)


Random Forest
R-squared: 0.94
Mean Squared Error (MSE): 333543.32


# Gráfico de comparação de Valores Reais x Valores Previstos pelo Machine Learning do PIB do Brasil.

In [405]:
grafico_comparar_markers(anos=teste_x_rf.ravel(), valores_reais=teste_y_rf, valores_previstos=previsoes_rf)

# Gráfico de previsão de PIBda Argentina nos próximos 4 anos

In [406]:
grafico_previsao_linha(anos_x=df_gdp_capita_anos.loc[:, '1960':].columns, anos_y=valores_prever.ravel(), 
                 valores_reais=brasil_pib_per_capita, valores_previstos=brasil_model.predict(valores_prever))

In [407]:
grafico_previsao_markers(anos_x=df_gdp_capita_anos.loc[:, '1960':].columns, anos_y=valores_prever.ravel(), 
                 valores_reais=brasil_pib_per_capita, valores_previstos=brasil_model.predict(valores_prever))