# Regresión lineal con datos del Banco Mundial (PIB)

La Regresión lineal es un modelo matemático que nos ayuda a relacionar dos o más variables con el objetivo de identificar la relación que tiene una variable en función de la otra.
El objetivo de este ejercicio es encontrar una posible relación o linealidad entre el PIB(Producto Interno Bruto) de diferentes paises del mundo.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### PASO 1: Preparar y orgnaizar los datos

In [None]:
path = 'ARCHIVO.CSV' # reemplazar por el nombre de archivo
data1 = pd.read_csv(path)

In [None]:
df = data1.T # Transpone índice y columnas del DataFrame
df.columns = data1['Country Name'] # Titulo de las columnas del DataFrame
df = df[4:] # Toma los datos a partir de la 4 filas
#df

In [None]:
# Toma los años como lista de indices 
index = df.index.values.tolist()
#index

In [None]:
# Carga los datos de cada país en las variables predictoras
argentina = df['Argentina'].fillna(method='backfill').values # Rellena NaN con el próximo valor válido 
mexico = df['México'].fillna(method='backfill').values
mundo = df['Mundo'].fillna(method='backfill').values
sudafrica = df['Sudáfrica'].fillna(method='backfill').values
eu = df['Estados Unidos'].fillna(method='backfill').values
españa = df['España'].fillna(method='backfill').values
china = df['China'].fillna(method='backfill').values
francia = df['Francia'].fillna(method='backfill').values
noruega = df['Noruega'].fillna(method='backfill').values

### PASO 2: Exploración de los datos

In [None]:
#%matplotlib notebook
fig, ax = plt.subplots(figsize=(16,7))
 
plt.plot(index, argentina)
plt.plot(index, mexico)
plt.plot(index, mundo)
plt.plot(index, sudafrica)
plt.plot(index, eu)
plt.plot(index,españa)
plt.plot(index,china)
plt.plot(index,francia)
plt.plot(index,noruega)

plt.legend(["Argentina","México","Mundo","Sudáfrica","Estados Unidos","España","China","Francia","Noruega"])
fig.autofmt_xdate(rotation=70)
plt.title("Producto Interno Bruto (US$ a precios actuales)")
plt.grid(True)
plt.show()

### PASO 3: Modelado de datos

Función que nos facilita desarrollar un modelo de regresión lineal.

In [None]:
def regresion_lineal(data, y, *args):
    
    import pandas as pd
    import numpy as np
    from sklearn.linear_model import LinearRegression
    from sklearn import metrics
    from sklearn.model_selection import train_test_split

    Y= data[y]
    X= data[args[0]]
    
    # Se divide el conjunto de datos en dos bloques de entrenamiento y prueba
    X_entrenamiento, X_prueba, y_entrenamiento, y_prueba= train_test_split(X, Y, test_size= 0.2, random_state= 2) 
    
    # Creamos un objeto de regresión lineal
    lm = LinearRegression()     

    # Ajustamos la regresión a los datos de entrenamiento
    lm.fit(X_entrenamiento, y_entrenamiento)

    print('Cuadrados: ', lm.score(X_entrenamiento, y_entrenamiento))
    prediccion= lm.predict(pd.DataFrame(X_prueba))
    
    RSS= sum((y_prueba - prediccion)**2) # Suma de residuos al cuadrado
    RSE= np.sqrt(RSS/(len(data)-2)) # Error estándar residual
    media= np.mean(y_prueba)
    error= RSE/media
         
    # El error significa el porcentaje que el modelo no puede ser explicado
    print('Error: ', error)

Las entradas de la función deben los datos ya depurados, es muy probable que, si estos no están procesados, la función arroje errores. También se tiene que identificar la o las variables predictoras (x) y la variable que se va a predecir (y). En el caso de este ejemplo la variable que queremos predecir es el PIB del Mundo, por lo tanto, se usaran los países como variables predictoras.

Es importante conciderar en la evaluación de los resultados que el valor de los cuadrados entre más cercano sea a 1 o 100% significa que la linealidad de ambas variables está muy relacionada. Y cuanto más bajo sea el valor del error, mas justificado por el modelo.

In [None]:
y = 'Mundo'
x = ['México']
regresion_lineal(df.bfill().ffill(), y, x)

Podemos agregar mas de una variable predictora a nuestro modelo, para este ejemplo agregaremos **Argentina**, **México** y **Sudáfrica**. Debiendo comparar los resultados contra los ejemplos anteriores. Buscando  mejora en los cuadrados y el error.

In [None]:
y = 'Mundo'
x = ['Argentina', 'México', 'Sudáfrica']
regresion_lineal(df.bfill().ffill(), y, x)

Basado en el ejercicio [Regresión lineal con datos del Banco Mundial (PIB)](https://www.kaggle.com/code/carlosgm9/regresi-n-lineal-con-datos-del-banco-mundial-pib)