# Fundamentos de la técnica

De acuerdo al tercer articulo, se explica que una regresión polinomial es la mejor tipo de regresión que se puede utilizar, teniendo más utilidad en casos reales que la regresión lineal, y aún sindeo sencillo de implementar y entender.

# Modelo matemático

Se explica que la refresión polinomial es un modelo extendido de la regresión lineal, también siendo un técnica de estádistica, usado cuando la set de datos muestra un patron no lineal.

Su formula es: **y = B0 + B1x + B2x^2 + ... + B*n*x^*n* + E**

Donde:

*   y es la variable dependiente.
*   x es la varianle independiente.
*   B0, B1, ..., Bn son los coeficientes del modelo.
*   E es el error.


# Librerías

*   **Pandas:** Permite manipular, limpiar y analizar datos de forma eficiente, utilizado comunmente para cargar archivos CSV, Excel, SQL, etc.
*   **Numpy:** Proporciona soporte para cálculos numéricos y manejo de arreglos (arrays) multidimensionales.
Es la base de muchas otras librerías científicas en Python.
*   **MatPlotLib.pyplot:** Sirve para crear gráficos y visualizaciones estáticas en 2D (barras, líneas, dispersión, histogramas, etc.), en este caso, nos servirá para graficar nuestros datos y nuestra regresión polinomial.
*  **Sklearn:** Es una de las librerías más usadas para Machine Learning (aprendizaje automático) en Python, en este caso, será utilizado para entrenar nuestra regresión polinomial.







#Pipeline

## Preprocesamiento

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib import rcParams
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

In [3]:
data = pd.read_csv('china_cases.csv')
x = data['x'].values
y = data['y'].values

FileNotFoundError: [Errno 2] No such file or directory: 'china_cases.csv'

## Feature Engineering

Revisando el código, hay 4 variables que se emplean para realizar la regresión:

*   y (dependiente)
*   x (independiente)
*   test_size
*   random_state


## Model Selection

Revisando el dataset, se escogió un modelo polinomial sobre uno lineal debido al incremento inpredecible que posee la data set, teniendo periodos lentos y rápidos de crecimiento, siendo imposible de dar con un resultado de buen fitting en una regresión lineal.

## Model Training

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

rcParams['axes.spines.top'] = False
rcParams['axes.spines.right'] = Falseplt.scatter(x_test, y_test, c='#edbf6f', label='Testing data')
plt.scatter(x_train, y_train, c='#8acfd4', label='Training data')
plt.legend(loc="upper left")
plt.show()

x_train = x_train.reshape(-1, 1)
y_train = y_train.reshape(-1, 1)

y_train = y_train[x_train[:,0].argsort()]
x_train = x_train[x_train[:, 0].argsort()]

## Predictions

In [None]:
poly = PolynomialFeatures(degree=2)
x_poly = poly.fit_transform(x_train)

poly_reg = LinearRegression()
poly_reg.fit(x_poly, y_train)

plt.title('Disease cases regressed on days')
plt.xlabel('Days')
plt.ylabel('Cases')
plt.plot(x_train, poly_reg.predict(x_poly), c='#a3cfa3', label='Polynomial regression line')
plt.legend(loc="upper left")
plt.show()

## Model Evaluation

In [None]:
print(poly_reg.score(x_poly, y_train))


(np.int64(3),
 82.12057919191898,
 93.19555930834686,
 0.9833308707514882,
 0.9716276725394738)