<p style="text-align:center">
    <a href="https://skills.network" target="_blank">
    <img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/assets/logos/SN_web_lightmode.png" width="200" alt="Skills Network Logo">
    </a>
</p>


# An√°lisis de Regresi√≥n No Lineal

Tiempo estimado: **20 minutos**

---

## Objetivos

Despu√©s de completar este laboratorio, podr√°s:

* Diferenciar entre **regresi√≥n lineal** y **regresi√≥n no lineal**.
* Utilizar un **modelo de regresi√≥n no lineal** en Python.


Si los datos muestran una **tendencia curva**, la **regresi√≥n lineal** no ofrecer√° resultados muy precisos en comparaci√≥n con una **regresi√≥n no lineal**, ya que la regresi√≥n lineal **presupone una relaci√≥n lineal** entre las variables.

Vamos a aprender sobre las **regresiones no lineales** y aplicar un ejemplo en Python.
En este notebook ajustaremos un modelo no lineal a los puntos de datos correspondientes al **PIB de China** entre **1960 y 2014**.

<h2 id="importing_libraries">Importaci√≥n de librer√≠as necesarias</h2>


In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Aunque la **regresi√≥n lineal** puede modelar adecuadamente algunos conjuntos de datos, **no puede aplicarse a todos**.
Recordemos que la regresi√≥n lineal modela la relaci√≥n lineal entre una variable dependiente (y) y una o varias variables independientes (x).
Su ecuaci√≥n es de **grado 1**, por ejemplo:
$$ y = 2x + 3 $$

In [None]:
x = np.arange(-5.0, 5.0, 0.1)

##You can adjust the slope and intercept to verify the changes in the graph
y = 2*(x) + 3
y_noise = 2 * np.random.normal(size=x.size)
ydata = y + y_noise
#plt.figure(figsize=(8,6))
plt.plot(x, ydata,  'bo')
plt.plot(x,y, 'r') 
plt.ylabel('Dependent Variable')
plt.xlabel('Independent Variable')
plt.show()

La **regresi√≥n no lineal** es un m√©todo para modelar una **relaci√≥n no lineal** entre las variables independientes (x) y la variable dependiente (y).
En esencia, cualquier relaci√≥n que **no sea lineal** puede considerarse no lineal y suele representarse mediante un **polinomio de grado (k)** (la m√°xima potencia de (x)).
Por ejemplo:

$$ y = a x^3 + b x^2 + c x + d $$

Las funciones no lineales tambi√©n pueden incluir **exponenciales**, **logaritmos**, **fracciones**, etc.
Por ejemplo:
$$ y = \log(x) $$

Incluso podemos tener funciones m√°s complejas, como:
$$ y = \log(a x^3 + b x^2 + c x + d) $$

A continuaci√≥n, observaremos el **gr√°fico de una funci√≥n c√∫bica**.


In [None]:
x = np.arange(-5.0, 5.0, 0.1)

##You can adjust the slope and intercept to verify the changes in the graph
y = 1*(x**3) + 1*(x**2) + 1*x + 3
y_noise = 20 * np.random.normal(size=x.size)
ydata = y + y_noise
plt.plot(x, ydata,  'bo')
plt.plot(x,y, 'r') 
plt.ylabel('Dependent Variable')
plt.xlabel('Independent Variable')
plt.show()

Como puedes ver, esta funci√≥n incluye $x^3$ and $x^2$ como variables independientes. Adem√°s, su representaci√≥n gr√°fica **no es una l√≠nea recta** en el plano 2D, por lo que se trata de una **funci√≥n no lineal**.

Algunos otros tipos de funciones no lineales son:


### Cuadr√°tica


$$ Y = X^2 $$


In [None]:
x = np.arange(-5.0, 5.0, 0.1)

##You can adjust the slope and intercept to verify the changes in the graph

y = np.power(x,2)
y_noise = 2 * np.random.normal(size=x.size)
ydata = y + y_noise
plt.plot(x, ydata,  'bo')
plt.plot(x,y, 'r') 
plt.ylabel('Dependent Variable')
plt.xlabel('Independent Variable')
plt.show()

### Exponencial


Una **funci√≥n exponencial** con base (c) se define como:

$$ Y = a + b c^X $$

donde b ‚â†0, c > 0 , c ‚â†1, y (x) es cualquier n√∫mero real.
La **base** (c) es constante y el **exponente** (x) es una variable.

In [None]:
X = np.arange(-5.0, 5.0, 0.1)

##You can adjust the slope and intercept to verify the changes in the graph

Y= np.exp(X)

plt.plot(X,Y) 
plt.ylabel('Dependent Variable')
plt.xlabel('Independent Variable')
plt.show()

### Logar√≠tmica

La respuesta (y) resulta de aplicar el **mapa logar√≠tmico** desde la entrada (x) hasta la salida (y).
Es una de las formas m√°s simples de la funci√≥n logar√≠tmica:

$$ y = \log(x) $$

Cabe se√±alar que, en lugar de (x), podemos utilizar (X), que puede ser una representaci√≥n polin√≥mica de los valores de (x).
En forma general, se escribir√≠a como:

$
y = \log(X)
$



In [None]:
X = np.arange(-5.0, 5.0, 0.1)

Y = np.log(X)

plt.plot(X,Y) 
plt.ylabel('Dependent Variable')
plt.xlabel('Independent Variable')
plt.show()

### Sigmoidal / Log√≠stica


$$ Y = a + \frac{b}{1+ c^{(X-d)}}$$


In [None]:
X = np.arange(-5.0, 5.0, 0.1)


Y = 1-4/(1+np.power(3, X-2))

plt.plot(X,Y) 
plt.ylabel('Dependent Variable')
plt.xlabel('Independent Variable')
plt.show()

<a id="ref2"></a>

# Ejemplo de regresi√≥n no lineal


Como ejemplo, intentaremos ajustar un **modelo no lineal** a los puntos de datos correspondientes al **PIB de China** desde **1960 hasta 2014**.
El conjunto de datos contiene dos columnas:

* La primera indica el **a√±o** (entre 1960 y 2014).
* La segunda, el **Producto Interior Bruto anual de China** en d√≥lares estadounidenses para ese a√±o.

In [None]:
import numpy as np
import pandas as pd

#downloading dataset
!wget -nv -O china_gdp.csv https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork/labs/Module%202/data/china_gdp.csv
    
df = pd.read_csv("china_gdp.csv")
df.head(10)

### Representaci√≥n del conjunto de datos

As√≠ es como se ven los puntos de datos.
Parece una **funci√≥n log√≠stica o exponencial**: el crecimiento comienza de forma **lenta**, luego a partir de **2005** se vuelve **muy pronunciado**, y finalmente **se desacelera ligeramente** durante la d√©cada de **2010**.

In [None]:
plt.figure(figsize=(8,5))
x_data, y_data = (df["Year"].values, df["Value"].values)
plt.plot(x_data, y_data, 'ro')
plt.ylabel('GDP')
plt.xlabel('Year')
plt.show()

### Elecci√≥n de un modelo

A partir de una primera observaci√≥n del gr√°fico, determinamos que la funci√≥n log√≠stica podr√≠a ser una buena aproximaci√≥n, ya que tiene la propiedad de comenzar con un crecimiento lento, aumentar su crecimiento en la parte media y luego disminuir nuevamente al final; como se ilustra a continuaci√≥n:


In [None]:
X = np.arange(-5.0, 5.0, 0.1)
Y = 1.0 / (1.0 + np.exp(-X))

plt.plot(X,Y) 
plt.ylabel('Dependent Variable')
plt.xlabel('Independent Variable')
plt.show()

La f√≥rmula de la funci√≥n log√≠stica es la siguiente:

$$ \hat{Y} = \frac1{1+e^{-\beta_1(X-\beta_2)}}$$

$\beta_1$: Controla la pendiente de la curva.

$\beta_2$: Desplaza la curva a lo largo del eje x.


### Construcci√≥n del modelo

Ahora, construyamos nuestro modelo de regresi√≥n e inicialicemos sus par√°metros.

In [None]:
def sigmoid(x, Beta_1, Beta_2):
     y = 1 / (1 + np.exp(-Beta_1*(x-Beta_2)))
     return y

Veamos un ejemplo de una l√≠nea sigmoide que podr√≠a ajustarse a los datos:

In [None]:
beta_1 = 0.10
beta_2 = 1990.0

#logistic function
Y_pred = sigmoid(x_data, beta_1 , beta_2)

#plot initial prediction against datapoints
plt.plot(x_data, Y_pred*15000000000000.)
plt.plot(x_data, y_data, 'ro')

Nuestra tarea aqu√≠ es encontrar los mejores par√°metros para nuestro modelo.
Primero, normalicemos nuestras variables x e y:

In [None]:
# Lets normalize our data
xdata =x_data/max(x_data)
ydata =y_data/max(y_data)

#### ¬øC√≥mo encontramos los mejores par√°metros para nuestra l√≠nea de ajuste?

Podemos usar **curve_fit**, que utiliza el m√©todo de *m√≠nimos cuadrados no lineales* para ajustar nuestra funci√≥n sigmoide a los datos. Este m√©todo optimiza los valores de los par√°metros de manera que la suma de los residuos al cuadrado de `sigmoid(xdata, *popt) - ydata` sea m√≠nima.

`popt` son nuestros par√°metros optimizados.

In [None]:
from scipy.optimize import curve_fit
popt, pcov = curve_fit(sigmoid, xdata, ydata)
#print the final parameters
print(" beta_1 = %f, beta_2 = %f" % (popt[0], popt[1]))

Luego, representamos gr√°ficamente el modelo de regresi√≥n resultante.

In [None]:
x = np.linspace(1960, 2015, 55)
x = x/max(x)
plt.figure(figsize=(8,5))
y = sigmoid(x, *popt)
plt.plot(xdata, ydata, 'ro', label='data')
plt.plot(x,y, linewidth=3.0, label='fit')
plt.legend(loc='best')
plt.ylabel('GDP')
plt.xlabel('Year')
plt.show()

## Pr√°ctica

¬øPuedes calcular cu√°l es la **precisi√≥n** de nuestro modelo?

In [None]:
# write your code here





**IBM SPSS Modeler** es una plataforma de anal√≠tica integral que incluye numerosos algoritmos de aprendizaje autom√°tico. Est√° dise√±ada para aportar inteligencia predictiva a las decisiones tomadas por individuos, grupos, sistemas o por toda la organizaci√≥n.
Puedes acceder a una versi√≥n de prueba gratuita desde este curso:
üëâ [SPSS Modeler](https://www.ibm.com/analytics/spss-statistics-software?utm_source=skills_network&utm_content=in_lab_content_link&utm_id=Lab-IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork)

Tambi√©n puedes usar **Watson Studio** para ejecutar estos notebooks m√°s r√°pido y con conjuntos de datos m√°s grandes. Watson Studio es la soluci√≥n en la nube l√≠der de IBM para cient√≠ficos de datos, creada por cient√≠ficos de datos.
Con Jupyter Notebooks, RStudio, Apache Spark y bibliotecas populares ya integradas en la nube, Watson Studio permite colaborar en proyectos sin necesidad de instalar nada.
√önete hoy a la comunidad de Watson Studio con una cuenta gratuita:
üëâ [Watson Studio](https://www.ibm.com/cloud/watson-studio?utm_source=skills_network&utm_content=in_lab_content_link&utm_id=Lab-IBMDeveloperSkillsNetwork-ML0101EN-SkillsNetwork)



### ¬°Gracias por completar este laboratorio!

---

## Autor

**Saeed Aghabozorgi**

### Otros colaboradores

<a href="https://www.linkedin.com/in/joseph-s-50398b136/" target="_blank">Joseph Santarcangelo</a>

### Traducci√≥n

<a href="https://www.linkedin.com/in/carlostessier/" target="_blank">Carlos Tessier</a>


---

## <h3 align="center"> ¬© IBM Corporation 2025. Todos los derechos reservados. </h3>