# Polynomial Regression

# Código de la presentación

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score
from sklearn.impute import SimpleImputer

In [2]:
#cargar el dataset de los precios de los automóviles
#df=pd.read_csv ruta /al/dataset csv"
df= pd.read_csv('data//autos.csv')
df = df.dropna()  

In [None]:
#seleccionar las variables de entrada y de salida
X=df [['horsepower','curb-weight','engine-size']]
y=df ['price']

In [4]:
# dividir el dataset en datos de entrenamiento y de prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# crear una instancia del objeto PolynomialFeatures con un grado de polinomio de 2

poly = PolynomialFeatures(degree=2)
# transformar los datos de entrada a un polinomio de segundo grado
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)
# entrenar el modelo de regresión lineal
lr = LinearRegression()
lr.fit(X_train_poly, y_train)

In [5]:
# hacer predicciones en los datos de prueba
y_pred = lr.predict(X_test_poly)

# calcular el coeficiente de determinación R^2 para evaluar el modelo
r2 = r2_score(y_test, y_pred)

print("El coeficiente de determinación R^2 es:" , r2)
# hacer una predicción para un automóvil con 100 caballos de fuerza, peso en vacío de 2500 libras y tamaño de motor de 120 pulgadas cúbicas
X_new = np.array([[100, 2500, 120]])
X_new_poly = poly.transform(X_new)
y_new_pred = lr.predict(X_new_poly)

print("El precio estimado para este automóvil es de:", y_new_pred[0])


El coeficiente de determinación R^2 es: 0.8797267652171928
El precio estimado para este automóvil es de: 11468.51565766795




# Tarea

# “Rendimiento” modelo de inversión

## Descripción del Dataset: Datos Históricos de Acciones (AAPL)

Este código utiliza la librería yfinance para descargar datos históricos de precios de acciones de Apple Inc. (AAPL) desde el 1 de enero de 2018 hasta el 31 de diciembre de 2023. El dataset obtenido contiene información diaria sobre los precios de apertura, cierre, máximos y mínimos, así como el volumen de negociación de las acciones.

## Características del Dataset:

- Date: La fecha de la observación.
- Open: El precio de apertura de la acción en ese día.
- High: El precio máximo alcanzado por la acción en ese día.
- Low: El precio mínimo alcanzado por la acción en ese día.
- Close: El precio de cierre de la acción en ese día.
- Adj Close: El precio de cierre ajustado, que tiene en cuenta dividendos y divisiones de acciones.
- Volume: El volumen de acciones negociadas en ese día.

In [7]:
!pip install yfinance

Collecting yfinance
  Downloading yfinance-0.2.54-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting multitasking>=0.0.7 (from yfinance)
  Downloading multitasking-0.0.11-py3-none-any.whl.metadata (5.5 kB)
Collecting peewee>=3.16.2 (from yfinance)
  Downloading peewee-3.17.9.tar.gz (3.0 MB)
     ---------------------------------------- 0.0/3.0 MB ? eta -:--:--
     ---------------------------------------- 0.0/3.0 MB ? eta -:--:--
     ---------------------------------------- 0.0/3.0 MB 640.0 kB/s eta 0:00:05
      --------------------------------------- 0.1/3.0 MB 777.7 kB/s eta 0:00:04
     -- ------------------------------------- 0.2/3.0 MB 1.2 MB/s eta 0:00:03
     --- ------------------------------------ 0.3/3.0 MB 1.4 MB/s eta 0:00:02
     ------ --------------------------------- 0.5/3.0 MB 2.2 MB/s eta 0:00:02
     --------- ------------------------------ 0.7/3.0 MB 2.6 MB/s eta 0:00:01
     ---------- ----------------------------- 0.8/3.0 MB 2.6 MB/s eta 0:00:01
     ------------

## Creación del modelo

In [8]:
import yfinance as yf
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Obtener datos históricos de Apple (AAPL)
ticker = "AAPL"
data = yf.download(ticker, start="2018-01-01", end="2023-12-31")

# Mostrar los primeros registros
print(data.head())

YF.download() has changed argument auto_adjust default to True


[*********************100%***********************]  1 of 1 completed

Price           Close       High        Low       Open     Volume
Ticker           AAPL       AAPL       AAPL       AAPL       AAPL
Date                                                             
2018-01-02  40.479836  40.489237  39.774858  39.986353  102223600
2018-01-03  40.472790  41.017975  40.409344  40.543288  118071600
2018-01-04  40.660770  40.764168  40.437528  40.545623   89738400
2018-01-05  41.123714  41.210661  40.665479  40.757126   94640000
2018-01-08  40.970970  41.267060  40.872270  40.970970   82271200





In [9]:
# Crear características (usando precios de cierre anteriores)
data['Close_1'] = data['Close'].shift(1)
data['Close_2'] = data['Close'].shift(2)
data['Close_3'] = data['Close'].shift(3)

# Eliminar filas con valores NaN (debido al shift)
data = data.dropna()

# Seleccionar características y variable objetivo
X = data[['Close_1', 'Close_2', 'Close_3']]
y = data['Close']

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [10]:
# Entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

In [11]:
# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MSE: {mse}")
print(f"R^2: {r2}")

MSE: 5.493537502238875
R^2: 0.9979580286382425


### MSE
Un MSE más bajo indica que el modelo tiene un mejor ajuste a los datos.
En este caso, un MSE de aproximadamente 5.49 significa que, en promedio, las predicciones de tu modelo se desvían de los valores reales en aproximadamente la raíz cuadrada de 5.49 (alrededor de 2.34) unidades (en este caso, unidades de precio de la acción).
Dado que se  prediciendo precios de acciones, se debe interpretar este valor en el contexto de la escala de precios de la acción. Por ejemplo, si el precio promedio de la acción está en el rango de cientos de dólares, un MSE de 5.49 podría considerarse bastante bajo.

### r2
Un R^2 cerca de 1 indica un ajuste perfecto (el modelo predice perfectamente los datos).

En este caso, un R^2 de aproximadamente 0.998 indica que tu modelo explica el 99.8% de la variabilidad en el precio de la acción. Esto sugiere un ajuste muy bueno del modelo a los datos.
En resumen:

El modelo tiene un error promedio relativamente bajo (MSE), lo que indica que las predicciones son bastante precisas.
El modelo explica una proporción muy alta de la variabilidad en los datos (R^2), lo que sugiere un ajuste excelente.

In [12]:
# Obtener los últimos tres precios de cierre
last_prices = data['Close'].tail(3).values.reshape(1, -1)

# Hacer la predicción
next_day_pred = model.predict(last_prices)

print(f"Predicción para el siguiente día: {next_day_pred[0]}")

Predicción para el siguiente día: [192.07203285]


# Predicción del precio de un automóvil de acuerdo a sus características

## Descripción del dataset
El dataset "Automobile Data Set" del repositorio UCI es un conjunto de datos clásico utilizado para tareas de regresión y clasificación en el aprendizaje automático. Contiene información sobre las características de diversos automóviles, con el objetivo principal de predecir el precio de los automóviles.

## Características del dataset
- Tipo de datos: Mixto (numérico y categórico).
- Número de instancias: 205.
- Número de atributos: 26 (incluyendo la variable objetivo).
- Variable objetivo: "price" (precio del automóvil).

## Creación del modelo

In [20]:
#cargar el dataset de los precios de los automóviles
#df=pd.read_csv ruta /al/dataset csv"
df= pd.read_csv('data//autos.csv')
df = df.dropna()  

In [21]:
#seleccionar las variables de entrada y de salida
X=df [['highway-mpg','peak-rpm','wheel-base']]  
y=df ['price']

In [22]:
# dividir el dataset en datos de entrenamiento y de prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# crear una instancia del objeto PolynomialFeatures con un grado de polinomio de 2

poly = PolynomialFeatures(degree=2)
# transformar los datos de entrada a un polinomio de segundo grado
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)
# entrenar el modelo de regresión lineal
lr = LinearRegression()
lr.fit(X_train_poly, y_train)

In [23]:
# hacer predicciones en los datos de prueba
y_pred = lr.predict(X_test_poly)

# calcular el coeficiente de determinación R^2 para evaluar el modelo
r2 = r2_score(y_test, y_pred)

print("El coeficiente de determinación R^2 es:" , r2)
# hacer una predicción para un automóvil con 100 caballos de fuerza, peso en vacío de 2500 libras y tamaño de motor de 120 pulgadas cúbicas
X_new = np.array([[100, 2500, 120]])
X_new_poly = poly.transform(X_new)
y_new_pred = lr.predict(X_new_poly)

print("El precio estimado para este automóvil es de:", y_new_pred[0])

El coeficiente de determinación R^2 es: 0.7485460276257612
El precio estimado para este automóvil es de: 203831.36853108997




## Conclusiones:

Coeficiente de Determinación R^2 (0.7485):
El R^2 de 0.7485 indica que el modelo de regresión polinomial explica aproximadamente el 74.85% de la variabilidad en el precio de los automóviles.
Esto sugiere que el modelo tiene un rendimiento moderadamente bueno para predecir los precios de los automóviles basándose en las variables highway-mpg, peak-rpm y wheel-base.
Sin embargo, también significa que hay un 25.15% de la variabilidad en los precios que el modelo no puede explicar, lo que sugiere que hay otros factores relevantes que no se están considerando.

Precio Estimado del Automóvil (203831.37):
El modelo predice que un automóvil con las características especificadas (100 caballos de fuerza, peso en vacío de 2500 libras y tamaño de motor de 120 pulgadas cúbicas) tendría un precio estimado de aproximadamente $203,831.37.
Es importante tener en cuenta que esta es solo una estimación y que el precio real del automóvil puede variar debido a otros factores no incluidos en el modelo.

# Modelo de predicción del clima

## Descripción del da set:
Se creó un conjunto de datos sintéticos ya que no soportó el programa el conjunto de datos de kaggle por lo que se toma en consideración sus características del dataset NOAA Global Historical Climatology Network Daily de Kaggle https://www.kaggle.com/datasets/noaa/noaa-global-historical-climatology-network-daily/data

Este dataset sintético simula datos climáticos diarios para un período de cuatro años, desde el 1 de enero de 2020 hasta el 31 de diciembre de 2023. Contiene seis variables climáticas clave:

## Características del dataset
- Fecha: La fecha de la observación (diaria).
- Temperatura_Maxima: La temperatura máxima diaria (en grados Celsius).
- Temperatura_Minima: La temperatura mínima diaria (en grados Celsius).
- Temperatura_Observacion: La temperatura en el momento de la observación (en grados Celsius).
- Precipitacion: La cantidad de precipitación (en unidades arbitrarias).
- Nevada: La cantidad de nevada (en unidades arbitrarias).
- Profundidad_Nieve: La profundidad de la nieve en el suelo (en unidades arbitrarias).

## Creación del modelo

In [24]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Generar datos sintéticos
np.random.seed(42)  # Para reproducibilidad

fechas = pd.date_range(start='2020-01-01', end='2023-12-31', freq='D')
temp_max = np.random.uniform(10, 35, len(fechas))
temp_min = temp_max - np.random.uniform(5, 15, len(fechas))
temp_obs = (temp_max + temp_min) / 2 + np.random.normal(0, 2, len(fechas))
precipitacion = np.random.exponential(3, len(fechas))
nevada = np.random.choice([0, 1, 2, 3, 4], len(fechas))
profundidad_nieve = np.cumsum(nevada) - np.random.randint(0, 2, len(fechas))
profundidad_nieve = np.clip(profundidad_nieve, 0, None)  # No puede ser negativo

df = pd.DataFrame({
    'Fecha': fechas,
    'Temperatura_Maxima': temp_max,
    'Temperatura_Minima': temp_min,
    'Temperatura_Observacion': temp_obs,
    'Precipitacion': precipitacion,
    'Nevada': nevada,
    'Profundidad_Nieve': profundidad_nieve
})

print(df.head())

       Fecha  Temperatura_Maxima  Temperatura_Minima  Temperatura_Observacion  \
0 2020-01-01           19.363503            7.851173                12.678530   
1 2020-01-02           33.767858           27.701927                31.659014   
2 2020-01-03           28.299849           16.721395                24.077403   
3 2020-01-04           24.966462            9.972325                16.966316   
4 2020-01-05           13.900466            8.418346                 9.964385   

   Precipitacion  Nevada  Profundidad_Nieve  
0       2.154735       3                  2  
1       1.286962       3                  5  
2       1.409171       0                  6  
3       2.913275       2                  8  
4       3.805194       3                 11  


In [25]:
# Seleccionar variables de entrada y salida
X = df[['Temperatura_Minima', 'Temperatura_Observacion', 'Precipitacion', 'Nevada', 'Profundidad_Nieve']]
y = df['Temperatura_Maxima']

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear características polinomiales
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# Entrenar modelo de regresión lineal
lr = LinearRegression()
lr.fit(X_train_poly, y_train)

# Hacer predicciones
y_pred = lr.predict(X_test_poly)

# Calcular R^2
r2 = r2_score(y_test, y_pred)
print("El coeficiente de determinación R^2 es:", r2)

# Hacer una predicción para un nuevo día (ejemplo)
nuevo_dia = np.array([[15, 20, 2, 1, 5]])  # Ejemplo de valores
nuevo_dia_poly = poly.transform(nuevo_dia)
temp_max_pred = lr.predict(nuevo_dia_poly)
print("Temperatura máxima predicha para el nuevo día:", temp_max_pred[0])

El coeficiente de determinación R^2 es: 0.903471267898557
Temperatura máxima predicha para el nuevo día: 24.647453138718983


