# Analisis Exploratorio de Datos

## Importar datos, librerias y creación de funciones

In [None]:
# Importar librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split


In [None]:
# Cargar dataset redWine y whiteWine
redWine = pd.read_csv('winequality-red.csv', sep=';')
whiteWine = pd.read_csv('winequality-white.csv', sep=';')

In [None]:
# Funcion para mostrar histograma y boxplot de un atributo
def histograma_boxplot(dataset, atributo):
  plt.figure(figsize=(10,4))

  plt.subplot(1,2,1)
  sns.histplot(dataset[atributo])

  plt.subplot(1,2,2)
  sns.boxplot(data=dataset[atributo])

In [None]:
# Funcion deteccion de outliers
def deteccion_outliers(dataset):
  cols = dataset.columns
  for i in cols:
    if i == 'type':
      continue
    q1 = dataset[i].quantile(0.25)
    q3 = dataset[i].quantile(0.75)
    iqr = q3 - q1
    lim_inf = q1 - 1.5 * iqr
    lim_sup = q3 + 1.5 * iqr
    outliers = dataset[(dataset[i] < lim_inf) | (dataset[i] > lim_sup)].shape[0]
    print(f"El atributo {i} tiene {outliers} outliers")

In [None]:
# Funcion resumen de datos
def resumen_datos(dataset):
  print("Cantidad de datos en wine: ", dataset.shape[0])
  print("Calidad media de vinos: ", dataset['quality'].mean())
  print("Cantidad de vinos con calidad mayor a la media: ", dataset[dataset['quality'] > dataset['quality'].mean()].shape[0])
  print("Cantidad de vinos con calidad menor a la media: ", dataset[dataset['quality'] < dataset['quality'].mean()].shape[0])
  print("La desviacion estandar de la calidad de los vinos es: ", dataset['quality'].std())
  print("La calidad minima de los vinos es: ", dataset['quality'].min())
  print("La calidad maxima de los vinos es: ", dataset['quality'].max())
  print("El 25% de los vinos tiene una calidad menor a: ", dataset['quality'].quantile(0.25))
  print("El 75% de los vinos tiene una calidad mayor a: ", dataset['quality'].quantile(0.75))
  print("El ultimo 25% de los vinos tiene una calidad entre ", dataset['quality'].quantile(0.25), " y ", dataset['quality'].quantile(0.75))
  print("La mayor concentracion de vinos se encuentra entre ", dataset['quality'].quantile(0.25), " y ", dataset['quality'].quantile(0.75))

In [None]:
# Funcion detección de asimetria
def deteccion_asimetria(dataset):
  cols = dataset.columns
  for i in cols:
    if i == 'type':
      continue
    print(f"El atributo {i} tiene una asimetria de {dataset[i].skew()}")

In [None]:
# Funcion mostrar mayor correlacion entre atributos
def mayor_correlacion(dataset, max_valor = 0, atributo = ''):
  corr = dataset.corr()
  if atributo != '':
    corr_quality = corr[[atributo]].copy()
    corr_quality['abs_corr'] = corr_quality[atributo].abs()
    corr_quality = corr_quality[corr_quality['abs_corr'] != 1]  # Excluir correlaciones igual a 1
    corr_quality = corr_quality.sort_values('abs_corr', ascending=False).head(3)

    print(corr_quality)
  elif max_valor != 0:
    max_valor = abs(max_valor)
    high_corr = corr[(corr > max_valor) | (corr < -max_valor)]
    high_corr = high_corr.stack().reset_index()
    high_corr['abs_corr'] = high_corr[0].abs()
    high_corr = high_corr[high_corr[0] != 1]  # Filtrar correlaciones diferentes de 1
    high_corr = high_corr.sort_values('abs_corr', ascending=False).drop_duplicates(0)
    print(high_corr)

## Analisis de los datos de Red Wine

### Resumen de Datos

In [None]:
# Observar dataset redWine
redWine.head()

In [None]:
# Cantidad de datos en redWine y whiteWine
print("Cantidad de datos en redWine: ", redWine.shape[0])

In [None]:
# Tipos de datos en redWine
print("Red Wine:")
redWine.info()

Se observa que no es necesario hacer algun cambio en los datos, ya que no hay datos categoricos

In [None]:
# Resumen de datos en relacion de RedWine en base al atributo 'quality'
resumen_datos(redWine)

### Graficos de Histogramas y Boxplots

In [None]:
# Cantidades de vinos por calidad
sns.countplot(x='quality', data=redWine)

In [None]:
# Por cada atributo, mostrar histograma y boxplot
for atributo in redWine.columns:
  histograma_boxplot(redWine, atributo)

### Deteccion de Outliers

In [None]:
# Deteccion de outliers en wine
deteccion_outliers(redWine)

### Analisis Asimetrías

In [None]:
# Detectar asimetria en redWine
deteccion_asimetria(redWine)

### Analisis de Correlaciones entre variables

In [None]:
# Coeficiente de correlación de Pearson
plt.figure(figsize=(10,10))
sns.heatmap(redWine.corr(method='pearson'), annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion entre ellos
mayor_correlacion(redWine, max_valor=0.6)

### Analisis de Correlaciones en relacion a la variable Quality

In [None]:
# Correlacion con la variable 'quality' del dataset wine a través de un mapa de calor
plt.figure(figsize=(5,5))
sns.heatmap(redWine.corr()[['quality']], annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion con 'quality'
mayor_correlacion(redWine, atributo='quality')

## Analisis de los datos de White Wine

### Resumen de Datos

In [None]:
# Observar dataset WhiteWine
whiteWine.head()

In [None]:
# Cantidad de datos en whiteWine
print("Cantidad de datos en redWine: ", whiteWine.shape[0])

In [None]:
# Tipos de datos en WhiteWine
print("White Wine:")
whiteWine.info()

Se observa que no es necesario hacer algun cambio en los datos, ya que no hay datos categoricos

In [None]:
# Resumen de datos en relacion de WhiteWine en base al atributo 'quality'
resumen_datos(whiteWine)

### Graficos de Histogramas y Boxplots

In [None]:
# Cantidades de vinos por calidad
sns.countplot(x='quality', data=whiteWine)

In [None]:
# Por cada atributo, mostrar histograma y boxplot
for atributo in whiteWine.columns:
  histograma_boxplot(whiteWine, atributo)

### Deteccion de Outliers

In [None]:
# Deteccion de outliers en wine
deteccion_outliers(whiteWine)

### Analisis Asimetrías

In [None]:
# Detectar asimetria en redWine
deteccion_asimetria(whiteWine)

### Analisis de Correlaciones entre variables

In [None]:
# Coeficiente de correlación de Pearson
plt.figure(figsize=(10,10))
sns.heatmap(whiteWine.corr(method='pearson'), annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion entre ellos
mayor_correlacion(whiteWine, max_valor=0.6)

### Analisis de Correlaciones en relacion a la variable Quality

In [None]:
# Correlacion con la variable 'quality' del dataset wine a través de un mapa de calor
plt.figure(figsize=(5,5))
sns.heatmap(whiteWine.corr()[['quality']], annot=True, cmap='RdYlGn')
plt.show()

In [None]:
# Atributos con mayor correlacion con 'quality'
mayor_correlacion(whiteWine, atributo='quality')

# Procesamiento de datos

## Funciones

In [None]:
# Función de costo
def compute_cost(X, y, theta, theta_0):
    m = len(y)
    predictions = X.dot(theta) + theta_0
    cost = (1/(2*m)) * np.sum((predictions - y)**2)
    return cost

In [None]:
# Batch Gradient Descent
def batch_gradient_descent(X_train, y_train, X_test, y_test, theta, theta_0, alpha, num_iters):
  m_train = len(y_train)
  m_test = len(y_test)
  cost_history_train = []
  cost_history_test = []
  for i in range(num_iters):
    # Entrenamiento
    predictions_train = X_train.dot(theta) + theta_0
    theta = theta - (alpha/m_train) * X_train.T.dot(predictions_train - y_train)
    theta_0 = theta_0 - (alpha/m_train) * np.sum(predictions_train - y_train)
    cost_train = compute_cost(X_train, y_train, theta, theta_0)
    cost_history_train.append(cost_train)
    # Prueba
    predictions_test = X_test.dot(theta) + theta_0
    cost_test = compute_cost(X_test, y_test, theta, theta_0)
    cost_history_test.append(cost_test)
  return theta, theta_0, cost_history_train, cost_history_test

In [None]:
# Funcion de regresion lineal simple usand batch gradient descent para determinar la calidad del vino
def regresion_lineal_simple(dataSet, atributo, alpha, num_iters):
  # Selección de variables de entrada y salida
  X = dataSet[[atributo]].values
  Y = dataSet['quality'].values
  
  # Separación aleatoria de los datos en entrenamiento y prueba
  X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)

  # Normalización de los datos de entrada
  mu = np.mean(X_train, axis=0)
  sigma = np.std(X_train, axis=0)
  X_train_norm = (X_train - mu) / sigma
  X_test_norm = (X_test - mu) / sigma

  # Inicialización de parámetros
  theta = np.zeros(X_train_norm.shape[1])
  theta_0 = 0
  
  # Ejecución de Batch Gradient Descent
  theta_final, theta_0_final, cost_history_train, cost_history_test = batch_gradient_descent(X_train_norm, y_train, X_test_norm, y_test, theta, theta_0, alpha, num_iters)

  # Predicción en el conjunto de prueba
  y_pred = X_test_norm.dot(theta_final) + theta_0_final

  # Cálculo de R y R cuadrado
  r = np.corrcoef(y_test, y_pred)[0,1]
  r_squared = r**2

  # Impresión de resultados
  print('Valor de R:', r)
  print('Valor de R cuadrado:', r_squared)
  print('Theta:', theta_final)
  print('Costo de entrenamiento:', cost_history_train[-1])
  print('Costo de prueba:', cost_history_test[-1])

  # Gráfica de la función de costo vs el número de iteraciones
  plt.plot(range(num_iters), cost_history_train, label='Entrenamiento')
  plt.plot(range(num_iters), cost_history_test, label='Prueba')
  plt.xlabel('Número de iteraciones')
  plt.ylabel('Costo')
  plt.title('Función de costo vs Número de iteraciones')
  plt.legend()
  plt.show()

  # Gráfica de los valores reales vs predicciones en el conjunto de prueba
  plt.scatter(y_test, y_pred)
  plt.xlabel('Valores reales')
  plt.ylabel('Predicciones')
  plt.title('Valores reales vs Predicciones')
  plt.show()

## Regresión lineal simple usando batch gradient descent

### Para el Red Wine

#### Para el atributo Alcohol

In [None]:
regresion_lineal_simple(redWine, 'alcohol', 0.01, 1000)

#### Para el atributo Acidez Volatil

In [None]:
regresion_lineal_simple(redWine, 'volatile acidity', 0.01, 1000)

#### Para el atributo Sufates

In [None]:
regresion_lineal_simple(redWine, 'sulphates', 0.01, 1000)

### Para el White Wine

#### Para el atributo Alcohol

In [None]:
regresion_lineal_simple(whiteWine, 'alcohol', 0.01, 1000)

#### Para el atributo Acidez Volatil

In [None]:
regresion_lineal_simple(whiteWine, 'volatile acidity', 0.01, 1000)

#### Para el atributo Sufates

In [None]:
regresion_lineal_simple(whiteWine, 'sulphates', 0.01, 1000)

## Regresion lineal simple usando stochastic gradient descent

### Para el White Wine

#### Para el atributo Alcohol

#### Para el atributo Acidez Volatil

#### Para el atributo Density

### Para el Red Wine

#### Para el atributo Alcohol

#### Para el atributo Acidez Volatil

#### Para el atributo Density

## Analisis de los resultados para White Wine

## Analisis de los resultados para Red Wine

# OTRAS WEAS

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# Selección de variables de entrada y salida
X = wine[['alcohol']].values
Y = wine['quality'].values

# Separación aleatoria de los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Normalización de los datos de entrada
X_train_norm = (X_train - np.mean(X_train, axis=0)) / np.std(X_train, axis=0)

# Agregando columna de unos a X_train_norm para el término de sesgo (bias)
X_train_norm = np.c_[np.ones(X_train_norm.shape[0]), X_train_norm]

# Creación del modelo en TensorFlow
model = tf.keras.Sequential([
    tf.keras.layers.Dense(1, activation=None, input_shape=(X_train_norm.shape[1],))
])

# Definición de la función de costo y optimizador
loss_fn = tf.keras.losses.MeanSquaredError()
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01)

# Configuración del bucle de entrenamiento
num_iterations = 1000
batch_size = 32
train_loss_history = []

# Entrenamiento del modelo
for iteration in range(num_iterations):
    indices = np.random.choice(X_train_norm.shape[0], batch_size, replace=False)
    X_batch = X_train_norm[indices]
    y_batch = y_train[indices]

    with tf.GradientTape() as tape:
        predictions = model(X_batch, training=True)
        loss_value = loss_fn(y_batch, predictions)

    grads = tape.gradient(loss_value, model.trainable_variables)
    optimizer.apply_gradients(zip(grads, model.trainable_variables))

    train_loss_history.append(loss_value.numpy())

# Mostrar resultados
theta = model.get_weights()[0]
theta_0 = model.get_weights()[1]
print('Theta:', theta)
print('Theta_0:', theta_0)
print('Costo de entrenamiento:', train_loss_history[-1])

# Gráfica de la función de costo vs el número de iteraciones
plt.plot(range(num_iterations), train_loss_history)
plt.xlabel('Número de iteraciones')
plt.ylabel('Costo')
plt.title('Función de costo vs Número de iteraciones')
plt.show()

# Predicción en el conjunto de prueba
X_test_norm = (X_test - np.mean(X_train, axis=0)) / np.std(X_train, axis=0)
X_test_norm = np.c_[np.ones(X_test_norm.shape[0]), X_test_norm]
y_pred = model.predict(X_test_norm)

# Gráfica de los valores reales vs predicciones en el conjunto de prueba
plt.scatter(y_test, y_pred)
plt.xlabel('Valores reales')
plt.ylabel('Predicciones')
plt.title('Valores reales vs Predicciones')
plt.show()

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Selección de variables de entrada y salida
X = wine[['alcohol', 'density', 'sulphates']].values
Y = wine['quality'].values

# Separación aleatoria de los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)

# normalizando datos de entrada
X_train_norm = (X_train - np.mean(X_train, axis=0)) / np.std(X_train, axis=0)

# agregando columna de unos a X_train_norm para el término de sesgo (bias)
X_train_norm = np.c_[np.ones(X_train_norm.shape[0]), X_train_norm]

# convirtiendo y_train a una matriz de forma (320,1)
y_train = y_train.reshape(-1, 1)

# definición de función de costo para regresión lineal
def compute_cost3(X, y, theta):
    m = len(y)
    predictions = X.dot(theta)
    cost = (1 / (2 * m)) * np.sum(np.square(predictions - y))
    return cost

# definición de función de gradiente para regresión lineal
def compute_gradient(X, y, theta):
    m = len(y)
    predictions = X.dot(theta)
    gradient = (1 / m) * X.T.dot(predictions - y)
    return gradient

# definición de función de gradiente estocástico para regresión lineal
def stochastic_gradient(X, y, theta, alpha, num_iterations):
    m = len(y)
    J_history = np.zeros(num_iterations)
    for iteration in range(num_iterations):
        for i in range(m):
            rand_ind = np.random.randint(0, m)
            X_i = X[rand_ind, :].reshape(1, X.shape[1])
            y_i = y[rand_ind].reshape(1, 1)
            prediction = np.dot(X_i, theta)
            gradient = compute_gradient(X_i, y_i, theta)
            theta = theta - alpha * gradient
        J_history[iteration] = compute_cost3(X, y, theta)
    return theta, J_history

# entrenando modelo
theta = np.zeros((X_train_norm.shape[1], 1))
alpha = 0.01
num_iterations = 1000
theta, J_history = stochastic_gradient(X_train_norm, y_train, theta, alpha, num_iterations)

# mostrando resultados
print(f"Theta final: \n{theta}")
print(f"Costo final de entrenamiento: {J_history[-1]}")

# graficando costo vs. iteraciones
plt.plot(J_history)
plt.xlabel("Iteraciones")
plt.ylabel("Costo")
plt.show()

# Gráfica de los valores reales vs predicciones en el conjunto de prueba
plt.scatter(y_test, y_pred)
plt.xlabel('Valores reales')
plt.ylabel('Predicciones')
plt.title('Valores reales vs Predicciones')
plt.show()