## Importar las Librerías
* Utilizamos la **librería `pandas`** para la manipulación y análisis de datos.
* Usamos la **librería `sklearn`** para construir y evaluar modelos de aprendizaje automático.

## [DecisionTreeRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html)
> Modelo de aprendizaje automático basado en árboles de decisión, diseñado para predecir **valores continuos**. Este modelo divide el conjunto de datos en ramas más pequeñas y profundas para aprender relaciones complejas y mejorar la precisión de las predicciones.



In [11]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, accuracy_score
from Biblioteca import EstadisticaDescriptiva  

### Cargar y Leer el Fichero de Datos:
* Definimos la ruta del fichero de datos y la almacenamos en la variable **`wine_file_path`**.
* Utilizamos el método **`pd.read_csv()`** de la librería [pandas](https://pandas.pydata.org/) para leer el contenido del fichero y almacenar los datos en la variable **`wine_data`**.
* **`wine_data`** contendrá el **DataFrame** con todos los datos del archivo, listos para ser analizados y procesados.


In [12]:

wine_file_path = 'Wine_dataset.csv'
wine_data = pd.read_csv(wine_file_path)

## Análisis Inicial de los Datos:

* Antes de construir el modelo, es fundamental **entender la estructura de los datos** y verificar su calidad.
* Utilizamos dos métodos principales:

  - **`dataFrame.info()`**: Este método proporciona un **resumen detallado** del DataFrame, mostrando:
    - **Número de filas y columnas**.
    - **Tipos de datos** en cada columna.
    - **Cantidad de valores no nulos**, lo que nos permite detectar la **presencia de valores faltantes**.

  - **`dataFrame.describe()`**: Genera **estadísticas descriptivas** para las columnas numéricas, incluyendo:
    - **Media (`mean`)**.
    - **Desviación estándar (`std`)**.
    - **Mínimo (`min`)** y **máximo (`max`)**.
    - **Percentiles** (25%, 50%, 75%).


In [17]:
wine_data.info()
print("-------------------------------------------------------------")
wine_data.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   class                         178 non-null    int64  
 1   Alcohol                       178 non-null    float64
 2   Malic acid                    178 non-null    float64
 3   Ash                           178 non-null    float64
 4   Alcalinity of ash             178 non-null    float64
 5   Magnesium                     178 non-null    int64  
 6   Total phenols                 178 non-null    float64
 7   Flavanoids                    178 non-null    float64
 8   Nonflavanoid phenols          178 non-null    float64
 9   Proanthocyanins               178 non-null    float64
 10  Color intensity               178 non-null    float64
 11  Hue                           178 non-null    float64
 12  OD280/OD315 of diluted wines  178 non-null    float64
 13  Proli

Unnamed: 0,class,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,1.938202,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.775035,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,1.0,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,1.0,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,2.0,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,3.0,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,3.0,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


## Definición de Variables:
>*La correcta elección de estas características es fundamental para **mejorar la capacidad predictiva** del modelo.*
* **Variable `y`**: Corresponde al valor objetivo o **target**, que es la variable que deseamos predecir.
  - En este caso, representa la **clase del vino** que queremos identificar basándonos en sus características químicas.
* **Variable `x`**: Contiene las características seleccionadas, también conocidas como **features** las cuales se utilizarán como entradas para el modelo.
  - Las características relevantes seleccionadas:
    - `Proanthocyanins`
    - `Proline`
    - `OD280/OD315 of diluted wines`
    - `Flavanoids`
    - `Total phenols`

In [18]:
y = wine_data['class']
wine_features = ['Proanthocyanins', 'Proline ', 'OD280/OD315 of diluted wines', 'Flavanoids', 'Total phenols']
x = wine_data[wine_features]


## Entrenamiento del Modelo:
* Se utiliza la función **`train_test_split`** de la librería [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).
* Esta función divide el conjunto de datos en dos partes:
  - **Datos de Entrenamiento (80%)**: Utilizados para ajustar el modelo y aprender los patrones subyacentes.
  - **Datos de Validación (20%)**: Empleados para evaluar el rendimiento del modelo y verificar la capacidad de generalización.
* La función permite especificar el parámetro **`random_state`** para garantizar que la división sea reproducible y consistente.


In [19]:
train_x, val_x, train_y, val_y = train_test_split(x, y, random_state= 1)

## Modelo de Regresión con DecisionTreeRegressor:
* Creamos una instancia de un modelo de **Árbol de Decisión** utilizando `DecisionTreeRegressor`, con el fin de capturar patrones en datos complejos ya que se adapta bien a relaciones no lineales.

## Entrenamiento del Modelo con los Datos de Entrenamiento:
* Entrenamos el modelo denominado **`wine_model`** mediante el uso del método `fit()`, utilizando:
  - **`train_x`**: Conjunto de características de entrenamiento.
  - **`train_y`**: Valores objetivo (etiquetas) correspondientes.
* El objetivo del entrenamiento es **ajustar el modelo** a los datos para que pueda realizar **predicciones precisas** sobre nuevos conjuntos de datos.


In [20]:
wine_model = DecisionTreeRegressor(random_state=1)
wine_model.fit(train_x, train_y)


## Predicciones:
* Después de entrenar el modelo con los datos de entrenamiento, realizamos **predicciones** usando el conjunto de datos de validación. 
* Estas predicciones nos permiten evaluar el rendimiento del modelo y comprobar qué tan bien se ajusta a los datos no vistos.
* Podemos compararlas con los valores reales para calcular métricas de evaluación como la **Accuracy** y el **Error Absoluto Medio (MAE)**.


In [21]:
predictions = wine_model.predict(val_x)
print("PREDICCIONES:")
print(predictions)
print('------------------------------------------')
print('Uvas almacenadas:')
print(val_y)
print('MAE:')
print(f'{mean_absolute_error(val_y, predictions) * 100}%')

PREDICCIONES:
[3. 2. 1. 2. 1. 3. 2. 1. 3. 2. 1. 1. 2. 1. 2. 2. 3. 1. 2. 1. 1. 2. 3. 1.
 1. 3. 1. 1. 1. 3. 2. 2. 3. 1. 2. 2. 2. 2. 2. 1. 1. 3. 3. 2. 1.]
------------------------------------------
Uvas almacenadas:
161    3
117    2
19     1
69     2
53     1
138    3
112    2
14     1
160    3
107    2
11     1
4      1
108    2
42     1
84     2
113    2
152    3
35     1
105    2
31     1
51     1
126    2
130    3
73     2
40     1
162    3
47     1
29     1
16     1
147    3
97     2
159    3
151    3
5      1
120    2
94     2
91     2
81     2
114    2
48     1
54     1
59     2
165    3
39     1
56     1
Name: class, dtype: int64
MAE:
8.88888888888889%



## Accuracy:

>La **Accuracy** es una medida de rendimiento que indica el **nivel de acierto del modelo**. Se expresa en un rango de **`0`** a **`1`** , donde:

- **`0`** representa que el modelo no tiene ningún acierto.
- **`1`** representa que el modelo tiene un **acierto total**.

La fórmula general utilizada para calcular la Accuracy es: 
**`Accuracy = Número de Predicciones Correctas / Total de Predicciones`**


In [22]:
accuracy = accuracy_score(val_y, predictions)
print("Accuracy:", accuracy)

Accuracy: 0.9111111111111111


## Análisis Estadístico Usando la Biblioteca Personalizada

### Aplicamos la biblioteca personalizada para calcular las siguientes métricas estadísticas:

- **Media Aritmética**: Valor promedio de todos los datos.
- **Mediana**: Valor que divide el conjunto de datos en dos partes iguales.
- **Percentiles (25, 50 y 75)**: Valores que indican las posiciones relativas en el conjunto de datos.
- **Varianza**: Mide la dispersión de los datos respecto a la media.
- **Desviación Típica**: Indica qué tan dispersos están los valores respecto a la media.
- **Resumen Estadístico Completo**: Proporciona una visión general de todas las métricas anteriores .


In [26]:
print('------------------------------------------')
print()

ed = EstadisticaDescriptiva()

resumen = ed.resumenEstadistico(predictions_int)

print("Resumen Estadístico de las Predicciones:")
for key, value in resumen.items():
    print(f"{key}: {value}")
print()
print('------------------------------------------')

------------------------------------------

Resumen Estadístico de las Predicciones:
Media Aritmética: 1.8222222222222222
Mediana: 2
Mínimo: 1
Máximo: 3
Percentil 25: 1
Percentil 50: 2
Percentil 75: 2
Varianza: 0.5906172839506173
Desviación Típica: 0.7685162873684703

------------------------------------------


In [24]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, accuracy_score
from Biblioteca import EstadisticaDescriptiva  

wine_file_path = 'Wine_dataset.csv'
wine_data = pd.read_csv(wine_file_path)

y = wine_data['class']
wine_features = ['Proanthocyanins', 'Proline ', 'OD280/OD315 of diluted wines', 'Flavanoids', 'Total phenols']
x = wine_data[wine_features]

train_x, val_x, train_y, val_y = train_test_split(x, y, random_state=1)

wine_model = DecisionTreeRegressor(random_state=1)
wine_model.fit(train_x, train_y)

predictions = wine_model.predict(val_x)

print("PREDICCIONES:")
print(predictions)
print('------------------------------------------')
print('Uvas almacenadas:')
print(val_y)
print('MAE:')
print(f'{mean_absolute_error(val_y, predictions) * 100}%')

predictions_int = list(map(int, predictions))  # Convertir a enteros
accuracy = accuracy_score(val_y, predictions_int)
print("Accuracy:", accuracy)

print('------------------------------------------')

ed = EstadisticaDescriptiva()

resumen = ed.resumenEstadistico(predictions_int)

print("Resumen Estadístico de las Predicciones:")
for key, value in resumen.items():
    print(f"{key}: {value}")

PREDICCIONES:
[3. 2. 1. 2. 1. 3. 2. 1. 3. 2. 1. 1. 2. 1. 2. 2. 3. 1. 2. 1. 1. 2. 3. 1.
 1. 3. 1. 1. 1. 3. 2. 2. 3. 1. 2. 2. 2. 2. 2. 1. 1. 3. 3. 2. 1.]
------------------------------------------
Uvas almacenadas:
161    3
117    2
19     1
69     2
53     1
138    3
112    2
14     1
160    3
107    2
11     1
4      1
108    2
42     1
84     2
113    2
152    3
35     1
105    2
31     1
51     1
126    2
130    3
73     2
40     1
162    3
47     1
29     1
16     1
147    3
97     2
159    3
151    3
5      1
120    2
94     2
91     2
81     2
114    2
48     1
54     1
59     2
165    3
39     1
56     1
Name: class, dtype: int64
MAE:
8.88888888888889%
Accuracy: 0.9111111111111111
------------------------------------------
Resumen Estadístico de las Predicciones:
Media Aritmética: 1.8222222222222222
Mediana: 2
Mínimo: 1
Máximo: 3
Percentil 25: 1
Percentil 50: 2
Percentil 75: 2
Varianza: 0.5906172839506173
Desviación Típica: 0.7685162873684703
