**Introducción**

En este estudio, utilizaremos datos proporcionados por la empresa Campesino Coffee para abordar un problema de regresión relacionado con la puntuación de calidad de una taza de café. La evaluación de la calidad del café es un aspecto crucial para las tostadoras, ya que permite identificar los procesos y los insumos que tienen un impacto significativo en el producto final. Al entender mejor qué factores contribuyen a la calidad, las tostadoras pueden optimizar sus operaciones, mejorando tanto la eficiencia como el sabor del café, lo cual se traduce en beneficios económicos y satisfacción del cliente.

El objetivo de este proyecto es desarrollar un modelo de aprendizaje automático que, a partir de un conjunto de datos de una tostadora de café, sea capaz de predecir la calidad del café tostado. Esto permitirá a la empresa Campesino Coffee tener una base para no solo estandarizar y mejorar sus procesos de producción, sino también anticiparse a los cambios necesarios para mantener un producto de alta calidad. A través de este análisis, buscaremos identificar las variables más relevantes que influyen en la calidad del café, proporcionando así una herramienta valiosa para la toma de decisiones en la cadena de producción.


**Entendiendo el modelo de negocio:**

Las puntuaciones de una taza de café se utilizan para comunicar la calidad del mismo, principalmente entre compradores en verde y productores. Uno de los estándares en esta materia es SCA, por sus siglas en inglés, Specialty Coffee Association. La prueba en taza o análisis sensitivo del café fue introducida para diferenciar cafés comerciales de sus pares de especialidad.

Para esto se consideran las siguientes 10 categorías:

- Aroma/Fragancia  
- Sabor  
- Sabor residual  
- Acidez  
- Cuerpo  
- Balance  
- Puntuación general del catador  
- Dulzura  
- Taza limpia  
- Uniformidad  

Según esto, solo el café con una puntuación superior a 80 puntos, en una escala de 0 a 100, se considera café especial. Si éste supera los 85 puntos, se habla de un café excelente, y si está por encima de los 90, es un café exquisito o sobresaliente. Aquellos que estén por debajo de los 80 puntos son considerados cafés comerciales y son los que normalmente se quedan en el país para consumo interno.


Ahora analicemos algunas de las columnas de nuestra tabla:

**1. Peso en verde**:  
Este término se refiere al peso del café antes de ser tostado, es decir, cuando los granos están aún en su estado crudo o "verde". El café verde es el grano sin tostar que ha sido secado y preparado después de la recolección, pero no ha pasado por el proceso de tostado. El peso en verde es crucial para calcular las mermas durante el tostado y determinar el rendimiento del proceso.

**2. Merma**:  
La merma en el contexto del café se refiere a la pérdida de peso que ocurre durante el proceso de tostado. Esta pérdida de peso es principalmente debido a la evaporación del agua contenida en los granos y a la eliminación de la cáscara plateada, una capa fina que recubre el grano de café. La merma se expresa generalmente como un porcentaje del peso inicial en verde.

**3. Peso en tostado**:  
Es el peso final del café después de haber pasado por el proceso de tostado. Este peso es menor que el peso en verde debido a la merma que ocurre durante el tostado. El peso en tostado es importante para calcular la eficiencia del proceso de tostado y para entender cómo afecta el perfil de sabor del café.

**4. Perfil (Filtrado - Espresso)**:  
En el contexto del café, "perfil" se refiere a las características de sabor y aroma del café tostado. Dependiendo del método de preparación, como filtrado (usualmente referido a métodos como pour-over o prensa francesa) o espresso, el perfil de sabor del café puede variar significativamente. Los perfiles de filtrado tienden a resaltar sabores más suaves y claros, mientras que los perfiles de espresso tienden a ser más concentrados y robustos.

**5. Proceso (Tradicional - Natural - Honey)**:  
Estos términos se refieren a los métodos de procesamiento del café después de la cosecha y antes del tostado, y cada método influye en el perfil de sabor del café:

- **Tradicional** (también conocido como lavado): Este proceso implica la remoción completa de la pulpa del fruto del café antes de secar los granos. Este método tiende a producir un perfil de sabor limpio y brillante.
- **Natural**: En este proceso, los granos de café se secan dentro de la fruta sin retirar la pulpa, lo que puede influir en un perfil de sabor más dulce y afrutado. El método natural es más arriesgado debido a la posibilidad de fermentación descontrolada.
- **Honey**: Este proceso es un punto intermedio entre el lavado y el natural. Parte de la pulpa se deja en el grano durante el secado, lo que puede dar lugar a un perfil de sabor más complejo, con dulzura y acidez balanceadas.


### Mallas

**Mallas** se refieren al tamaño del grano de café, medido en una escala que corresponde a la abertura de las mallas de un tamiz utilizado para clasificar los granos de café. El proceso de clasificación por mallas ayuda a estandarizar los granos de café según su tamaño, lo cual es crucial para un tostado uniforme y una calidad consistente.

- **Tamaño de malla**: Se mide en una escala numérica que representa el diámetro de la abertura de la malla en 1/64 de pulgada. Por ejemplo, una malla 18 tiene aberturas de 18/64 de pulgada. 
- **Clasificación**: Los granos de café se tamizan a través de diferentes tamaños de mallas, y aquellos que quedan sobre una malla particular se clasifican como de ese tamaño. Los granos más grandes suelen tener un número de malla más alto.
- **Importancia**: La uniformidad en el tamaño del grano asegura un tostado más homogéneo, ya que los granos de diferentes tamaños pueden tostar a diferentes velocidades, afectando el perfil de sabor final.

### %H (Porcentaje de Humedad)

El **%H** se refiere al porcentaje de humedad contenido en los granos de café antes del tostado. El contenido de humedad es un factor crucial que afecta tanto la calidad del tostado como el almacenamiento del café verde.

- **Contenido de humedad óptimo**: El contenido de humedad en los granos de café verde debe mantenerse en un rango ideal del 10% al 12%. Niveles de humedad más bajos pueden causar un tostado irregular y una pérdida de calidad en el sabor, mientras que niveles más altos de humedad pueden llevar al desarrollo de moho y a una mayor incidencia de defectos en el café.
- **Medición**: El porcentaje de humedad se mide utilizando un medidor de humedad, que determina la cantidad de agua en los granos. Es esencial controlar el contenido de humedad desde la cosecha hasta el almacenamiento para mantener la calidad del café.
- **Impacto en el tostado**: Un contenido de humedad adecuado facilita un tostado uniforme y consistente. Si los granos tienen demasiada humedad, pueden requerir más tiempo para secarse antes de comenzar a tostar, lo que afecta el desarrollo del sabor.


### Definición del Problema

Nuestro objetivo es predecir la puntuación de calidad de nuestro café utilizando un modelo de aprendizaje automático. Para esto, utilizaremos las siguientes variables como predictores (X):

- **Peso en verde**: El peso del café antes del tostado. Este es un dato numerico
- **Merma**: La pérdida de peso que ocurre durante el proceso de tostado. Dato numerico
- **Perfil**: Características de sabor y aroma del café, influenciadas por el método de preparación (filtrado o espresso).Dato tipo texto.
- **Proceso**: Método de procesamiento del café (tradicional, natural, honey). Dato tipo texto.
- **Malla**: Tamaño del grano de café, clasificado por tamices de diferentes tamaños. Dato tipo numerico.
- **Porcentaje de Humedad**: Cantidad de agua contenida en los granos de café antes del tostado. Dato tipo numerico.
- **Notas de cata**: Evaluaciones sensoriales del café, incluyendo aroma, sabor, acidez, cuerpo, y otros atributos.Dato tipo texto
- **Tiempo de tueste**: El tiempo durante el tostado. Dato tipo numerico

La variable objetivo (Y) es la **puntuación de calidad del café**, que se mide en una escala generalmente del 0 al 100, según los estándares de la Specialty Coffee Association (SCA).

### Consideraciones sobre las Variables Predictoras

Considero que estas variables  (X) son suficientes para predecir la puntuación de calidad del café (Y),Considerando que:

1. **Relevancia de las Variables**: Las variables seleccionadas son directamente relevantes para la calidad del café, ya que afectan tanto el proceso de tostado como las características finales del producto. 
2. **Diversidad de Factores**: Las variables cubren una amplia gama de factores que influyen en la calidad del café, desde características físicas del grano (peso en verde, malla) hasta aspectos del proceso (merma, proceso) y la evaluación sensorial (notas de cata).
3. **Potencial de Predicción**: Estas variables ofrecen un conjunto de datos suficientemente robusto para capturar la variabilidad en la calidad del café, permitiendo al modelo de aprendizaje automático aprender patrones significativos que afectan la puntuación.

Empecemos el preprocesaminento en datos usando pandas:

In [24]:
!pip install openpyxl





[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [25]:
import pandas as pd

# Cargar los datos de Excel utilizando rutas relativas
control_calidad_df = pd.read_excel("C:\\Users\\agarc\\Downloads\\Cafe_ML\\Formato_de_Control_de_Calidad_Café_de_Trillado.xlsx", sheet_name='CONTROL CALIDAD CAFE TRILLADO J')
tostion_df = pd.read_excel("C:\\Users\\agarc\\Downloads\\Cafe_ML\\Formato_de _Tostión.xlsx", sheet_name='TOSTIÓN JERICÓ L')

# Limpiar los datos (si es necesario)
control_calidad_cleaned = pd.read_excel("Formato_de_Control_de_Calidad_Café_de_Trillado.xlsx", sheet_name='CONTROL CALIDAD CAFE TRILLADO J', skiprows=4)
tostion_cleaned = pd.read_excel("Formato_de_Tostión.xlsx", sheet_name='TOSTIÓN JERICÓ L', skiprows=4)

# Renombrar las columnas para facilitar la combinación
control_calidad_cleaned.columns = [
    "Fecha", "Lote", "Denominacion/Marca", "Cantidad", "%H", "Mallas", 
    "Verificacion_Fisica", "Notas_de_Catacion", "Puntaje", "Liberacion_Lote", 
    "Responsable", "Extra1", "Extra2", "Extra3"
]

tostion_cleaned.columns = [
    "Fecha", "Lote", "Origen", "Variedad", "Proceso", "Beneficio", 
    "Peso_en_Verde", "Merma", "Peso_en_Tostado", "Perfil", 
    "Temp_Inicio_Final", "Tiempo_de_Tueste", "Observaciones", "Tostador"
]

# Combinar las tablas utilizando la columna 'Lote' como clave
merged_df = pd.merge(control_calidad_cleaned, tostion_cleaned, on='Lote')

# Guardar la tabla combinada en un nuevo archivo Excel
merged_df.to_excel('merged_coffee_data.xlsx', index=False)



FileNotFoundError: [Errno 2] No such file or directory: 'Formato_de_Control_de_Calidad_Café_de_Trillado.xlsx'