# Preprocesamiento de Datos de Flores

**Objetivo:** Este notebook realiza los pasos iniciales de preprocesamiento para preparar los datos de planificación de flores y datos de resumen para análisis posteriores.

**Pasos realizados:**
1. Carga de datos desde un archivo Excel (`flor_2021_2024.xlsx`, hoja 'Planning').
2. Carga de datos desde un archivo CSV (`Summary.csv`).
3. Limpieza y estandarización de nombres de columnas.
4. Unión (merge) de los dos conjuntos de datos en un DataFrame unificado (`df_merged`).
5. Almacenamiento del DataFrame procesado en la carpeta `data/processed`.

In [43]:
# Configuración del entorno de Preprocesamiento
# Importar las librerías necesarias para el preprocesamiento
import pandas as pd
import os

# Para mostrar todas las columnas y filas en dataframes grandes (opcional, pero útil)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("Librerías necesarias para el preprocesamiento cargadas.")

Librerías necesarias para el preprocesamiento cargadas.


In [25]:
# Cargar el archivo Excel (se debe asegúrar de que 'openpyxl' esté instalado si es .xlsx)
excel_file_path = r'C:\Users\User\Desktop\pedict_ml_flowers\data\flor_2021_2024.xlsx'
df_excel = pd.read_excel(excel_file_path, sheet_name='Planning')

# Mostrar las primeras filas del dataframe de Excel
print("Datos del archivo Excel:")
print(df_excel.head())

# Cargar el archivo CSV
csv_file_path = r'C:\Users\User\Desktop\pedict_ml_flowers\data\Summary.csv'
df_csv = pd.read_csv(csv_file_path)

# Mostrar las primeras filas del dataframe CSV
print("\nDatos del archivo CSV:")
print(df_csv.head())


Datos del archivo Excel:
     DueDate        Flower     Color  Stems
0 2021-03-21  Alstroemeria  Assorted    372
1 2021-06-09  Alstroemeria  Assorted    480
2 2022-08-03  Alstroemeria  Assorted    120
3 2022-12-30  Alstroemeria  Assorted     50
4 2023-03-30  Alstroemeria  Assorted    550

Datos del archivo CSV:
             Date;Flower;Color;Units Selection
0      01/10/2024 0:00;Alstroemeria;Burgundy;0
1  01/10/2024 0:00;Alstroemeria;DarkPink;11200
2         01/10/2024 0:00;Alstroemeria;Green;0
3   01/10/2024 0:00;Alstroemeria;Lavender;2400
4     01/10/2024 0:00;Alstroemeria;Orange;6000


In [28]:
# Imprimir información sobre las columnas actuales de df_csv
print("Número de columnas en df_csv antes de renombrar:", len(df_csv.columns))
print("\nNombres de las columnas actuales de df_csv:", df_csv.columns)

# Imprimir algunas filas del df_csv para inspeccionar el contenido
print("\nPrimeras filas del df_csv (sin el .head()):")
print(df_csv)

Número de columnas en df_csv antes de renombrar: 1

Nombres de las columnas actuales de df_csv: Index(['Date;Flower;Color;Units Selection'], dtype='object')

Primeras filas del df_csv (sin el .head()):
                 Date;Flower;Color;Units Selection
0          01/10/2024 0:00;Alstroemeria;Burgundy;0
1      01/10/2024 0:00;Alstroemeria;DarkPink;11200
2             01/10/2024 0:00;Alstroemeria;Green;0
3       01/10/2024 0:00;Alstroemeria;Lavender;2400
4         01/10/2024 0:00;Alstroemeria;Orange;6000
...                                            ...
12762       31/12/2024 0:00;Super Mums;Yellow;1250
12763           31/12/2024 0:00;Treefern;Green;180
12764           31/12/2024 0:00;Veronica;Pink;4350
12765         31/12/2024 0:00;Veronica;Purple;5550
12766           31/12/2024 0:00;Veronica;White;150

[12767 rows x 1 columns]


In [29]:
# Cargar el archivo CSV especificando el separador correcto
csv_file_path = r'C:\Users\User\Desktop\pedict_ml_flowers\data\Summary.csv'
df_csv = pd.read_csv(csv_file_path, sep=';')  # ¡Especificamos el separador(separador por defecto es ,)!

# Renombrar las columnas
df_csv.columns = ['DueDate', 'Flower', 'Color', 'Stems']

# Mostrar las primeras filas del DataFrame para verificar los cambios
print("\nDatos del archivo CSV con columnas renombradas:")
print(df_csv.head())

# Imprimir información del DataFrame para verificar los tipos de datos
print("\nInformación del DataFrame df_csv:")
print(df_csv.info())


Datos del archivo CSV con columnas renombradas:
           DueDate        Flower     Color  Stems
0  01/10/2024 0:00  Alstroemeria  Burgundy      0
1  01/10/2024 0:00  Alstroemeria  DarkPink  11200
2  01/10/2024 0:00  Alstroemeria     Green      0
3  01/10/2024 0:00  Alstroemeria  Lavender   2400
4  01/10/2024 0:00  Alstroemeria    Orange   6000

Información del DataFrame df_csv:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12767 entries, 0 to 12766
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   DueDate  12767 non-null  object
 1   Flower   12767 non-null  object
 2   Color    12767 non-null  object
 3   Stems    12767 non-null  int64 
dtypes: int64(1), object(3)
memory usage: 399.1+ KB
None


In [31]:
# Mostrar los nombres de las columnas de df_excel
print("Columnas en df_excel:")
print(df_excel.columns)

# Mostrar los nombres de las columnas de df_csv
print("\nColumnas en df_csv:")
print(df_csv.columns)

Columnas en df_excel:
Index([' DueDate', 'Flower', 'Color', 'Stems'], dtype='object')

Columnas en df_csv:
Index(['DueDate', 'Flower', 'Color', 'Stems'], dtype='object')


In [34]:
# Verificar el tipo de dato de la columna 'DueDate' en df_excel
print("Tipo de dato de 'DueDate' en df_excel:", df_excel['DueDate'].dtype)

# Verificar el tipo de dato de la columna 'DueDate' en df_csv
print("Tipo de dato de 'DueDate' en df_csv:", df_csv['DueDate'].dtype)

Tipo de dato de 'DueDate' en df_excel: datetime64[ns]
Tipo de dato de 'DueDate' en df_csv: object


In [37]:
# Convertir la columna 'DueDate' en df_csv al tipo datetime, especificando el formato día/mes/año
df_csv['DueDate'] = pd.to_datetime(df_csv['DueDate'], dayfirst=True)

# Realizar un inner join basado en las columnas 'Flower' y 'DueDate'
df_merged = pd.merge(df_excel, df_csv, on=['Flower', 'DueDate'], how='inner')

# Mostrar las primeras filas del DataFrame unido
print("\nPrimeras filas del DataFrame unido (df_merged):")
print(df_merged.head())

# Mostrar información del DataFrame unido
print("\nInformación del DataFrame unido (df_merged):")
print(df_merged.info())


Primeras filas del DataFrame unido (df_merged):
     DueDate Flower         Color_x  Stems_x         Color_y  Stems_y
0 2024-10-01  Daisy  Bicolor Bronze    10025        Assorted     1750
1 2024-10-01  Daisy  Bicolor Bronze    10025  Bicolor Bronze    16100
2 2024-10-01  Daisy  Bicolor Bronze    10025          Bronze     9250
3 2024-10-01  Daisy  Bicolor Bronze    10025        DarkPink     4651
4 2024-10-01  Daisy  Bicolor Bronze    10025        Lavender    21032

Información del DataFrame unido (df_merged):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51043 entries, 0 to 51042
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   DueDate  51043 non-null  datetime64[ns]
 1   Flower   51043 non-null  object        
 2   Color_x  51043 non-null  object        
 3   Stems_x  51043 non-null  int64         
 4   Color_y  51043 non-null  object        
 5   Stems_y  51043 non-null  int64         
dtypes: datetime6

In [40]:
# Crear un nuevo DataFrame como copia de df_merged
df_nuevo = df_merged.copy()

# Mostrar las primeras filas del nuevo DataFrame para verificar
print("Nuevo DataFrame creado (copia de df_merged):")
print(df_nuevo.head())

# Verificar que los DataFrames son independientes (opcional)
# Modificar el nuevo DataFrame
# df_nuevo.loc[0, 'AlgunaColumna'] = 'nuevo_valor' 
# print("\nDataFrame original df_merged después de modificar la copia:")
# print(df_merged.head()) 

Nuevo DataFrame creado (copia de df_merged):
     DueDate Flower         Color_x  Stems_x         Color_y  Stems_y
0 2024-10-01  Daisy  Bicolor Bronze    10025        Assorted     1750
1 2024-10-01  Daisy  Bicolor Bronze    10025  Bicolor Bronze    16100
2 2024-10-01  Daisy  Bicolor Bronze    10025          Bronze     9250
3 2024-10-01  Daisy  Bicolor Bronze    10025        DarkPink     4651
4 2024-10-01  Daisy  Bicolor Bronze    10025        Lavender    21032


In [41]:
# Asegúrate de que df_merged existe
if 'df_merged' in locals():
    # Define la ruta de salida
    processed_dir = '../data/processed'
    output_file_path = os.path.join(processed_dir, 'merged_data.csv')

    # Crea el directorio si no existe (por si acaso)
    os.makedirs(processed_dir, exist_ok=True)

    # Guarda el DataFrame
    df_merged.to_csv(output_file_path, index=False)
    print(f"DataFrame df_merged guardado en: {output_file_path}")
else:
    print("Error: El DataFrame df_merged no existe en la sesión actual.")

DataFrame df_merged guardado en: ../data/processed\merged_data.csv


## Resumen del Preprocesamiento

En este notebook, se completaron los siguientes pasos de preparación de datos:

- **Se cargaron** los datos de planificación desde `flor_2021_2024.xlsx` y los datos de resumen desde `Summary.csv`.
- **Se corrigió** el problema de separación en el archivo CSV y **se renombraron** las columnas para mayor claridad (`DueDate`, `Flower`, `Color`, `Stems`).
- **Se unieron** los dos DataFrames (`df_excel` y `df_csv`) en un único DataFrame (`df_merged`) basado en las columnas `Flower` y `DueDate`.
- **Se creó** una copia del DataFrame unido (`merged_data`).
- **Se guardó** el DataFrame procesado (`df_merged`) en `data/processed/merged_data.csv` y el `merged_data` en `data/processed/merged_data.csv` utilizando una función auxiliar para automatizar el guardado.

Los datos ahora están limpios, unificados y listos para las siguientes etapas de análisis exploratorio o modelado.