# Trabajando con nuestros datos en Google Colaborate

## Cómo leer una hoja de cálculo en Google Colaborate

En este ejercicio usaremos un fichero o archivo de datos en formato CSV que habremos exportado previamente desde nuestra hoja de cálculo. Más adelante aprenderemos cómo leer directamente los datos de nuestras hojas Excel.

### Opción 1: Subir los datos al espacio de trabajo de Google Colaborate

Los pasos son los mismos tanto si queremos trabajar con un `CSV`o directamente con una hoja Excel:
1. Seleccionamos el icono de carpeta a la izquierda, que nos abre la barra lateral de `Archivos`
2. Hacemos click sobre el icono de la hoja con la flecha vertical, lo que nos abre una ventana de selección de archivos.
3. Seleccionamos la hoja de cálculo o `CSV`con la que vamos a trabajar y la subimos al espacio de trabajo de Google Colaborate

Una vez la hoja de cálculo o el `CSV` en nuestro espacio de trabajo, procedemos a leer los datos.


El mayor inconveniente de esta forma de trabajo es que cada vez que salimos de la sesión, Google Colab borra todos nuestros archivos del espacio de trabajo; cada vez que iniciemos una sesión, tendremos que repetir el proceso de subir nuestros datos al espacio de trabajo. Por eso, la mejor opción es tener nuestros datos en una carpeta de Google Drive, que puede utilizarse desde Colab tal como vamos a ver a continuación.

### Opción 2: Leer directamente los datos de nuestra carpeta de Google Drive
Esta es una opción mucho más cómoda que nos evita los pasos intermedios, ya que no necesitamos subir la hoja de cálculo al espacio de trabajo.



In [None]:
#| eval: false
import pandas as pd

# Montar Google Drive si tu archivo está allí
from google.colab import drive
drive.mount('/content/drive')

# Ruta de tu archivo de datos. Asegúrate de que esta ruta sea correcta.
# Si está en la raíz de tu Drive, sería algo así:
archivo_csv = '/content/drive/MyDrive/camembert.csv'

# Si el archivo está directamente en el entorno de Colab (subido o creado allí),
# la ruta podría ser simplemente el nombre del archivo si estás en el mismo directorio:
# archivo_csv = 'camembert.csv'


# Leer el archivo CSV
archivo_csv = '/content/drive/MyDrive/camembert.csv'

# Mostrar las primeras filas del DataFrame para verificar
print(df.head())

In [None]:
#| include: false

import pandas as pd
import os # Necesario para verificar variables de entorno

# ----------------------------------------
# 1. Detección de entorno
# ----------------------------------------

# Colab define una variable de entorno 'COLAB_GPU' (incluso si no usa GPU)
# También se puede comprobar si el módulo 'google.colab' está disponible.
IS_COLAB = 'COLAB_GPU' in os.environ

if IS_COLAB:
    # Ejecutando en Google Colab. Se usará el código específico de Colab.
    
    # ----------------------------------------
    # Código que SOLO debe ejecutarse en Colab
    # ----------------------------------------
    from google.colab import drive
    # El método files.upload() requiere interacción del usuario, 
    # por lo que el alumno debe subir el archivo aquí.
    archivo_csv = '/content/drive/MyDrive/camembert.csv'
    
    # Leer el archivo Excel, especificando la hoja
    df = pd.read_csv(archivo_csv, sep = ";", decimal = ",")
    
else: 
    # Ejecutando de forma local (Quarto/Jupyter). Se usará el archivo local.
    
    # ----------------------------------------
    # Código que SOLO debe ejecutarse localmente (Quarto)
    # ----------------------------------------
    
    # Asegúrese de que 'nombre_de_su_archivo.csv' está en el directorio del .ipynb
    try:
        archivo_csv = 'camembert.csv'
        df = pd.read_csv (archivo_csv, sep = ";", decimal = ",")
    except FileNotFoundError:
        # Esto ayudará a depurar si el archivo no se encuentra localmente.
        print("¡ERROR! Asegúrese de que el archivo 'nombre_de_su_archivo.csv' esté presente.")


# ----------------------------------------
# 2. El resto del código continúa sin cambios
# ----------------------------------------
# print(f"DataFrame cargado con {len(df)} filas.")
df.head()

### Explicación de los pasos:

1.  **`import pandas as pd`**:

      * Esta línea importa la librería `pandas`, que es fundamental para el manejo y análisis de datos en `Python`. Es una convención llamarla `pd`.

2.  **Montar Google Drive (si es necesario)**:

      * Si tu archivo `camembert.csv` está almacenado en tu Google Drive, necesitas **montar** Drive en tu entorno de Colab para poder acceder a él. Las líneas `from google.colab import drive` y `drive.mount('/content/drive')` se encargan de esto.
      * Una vez montado, tus archivos de Drive serán accesibles a través de la ruta `/content/drive/MyDrive/`.

3.  **`archivo_csv = '/content/drive/MyDrive/camembert.csv'`**:

      * Aquí defines la **ruta completa** de tu archivo Excel.
      * **¡Importante\!** Debes ajustar esta ruta a la ubicación real de tu archivo.
          * Si lo tienes en Google Drive (y lo montaste), la ruta será similar a `/content/drive/MyDrive/nombre_de_tu_carpeta/camembert.csv`.
          * Si subiste el archivo directamente a Colab (usando el ícono de la carpeta en el panel izquierdo y luego "Subir"), y está en el directorio raíz de Colab, simplemente el nombre del archivo (`camembert.csv`) debería funcionar.

4.  **`df = pd.read_csv (archivo_csv, sep = ";", decimal = ",")`**:

      * Esta es la función clave.
      * `pd.read_csv` es el equivalente directo a `read_excel()` de `readxl` en R.
      * El primer argumento es la **ruta** al archivo `CSV`, que proporcionamos en la variable `archivo_csv`
      * Los dos argumentos siguientes, `sep = ";", decimal = ","`, indican a `pandas`que nuestro archivo CSV se ha generado utilizando el formato europeo, es decir, la coma como separador decimal, y el punto y coma como separador de datos.

5.  **`print(df.head())`**:

      * Una vez que los datos se han cargado en un **DataFrame de `pandas`** (que es el objeto `df`), puedes usar `df.head()` para ver las primeras 5 filas y asegurarte de que los datos se cargaron correctamente. Esto es similar a `head(df)` en R.

Con estos pasos, tendrás tus datos cargados en un DataFrame de `pandas`, listos para ser manipulados y analizados en `Python`.

## Importando nuestros datos a Colab.

Como siempre, empezamos nuestro cuaderno importando las bibliotecas que vamos a usar en el ejercicio.

In [None]:
import os                       # # manejo de funciones del sistema
import sys                      # manejo de funciones del sistema
import pandas as pd             # manejo de dataframes y series
import numpy as np              # funciones de cálculo numérico de la biblioteca `numpy`
import matplotlib.pyplot as plt # funciones específicas de `matplotlib.pyplot`
from scipy.stats import norm    # para hacer la curva de distribución normal
import locale                   # para poner las fechas en formato español

In [None]:
# ajustamos fechas a formato español, el punto y coma evita la impresion de salida de la funcion
locale.setlocale(locale.LC_TIME, 'Spanish_Spain.1252');

Importamos también las funciones gráficas de la biblioteca `seaborn`y establecemos un estilo por defecto, con el fondo blanco.

In [None]:
import seaborn as sns
sns.set_style("whitegrid")

Es necesario cargar el fichero `camembert.csv` en el espacio de trabajo de Google Colaborate. Para ello, montamos nuestro drive y damos a `Python` el *path* (la direccion de la carpeta).

Una vez cargado, verificamos que existe y hay acceso:

In [None]:
#| eval: false

# 1. Ejecuta esta celda para montar tu Google Drive.
from google.colab import drive
drive.mount('/content/drive')

# 2. Verifica y ajusta esta ruta de archivo si es necesario:
google_drive_path_folder = '/content/drive/MyDrive/Colab Notebooks/master-queseria/datos/'
nombre_archivo_base = 'camembert.csv'
PATH_TO_READ = os.path.join(google_drive_path_folder, nombre_archivo_base)

In [None]:
#| include: false
# CÓDIGO INTERNO PARA QUARTO: Inicialización y corrección de ruta.
import os 

nombre_archivo_base = 'camembert.csv' 
google_drive_path_folder = '/content/drive/MyDrive/Colab Notebooks/master-queseria/datos/'

# Detección de entorno
IS_COLAB = 'google.colab' in sys.modules

# 1. Corrección para Quarto (si no estamos en Colab)
if not IS_COLAB:
    # Si es Quarto, sobrescribimos la ruta con la local.
    PATH_TO_READ = nombre_archivo_base 

# 2. Definir el mensaje de error (Siempre es el de Colab, para el alumno)
ERROR_MESSAGE_HELP = (
    f"El archivo NO SE ENCUENTRA en Google Drive.\n"
    f"1. ¿Ejecutaste la Celda 1 (Montaje de Drive)?\n"
    f"2. ¿Está el archivo 'camembert.csv' exactamente en la ruta que verificaste?: \n{PATH_TO_READ}"
)

Aunque podríamos hacer la lectura del fichero de datos con la instruccion simple,

In [None]:
#| eval: false

df = pd.read_csv(
        PATH_TO_READ, 
        sep = ";", 
        decimal = ",", 
        encoding = 'utf-8' # codificacion usada por Windows
    )

en `Python` siempre se prefiere encapsular la instrucción en una estructura `try...except`, que maneja los posibles errores o **excepciones** que pueden producirse en la lectura, por ejemplo, que nuestro *path* sea incorrecto, o que hayamos escrito mal el nombre del fichero, o cualquier otro error que haga que la instruccion de lectura falle. Añadimos también algunas instrucciones de `print()` que nos ayuden a saber que todo ha ido bien (o mal).

In [None]:
#| echo: true
# ----------------------------------------
# Lectura de datos
# ----------------------------------------

print(f"Intentando leer el archivo desde la ruta: {PATH_TO_READ}\n")

try:
    df = pd.read_csv(
        PATH_TO_READ, 
        sep = ";", 
        decimal = ",", 
        encoding = 'utf-8'
    )
    print("--- LECTURA EXITOSA ---")
    print(f"Filas cargadas: {len(df)}")
    df.head()
    
except FileNotFoundError:
    print("\n--- ERROR DE ARCHIVO ---")
    print(ERROR_MESSAGE_HELP)
        
except Exception as e:
    print("\n--- ERROR AL LEER EL CSV ---")
    print("Ocurrió un error al leer el archivo. Error: {e}")

Podemos mostrar el `dataframe` que hemos leído, mediante la funcion `.head()`, que nos muestra las cinco primeras lineas.

In [None]:
df.head()

Vemos que el nombre de la columna `fecha` está colocada en una línea inferior respecto a los otros nombres de columna. Esto se debe a que la hemos designado como `ìndex`, y, por lo tanto, ya no es una columna ordinaria para `pandas` (podemos volver a convertirla en columna normal o de texto en cualquier momento según nuestros intereses, como veremos más adelante).

También podemos usar la función `.info()`, que nos dice la estructura interna de nuestro `dataframe` y el tipo de los datos (entero, numérico, carácter...). Dado que la fecha, como hemos visto, está formateada como fecha y asignada como `ìndex`, ya no aparece en el listado de columnas de datos, sino que aparece en la primera línea como `DateTimeIndex`, y la informacion nos dice los límites de esas fechas.

In [None]:
df.info()

## Introducción a los gráficos básicos

Una vez leído correctamente el `DataFrame`, podemos hacer algunos gráficos de sus columnas numéricas. También usaremos las funciones de `seaborn` que producen salidas muy atractivas y son funcionjes fáciles de manejar.

In [None]:
df["est"].hist() # histograma bássico de matplotlib

plt.show()

Fíjate en la forma correcta de designar una columna en un `DataFrame`de pandas, usando su nombre.

In [None]:
df["est"].hist(bins = 5)

plt.show()

Vamos a repetir el histograma con `seaborn`, que nos permite incluir una **curva de densidad** fácilmente (pregunta: ¿qué es una curva de densidad?)

In [None]:
sns.displot(df["est"], kde = True)

plt.show()

In [None]:
sns.boxplot(df['est'])

plt.show()

Aquí puedes ver la potencia de `pandas`para manejar y agrupar las series. Para representar los datos por mes, sólo tenemos que crear una nueva columna `mes` indicando a `pandas` que extraiga del índice la parte de fecha que corresponde al mes. ¿Fácil, no?

In [None]:
df['mes'] = df.index.month
sns.boxplot(x='mes', y='est', data=df)

plt.show()

En vez de usar el número para el mes, podemos usar el código de letras abreviado (en este caso, `seaborn`utiliza la abreviatura en inglés, pero hemos cambiado la codificación para que lo represente en español, en la instruccion `locale` que hemos usado en la primera casilla). Aprovechamos para personalizar un poco el gráfico.

In [None]:
df['mes_abreviado'] = df.index.strftime('%b')
sns.boxplot(x='mes_abreviado', y='est', data=df)
# Opcional: Personalizar el gráfico
plt.title('Boxplot de la variable "est" por Mes')
plt.xlabel('Mes')
plt.ylabel('Valor de "est"')
plt.grid(axis='y', linestyle='--', alpha=0.7) # Añadir una cuadrícula para mejor lectura
plt.xticks(rotation=45) # Rotar las etiquetas del eje X si son muchas
plt.tight_layout() # Ajusta automáticamente los parámetros de la subtrama para un diseño ajustado

plt.show()


### Introducción a los gráficos de series temporales

Para utilizar las funciones de series de `pandas` resulta conveniente convertir en una columna de fecha la primera columna, que `pandas` ha leido como texto, y asignarla como `index` del dataframe; el formateo de series temporales en esta biblioteca es uno de sus puntos más fuertes.

In [None]:
df['fecha_index']= pd.DatetimeIndex(df.fecha).normalize()
df.set_index('fecha_index',inplace=True)
df.sort_index(inplace=True)

La función `.plot()` nos representa los valores de la columna en orden secuencial:

In [None]:
df["est"].plot()
plt.show()

Si utilizamos las funciones de `pandas`, podemos reformatear las fechas como serie temporal. Creamos una serie temporal y la remuestreamos para hacer las medias semanales del extracto seco total, eliminando las semans en las que no hay valores con `.dropna()`. La función `resample('W-MON')` formatea las fechas para que las semanas empiecen en lunes, como es el caso en Europa (en USA la semana empieza el domingo). Aprovechamos para mostrar una de las potencias de `Python`: podemos hacer que varios cálculos se hagan a continuacion de los otros, simplemente enlazando las funciones, hasta el `.plot()`

In [None]:
plt.rcParams['figure.figsize'] = (10.0,4.0)
ts = pd.Series(df["est"].dropna())
ts.resample('W-MON').mean().plot(title="Media del extracto seco total semanal")
plt.show()

Veamos a continuación otras formas de formatear la serie sobre la marcha, pero esta vez representando la `desviación típica`en vez de la `media`.

In [None]:
ts.resample('W-MON').std().plot(title="Desviación típica del extracto seco total semanal");

O podemos representar un período específico de la serie indicando a `pandas` los límites inferior y superior de las fechas que queremos.

In [None]:
ts["2020-05":"2020-08"].resample('W-MON').mean().plot(title="Media del extracto seco total semanal");

A modo ilustrativo, aunque sin un interés prioritario, muestro un grafico `jointplot()` de `seaborn` que muestra la facilidad con la que esta biblioteca puede hacer un gráfico complejo de dispersión e histograma simultáneamente.

In [None]:
sns.jointplot(x="est", y="mg", data = df[~df.index.duplicated(keep='first')])

Una alternativa más moderna a los `boxplots` son los llamados `violin plots`, que tienenla ventaja sobrelos primeros de mostrar la curva de distribución de los datos.

In [None]:
sns.violinplot(y=df["est"], x=df.index.month)

Finalmente, una serie de cálculos más complejos para obtener los gráficos de capacidad de un proceso, como muestra de cómo se pueden usar las funciones y gráficos de `Python` para prácticamente cualquier necesidad.

In [None]:
# codigo de Roberto Salazar
# https://medium.com/geekculture/process-capability-analysis-with-python-a0f3aed8e578

# Set specification limits
target = 5
LSL = 3
USL = 7

# Generate normally distributed data points
data = np.random.normal(loc=target,scale=1,size=100)


# Generate probability density function
x = np.linspace(min(data), max(data), 1000)
y = norm.pdf(x, loc=5, scale=1)

# Plot histogram for data along with probability density functions and specification limits
plt.figure(figsize=(10,5))
plt.hist(data, color="lightgrey", edgecolor="black", density=True)
sns.kdeplot(data, color="blue", label="Density ST")
plt.plot(x, y, linestyle="--", color="black", label="Theorethical Density ST")
plt.axvline(LSL, linestyle="--", color="red", label="LSL")
plt.axvline(USL, linestyle="--", color="orange", label="USL")
plt.axvline(target, linestyle="--", color="green", label="Target")
plt.title('Process Capability Analysis')
plt.xlabel("Measure")
plt.ylabel("")
plt.yticks([])
plt.legend()
plt.show()

In [None]:
# Calculate Cp
Cp = (USL-LSL)/(6*np.std(data))

# Calculate Cpk
Cpk = min((USL-data.mean())/(3*data.std()), (data.mean()-LSL)/(3*data.std()))

# Calculate z-value
z = min((USL-data.mean())/(data.std()), (data.mean()-LSL)/(data.std()))

# Get data summary statistics
num_samples = len(data)
sample_mean = data.mean()
sample_std = data.std()
sample_max = data.max()
sample_min = data.min()
sample_median = np.median(data)

# Get percentage of data points outside of specification limits
pct_below_LSL = len(data[data < LSL])/len(data)*100
pct_above_USL = len(data[data > USL])/len(data)*100

# """ # Write .txt file with results
# with open('/content/process_results.txt', "w") as results:
#     results.write("PROCESS CAPABILITY ANALYSIS\n")

#     results.write("-----------------------------------\n")
#     results.write(f"Specifications\n")
#     results.write(f"\nTarget: {target}\n")
#     results.write(f"LSL: {LSL}\n")
#     results.write(f"USL: {USL}\n")

#     results.write("-----------------------------------\n")
#     results.write(f"Indices\n")
#     results.write(f"\nCp: {round(Cp,2)}\n")
#     results.write(f"Cpk: {round(Cpk,2)}\n")
#     results.write(f"z: {round(z,2)}\n")

#     results.write("-----------------------------------\n")
#     results.write(f"Summary Statistics\n")
#     results.write(f"\nNumber of samples: {round(num_samples,2)}\n")
#     results.write(f"Sample mean: {round(sample_mean,2)}\n")
#     results.write(f"Sample std: {round(sample_std,2)}\n")
#     results.write(f"Sample max: {round(sample_max,2)}\n")
#     results.write(f"Sample min: {round(sample_min,2)}\n")
#     results.write(f"Sample median: {round(sample_median,2)}\n")

#     results.write(f"Percentage of data points below LSL: {round(pct_below_LSL,2)}%\n")
#     results.write(f"Percentage of data points above USL: {round(pct_above_USL,2)}%\n") """

ver https://seaborn.pydata.org/generated/seaborn.displot.html#seaborn.displot

A continuación, una serie de celdas que realizan gráficos diversos, puedes dedicar un rato a estudiarlas e intentar comprender bien su programación.

In [None]:
limite_rechazo = 231    ##
limite_deficientes = 242    ##

LSL = df.est.mean() - 3 * df.est.std()    ## lower specification limit
USL = df.est.mean() + 3 * df.est.std()    ## upper specification limit

df.insert(6,'LSL', LSL)
df.insert(7,'USL', USL)


In [None]:
df['fecha'] = df.index

In [None]:
df.head()

In [None]:
df2 = pd.melt(df, id_vars= ['fecha'], value_vars=["est","LSL", "USL"],  value_name="valores")

In [None]:
df2.head()

In [None]:
plt.rcParams['figure.figsize'] = (10.0,4.0)
g = sns.lineplot(data=df2, x="fecha", y="valores", hue="variable")

In [None]:
df3 = df2.groupby([df2['fecha'].dt.isocalendar().week, "variable"]).mean()

In [None]:
df3.reset_index(inplace=True)

In [None]:
df3.head()

In [None]:
plt.rcParams['figure.figsize'] = (10.0,4.0)
sns.set_style("whitegrid")
g = sns.lineplot(data=df3, x="week", y="valores", hue="variable")

In [None]:
df = pd.read_csv("camembert.csv" , decimal = ",", sep=";")
df['fecha']= pd.DatetimeIndex(df.fecha).normalize()
df.drop(['fabricacion','mg', 'cloruros','coliformes'], axis=1, inplace = True)

In [None]:
df2 = df['est'].groupby(df['fecha'].dt.isocalendar().week).agg(['mean','std'])


In [None]:
df2.head()

In [None]:
df2['mean'].plot();

In [None]:
df2['std'].plot();

In [None]:
LSL = df2['mean'] - 3 * df2['std']    ## lower specification limit
USL = df2['mean'] + 3 * df2['std']    ## upper specification limit

df2.insert(2,'LSL', LSL)
df2.insert(3,'USL', USL)

# limite_rechazo = 231    ##
# limite_deficientes = 242    ##
# df3.insert(5,'rechazo', limite_rechazo)
# df3.insert(6,'deficientes', limite_deficientes)


In [None]:
df2.head()

In [None]:
df2['semana'] = df2.index # necesitamos la semana en una columna de valor
df3 = pd.melt(df2, id_vars= ['semana'], value_vars=["mean","LSL", "USL"],  value_name="valores")

In [None]:
g = sns.lineplot(data=df3, x="semana", y="valores", hue="variable")