# TFM Big Data Analytics

## Análisis de los datos

Virginia Casino Sánchez (vircasan20@gmail.com)

## Librerías

In [88]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.ticker as ticker
import matplotlib.dates as mdates
from mpl_toolkits.axes_grid1.inset_locator import inset_axes
import warnings
warnings.filterwarnings('ignore')

## Constantes

In [89]:
DATA_FILE = r'.\data_chla_turb.csv'

CHLA = 'chla'
TURB = 'turb'
DATE = 'date'

DATE_FORMAT = '%Y-%m-%d'

CLR_CHLA = 'seagreen'
CLR_TURB = 'cornflowerblue'

## Métodos

### Cargar datos

In [90]:
def cargar_datos():
    data = pd.read_csv(DATA_FILE)

    # Ordenar por fecha los valores de nuevo
    data[DATE] = pd.to_datetime(data[DATE])
    data = data.sort_values(DATE)

    
    # Establecer la fecha como índice
    data = data.set_index(DATE)

    return data

### Gráficos de histograma

In [91]:
def pintar_histograma_todos(data):

    data1 = data[["chla"]].copy()
    data1 = data1.dropna()

    data2 = data[["turb"]].copy()
    data2 = data2.dropna()

    # Declaración variables
    ancho = 14  # Aumenta el ancho para acomodar cuatro gráficos
    alto = 10   # Aumenta el alto para acomodar cuatro gráficos

    label_y = 'Densidad'
    titulo = 'Cantidad de Observaciones Anuales'
    colores = [CLR_CHLA, CLR_TURB]

    # Preparación gráfica
    fig, ((ax1, ax2)) = plt.subplots(1, 2, figsize=(ancho, alto))  # Crear una cuadrícula de 2x2

    # Gráfico 1
    sns.histplot(data1['chla'], ax=ax1, bins='auto', kde=True, color=colores[0], stat='density', label='KDE', zorder=2)
    ax1.set_facecolor('white')
    ax1.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major', zorder=0)
    ax1.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor', zorder=0)
    ax1.set_xlabel('Clorofila (mg/m3)', fontsize=12)
    ax1.set_ylabel(label_y, fontsize=12)
    ax1.legend()
    ax1.spines['top'].set_visible(False)
    ax1.spines['right'].set_visible(False)

    # Gráfico 2
    sns.histplot(data2['turb'], ax=ax2, bins='auto', kde=True, color=colores[1], stat='density', label='KDE', zorder=2)
    ax2.set_facecolor('white')
    ax2.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major', zorder=0)
    ax2.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor', zorder=0)
    ax2.set_xlabel('Turbidez', fontsize=12)
    ax2.set_ylabel(label_y, fontsize=12)
    ax2.legend()
    ax2.spines['top'].set_visible(False)
    ax2.spines['right'].set_visible(False)

    # Título general para la figura
    fig.suptitle(titulo, fontsize=16, y=1.02)

    # Ajustar el espacio entre gráficos
    plt.tight_layout()

    # Guardar la figura
    file_name = 'figuras/histograma_todos.svg'
    plt.savefig(file_name, format='svg')

    # Mostrar la figura
    plt.show()

### Gráfico de observaciones por años (barras)

In [92]:
from matplotlib.gridspec import GridSpec

def pintar_grafica_ttl_datos_por_anyo(data):
    data1 = data[["chla"]].copy()
    data1 = data1.dropna()

    data2 = data[["turb"]].copy()
    data2 = data2.dropna()

    # Declaración de variables
    ancho = 14
    alto = 8

    label_x = 'Año'
    label_y = 'Nº Observaciones'
    titulo = 'Cantidad de Observaciones Anuales de Clorofila (Cuatro Gráficos)'

    colores = [CLR_CHLA, CLR_TURB]

    # Crear una figura y una cuadrícula personalizada
    fig = plt.figure(figsize=(ancho, alto))
    gs = GridSpec(2, 3, figure=fig)  # Definir una cuadrícula de 2 filas y 3 columnas

    # Gráfico 1 (ancho, ocupa dos columnas en la cuadrícula)
    ax1 = fig.add_subplot(gs[0, :2])
    data1['Year'] = data1.index.year
    yearly_counts1 = data1.groupby('Year').size().reset_index(name='Counts')
    ax1.bar(yearly_counts1['Year'], yearly_counts1['Counts'], color=colores[0], zorder=2)
    ax1.set_facecolor('white')
    ax1.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major', zorder=0)
    ax1.yaxis.set_major_locator(ticker.MultipleLocator(20))
    ax1.yaxis.set_minor_locator(ticker.MultipleLocator(5))
    ax1.set_title('Clorofila', fontsize=16)
    ax1.set_xlabel(label_x, fontsize=12)
    ax1.set_ylabel(label_y, fontsize=12)
    ax1.spines['top'].set_visible(False)
    ax1.spines['right'].set_visible(False)

    # Gráfico 2 (estrecho, ocupa una columna)
    ax2 = fig.add_subplot(gs[0, 2])
    data2['Year'] = data2.index.year
    yearly_counts2 = data2.groupby('Year').size().reset_index(name='Counts')
    ax2.bar(yearly_counts2['Year'], yearly_counts2['Counts'], color=colores[1], zorder=2)
    ax2.set_facecolor('white')
    ax2.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major', zorder=0)
    ax2.yaxis.set_major_locator(ticker.MultipleLocator(5))
    ax2.yaxis.set_minor_locator(ticker.MultipleLocator(1))
    ax2.set_title('Turbidez', fontsize=16)
    ax2.set_xlabel(label_x, fontsize=12)
    ax2.set_ylabel(label_y, fontsize=12)
    ax2.spines['top'].set_visible(False)
    ax2.spines['right'].set_visible(False)
    ax2.xaxis.set_major_locator(ticker.MaxNLocator(integer=True))  # Mostrar solo el año en enteros

    # Título general para la figura
    # fig.suptitle(titulo, fontsize=16, y=1.02)

    # Ajustar el espacio entre gráficos
    plt.tight_layout()

    # Guardar la figura
    file_name = 'figuras/cantidad_datos_todos_grafico.svg'
    plt.savefig(file_name, format='svg')

    # Mostrar la figura
    plt.show()

### Gráfico de dispersión

In [93]:
def pintar_grafica_dispersion(titulo, data, columnas, colores, label_x, label_y, file_name, alt_min_inset, alt_max_inset,y_min_grid, y_max_grid):

    # Declaración variables
    alto = 10
    ancho = 20

    file_name = f'figuras/{file_name}.svg'
    
    # Preparación gráfica
    fig, ax = plt.subplots(figsize=(ancho, alto))

    for i, columna in enumerate(columnas):
        ax.scatter(data.index, data[columna], color=colores[i], s=30, alpha = 0.7, zorder = 2)
    
    # Configuración a los ejes / grid
        # Color de fondo
    ax.set_facecolor('white')

        # Configuración del grid
    ax.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major', zorder = 0)
    ax.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor', zorder = 0)

        # Configuración de los ticks del eje y
    ax.yaxis.set_minor_formatter(ticker.NullFormatter())
    ax.yaxis.set_major_locator(ticker.MultipleLocator(y_max_grid))
    ax.yaxis.set_minor_locator(ticker.MultipleLocator(y_min_grid)) 

    ax.tick_params(axis='y', labelsize=15)

        # Configuración de los ticks del eje x
    ax.xaxis.set_major_locator(mdates.DayLocator(interval=60))  # Cada 5 días
    ax.xaxis.set_major_formatter(mdates.DateFormatter(DATE_FORMAT))
    
    ax.tick_params(axis='x', which='major', labelsize=15, rotation = 90)

    # Configuración de las etiquetas
    ax.set_xlabel(label_x, fontsize=15, labelpad=15)
    ax.set_ylabel(label_y, fontsize=15, labelpad=15)
    ax.set_title(titulo, fontsize=20, pad=10)

    # Borrar líneas superior y derecha
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)

    # Creación del gráfico inset 
    ax_inset = inset_axes(ax, width='45%', height='42%', loc='upper right')

    # Enfocar en las últimas fechas, por ejemplo, las últimas 10 fechas
    zoom_focus = -296

    for i, columna in enumerate(columnas):
        ax_inset.scatter(data.index[zoom_focus:], data[columna][zoom_focus:], color=colores[i], s=25, alpha = 0.5)

    # Configuración del grid
    ax_inset.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major')
    ax_inset.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor')

        # Configuración de los ticks del eje y
    ax_inset.yaxis.set_major_locator(ticker.MultipleLocator(1))   # Ticks mayores cada 1
    ax_inset.yaxis.set_minor_locator(ticker.MultipleLocator(0.5)) # Ticks menores cada 0.5

    ax_inset.tick_params(axis='y', labelsize=15)

    ax_inset.set_ylim(alt_min_inset,alt_max_inset)

        # Configuración de los ticks del eje x
    ax_inset.xaxis.set_major_locator(mdates.DayLocator(interval=60))  # Cada 5 días
    ax_inset.xaxis.set_major_formatter(mdates.DateFormatter(DATE_FORMAT))
    
    ax_inset.tick_params(axis='x', which='major', labelsize=15, rotation = 90)  

    ax.legend()

    # Borrar líneas superior y derecha
    ax_inset.spines['top'].set_visible(False)
    ax_inset.spines['right'].set_visible(False)

    # Ajustar imagen
    plt.tight_layout()

    # Guardar imagen
    plt.savefig(file_name, format='svg')

    # Mostrar imagen
    plt.show()

### Gráfica de líneas

In [94]:
def pintar_grafica_linea_temporal(titulo, datos, label_x, label_y, file_name, alt_max_inset, alt_min_inset):
    # Declaración variables
    ancho = 20 
    alto = 10

    label_x = 'Fecha'
    label_y = 'Clorofila (mg/m3)'
    titulo = titulo

    colores = [CLR_CHLA, CLR_TURB]

    file_name = f'figuras/evolucion_chla_{file_name}.svg'

    # Preparación datos
    data = datos.copy()

    columnas = [CHLA,TURB] 

    # Preparación gráfica
    fig, ax = plt.subplots(figsize=(ancho, alto))

    for i, columna in enumerate(columnas):
        ax.plot(data.index, data[columna], color=colores[i], zorder = 2)

    # Configuración a los ejes / grid
        # Color de fondo
    ax.set_facecolor('white')

        # Configuración del grid
    ax.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major', zorder = 0)
    ax.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor', zorder = 0)

        # Configuración de los ticks del eje y
    ax.yaxis.set_minor_formatter(ticker.NullFormatter())
    ax.yaxis.set_major_locator(ticker.MultipleLocator(15))
    ax.yaxis.set_minor_locator(ticker.MultipleLocator(5)) 

    ax.tick_params(axis='y', labelsize=15)

        # Configuración de los ticks del eje x
    ax.xaxis.set_major_locator(mdates.DayLocator(interval=60))  # Cada 5 días
    ax.xaxis.set_major_formatter(mdates.DateFormatter(DATE_FORMAT))
    
    ax.tick_params(axis='x', which='major', labelsize=15, rotation = 90)

    # Configuración de las etiquetas
    ax.set_xlabel(label_x, fontsize=15, labelpad=15)
    ax.set_ylabel(label_y, fontsize=15, labelpad=15)
    ax.set_title(titulo, fontsize=20, pad=10)

    # Borrar líneas superior y derecha
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)

    # Creación del gráfico inset 
    ax_inset = inset_axes(ax, width='45%', height='42%', loc='upper right')

    # Enfocar en las últimas fechas, por ejemplo, las últimas 10 fechas
    zoom_focus = -296
    for i, columna in enumerate(columnas):
        ax_inset.plot(data.index[zoom_focus:], data[columna][zoom_focus:], color=colores[i])

    # Configuración del grid
    ax_inset.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major')
    ax_inset.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor')

        # Configuración de los ticks del eje y
    ax_inset.yaxis.set_minor_formatter(ticker.NullFormatter())
    ax_inset.yaxis.set_major_locator(ticker.MultipleLocator(5))   # Ticks mayores cada 1
    ax_inset.yaxis.set_minor_locator(ticker.MultipleLocator(1)) # Ticks menores cada 0.5

    ax_inset.tick_params(axis='y', labelsize=15)

    ax_inset.set_ylim(alt_min_inset, alt_max_inset)

        # Configuración de los ticks del eje x
    ax_inset.xaxis.set_major_locator(mdates.DayLocator(interval=60))  # Cada 5 días
    ax_inset.xaxis.set_major_formatter(mdates.DateFormatter(DATE_FORMAT))
    
    ax_inset.tick_params(axis='x', which='major', labelsize=15, rotation = 90)  

    # Borrar líneas superior y derecha
    ax_inset.spines['top'].set_visible(False)
    ax_inset.spines['right'].set_visible(False)

    # Ajustar imagen
    plt.tight_layout()

    # Guardar imagen
    plt.savefig(file_name, format='svg')

    # Mostrar imagen
    plt.show()

## Main

Cargar los datos

In [None]:
# Carga de los datos

all_data = cargar_datos()

all_data.info()

Pintar el histograma con curva de densidad de los valores de Clorofila

In [None]:
pintar_histograma_todos(all_data)

Pintar la cantidad de datos de Clorofila que hay por años

In [None]:
pintar_grafica_ttl_datos_por_anyo(all_data)

Pintar dispersión de los datos de la Clorofila

In [None]:
# Pintar gráfica
titulo = f'Dispersión de la Clorofila a lo largo del Tiempo'
datos = all_data
columnas = [CHLA]
colores = [CLR_CHLA]
file_name = 'dispersion_chla'
alt_min_inset = -0.5
alt_max_inset = 5.5
y_min_grid = 5
y_max_grid = 15
pintar_grafica_dispersion(titulo, datos, columnas, colores, 'Fecha','Clorofila (mg/m3)', file_name, alt_min_inset, alt_max_inset, y_min_grid, y_max_grid)

Pintar dispersión de los datos de la Turbidez

In [None]:
# Pintar gráfica
titulo = f'Dispersión de la Turbidez a lo largo del Tiempo'
datos = all_data
columnas = [TURB]
colores = [CLR_TURB]

alt_min_inset = -0.5
alt_max_inset = 3.5
y_min_grid = 2
y_max_grid = 1
file_name = 'dispersion_turb'
pintar_grafica_dispersion(titulo, datos, columnas, colores, 'Fecha','Turbidez', file_name, alt_min_inset, alt_max_inset, y_min_grid, y_max_grid)

In [None]:
# Pintar gráfica
titulo = f''
datos = all_data
columnas = [CHLA, TURB]
colores = [CLR_CHLA, CLR_TURB]
file_name = 'dispersion_datos_estudio'
alt_min_inset = -0.5
alt_max_inset = 5.5
y_min_grid = 5
y_max_grid = 15
pintar_grafica_dispersion(titulo, datos, columnas, colores, 'Fecha','Clorofila (mg/m3)', file_name, alt_min_inset, alt_max_inset, y_min_grid, y_max_grid)

Pintar series temporales mediante el gráfico de líneas

In [None]:
# Pintar gráfica
titulo = f'Evolución del Mar Menor'
datos = all_data
colores = ['cornflowerblue', 'seagreen', 'orange', 'red']
file_name = 'sin_inter'
alt_min_inset = -0.1
alt_max_inset = 5.5
pintar_grafica_linea_temporal(titulo, datos, 'Fecha','Clorofila (mg/m3)', file_name, alt_max_inset, alt_min_inset)

Tras interpolar los datos quedan de la siguiente forma

In [None]:
all_data_interpolate = all_data.interpolate(method='time')

# Pintar gráfica
titulo = f'Variación diaria de Clorofila con Datos Interpolados'
datos = all_data_interpolate
alt_min_inset = -0.1
alt_max_inset = 14
file_name = 'con_inter'
pintar_grafica_linea_temporal(titulo, datos, 'Fecha','Clorofila (mg/m3)', file_name, alt_max_inset, alt_min_inset)

In [103]:
def pintar_grafica_dispersion(titulo, data, columnas, colores, label_x, label_y, file_name, alt_min_inset, alt_max_inset,y_min_grid, y_max_grid):
    leyenda = ['Clorofila', 'Turbidez']
    # Declaración variables
    alto = 12
    ancho = 20

    file_name = f'figuras/{file_name}.svg'
    
    # Preparación gráfica
    fig, ax = plt.subplots(figsize=(ancho, alto))

    for i, columna in enumerate(columnas):
        ax.scatter(data.index, data[columna], color=colores[i], s=50, alpha = 0.7, zorder = 2, label=leyenda[i])
    
    # Configuración a los ejes / grid
        # Color de fondo
    ax.set_facecolor('white')

        # Configuración del grid
    ax.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major', zorder = 0)
    ax.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor', zorder = 0)

        # Configuración de los ticks del eje y
    ax.yaxis.set_minor_formatter(ticker.NullFormatter())
    ax.yaxis.set_major_locator(ticker.MultipleLocator(y_max_grid))
    ax.yaxis.set_minor_locator(ticker.MultipleLocator(y_min_grid)) 

    ax.tick_params(axis='y', labelsize=25)

        # Configuración de los ticks del eje x
    ax.xaxis.set_major_locator(mdates.DayLocator(interval=60))  # Cada 5 días
    ax.xaxis.set_major_formatter(mdates.DateFormatter(DATE_FORMAT))
    
    ax.tick_params(axis='x', which='major', labelsize=25, rotation = 90)

    # Configuración de las etiquetas
    ax.set_xlabel(label_x, fontsize=30, labelpad=20)
    ax.set_ylabel(label_y, fontsize=30, labelpad=20)
    # ax.set_title(titulo, fontsize=20, pad=10)

    # Borrar líneas superior y derecha
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)

    # Creación del gráfico inset 
    ax_inset = inset_axes(ax, width='45%', height='42%', loc='upper right')

    # Enfocar en las últimas fechas, por ejemplo, las últimas 10 fechas
    zoom_focus = -296


    for i, columna in enumerate(columnas):
        ax_inset.scatter(data.index[zoom_focus:], data[columna][zoom_focus:], color=colores[i], 
                         s=25, alpha = 0.5, 
                         label=leyenda[i])

    # Configuración del grid
    ax_inset.grid(True, color='lightgrey', linestyle='--', linewidth=0.7, axis='y', which='major')
    ax_inset.yaxis.grid(True, color='lightgrey', linestyle='--', linewidth=0.4, which='minor')

        # Configuración de los ticks del eje y
    ax_inset.yaxis.set_major_locator(ticker.MultipleLocator(1))   # Ticks mayores cada 1
    ax_inset.yaxis.set_minor_locator(ticker.MultipleLocator(0.5)) # Ticks menores cada 0.5

    ax_inset.tick_params(axis='y', labelsize=20)

    ax_inset.set_ylim(alt_min_inset,alt_max_inset)

        # Configuración de los ticks del eje x
    ax_inset.xaxis.set_major_locator(mdates.DayLocator(interval=60))  # Cada 5 días
    ax_inset.xaxis.set_major_formatter(mdates.DateFormatter(DATE_FORMAT))
    
    ax_inset.tick_params(axis='x', which='major', labelsize=20, rotation = 90)  

    ax.legend(loc='upper left', fontsize = 25)

    # Borrar líneas superior y derecha
    ax_inset.spines['top'].set_visible(False)
    ax_inset.spines['right'].set_visible(False)

    # Ajustar imagen
    plt.tight_layout()

    # Guardar imagen
    plt.savefig(file_name, format='svg')

    # Mostrar imagen
    plt.show()

In [None]:
# Pintar gráfica
titulo = f''
datos = all_data
columnas = [CHLA, TURB]
colores = [CLR_CHLA, CLR_TURB]
file_name = 'dispersion_datos_estudio'
alt_min_inset = -2
alt_max_inset = 5.5
y_min_grid = 5
y_max_grid = 15
pintar_grafica_dispersion(titulo, datos, columnas, colores, 'Fecha','Clorofila (mg/m3)', file_name, alt_min_inset, alt_max_inset, y_min_grid, y_max_grid)