## **Robbin**

El presente jupiter notebook muestra el uso de las distintas funciones que contiene el script.py llamado **`'robbin'`**, sobre un set de datos que representa información pesquera para análisis de clustering. Estas son:
|**Funciones**|**Descripción**|
|:---:|---|
|import_df()   | Cargar datos desde un archivo CSV o Excel y devolver un DataFrame de pandas|

El análisis de datos pesqueros mediante técnicas de clustering puede proporcionar información valiosa sobre patrones de distribución, agrupación de especies y comportamientos de las poblaciones de peces. Aquí hay algunos pasos para comenzar tu proyecto:

### **1. Definición de Objetivos:**
   
   - **Diferencias en los patrones de distribución espacial entre especies:** Utiliza las coordenadas geográficas de las capturas y la información de especies para identificar patrones de distribución. Agrupa las capturas en función de su ubicación y especies y observa si ciertas especies tienden a agruparse en áreas particulares.
   - **Áreas de pesca más productivas:** Utiliza la cantidad de capturas por especie en cada ubicación para identificar las áreas con mayor productividad pesquera. Agrupa los datos en función de la ubicación y especies, y analiza dónde se encuentran las mayores cantidades de capturas.
   - **Cambios en los clusters a lo largo del tiempo:** Utiliza los datos temporales de las capturas y las coordenadas geográficas para agrupar las capturas en diferentes intervalos de tiempo y observar cómo cambian las agrupaciones a lo largo del tiempo.
   - **Diferencias en la composicion de especies en el tiempo y el espacio:** Aprovecha los datos de capturas a lo largo del tiempo y las coordenadas geográficas para analizar cómo cambia la composición de especies en diferentes momentos y lugares. Agrupa las capturas en intervalos de tiempo y ubicaciones para identificar patrones de cambio en la composición de especies.


In [1]:
import sys
sys.path.append(r'C:\Users\jubeda2\Documents\Consultas jubeda2\Modulos Python')

import luffy as lf
import namy as nm 

import importlib
importlib.reload(lf)
importlib.reload(nm)

<module 'namy' from 'C:\\Users\\jubeda2\\Documents\\Consultas jubeda2\\Modulos Python\\namy.py'>

### **2. Recopilación de Datos:**
   
  - **Latitude:** Coordenada geográfica de latitud donde se realizó la captura.
  - **Longitude:** Coordenada geográfica de longitud donde se realizó la captura.
  - **Species:** Nombre de la especie de pez capturada.
  - **Catch Date:** Fecha en que se realizó la captura.
  - **Catch Time:** Hora en que se realizó la captura.
  - **Weight:** Peso del pez capturado.
  - **Fishing Method:** Método utilizado para la captura (redes, anzuelos, trampas, etc.).
  - **Location Description:** Descripción adicional de la ubicación de la captura.
  - **Boat ID:** Identificación de la embarcación o barco utilizado para la pesca.

In [4]:
import sys
sys.path.append(r'C:\Users\jubeda2\Documents\Consultas jubeda2\Modulos Python')
import luffy as lf

In [5]:
path = r'C:\Users\jubeda2\Desktop\One Piece for DataAnalysis\Data\Consumo FAL.csv'

df = lf.import_df(path, sep = ';', decimal = '.')

In [7]:
lf.describe_df(df)

Unnamed: 0,Column,Data Type,Non-null Count,Null Count,Unique Values,Shape,mean,std,min,25%,50%,75%,max
0,AL3,object,172,0,1,"172 rows, 26 columns",,,,,,,
1,Especie,object,172,0,1,"172 rows, 26 columns",,,,,,,
2,Censo,object,172,0,4,"172 rows, 26 columns",,,,,,,
3,CFR,object,172,0,7,"172 rows, 26 columns",,,,,,,
4,NombreBuque,object,172,0,7,"172 rows, 26 columns",,,,,,,
5,Matricula,object,172,0,7,"172 rows, 26 columns",,,,,,,
6,Division,object,172,0,7,"172 rows, 26 columns",,,,,,,
7,PaisCaptura,object,172,0,3,"172 rows, 26 columns",,,,,,,
8,FcCaptura,object,172,0,154,"172 rows, 26 columns",,,,,,,
9,HoraMinutos,object,172,0,111,"172 rows, 26 columns",,,,,,,


In [60]:
lf.unique_df(df)

Resumen para la columna 'AL3':
['FAL']

Resumen para la columna 'Especie':
['Tiburón jaquetón']

Resumen para la columna 'Censo':
['ATUNEROS CERQUEROS CONGELADORES EN OCEANO ATLANTICO, INDICO Y PACIFICO'
 'ATUNEROS CERQUEROS CONGELADORES EN OCEANO INDICO Y PACIFICO'
 'PALANGRE DE SUPERFICIE CALADERO NACIONAL'
 'PALANGRE DE SUPERFICIE EN AGUAS INTERNACIONALES']

Resumen para la columna 'CFR':
['ESP000000755' 'ESP000022090' 'ESP000025179' 'ESP000027578'
 'ESP000024186' 'ESP000022405' 'ESP000025873']

Resumen para la columna 'NombreBuque':
['ALBACORA CUATRO' 'ALBACAN' 'PLAYA DE ARITZATXU' 'PLAYA DE RIS' 'OLEAJE'
 'FRANIVAN' 'MARGUEL']

Resumen para la columna 'Matricula':
['3VI-5-9478' '3CA-3-1-91' '3BI-2-4-01' '3BI-2-1-14' '3FE-2-5-99'
 '3CU-1-1-92' '3VI-7-11-03']

Resumen para la columna 'Division':
['51.5' '51.7' '77' '87.1.4' '87.2.6' '51.6' '51.8']

Resumen para la columna 'PaisCaptura':
['AGUAS INTERNACIONALES' 'SEYCHELLES' 'TANZANIA,REP UNIDA DE']

Resumen para la columna 'FcCaptur

### **3. Preprocesamiento de Datos:**
   Antes de aplicar técnicas de clustering, es probable que necesites realizar algunas tareas de preprocesamiento. Esto podría implicar la limpieza de datos faltantes o erróneos, normalización de características y selección de atributos relevantes. Por lo tanto:
   - Convertimos las coordenadas separadas por la comma a formato numerico.
   - Agregamos el PesoConsumo por las columnas de interés.
   - Posteriormente durante la aplicacion del algoritmo normalizamos los datos para manejar outliers y mejorar la interpretacion.

In [6]:
for col in ['Latitud', 'Longitud']:
    df[col] = df[col].str.replace(',', '.').astype(float)

In [7]:
groupby_cols = ['Latitud', 'Longitud', 'Especie', 'FcCaptura', 'HoraMinutos', 'Arte', 'Division', 'NombreBuque'] 
operation_choices = {'PesoConsumoTotal' : 'sum'}

aggregated_fishdata = lf.groupby_df(df, groupby_cols, operation_choices)

In [8]:
aggregated_fishdata

Unnamed: 0,Latitud,Longitud,Especie,FcCaptura,HoraMinutos,Arte,Division,NombreBuque,PesoConsumoTotal
0,-34.7833,32.1480,Tiburón jaquetón,2018-04-07,13:16,Palangre de superficie,51.8,MARGUEL,96.04
1,-34.5500,32.3000,Tiburón jaquetón,2018-04-04,12:32,Palangre de superficie,51.8,MARGUEL,211.05
2,-33.8333,33.6833,Tiburón jaquetón,2018-04-27,13:40,Palangre de superficie,51.8,MARGUEL,96.04
3,-33.0000,34.7500,Tiburón jaquetón,2018-05-24,15:0,Palangre de superficie,51.8,MARGUEL,109.04
4,-32.9667,35.3667,Tiburón jaquetón,2018-04-21,11:49,Palangre de superficie,51.8,MARGUEL,109.04
...,...,...,...,...,...,...,...,...,...
141,5.8667,59.2167,Tiburón jaquetón,2023-01-20,2:0,Cerco con jareta,51.5,ALBACORA CUATRO,32.00
142,6.2667,56.2667,Tiburón jaquetón,2022-08-16,8:50,Cerco con jareta,51.5,PLAYA DE ARITZATXU,33.00
143,6.6500,56.0667,Tiburón jaquetón,2023-01-20,5:30,Cerco con jareta,51.5,PLAYA DE RIS,20.00
144,6.9833,61.3833,Tiburón jaquetón,2021-03-03,10:0,Cerco con jareta,51.5,ALBACORA CUATRO,81.00


### **4. Selección de Algoritmos de Clustering:**

#### **4.1. KMeans**

K-means es un algoritmo de clasificación no supervisada (clusterización) que agrupa objetos en k grupos basándose en sus características. El agrupamiento se realiza minimizando la suma de distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la distancia cuadrática.

El algoritmo consta de tres pasos:

1. **Inicialización:** una vez escogido el número de grupos, k, se establecen k centroides en el espacio de los datos, por ejemplo, escogiéndolos aleatoriamente. `¿Como elegir el numero más apropiado de clusters para mi analisis?`
2. **Asignación objetos a los centroides:** cada objeto de los datos es asignado a su centroide más cercano.
3. **Actualización centroides:** se actualiza la posición del centroide de cada grupo tomando como nuevo centroide la posición del promedio de los objetos pertenecientes a dicho grupo.
Se repiten los pasos 2 y 3 hasta que los centroides no se mueven, o se mueven por debajo de una distancia umbral en cada paso.

El algoritmo k-means resuelve un problema de optimización, siendo la función a optimizar (minimizar) la suma de las distancias cuadráticas de cada objeto al centroide de su cluster.

Los objetos se representan con vectores reales de d dimensiones  (x1,x2,…,xn) y el algoritmo k-means construye k grupos donde se minimiza la suma de distancias de los objetos, dentro de cada grupo  S={S1,S2,…,Sk}, a su centroide. El problema se puede formular de la siguiente forma:


$$
\begin{align}

minSE(μi)=minS∑i=1k∑xj∈Si∥xj−μi∥2(1)

\end{align}
$$

donde S es el conjunto de datos cuyos elementos son los objetos xj representados por vectores, donde cada uno de sus elementos representa una característica o atributo. Tendremos k grupos o clusters con su correspondiente centroide  μi.

En cada actualización de los centroides, desde el punto de vista matemático, imponemos la condición necesaria de extremo a la función  E(μi) que, para la función cuadrática  (1)  es

$$
\begin{align}

∂E∂μi=0⟹μ(t+1)i=1∣∣S(t)i∣∣∑xj∈S(t)ixj

\end{align}
$$
y se toma el promedio de los elementos de cada grupo como nuevo centroide.

Las **principales ventajas** del método k-means son que es un método sencillo y rápido. Pero es necesario decidir el valor de k y el resultado final depende de la inicialización de los centroides. En principio no converge al mínimo global sino a un mínimo local.

En esta sección utilizaremos el algoritmo KMeans para realizar un analisis cluster del dataset, seleccionando unas variables de interés. KMeans se utiliza comúnmente para la segmentación de mercados, la compresión de imágenes, la detección de anomalías y más. Ofrece una manera versátil de descubrir patrones y agrupaciones dentro de conjuntos de datos. El resultado de KMeans es un conjunto de etiquetas de cluster asignadas a cada punto de datos, indicando a qué cluster pertenece. Además, se roporcionan las posiciones finales de los centroides. Se recomienda realizar un escalado de características antes de aplicar KMeans, ya que el algoritmo es sensible a la escala de las características en el conjunto de datos.

**Limitaciones:** KMeans es sensible a la ubicación inicial de los centroides y asume que los clusters son esféricos y de igual tamaño. Es posible que no funcione bien cuando se enfrenta a clusters de formas, tamaños y densidades diferentes.

> Vamos a usar la función KMeans de la librería sklearn.

https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html

In [13]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Seleccionamos las variables para el cluster
selected_features = ['Latitud', 'Longitud', 'PesoConsumoTotal']

# Normalizamos los datos
scaler = StandardScaler()
normalized_data = scaler.fit_transform(aggregated_fishdata[selected_features])

n = 3
k_means = KMeans(n_clusters=n)
k_means.fit(normalized_data)



In [61]:
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Seleccionamos las variables para el cluster
selected_features = ['Latitud', 'Longitud', 'PesoConsumoTotal']

# Normalizamos los datos
scaler = StandardScaler()
normalized_data = scaler.fit_transform(aggregated_fishdata[selected_features])

# Seleccionamos el numero de clusters K y el numero de iteraciones explicitamente
num_clusters = 4
n_init = 100 

# Inicializamos el modelo clustering KMeans
kmeans = KMeans(n_clusters=num_clusters, n_init=n_init)

# Ajustamos el modelo a los datos
clusters = kmeans.fit_predict(normalized_data)

# Añadimos las etiquetas del cluster al Dataframe
aggregated_fishdata['Cluster'] = clusters

In [62]:
aggregated_fishdata

Unnamed: 0,Latitud,Longitud,Especie,FcCaptura,HoraMinutos,Arte,Division,NombreBuque,PesoConsumoTotal,Cluster
0,-34.7833,32.1480,Tiburón jaquetón,2018-04-07,13:16,Palangre de superficie,51.8,MARGUEL,96.04,1
1,-34.5500,32.3000,Tiburón jaquetón,2018-04-04,12:32,Palangre de superficie,51.8,MARGUEL,211.05,7
2,-33.8333,33.6833,Tiburón jaquetón,2018-04-27,13:40,Palangre de superficie,51.8,MARGUEL,96.04,1
3,-33.0000,34.7500,Tiburón jaquetón,2018-05-24,15:0,Palangre de superficie,51.8,MARGUEL,109.04,1
4,-32.9667,35.3667,Tiburón jaquetón,2018-04-21,11:49,Palangre de superficie,51.8,MARGUEL,109.04,1
...,...,...,...,...,...,...,...,...,...,...
141,5.8667,59.2167,Tiburón jaquetón,2023-01-20,2:0,Cerco con jareta,51.5,ALBACORA CUATRO,32.00,2
142,6.2667,56.2667,Tiburón jaquetón,2022-08-16,8:50,Cerco con jareta,51.5,PLAYA DE ARITZATXU,33.00,2
143,6.6500,56.0667,Tiburón jaquetón,2023-01-20,5:30,Cerco con jareta,51.5,PLAYA DE RIS,20.00,2
144,6.9833,61.3833,Tiburón jaquetón,2021-03-03,10:0,Cerco con jareta,51.5,ALBACORA CUATRO,81.00,2


### **5. Visualización de Resultados:**
   Representa gráficamente los resultados del clustering para una comprensión más clara. Gráficos como gráficos de dispersión y dendrogramas pueden ayudar a visualizar las agrupaciones.

In [63]:
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Create the scatter plot
scatter_fig = px.scatter(aggregated_fishdata, x='Longitud', y='Latitud', color='Cluster', title='Cluster Analysis of Fishery Data')

# Create box plots for Latitud by Cluster
box_fig = px.box(aggregated_fishdata, x='Cluster', y="PesoConsumoTotal", title='Distribution of PesoConsumoTotal by Cluster')

# Create a subplot with scatter plot and box plots
fig = make_subplots(rows=1, cols=2, column_widths=[0.7, 0.3], subplot_titles=['Scatter Plot', 'Box Plots'])

# Add the scatter plot to the subplot
for trace in scatter_fig.data:
    fig.add_trace(trace, row=1, col=1)

# Add the box plots to the subplot
for trace in box_fig.data:
    fig.add_trace(trace, row=1, col=2)

# Update subplot layout
fig.update_layout(title='Cluster Analysis of Fishery Data with Latitud Distribution', showlegend=False)

# Update axis titles for each subplot
fig.update_xaxes(title_text='Longitud', row=1, col=1)
fig.update_yaxes(title_text='Latitud', row=1, col=1)
fig.update_xaxes(title_text='Cluster', row=1, col=2)
fig.update_yaxes(title_text='PesoConsumoTotal', row=1, col=2)

# Show the combined plot
fig.show()

### **6. Interpretación de Resultados:**
    
En los plots se pueden identificar cuatro clusters distintos que se distribuyen a ambos lados de la longitud 0 grados. En particular, en las longitudes positivas, los pesos de consumo son significativamente menores en comparación con las longitudes negativas. Destaca especialmente el cluster 2, que contiene los pesos de consumo más altos. Esta observación sugiere que existen patrones geográficos y de peso de consumo diferenciados entre los clusters.

El scatter plot ha permitido visualizar cómo los datos se agrupan en función de la longitud y el peso de consumo. Los cuatro clusters podrían indicar diferentes hábitats o zonas de pesca. La diferencia en los pesos de consumo entre longitudes positivas y negativas podría ser el resultado de diferentes tamaños de peces que habitan en esas áreas o artes/censos utilizados para explotación. El hecho de que el cluster 2 tenga los pesos de consumo más altos en longitudes negativas sugiere la existencia de un área particularmente productiva para la captura de peces de mayor tamaño. Esta observación podría tener implicaciones importantes para la toma de decisiones en la gestión pesquera, al enfocar los esfuerzos en áreas más productivas.