In [1]:
#Entrada: los datos ya descargados de RASFF y las salidas del "Análisis_full_RASFF_Data".


# Preprocesamiento 

## Librerías

In [2]:
import numpy as np
import pandas as pd
import stellargraph as sg
import tensorflow as tf
import math
import os
import shutil
import matplotlib.pyplot as plt

from stellargraph.mapper import PaddedGraphGenerator
from stellargraph.layer import DeepGraphCNN
from stellargraph import StellarGraph

from sklearn import model_selection
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics import confusion_matrix

from IPython.display import display, HTML

from tensorflow.keras import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.layers import Dense, Conv1D, MaxPool1D, Dropout, Flatten
from tensorflow.keras import losses

import networkx as nx


## Carga del dataset

In [3]:
df = pd.read_csv('./../../Datasets/full_RASFF_DATA.csv', sep=';', header=0, index_col = 0)

#### Carga de los datasets auxiliares (tratamiento)

In [4]:
df_productos = pd.read_csv('./../../Datasets/Lista_Productos.csv', header=0, index_col = 0)
df_cat_productos = pd.read_csv('./../../Datasets/Lista_Categoria_Productos.csv', header=0, index_col = 0)
df_amenazas = pd.read_csv('./../../Datasets/Lista_Amenazas.csv', header=0, index_col = 0)
df_cat_amenazas = pd.read_csv('./../../Datasets/Lista_Categoria_Amenazas.csv', header=0, index_col = 0)
df_repes = pd.read_csv('./../../Datasets/Lista_repeticion_paises.csv', header=0, index_col = 0)

#### Conversión de NaN a formato string

In [5]:
df = df.replace(np.nan, "", regex=True)

## Corrección del dataset

In [6]:
#Seleccionamos la primera categoría de amenaza entre todas las posibles
for index, row in df.iterrows():
    row['HAZARDS_CAT'] = row['HAZARDS_CAT'].split(",")[0]

## Elección de fechas

In [7]:
#Eliminamos las fechas que no nos interesan.
fecha_maxima = "2021" #Primer año que no queremos coger.
df = df.loc[df['DATE_CASE'] < fecha_maxima]

## Agrupación de clases

In [8]:
#Segun el dendograma visto anteriormente, vamos a agrupar las clases 
#"labelling absent/incomplete/incorrect" con "packaging defective / incorrect"
#bajo una nueva clase llamada "labelling absent/packaging defective/incorrect"
#Quitamos los nombres que contienen '/' para despues guardarlo como imagenes en carpetas.

for index, row in df.iterrows():
    if(row['HAZARDS_CAT'] == "labelling absent/incomplete/incorrect" or row['HAZARDS_CAT'] == "packaging defective / incorrect"):
        row['HAZARDS_CAT'] = "packaging incorrect"
    if(row['HAZARDS_CAT'] == "adulteration / fraud"):
        row['HAZARDS_CAT'] = "adulteration or fraud"

## Eliminamos los registros que no deseamos 
Las categorias obsoletas y los países con una tasa de participación inferior al 1%

In [9]:
paises_eliminar = df_repes.tail(72)
cat_productos_eliminar = df_cat_productos.tail(16)
cat_productos_eliminar = cat_productos_eliminar.append(df_cat_productos.iloc[-22])
cat_productos_eliminar = cat_productos_eliminar.sort_values('Repeticiones', ascending = False)
cat_amenazas_eliminar = df_cat_amenazas.tail(19) #Estaba en 19

In [10]:
#df_cat_amenazas.tail(50)

In [11]:
#Eliminamos los registros que contienen valores no interesantes para nuestro estudio, mirando en las columnas de interés en cada registro.

#Guardamos las filas que no queremos coger en este datframe.
df_eliminar = df.drop(df.index, inplace=False)

#Buscamos esas filas "inútiles".
for index, row in df.iterrows():
    #Eliminamos los países invalidos.
    for j in (row["COUNT_ORIGEN"].split(",")):
        if (j in paises_eliminar['Pais'].values or j == "INFOSAN" or j == "Commission Services"):
            df_eliminar.loc[df_eliminar.shape[0]] = row
    for j in (row["COUNT_CONCERN"].split(",")):
        if (j in paises_eliminar['Pais'].values or j == "INFOSAN" or j == "Commission Services"):
            df_eliminar.loc[df_eliminar.shape[0]] = row
    for j in (row["COUNT_DESTIN"].split(",")):
        if (j in paises_eliminar['Pais'].values or j == "INFOSAN" or j == "Commission Services"):
            df_eliminar.loc[df_eliminar.shape[0]] = row
    #Eliminamos los productos inválidos.
    for j in (row["PROD_CAT"].split(",")):
        if (j in cat_productos_eliminar['Cat_Producto'].values):
            df_eliminar.loc[df_eliminar.shape[0]] = row
    #Eliminamos las categorías de amenazas inválidas.
    for j in (row["HAZARDS_CAT"].split(",")):
        if (j in cat_amenazas_eliminar['Cat_Amenaza'].values 
            or row["HAZARDS_CAT"] == ""
            or row["HAZARDS_CAT"] == " "
            or row["HAZARDS_CAT"] == "not determined"):
            df_eliminar.loc[df_eliminar.shape[0]] = row
    #Eliminamos los registros que están vacios y no tienen información acerca de los paises.
    if((row["COUNT_ORIGEN"] == " " or row["COUNT_ORIGEN"] == "") 
       and (row["COUNT_CONCERN"] == " " or row["COUNT_CONCERN"] == "") 
       and (row["COUNT_DESTIN"] == " " or row["COUNT_DESTIN"] == "")):
        df_eliminar.loc[df_eliminar.shape[0]] = row
        
#Eliminamos por columna REF.
cond = df['REF'].isin(df_eliminar['REF'])
df.drop(df[cond].index, inplace = True)

## Undersampling y conjunto de test

In [12]:
#Debido al gran desequilibrio entre clases, equilibramos los datos con técnicas de undersampling.
num_max_clase = 1700      #Número de registros máximo por clase.

#Creamos una lista con todos los dataframes según cada clase para hacfer el undersampling.
ans = [pd.DataFrame(y) for x, y in df.groupby('HAZARDS_CAT', as_index=False)]


#Escogemos la cantidad máxima de registros por cada clase.
for i in range(len(ans)):
    if(ans[i]['HAZARDS_CAT'].count() > num_max_clase):
        ans[i] = ans[i].sample(n=num_max_clase)
        
#Reunimos todos en un único datframe (df otra vez).
df = pd.concat(ans)
#testRowData = pd.concat(listaClasesTest)

#Hacemos un shuffle para mezclar las clases entre sí.
df = df.sample(frac=1).reset_index(drop=True)

## Selección de atributos

In [13]:
#Creamos 2 datasets, uno con los parámetros a entrenar (df) y otro con la información relativa a cada registro (df_info)
df_info = df[['REF','PRODUCT','HAZARDS','DATE_CASE','CLASSIF','TYPE','RISK_DECISION', 'ACTION_TAKEN','DISTRIBUTION_STAT','NOT_COUNTRY']].reset_index(drop = True)
df = df[['PROD_CAT','HAZARDS_CAT','COUNT_ORIGEN','COUNT_CONCERN','COUNT_DESTIN']].reset_index(drop = True)

#De la misma forma con los datos del conjunto de test. QUEDA PENDIENTE HACER ESTO (TIENE QUE TENER MISMO FORMATO QUE LOS GRAFOS.)
#testData = testRowData[['PROD_CAT','HAZARDS_CAT','COUNT_ORIGEN','COUNT_CONCERN','COUNT_DESTIN']].reset_index(drop = True)


## One hot encoding

In [14]:
#Sacamos el dataframe de las categorías de amenaza, que es lo que vamos a predecdf_nodes_featuressificar para
#poder compararlos y hacer un entrenamiento supervisado. Empleando OrdinalEncoder

ord_enc = OrdinalEncoder()

#Guardamos los valores temporalmente en y.
y = pd.DataFrame(columns = []) 
y["y_value"] = df['HAZARDS_CAT']
y["y_code"] = ord_enc.fit_transform(y[["y_value"]])

#Creamos un pequeño df con las conversiones, a modo de guía de qué codigo es qué valor.
y_guide = y.groupby(["y_value","y_code"]).sum()

#Pasamos al formatpo de graph_labels, que es el que se emplea para las GCNNs.
graph_labels = pd.Series(y["y_code"], dtype = "category", name = "Label")

df = df.drop('HAZARDS_CAT', axis=1)

In [16]:
#Hacemos el one hot encoding de las categorías de los productos del df.
x = pd.get_dummies(df['PROD_CAT'], prefix='PROD_CAT_')
#display(x)
#display(y.groupby("y_value").count())

In [18]:
#Convertimos el producto que corresponde al peso de los grafos
x = df['PROD_CAT'].astype('category').cat.codes
x = pd.DataFrame(data=x, columns = ['weight'], dtype = np.float32)
x['weight'] += 1 #Para que no haya un 0 como peso.
#print(x)


## Creación de los grafos

### Preparación

In [19]:
#Preparación previa. Elegimos los países que vamos a usar (correspondiendo a los que hemos eliminado más arriba).
paises = df_repes.head(159)['Pais'].sort_values().reset_index(drop = True)
paises = paises[1:]          #Quitamos los huecos vacíos " ".


In [20]:
#Matriz de características de los nodos 158x158.
df_nodes_features = pd.DataFrame(data = np.zeros((158, 158)), columns = paises)
s = pd.Series(data=np.ones(158))
np.fill_diagonal(df_nodes_features.values, s)

#Se podría probar a que fuese 158x1, con un 0 o 1 si tiene conexión o no. 
#El pais se fija en el index y al propia red debería abstarer esa información.


In [21]:
#Matriz de características de los nodos 158x1.

#Lista con todos los Node Features.
lista_df_node_features = []

#Bucle que recorra todos los registros, y relacione los nodos de df_nodes entre sí, marcando la relación entre sus índices.
#Además añadimos la x generada anteriormente.
for index, row in df.iterrows():
    #Creamos el df vacío, al que le añadimos las columnas source y target.
    arrayBase = np.zeros((158,1))
    df_nodes = pd.DataFrame(data = arrayBase, columns = ['Feature'])

    #Guardamos las longitudes de cada registro (nº de países). Si es vacío, establecemos un 0. 
    #LenCO = Country origen. LenCC = Country Concern y LenCD = Contry Destin.
    if(not row['COUNT_ORIGEN'] == "" and not row['COUNT_ORIGEN'] == " "):
        LenCO = len(row['COUNT_ORIGEN'].split(","))
        paisesCO = row['COUNT_ORIGEN'].split(",")
    else:
        LenCO = 0
        paisesCO = "".split(",")
    if(not row['COUNT_CONCERN'] == "" and not row['COUNT_CONCERN'] == " "):
        LenCC = len(row['COUNT_CONCERN'].split(","))
        paisesCC = row['COUNT_CONCERN'].split(",")
    else:
        LenCC = 0
        paisesCC = "".split(",")
    if(not row['COUNT_DESTIN'] == "" and not row['COUNT_DESTIN'] == " "):
        LenCD = len(row['COUNT_DESTIN'].split(","))
        paisesCD = row['COUNT_DESTIN'].split(",")
    else:
        LenCD = 0 
        paisesCD = "".split(",")

    #Rellenamos con 1s donde exista el país
    for i in range(len(paisesCO)):
        if(LenCO != 0):
            indexOrigen = df_nodes_features.index[df_nodes_features[paisesCO[i]] == True]
            df_nodes.iloc[indexOrigen] = 1
    for i in range(len(paisesCC)):
        if(LenCC != 0):
            indexOrigen = df_nodes_features.index[df_nodes_features[paisesCC[i]] == True]
            df_nodes.iloc[indexOrigen] = 1
    for i in range(len(paisesCD)):
        if(LenCD != 0):
            indexOrigen = df_nodes_features.index[df_nodes_features[paisesCD[i]] == True]
            df_nodes.iloc[indexOrigen] = 1
        
    #Insertamos el df en la lista de df_node_features.
    lista_df_node_features.append(df_nodes)

In [22]:
#Creamos los Edge Features -> 1 por grafo. (Representa la info de cada conexión).
#Columnas = Source, target y producto en one hot encoding. 
#Filas = nº de conexiones. 

#Lista con todos los Edge Features.
lista_df_edge_features = []

#Bucle que recorra todos los registros, y relacione los nodos de df_nodes entre sí, marcando la relación entre sus índices.
#Además añadimos la x generada anteriormente.
for index, row in df.iterrows():
    #Creamos el df vacío, al que le añadimos las columnas source y target.
    df_edges = pd.DataFrame(columns = x.columns)
    df_edges.insert (0, "target", np.nan)
    df_edges.insert (0, "source", np.nan)
    #Guardamos las longitudes de cada registro (nº de países). Si es vacío, establecemos un 0. 
    #LenCO = Country origen. LenCC = Country Concern y LenCD = Contry Destin.
    if(not row['COUNT_ORIGEN'] == "" and not row['COUNT_ORIGEN'] == " "):
        LenCO = len(row['COUNT_ORIGEN'].split(","))
        paisesCO = row['COUNT_ORIGEN'].split(",")
    else:
        LenCO = 0
    if(not row['COUNT_CONCERN'] == "" and not row['COUNT_CONCERN'] == " "):
        LenCC = len(row['COUNT_CONCERN'].split(","))
        paisesCC = row['COUNT_CONCERN'].split(",")
    else:
        LenCC = 0
    if(not row['COUNT_DESTIN'] == "" and not row['COUNT_DESTIN'] == " "):
        LenCD = len(row['COUNT_DESTIN'].split(","))
        paisesCD = row['COUNT_DESTIN'].split(",")
    else:
        LenCD = 0 
    #Creamos dos bucles anidados, para recorrer todos los source y linkarlos con todos los destinos. 
    #¡Esto funciona porque los índices de df_nodes siguen este mismo orden! 
    #Pero OJO! -> Existen 3 posibles casos: 1) LenCO = 0, 2) LenCC = 0 y 3) LenCD = 0. Teóricamente, habría que hacer 1->2->3.
    #Si los 3 existen y son mayores que 0 se ejecutan los dos bucles.
    
    #Empezamos a rellenar el df, si existe LenCO y LenCC, lo rellenamos. 
    if(LenCO != 0 and LenCC != 0):
        for i in range(LenCO):
            indexOrigen = df_nodes_features.index[df_nodes_features[paisesCO[i]] == True]
            for j in range(LenCC):
                indexDestino = df_nodes_features.index[df_nodes_features[paisesCC[j]] == True]
                serie = pd.Series([indexOrigen[0]] + [indexDestino[0]] + [np.float32(x.iloc[index][0])]) #.append(x.iloc[index])
                df_edges.loc[df_edges.shape[0]] = serie.values
                
    #Si LenCD es 0, no pasa nada, el grafo ya está creado. Si sí que existe, seguimos rellenando el grafo.
    if(LenCC != 0 and LenCD != 0):
        for i in range(LenCC):
            indexOrigen = df_nodes_features.index[df_nodes_features[paisesCC[i]] == True]
            for j in range(LenCD):
                indexDestino = df_nodes_features.index[df_nodes_features[paisesCD[j]] == True]
                serie = pd.Series([indexOrigen[0]] + [indexDestino[0]] + [np.float32(x.iloc[index][0])]) #.append(x.iloc[index])
                df_edges.loc[df_edges.shape[0]] = serie.values
                
    #Por aquí solo va a entrar si no ha entrado en los otros dos.
    if(LenCC == 0):
        for i in range(LenCO):
            indexOrigen = df_nodes_features.index[df_nodes_features[paisesCO[i]] == True]
            for j in range(LenCD):
                indexDestino = df_nodes_features.index[df_nodes_features[paisesCD[j]] == True]
                serie = pd.Series([indexOrigen[0]] + [indexDestino[0]] + [np.float32(x.iloc[index][0])]) #.append(x.iloc[index])
                df_edges.loc[df_edges.shape[0]] = serie.values
    
    #Insertamos el df en la lista de df_edge_features.
    lista_df_edge_features.append(df_edges)

#Convertimos la columna de weights a numérico, para que no de errores al crear los grafos de Stellargraph.
for i in range(len(lista_df_edge_features)):
    lista_df_edge_features[i].weight = pd.to_numeric(lista_df_edge_features[i].weight)

### Ejemplo visual

In [23]:
#Ejemplos para enseñar
miniIndex = 5
pd.set_option('display.max_columns', None)

display(df.iloc[miniIndex])
display(lista_df_node_features[miniIndex])
display(lista_df_edge_features[miniIndex])
graph_labels[miniIndex]
#y_guide

PROD_CAT         meat and meat products (other than poultry)
COUNT_ORIGEN                                          Poland
COUNT_CONCERN                                               
COUNT_DESTIN                                         Denmark
Name: 5, dtype: object

Unnamed: 0,Feature
0,0.0
1,0.0
2,0.0
3,0.0
4,0.0
...,...
153,0.0
154,0.0
155,0.0
156,0.0


Unnamed: 0,source,target,weight
0,116.0,39.0,17.0


5.0

### Creación de los grafos en NetworkX

#### NetworkX

In [24]:
#Aqui creamos los grafos de networkx
lista_grafos_NetworkX = []

for i in range(len(lista_df_edge_features)):
    G = nx.DiGraph()
    #Si queremos todos los nodos hacemos arange[1,158], de la siguiente forma coge solamente los nodos que tienen conexiones.
    G.add_nodes_from(lista_df_node_features[i].index[lista_df_node_features[i]['Feature']==1].tolist())
    for j in range(len(lista_df_edge_features[i])):
        source = int(lista_df_edge_features[i].iloc[j].source)
        target = int(lista_df_edge_features[i].iloc[j].target)
        weight = lista_df_edge_features[i].iloc[j].weight
        G.add_edge(source,target,weight = weight)
    lista_grafos_NetworkX.append(G)

In [26]:
len(df['PROD_CAT'].unique())

25

In [27]:
#Dibujamos las imágenes

In [28]:
#Creamos un diccionario apra guardar las posiciones de los 158 paises en la imagen a representar.
dict_posiciones = {}
sqr_div = int(math.ceil(math.sqrt(len(paises))))

for i in range(len(paises)):
    dict_posiciones[i] = (math.floor(i/sqr_div),i%sqr_div)

In [29]:
#Array de colores según el producto (Pesos):
colores = ['xkcd:blue','xkcd:pink','xkcd:light green','xkcd:tan','xkcd:grey','xkcd:light blue','xkcd:light purple','xkcd:cyan','xkcd:turquoise',
           'xkcd:baby puke green','xkcd:salmon','xkcd:dark pink','xkcd:mustard','xkcd:periwinkle','xkcd:pale blue','xkcd:burnt orange','xkcd:pea green',
           'xkcd:goldenrod','xkcd:light grey','xkcd:greenish','xkcd:dusty rose','xkcd:scarlet','xkcd:dark beige','xkcd:neon blue',
           'xkcd:baby shit brown','xkcd:burnt red','xkcd:muddy green','xkcd:bronze','xkcd:vermillion','xkcd:dusky purple',
           'xkcd:dark mint','xkcd:warm brown','xkcd:pastel purple', 'xkcd:slate blue']
len(colores)

34

In [30]:
#Array para contar y validar la clase de la imagen y poner en las distintas carpetas.
#Jerarquía:
#->Graph_Images-->TRAIN -----> Clases creadas dinámicamente
#              -->TEST  -----> Clases creadas dinámicamente
count_Array = np.zeros((len(y['y_code'].unique())))
#[0,0,0,0]
#[Clase1, Clase2, ...]
#Insertamos las 30 primeras imágenes de cada clase en el conjunto de test.
numImagenesTestPorClase = 0

In [31]:
#Creación de las imágenes de los grafos. Tarda un ratillo.

#Borramos el contenido de Graph_Images por si cmabian las clases.
#MUCHO CUIDADO CON NO BORRAR LA CARPETA '.'
try:
    shutil.rmtree('./Graph_Images/')
except OSError as e:
    print("Error:./Graph_Images: %s" % (e.strerror))

#Creamos las imágenes
for i in range(len(lista_grafos_NetworkX)):
    #-----------------Dibujamos un grafo--------------------
    fig, ax = plt.subplots()

    #Cogemos las posiciones que nos interesan y para ello generamos un diccionario personalizado con las posiciones:
    dict_fixed_positions = {}

    for j in list(lista_grafos_NetworkX[i].nodes):
        dict_fixed_positions[int(j)] = dict_posiciones[int(j)]

    fixed_positions = dict_fixed_positions
    fixed_nodes = fixed_positions.keys()
    pos = nx.spring_layout(lista_grafos_NetworkX[i], pos=fixed_positions, fixed = fixed_nodes)

    #Dibujamos el grafo.
    nx.draw_networkx(lista_grafos_NetworkX[i], pos, with_labels=True, node_size = 180, font_size=9)

    #Scale
    plt.xlim(-1, 13)
    plt.ylim(-1, 13)

    #Set limits to be shown.
    #limits=plt.axis('on') # turns on axis
    #ax.tick_params(left=True, bottom=True, labelleft=True, labelbottom=True)

    #Cogemos el índice correspondiente al peso del grafo, representando el producto.
    ax.set_facecolor(colores[int(x.weight[i]-1)])
    
    #Miramos la clase del grafo y guardamos la imagen.
    if(count_Array[int(y['y_code'][i])] < numImagenesTestPorClase):
        #Miramos si el path existe, sino lo creamos
        if not os.path.exists('./Graph_Images/TEST/'+y['y_value'][i]):
            os.makedirs('./Graph_Images/TEST/'+y['y_value'][i])
        #Guardamos el archivo
        plt.savefig('./Graph_Images/TEST/'+y['y_value'][i]+'/Graph'+str(int(count_Array[int(y['y_code'][i])]))+'.png')
    else:
        #Miramos si el path existe, sino lo creamos
        if not os.path.exists('./Graph_Images/TRAIN/'+y['y_value'][i]):
            os.makedirs('./Graph_Images/TRAIN/'+y['y_value'][i])
        #Guardamos el archivo
        plt.savefig('./Graph_Images/TRAIN/'+y['y_value'][i]+'/Graph'+str(int(count_Array[int(y['y_code'][i])]))+'.png')

    #Actualizamos el array contador de imagenes por clase.
    count_Array[int(y['y_code'][i])] = count_Array[int(y['y_code'][i])] + 1
    
    #Close the plot and dont show it.
    plt.close()

    #Draw the plot if we wanna see it in console.
    #plt.draw() 
    #plt.show() 
    #-----------------Fin del dibujado de un grafo--------------------



In [32]:
%store y
%store colores

Stored 'y' (DataFrame)
Stored 'colores' (list)
