# Loading the data

In [15]:
import glob

data_dir = 'data/generated'
data_files = glob.glob(data_dir + "/*.csv")

In [16]:
import pandas as pd

df_list = []

for file in data_files:
    data_frame = pd.read_csv(file, index_col=None, header=0)
    df_list.append(data_frame)

df = pd.concat(df_list, ignore_index=True)

print(df.shape)
print(df.columns)

(995, 2)
Index(['pregunta', 'clase'], dtype='object')


In [17]:
df_test = pd.read_csv('data/preguntas_test.csv', index_col=None, header=0)
print(df_test.shape)
print(df.columns)

(19, 2)
Index(['pregunta', 'clase'], dtype='object')


In [18]:
NUMBER_OF_CLASSES = df['clase'].nunique()
MIN_NUMBER_OF_QUESTIONS = df[df['clase'] == df.groupby('clase').size().idxmin()].shape[0]

In [19]:
df_raw = df.groupby('clase').apply(lambda x: x.sample(n=MIN_NUMBER_OF_QUESTIONS)).reset_index(drop=True)
print(df_raw.shape)

(900, 2)


In [20]:
classes_list = df['clase'].unique().tolist()
print(classes_list)

['Definicion', 'EntidadAbreviatura', 'EntdidadGrupo', 'EntidadLugar', 'EntidadLugarCapital', 'EntidadLugarCiudad', 'EntidadLugarPais', 'EntidadObjeto', 'EntidadPersona', 'Evento', 'NumericoCantidad', 'NumericoEdad', 'NumericoMedida', 'NumericoPeriodo', 'NumericoPorcentaje', 'TemporalAnyo', 'TemporalFecha', 'TemporalMes']


In [21]:
classes_df_1 = classes_df = pd.DataFrame(columns=classes_list).reset_index(drop=True)
classes_df_2 = classes_df = pd.DataFrame(columns=classes_list).reset_index(drop=True)

for index, row in df_raw.iterrows():
    classes_df_1.loc[len(classes_df_1)] = [1 if row['clase'] == c else 0 for c in classes_list]

for index, row in df_test.iterrows():
    classes_df_2.loc[len(classes_df_2)] = [1 if row['clase'] == c else 0 for c in classes_list]

In [22]:
classes_df_1.sample(3)

Unnamed: 0,Definicion,EntidadAbreviatura,EntdidadGrupo,EntidadLugar,EntidadLugarCapital,EntidadLugarCiudad,EntidadLugarPais,EntidadObjeto,EntidadPersona,Evento,NumericoCantidad,NumericoEdad,NumericoMedida,NumericoPeriodo,NumericoPorcentaje,TemporalAnyo,TemporalFecha,TemporalMes
585,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
299,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0
594,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0


In [23]:
classes_df_2.sample(3)

Unnamed: 0,Definicion,EntidadAbreviatura,EntdidadGrupo,EntidadLugar,EntidadLugarCapital,EntidadLugarCiudad,EntidadLugarPais,EntidadObjeto,EntidadPersona,Evento,NumericoCantidad,NumericoEdad,NumericoMedida,NumericoPeriodo,NumericoPorcentaje,TemporalAnyo,TemporalFecha,TemporalMes
8,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
18,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0


In [24]:
df_raw.sample(3)

Unnamed: 0,pregunta,clase
672,¿En qué periodo de tiempo se llevó a cabo la S...,NumericoPeriodo
167,¿En dónde puedo encontrar la mejor pizzería de...,EntidadLugar
755,¿En qué año se produjo la Revolución Industrial?,TemporalAnyo


In [25]:
df_test.sample(3)

Unnamed: 0,pregunta,clase
12,¿Qué es lo que causa el agujero de ozono?,EntidadObjeto
1,¿Cuánto aumenta la población mundial cada año?,NumericoPorcentaje
4,¿Qué cargo detenta Ariel Sharon?,EntidadObjeto


In [26]:
df_one_hot_encoded = pd.concat([df_raw, classes_df_1], axis=1).drop('clase', axis=1)
df_test_one_hot_encoded = pd.concat([df_test, classes_df_2], axis=1).drop('clase', axis=1)

In [27]:
df_one_hot_encoded.sample(3)

Unnamed: 0,pregunta,Definicion,EntidadAbreviatura,EntdidadGrupo,EntidadLugar,EntidadLugarCapital,EntidadLugarCiudad,EntidadLugarPais,EntidadObjeto,EntidadPersona,Evento,NumericoCantidad,NumericoEdad,NumericoMedida,NumericoPeriodo,NumericoPorcentaje,TemporalAnyo,TemporalFecha,TemporalMes
673,¿Entre qué años vivió William Shakespeare?,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0
568,¿Cuántos años tiene tu compañero de trabajo má...,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
572,¿Hace cuánto tiempo aprendiste a conducir?,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0


In [28]:
df_test_one_hot_encoded.sample(3)

Unnamed: 0,pregunta,Definicion,EntidadAbreviatura,EntdidadGrupo,EntidadLugar,EntidadLugarCapital,EntidadLugarCiudad,EntidadLugarPais,EntidadObjeto,EntidadPersona,Evento,NumericoCantidad,NumericoEdad,NumericoMedida,NumericoPeriodo,NumericoPorcentaje,TemporalAnyo,TemporalFecha,TemporalMes
16,¿Cómo se transmite el virus del ébola?,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
15,¿Dónde fue fundada Greenpeace?,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,¿Qué cargo detenta Ariel Sharon?,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0


# Preprocessing the data

In [29]:
df_one_hot_encoded['pregunta'] = df_raw['pregunta'].str.lower()
df_test_one_hot_encoded['pregunta'] = df_test['pregunta'].str.lower()

In [30]:
df_one_hot_encoded = df_one_hot_encoded.sample(frac=1)
df_test_one_hot_encoded = df_test_one_hot_encoded.sample(frac=1)

# Model Creation

In [31]:
%pip install tensorflow-hub




In [32]:
import tensorflow as tf
import tensorflow_hub as hub

In [33]:
X_train = df_one_hot_encoded['pregunta']
Y_train = df_one_hot_encoded[df_one_hot_encoded.columns[1:]]

X_test = df_test_one_hot_encoded['pregunta']
Y_test = df_test_one_hot_encoded[df_test_one_hot_encoded.columns[1:]]

In [34]:
bert_preprocess = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_multi_cased_preprocess/3")
bert_encoder = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_multi_cased_L-12_H-768_A-12/4")

FileNotFoundError: Op type not registered 'RegexSplitWithOffsets' in binary running on HP-OMEN15. Make sure the Op and Kernel are registered in the binary running in this process. Note that if you are loading a saved graph which used ops from tf.contrib, accessing (e.g.) `tf.contrib.resampler` should be done before importing the graph, as contrib ops are lazily registered when the module is first accessed.
 You may be trying to load on a different device from the computational device. Consider setting the `experimental_io_device` option in `tf.saved_model.LoadOptions` to the io_device such as '/job:localhost'.