## Load data

In [22]:
import pandas as pd
from nltk import FreqDist
from nltk.tokenize import word_tokenize
pd.options.mode.chained_assignment = None  # default='warn'

useful_cols = ["Fecha", "Homoclave", "1.1 ¿Te parece útil esta información?", "1.3 ¿Qué información crees que falta?",
              "1.4 ¿Qué podemos mejorar?"]

# Read datasets
df = pd.read_csv("datasets/sugerencias.csv", parse_dates=["Fecha"], 
                 usecols=useful_cols, encoding='utf-8').drop_duplicates()

In [23]:
# Rename columns
df.columns = ["institution", "is_info_useful", "missing_info", "improvements", "date"]
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,Sí,,los documentos se puedan entregar de forma ele...,2015-12-23
1,SRE-03-009-B,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,2015-12-23
2,SRE-03-007-A,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,2015-12-23
3,SRE-03-002,Sí,,"Poder agendar cita por Internet , eso sería de...",2015-12-23
4,SRE-03-003,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2015-12-25


In [24]:
# Sort data by date
df.sort_values('date', ascending=True, inplace=True)
df.head(15)

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,Sí,,los documentos se puedan entregar de forma ele...,2015-12-23
1,SRE-03-009-B,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,2015-12-23
2,SRE-03-007-A,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,2015-12-23
3,SRE-03-002,Sí,,"Poder agendar cita por Internet , eso sería de...",2015-12-23
4,SRE-03-003,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2015-12-25
5,IMSS-02-066-D,Sí,,Incluir telefono de contacto,2015-12-26
6,SRE-03-003,No,"Hace falta un enlace con el sistema de citas, ...","Poderian poner informacion mas actualizada, po...",2015-12-27
7,SRE-03-003,Sí,Donde y como puedo hacer una cita así como tie...,Hacer citas por internet y teléfonos de inform...,2015-12-29
8,SFP-04-001,Sí,,la seguridad en tlanepantla en tenayo chalma m...,2015-12-30
9,SRE-03-002,Sí,Agreguen la cuenta bancaria a esta iformación,El número de cuenta banacaia anexo,2015-12-31


In [4]:
# Copy dataframe
df_final = df

## Drop NA's

In [25]:
na_filter = df["missing_info"].isna() & df["improvements"].isna()
df[na_filter]

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
2105,SGOB-05-002,Sí,,,2016-05-06
2226,SFP-04-001,Sí,,,2016-05-17
2256,SFP-04-001,Sí,,,2016-05-21
2282,SFP-04-001,Sí,,,2016-05-24
2291,SGOB-05-002,Sí,,,2016-05-25
2290,SGOB-05-002,No,,,2016-05-25
2422,SFP-04-001,Sí,,,2016-06-11
2432,SFP-04-001,Sí,,,2016-06-14
2628,SFP-04-001,Sí,,,2016-07-03
2723,SFP-04-001,Sí,,,2016-07-10


In [26]:
df = df[~na_filter]
print(df[na_filter])

Empty DataFrame
Columns: [institution, is_info_useful, missing_info, improvements, date]
Index: []


  


## Data transformation

In [27]:
df.shape[0]

6744

In [12]:
# Transform date
def date_to_days(date_series):
    min_date = date_series.min()
    return date_series.apply(lambda x: (x - min_date).days)
df["date"] = date_to_days(df["date"])

In [8]:
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,Sí,,los documentos se puedan entregar de forma ele...,0
1,SRE-03-009-B,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,0
2,SRE-03-007-A,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,0
3,SRE-03-002,Sí,,"Poder agendar cita por Internet , eso sería de...",0
4,SRE-03-003,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2


In [14]:
## Transform is_info_useful to boolean values
df["is_info_useful"] = df["is_info_useful"].map({"Sí": 1, "No": 0})
df["is_info_useful"].value_counts()

1    3973
0    2767
Name: is_info_useful, dtype: int64

## Feature extraction

### This section only applies to final analysis

In [10]:
institution_attribs = df_final["institution"].str.split('-')

In [11]:
df_final["institution_name"] = institution_attribs.str[0]
df_final["institution_branch"] = institution_attribs.str[1]
df_final["institution_window"] = institution_attribs.str[2]
df_final.drop(["institution"], axis=1, inplace=True)
df_final.head()

Unnamed: 0,is_info_useful,missing_info,improvements,date,institution_name,institution_branch,institution_window
0,Sí,,los documentos se puedan entregar de forma ele...,2015-12-23,SEP,23,2
1,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,2015-12-23,SRE,3,9
2,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,2015-12-23,SRE,3,7
3,Sí,,"Poder agendar cita por Internet , eso sería de...",2015-12-23,SRE,3,2
4,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2015-12-25,SRE,3,3


## Remove tildes

In [15]:
df["missing_info"] = df["missing_info"].astype(str)
df["improvements"] = df["improvements"].astype(str)

In [16]:
def remove_tildes(string):
    if string == "nan":
        return ""
    string = string.lower()
    vocales={"á": "a", "é": "e", "í": "i", "ó": "o", "ú": "u"}
    for vocal in vocales.keys():
        string = string.replace(vocal, vocales[vocal])
    return string

df.loc[:, "missing_info"] = df["missing_info"].apply(lambda x: remove_tildes(x))
df.loc[:, "improvements"] = df["improvements"].apply(lambda x: remove_tildes(x))

In [14]:
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,1,,los documentos se puedan entregar de forma ele...,0
1,SRE-03-009-B,0,las citas via internet antes las podia hacer a...,seria mejor el sistema anterior donde se podia...,0
2,SRE-03-007-A,1,la informacion de las citas no esta al alcance...,presenten la informacion para hacer citas de f...,0
3,SRE-03-002,1,,"poder agendar cita por internet , eso seria de...",0
4,SRE-03-003,0,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2


## Label enconding

In [18]:
df["institution"].value_counts()

SRE-03-003           768
SRE-03-002           605
SFP-04-001           315
SEGOB-05-005         270
FOVISSSTE-00-004     210
                    ... 
COFEPRIS-01-002-B      1
SRE-02-011-A           1
SHCP-02-037            1
SEP-13-002             1
SAT-01-077             1
Name: institution, Length: 762, dtype: int64

In [16]:
from sklearn.preprocessing import OrdinalEncoder

# creating instance of encoder
ordinal_encoder = OrdinalEncoder()

df['institution_cat'] = ordinal_encoder.fit_transform(df[['institution']])
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date,institution_cat
0,SEP-23-002-A,1,,los documentos se puedan entregar de forma ele...,0,639.0
1,SRE-03-009-B,0,las citas via internet antes las podia hacer a...,seria mejor el sistema anterior donde se podia...,0,736.0
2,SRE-03-007-A,1,la informacion de las citas no esta al alcance...,presenten la informacion para hacer citas de f...,0,729.0
3,SRE-03-002,1,,"poder agendar cita por internet , eso seria de...",0,722.0
4,SRE-03-003,0,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2,723.0


ordinal_encoder.categories_

In [18]:
df.drop(["institution"], axis=1, inplace=True)
df.head()

Unnamed: 0,is_info_useful,missing_info,improvements,date,institution_cat
0,1,,los documentos se puedan entregar de forma ele...,0,639.0
1,0,las citas via internet antes las podia hacer a...,seria mejor el sistema anterior donde se podia...,0,736.0
2,1,la informacion de las citas no esta al alcance...,presenten la informacion para hacer citas de f...,0,729.0
3,1,,"poder agendar cita por internet , eso seria de...",0,722.0
4,0,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2,723.0


# Translate text to English

In [26]:
from mtranslate import translate

df.loc[:, "missing_info_en"] = df["missing_info"].apply(lambda x: translate(x) if len(x) > 1 else x)
df[["missing_info", "missing_info_en"]].head()

Unnamed: 0,missing_info,missing_info_en
0,,
1,las citas via internet antes las podia hacer a...,I could make appointments via the internet bef...
2,la informacion de las citas no esta al alcance...,"Appointment information is not available, it i..."
3,,
4,no se puede agendar la cita para la renovacion...,you can not schedule the appointment for the r...


In [27]:
df.loc[:, "improvements_en"] = df["improvements"].apply(lambda x: translate(x) if len(x) > 1 else x)
df[["improvements", "improvements_en"]].head()

Unnamed: 0,improvements,improvements_en
0,los documentos se puedan entregar de forma ele...,documents can be delivered electronically
1,seria mejor el sistema anterior donde se podia...,The previous system where the appointment coul...
2,presenten la informacion para hacer citas de f...,present the information to make appointments c...
3,"poder agendar cita por internet , eso seria de...","being able to schedule an appointment online, ..."
4,la pagina esta saturada de informacion que no ...,The page is saturated with information that is...


# Translate text to Spanish (Spell correction)

In [3]:
df.loc[:, "missing_info_es"] = df["missing_info"].apply(lambda x: translate(x, "es") if len(x) > 1 else x)

In [None]:
df.loc[:, "improvements_en"] = df["improvements"].apply(lambda x: translate(x, "es") if len(x) > 1 else x)

In [28]:
df.to_csv("dataset_processed.csv", index=False)