# SERMONE


# Load data

In [164]:
import pandas as pd
pd.options.mode.chained_assignment = None  # default='warn'

useful_cols = ["Fecha", "Homoclave", "1.1 ¿Te parece útil esta información?", "1.3 ¿Qué información crees que falta?",
              "1.4 ¿Qué podemos mejorar?"]

dataset_path = "/home/omar/Documentos/S_AI/Equipo_4/dataset/sugerencias.csv"

# Read datasets
df = pd.read_csv(dataset_path, parse_dates=["Fecha"], 
                 usecols=useful_cols, encoding='utf-8').drop_duplicates()

In [165]:
# Rename columns
df.columns = ["institution", "is_info_useful", "missing_info", "improvements", "date"]
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,Sí,,los documentos se puedan entregar de forma ele...,2015-12-23
1,SRE-03-009-B,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,2015-12-23
2,SRE-03-007-A,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,2015-12-23
3,SRE-03-002,Sí,,"Poder agendar cita por Internet , eso sería de...",2015-12-23
4,SRE-03-003,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2015-12-25


In [166]:
# Sort data by date
df.sort_values('date', ascending=True, inplace=True)
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,Sí,,los documentos se puedan entregar de forma ele...,2015-12-23
1,SRE-03-009-B,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,2015-12-23
2,SRE-03-007-A,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,2015-12-23
3,SRE-03-002,Sí,,"Poder agendar cita por Internet , eso sería de...",2015-12-23
4,SRE-03-003,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2015-12-25


In [167]:
# Copy dataframe
df_final = df

# Drop NA's

In [168]:
na_filter = df["missing_info"].isna() & df["improvements"].isna()
df[na_filter]

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
2105,SGOB-05-002,Sí,,,2016-05-06
2226,SFP-04-001,Sí,,,2016-05-17
2256,SFP-04-001,Sí,,,2016-05-21
2282,SFP-04-001,Sí,,,2016-05-24
2291,SGOB-05-002,Sí,,,2016-05-25
2290,SGOB-05-002,No,,,2016-05-25
2422,SFP-04-001,Sí,,,2016-06-11
2432,SFP-04-001,Sí,,,2016-06-14
2628,SFP-04-001,Sí,,,2016-07-03
2723,SFP-04-001,Sí,,,2016-07-10


In [169]:
df = df[~na_filter]
print(df[na_filter])

Empty DataFrame
Columns: [institution, is_info_useful, missing_info, improvements, date]
Index: []


  


# Data transformation

In [170]:
# Transform date
def date_to_days(date_series):
    min_date = date_series.min()
    return date_series.apply(lambda x: (x - min_date).days)
df["date"] = date_to_days(df["date"])

In [171]:
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,Sí,,los documentos se puedan entregar de forma ele...,0
1,SRE-03-009-B,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,0
2,SRE-03-007-A,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,0
3,SRE-03-002,Sí,,"Poder agendar cita por Internet , eso sería de...",0
4,SRE-03-003,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2


In [172]:
# Transform is_info_useful to boolean values
df["is_info_useful"] = df["is_info_useful"].map({"Sí": 1, "No": 0})
df["is_info_useful"].value_counts()

1    3976
0    2768
Name: is_info_useful, dtype: int64

# Feature extraction

### This section only applies to final analysis

In [173]:
institution_attribs = df_final["institution"].str.split('-')

In [174]:
df_final["institution_name"] = institution_attribs.str[0]
df_final["institution_branch"] = institution_attribs.str[1]
df_final["institution_window"] = institution_attribs.str[2]
df_final.drop(["institution"], axis=1, inplace=True)
df_final.head()

Unnamed: 0,is_info_useful,missing_info,improvements,date,institution_name,institution_branch,institution_window
0,Sí,,los documentos se puedan entregar de forma ele...,2015-12-23,SEP,23,2
1,No,Las citas via Internet antes las podía hacer a...,Seria mejor el sistema anterior donde se podia...,2015-12-23,SRE,3,9
2,Sí,LA INFORMACION DE LAS CITAS NO ESTA AL ALCANCE...,PRESENTEN LA INFORMACION PARA HACER CITAS DE F...,2015-12-23,SRE,3,7
3,Sí,,"Poder agendar cita por Internet , eso sería de...",2015-12-23,SRE,3,2
4,No,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2015-12-25,SRE,3,3


# Remove tildes, non alphanumeric characters and punctuation

In [175]:
df["missing_info"] = df["missing_info"].astype(str)
df["improvements"] = df["improvements"].astype(str)

In [176]:
import re
import string

#--------------------------------------------------
punctuations = list(string.punctuation)
def listToDict(lst):
    op = {lst[i]: '' for i in range(0, len(lst), 2)}
    return op

punctuations =  listToDict(punctuations)
#--------------------------------------------------

def clean(string):
    if string == "nan":
        return ""
    string = string.lower()
    
    #Remove tildes
    vocales = {"á": "a", "é": "e", "í": "i", "ó": "o", "ú": "u"}
    for vocal in vocales.keys():
        string = string.replace(vocal, vocales[vocal])
    
    #Remove non-alphanumeric characters
    for punctuation in punctuations.keys():
        string = string.replace(punctuation, punctuations[punctuation])
    
    #Remove punctuation
    string = re.sub(r'[^(a-zA-Z)\s]','', string)
    return string

df.loc[:, 'missing_info'] =  df['missing_info'].apply(lambda x: clean(x))
df.loc[:, 'improvements'] =  df['improvements'].apply(lambda x: clean(x))

In [177]:
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date
0,SEP-23-002-A,1,,los documentos se puedan entregar de forma ele...,0
1,SRE-03-009-B,0,las citas via internet antes las podia hacer a...,seria mejor el sistema anterior donde se podia...,0
2,SRE-03-007-A,1,la informacion de las citas no esta al alcance...,presenten la informacion para hacer citas de f...,0
3,SRE-03-002,1,,poder agendar cita por internet eso seria de ...,0
4,SRE-03-003,0,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2


# Label Encoding

In [178]:
df["institution"].value_counts()

SRE-03-003            768
SRE-03-002            606
SFP-04-001            315
SEGOB-05-005          270
FOVISSSTE-00-004      209
                     ... 
SRE-01-011-B            1
SEP-13-002              1
SEDENA-00-004           1
FOVISSSTE-00-005-D      1
CFE-00-012              1
Name: institution, Length: 762, dtype: int64

In [179]:
from sklearn.preprocessing import OrdinalEncoder

# creating instance of encoder
ordinal_encoder = OrdinalEncoder()

df['institution_cat'] = ordinal_encoder.fit_transform(df[['institution']])
df.head()

Unnamed: 0,institution,is_info_useful,missing_info,improvements,date,institution_cat
0,SEP-23-002-A,1,,los documentos se puedan entregar de forma ele...,0,639.0
1,SRE-03-009-B,0,las citas via internet antes las podia hacer a...,seria mejor el sistema anterior donde se podia...,0,736.0
2,SRE-03-007-A,1,la informacion de las citas no esta al alcance...,presenten la informacion para hacer citas de f...,0,729.0
3,SRE-03-002,1,,poder agendar cita por internet eso seria de ...,0,722.0
4,SRE-03-003,0,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2,723.0


In [180]:
ordinal_encoder.categories_

[array(['AFSEDF-01-014', 'AFSEDF-01-015', 'AFSEDF-03-055', 'AFSEDF-03-057',
        'AFSEDF-03-059', 'AFSEDF-04-005', 'AICM-00-001', 'APBP-00-002',
        'CAPUFE-01-001', 'CAPUFE-01-004', 'CAPUFE-02-001', 'CAPUFE-02-002',
        'CDI-01-008-A', 'CDI-01-012', 'CDI-01-014', 'CDI-01-016-A',
        'CDI-01-016-C', 'CDI-01-019-A', 'CDI-02-001-C', 'CFE-00-001-A',
        'CFE-00-001-B', 'CFE-00-001-C', 'CFE-00-004', 'CFE-00-006',
        'CFE-00-012', 'CFE-00-013', 'CFE-00-018', 'CFE-00-020',
        'CIJ-01-001', 'CNPSS-00-001', 'CNSF-00-004', 'CNSF-11-004',
        'CNSF-12-042', 'CNSF-12-045', 'CNSF-12-049-A', 'CNTRA-01-008',
        'CNTS-01-003-A', 'COFEPRIS-01-002-B', 'COFEPRIS-01-006',
        'COFEPRIS-01-010-A', 'COFEPRIS-01-010-F', 'COFEPRIS-01-015-B',
        'COFEPRIS-01-015-C', 'COFEPRIS-01-021-B', 'COFEPRIS-01-021-E',
        'COFEPRIS-03-006-B', 'COFEPRIS-04-010-A', 'COFEPRIS-04-023-A',
        'COFEPRIS-05-001-G', 'COFEPRIS-05-006', 'COFEPRIS-05-036',
        'COFEPRIS-08

In [181]:
df.drop(["institution"], axis=1, inplace=True)
df.head()

Unnamed: 0,is_info_useful,missing_info,improvements,date,institution_cat
0,1,,los documentos se puedan entregar de forma ele...,0,639.0
1,0,las citas via internet antes las podia hacer a...,seria mejor el sistema anterior donde se podia...,0,736.0
2,1,la informacion de las citas no esta al alcance...,presenten la informacion para hacer citas de f...,0,729.0
3,1,,poder agendar cita por internet eso seria de ...,0,722.0
4,0,no se puede agendar la cita para la renovacion...,la pagina esta saturada de informacion que no ...,2,723.0


# Translate

# Tokenizing and removing stop words

In [161]:
from nltk import FreqDist
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

stop_words = list(set(stopwords.words('spanish')))

def remove_stop_words(string):
    # tokenize 
    tokenized = word_tokenize(string)
    # remove stopwords 
    stopped = [w for w in tokenized if not w in stop_words]
    # join the list of above words to create a sentence without stop words
    filtered_string = (" ").join(stopped)
    return filtered_string

df.loc[:, 'missing_info'] =  df['missing_info'].apply(lambda x: remove_stop_words(x))
df.loc[:, 'improvements'] =  df['improvements'].apply(lambda x: remove_stop_words(x))

## NLTK Sentiment Analysis

https://www.digitalocean.com/community/tutorials/how-to-perform-sentiment-analysis-in-python-3-using-the-natural-language-toolkit-nltk

https://towardsdatascience.com/basic-binary-sentiment-analysis-using-nltk-c94ba17ae386

https://towardsdatascience.com/unsupervised-sentiment-analysis-a38bf1906483