In [54]:
import os
import tarfile
from six.moves import urllib
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

In [55]:
# Cargo el dataset

ira_dataset = pd.read_csv("IRA_1.csv", encoding = "ISO-8859-1")
# encoding = "ISO-8859-1" es lo mismo que latin 1


In [56]:
ira_dataset.shape

(2240, 12)

In [57]:
ira_dataset.index

RangeIndex(start=0, stop=2240, step=1)

In [58]:
ira_dataset.head() # Top five rows in the dataframe

Unnamed: 0,D3.TRANSACCION,CANAL_ATENCION,CAUSA,DESCRIPCION,MOTIVO,MUNICIPIO,D0.SERVICIO,D2.PUNTO DE CONTACTO,Unnamed: 8,D5.LOCALIDAD,P3.ASPECTOS QUE LO SORPRENDIERON O QUE LE MOLESTARON,INCIDENTE CRITICO
0,Revisiones PeriÃ³dicas,_,_,_,_,MEDELLIN,Gas,LÃ­nea de atenciÃ³n,,Metropolitana,-,EXPERIENCIA NORMAL
1,Reclamaciones Presencial (resuelto/Final),PRESENCIAL,INCONFORMIDAD CON EL CONSUMO O PRODUCCION FACT...,INQUILINA RECLAMA POR CONSUMO ALTO DE ENERGIA ...,_,COPACABANA,EnergÃ­a,Oficina de atenciÃ³n,,Metropolitana,PRIMERO ES MUY GRATO SABER QUE HAY FILAS PRIOR...,INCIDENTES NEGATIVOS
2,DaÃ±os EnergÃ­a Prepago,_,_,_,_,_,EnergÃ­a,LÃ­nea de atenciÃ³n,,Regional,_,_
3,DaÃ±os Acueducto,_,_,_,_,MEDELLIN,Acueducto,LÃ­nea de atenciÃ³n,,Metropolitana,PORQUE TODO BIEN EN QUE ME RECIBIERON LA LLAMA...,INCIDENTES POSITIVOS
4,Peticiones Gas Oficinas (resuelto),PRESENCIAL,INFORMACION GENERAL,Usuario en calidad de propietario solicita ori...,_,PE?OL,Gas,Oficina de atenciÃ³n,,Regional,BUENA ATENCIÃN EN CUANTO A QUE ME ATENDIERON...,INCIDENTES POSITIVOS


In [67]:
#Renombro columnas
ira_dataset = ira_dataset.rename(columns = {'P3.ASPECTOS QUE LO SORPRENDIERON O QUE LE MOLESTARON':'MENSAJE', 'INCIDENTE CRITICO':'SENTIMIENTO' })

In [68]:
ira_dataset.info() # Description of the data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 11 columns):
D3.TRANSACCION          2240 non-null object
CANAL_ATENCION          2240 non-null object
CAUSA                   2240 non-null object
DESCRIPCION             2240 non-null object
MOTIVO                  2240 non-null object
MUNICIPIO               2240 non-null object
D0.SERVICIO             2240 non-null object
D2.PUNTO DE CONTACTO    2240 non-null object
D5.LOCALIDAD            2240 non-null object
MENSAJE                 2240 non-null object
SENTIMIENTO             2240 non-null object
dtypes: object(11)
memory usage: 192.6+ KB


In [70]:
# Esta balanceado el dataset?
print("Longitud del dataset", len(ira_dataset))
print()

print("Categorias Sentimientos Balanceada?: \n", ira_dataset.loc[:,'SENTIMIENTO'].value_counts())

#balanceado = tweet_dataset['polarity'].value_counts()
#print ("dataset balanceado? \n", balanceado)


Longitud del dataset 2240

Categorias Sentimientos Balanceada?: 
 INCIDENTES POSITIVOS    1095
EXPERIENCIA NORMAL       578
INCIDENTES NEGATIVOS     479
_                         88
Name: SENTIMIENTO, dtype: int64


In [71]:
# Summary of the numerical attributes
ira_dataset.describe()

Unnamed: 0,D3.TRANSACCION,CANAL_ATENCION,CAUSA,DESCRIPCION,MOTIVO,MUNICIPIO,D0.SERVICIO,D2.PUNTO DE CONTACTO,D5.LOCALIDAD,MENSAJE,SENTIMIENTO
count,2240,2240,2240,2240,2240,2240,2240,2240,2240,2240,2240
unique,24,9,44,766,1,118,4,5,2,1575,4
top,Peticiones Gas Oficinas (resuelto),_,_,_,_,MEDELLIN,EnergÃ­a,LÃ­nea de atenciÃ³n,Metropolitana,-,INCIDENTES POSITIVOS
freq,95,1433,1434,1449,2240,1066,719,935,1734,578,1095


In [72]:
ira_dataset.count()

D3.TRANSACCION          2240
CANAL_ATENCION          2240
CAUSA                   2240
DESCRIPCION             2240
MOTIVO                  2240
MUNICIPIO               2240
D0.SERVICIO             2240
D2.PUNTO DE CONTACTO    2240
D5.LOCALIDAD            2240
MENSAJE                 2240
SENTIMIENTO             2240
dtype: int64

In [74]:
#ira_dataset.drop('Unnamed: 8', axis = 1)
del ira_dataset['Unnamed: 8']

KeyError: 'Unnamed: 8'

In [75]:
ira_dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 11 columns):
D3.TRANSACCION          2240 non-null object
CANAL_ATENCION          2240 non-null object
CAUSA                   2240 non-null object
DESCRIPCION             2240 non-null object
MOTIVO                  2240 non-null object
MUNICIPIO               2240 non-null object
D0.SERVICIO             2240 non-null object
D2.PUNTO DE CONTACTO    2240 non-null object
D5.LOCALIDAD            2240 non-null object
MENSAJE                 2240 non-null object
SENTIMIENTO             2240 non-null object
dtypes: object(11)
memory usage: 192.6+ KB


In [76]:
# usando la funcion head imprime los 5 primero registros con sentimiento positivo.
ira_dataset[ira_dataset['SENTIMIENTO'] == 'INCIDENTES POSITIVOS'].head()

Unnamed: 0,D3.TRANSACCION,CANAL_ATENCION,CAUSA,DESCRIPCION,MOTIVO,MUNICIPIO,D0.SERVICIO,D2.PUNTO DE CONTACTO,D5.LOCALIDAD,MENSAJE,SENTIMIENTO
3,DaÃ±os Acueducto,_,_,_,_,MEDELLIN,Acueducto,LÃ­nea de atenciÃ³n,Metropolitana,PORQUE TODO BIEN EN QUE ME RECIBIERON LA LLAMA...,INCIDENTES POSITIVOS
4,Peticiones Gas Oficinas (resuelto),PRESENCIAL,INFORMACION GENERAL,Usuario en calidad de propietario solicita ori...,_,PE?OL,Gas,Oficina de atenciÃ³n,Regional,BUENA ATENCIÃN EN CUANTO A QUE ME ATENDIERON...,INCIDENTES POSITIVOS
9,Revisiones PeriÃ³dicas,_,_,_,_,MEDELLIN,Gas,LÃ­nea de atenciÃ³n,Metropolitana,"ME GUSTÃ MUCHO , NO TUVE NINGÃN PROBLEMA ME ...",INCIDENTES POSITIVOS
16,Reclamaciones Presencial (resuelto/Final),PRESENCIAL,INCONFORMIDAD CON EL CONSUMO O PRODUCCION FACT...,Usuaria en calidad de inquilina reclama por lo...,_,BELLO,Acueducto,Oficina de atenciÃ³n,Metropolitana,CUANDO LLEGUÃ A LA OFICINA ME ATENDIERON DE U...,INCIDENTES POSITIVOS
20,Alternativas de Pago,_,_,_,_,MEDELLIN,No aplica,LÃ­nea de atenciÃ³n,Metropolitana,QUE EL ASESOR ME ATENDIÃ EN LA LÃNEA DE ATEN...,INCIDENTES POSITIVOS


In [78]:
# usando iloc accedamos al valor del segundo registro, de sentimiento positivo en el campo TEXTO.

print(ira_dataset[ira_dataset['SENTIMIENTO'] == 'INCIDENTES POSITIVOS'].MENSAJE.iloc[1])

print("Longitud Mensaje: ", len(ira_dataset[ira_dataset['SENTIMIENTO'] == 'INCIDENTES POSITIVOS'].MENSAJE.iloc[1]))




# usando iloc accedamos al valor del segundo registro, de sentimiento positivo en el campo TEXTO.

#print(tweet_dataset[tweet_dataset['polarity'] == 4].tweet_text.iloc[1])

#print("Longitud tweet: ", len(tweet_dataset[tweet_dataset['polarity'] == 4].tweet_text.iloc[1]))

BUENA ATENCIÃN EN CUANTO A QUE ME  ATENDIERON MUY RÃPIDO Y FUERON MUY ORDENADOS (NO DA MÃS INFORMACION)
Longitud Mensaje:  106


In [79]:
# usando la funcion head imprime los 5 primero registros con sentimiento Neutro.
ira_dataset[ira_dataset['SENTIMIENTO'] == 'EXPERIENCIA NORMAL'].head()

Unnamed: 0,D3.TRANSACCION,CANAL_ATENCION,CAUSA,DESCRIPCION,MOTIVO,MUNICIPIO,D0.SERVICIO,D2.PUNTO DE CONTACTO,D5.LOCALIDAD,MENSAJE,SENTIMIENTO
0,Revisiones PeriÃ³dicas,_,_,_,_,MEDELLIN,Gas,LÃ­nea de atenciÃ³n,Metropolitana,-,EXPERIENCIA NORMAL
6,Quejas EnergÃ­a (incluido prepago),TELEFONICO,DEMORA EN ATENDER PETICION,NOMBRE: NELSON CASTA?EDA\nCC: 8276620\nCEL: 30...,_,ITAGUI,EnergÃ­a,LÃ­nea de atenciÃ³n,Metropolitana,-,EXPERIENCIA NORMAL
10,Peticiones Gas Oficinas (resuelto),PRESENCIAL,SEPARACION TEMPORAL O PAGO DIRIGIDO,El usuario solicita separaci?n,_,MEDELLIN,Gas,Oficina de atenciÃ³n,Metropolitana,-,EXPERIENCIA NORMAL
12,DaÃ±os Gas,_,_,_,_,MEDELLIN,Gas,LÃ­nea de atenciÃ³n,Metropolitana,-,EXPERIENCIA NORMAL
14,Revisiones PeriÃ³dicas,_,_,_,_,MEDELLIN,Gas,LÃ­nea de atenciÃ³n,Metropolitana,-,EXPERIENCIA NORMAL


In [80]:
# usando iloc accedamos al valor del segundo registro, de sentimiento Neutro en el campo TEXTO.

print(ira_dataset[ira_dataset['SENTIMIENTO'] == 'EXPERIENCIA NORMAL'].MENSAJE.iloc[1])

print("Longitud Mensaje: ", len(ira_dataset[ira_dataset['SENTIMIENTO'] == 'EXPERIENCIA NORMAL'].MENSAJE.iloc[1]))


-
Longitud Mensaje:  1


In [31]:
# usando la funcion head imprime los 5 primero registros con sentimiento Negativo.
ira_dataset[ira_dataset['INCIDENTE CRITICO'] == 'INCIDENTES NEGATIVOS'].head()

Unnamed: 0,D3.TRANSACCION,CANAL_ATENCION,CAUSA,DESCRIPCION,MOTIVO,MUNICIPIO,D0.SERVICIO,D2.PUNTO DE CONTACTO,D5.LOCALIDAD,P3.ASPECTOS QUE LO SORPRENDIERON O QUE LE MOLESTARON,INCIDENTE CRITICO
1,Reclamaciones Presencial (resuelto/Final),PRESENCIAL,INCONFORMIDAD CON EL CONSUMO O PRODUCCION FACT...,INQUILINA RECLAMA POR CONSUMO ALTO DE ENERGIA ...,_,COPACABANA,EnergÃ­a,Oficina de atenciÃ³n,Metropolitana,PRIMERO ES MUY GRATO SABER QUE HAY FILAS PRIOR...,INCIDENTES NEGATIVOS
5,Quejas Gas,TELEFONICO,INCONFORMIDAD TRABAJOS,Nombre: HERNAN DARIO ALVARES GARCES Cedula: 98...,_,SANTO DOMINGO,Gas,LÃ­nea de atenciÃ³n,Regional,LA DEMORA EN EL ARREGLO Y ESTUVE SIN SERVICIO...,INCIDENTES NEGATIVOS
7,Quejas aguas (incluido prepago),TELEFONICO,INCONFORMIDAD PUNTO DE VENTA YO RECAUDO,Nombre: Bernardo De Jes?s Meneses Restrepo\nCc...,_,MEDELLIN,Acueducto,LÃ­nea de atenciÃ³n,Metropolitana,PUES LO QUE ME MOLESTO ES QUE ELLOS LE DICEN A...,INCIDENTES NEGATIVOS
8,Alternativas de Pago,_,_,_,_,SABANETA,No aplica,LÃ­nea de atenciÃ³n,Metropolitana,NO ME PRESTARON EL SERVICIO EN CUANTO A QUE ...,INCIDENTES NEGATIVOS
11,Quejas Gas,TELEFONICO,INCONFORMIDAD CON LA INFORMACION,CLIENTE :EDISON MONSALVE CC :71723720TEL:30030...,_,MEDELLIN,Gas,LÃ­nea de atenciÃ³n,Metropolitana,NO ME RESOLVIERON EL PROBLEMA NO DA MÃS INFOR...,INCIDENTES NEGATIVOS


In [81]:
# usando iloc accedamos al valor del segundo registro, de sentimiento Neutro en el campo TEXTO.

print(ira_dataset[ira_dataset['SENTIMIENTO'] == 'INCIDENTES NEGATIVOS'].MENSAJE.iloc[1])

print("Longitud Mensaje: ", len(ira_dataset[ira_dataset['SENTIMIENTO'] == 'INCIDENTES NEGATIVOS'].MENSAJE.iloc[1]))


LA DEMORA EN EL ARREGLO Y ESTUVE  SIN SERVICIO  POR VARIOS DÃAS Y NO HABÃA RESPUESTA NI POR PARTE DE EPM NI DEL CONTRATISTA ME PONÃAN DE UN LADO A OTRO
Longitud Mensaje:  154


In [82]:
# valida campos null
print(ira_dataset.isnull()) # Validar esto


      D3.TRANSACCION  CANAL_ATENCION  CAUSA  DESCRIPCION  MOTIVO  MUNICIPIO  \
0              False           False  False        False   False      False   
1              False           False  False        False   False      False   
2              False           False  False        False   False      False   
3              False           False  False        False   False      False   
4              False           False  False        False   False      False   
5              False           False  False        False   False      False   
6              False           False  False        False   False      False   
7              False           False  False        False   False      False   
8              False           False  False        False   False      False   
9              False           False  False        False   False      False   
10             False           False  False        False   False      False   
11             False           False  False        F

In [85]:
# valida si hay filas con nan y en caso de que si usa el metodo .dropna(), ajusta el parametro inplace en True.
#print(np.isnan(ira_dataset))

#x = x[numpy.logical_not(numpy.isnan(x))]
#print(ira_dataset['Site Fill'].value_counts(dropna=False))

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

In [87]:
# Cuales son los descriptores que nos aportan informacion para el analisis de sentimientos?, cuales no?
# usando el metodo drop() de los DataFrame, elimina los campos que no son necesarios para el analisis 
# de sentimientos, recuerda ajustar un atributo en 1 y otro en True.
#ira_dataset.columns 
ira_dataset.drop(['D3.TRANSACCION','CANAL_ATENCION','CAUSA','DESCRIPCION', 'MOTIVO', 'MUNICIPIO',
'D0.SERVICIO', 'D2.PUNTO DE CONTACTO', 'D5.LOCALIDAD'], axis = 1, inplace = True)
# axis = 1 elimina valores de la columna     


In [88]:
ira_dataset.head()

Unnamed: 0,MENSAJE,SENTIMIENTO
0,-,EXPERIENCIA NORMAL
1,PRIMERO ES MUY GRATO SABER QUE HAY FILAS PRIOR...,INCIDENTES NEGATIVOS
2,_,_
3,PORQUE TODO BIEN EN QUE ME RECIBIERON LA LLAMA...,INCIDENTES POSITIVOS
4,BUENA ATENCIÃN EN CUANTO A QUE ME ATENDIERON...,INCIDENTES POSITIVOS
