# Data cleaning 

In [91]:
import pandas as pd

In [92]:
from use_cases.emotions import process_emotions
from use_cases.contributions import process_contributions

from use_cases.personal_needs import process_needs

from use_cases.dialogues import create_table_dialogues
from use_cases.country_needs import create_table_country_needs
from use_cases.persons import create_table
from use_cases.individuals import create_table_individuals


pd.options.mode.chained_assignment = None 

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Loading Data Surveys

In [415]:
chunksize   = 100 # Just for debugging
survey_path = './data/BBDD_Dialogos_2021_01_27.csv' 
survey = pd.read_csv(survey_path, chunksize=chunksize, low_memory=False)
for survey in survey: break
    
ind_online_survey_path = './data/Consulta_Individual_online_v2.xlsx'
ind_online_survey = pd.read_excel(ind_online_survey_path, 'Sheet1')
    
ind_survey_path = './data/Base_final_digitación_Consultas.xlsx'
ind_survey = pd.read_excel(ind_survey_path, 'CONSULTAS')

In [294]:
survey.sample(2)
ind_online_survey.sample(2)

Unnamed: 0,Submission Date,RUN,Edad,Comuna,1. ¿Cuál es el nivel de educación alcanzado por Usted?,2. ¿Cuál es el nivel de educación que alcanzó el jefe de su hogar? (sólo si se trata de alguien distinto a Usted),1 >> Emociones / Sentimientos / Sensaciones,1 >> Explique lo mencionado,2 >> Emociones / Sentimientos / Sensaciones,2 >> Explique lo mencionado,...,3 >> Necesidades del país identificadas,3 >> Rol del Estado (Describa),"3 >> Actor social (empresa, organizaciones sociales, medios de comunicación, comunidad, etc)",3 >> Rol del actor social (Describa),5. Pregunta: ¿Cuál es mi contribución personal para construir el Chile que queremos?,Comuna.1,"Comentarios finales: Si tiene alguna observación o sugerencia, en este espacio puede indicarla.",Región,Región.1,id
625,2020/01/10 09:16:52,25e3cc42195fd741586927bb5dca65ac,34,La Union,Universitaria completa.,Yo soy el jefe de hogar.,Setimiento de Oportunidad,Ganas de tomar este momneto para mejorar como ...,Preocupacion,Por el clima de violencia.,...,seguridad,activo,activo,activo,Apoyar la iniciativas que ayuden a mejorar nue...,,,Región de Los Ríos,,625
971,2019/12/27 11:17:49,8fc4b7e2da5d431e4eda94f5db713642,42,la florida,Universitaria incompleta. Técnica completa.,Yo soy el jefe de hogar.,alegria,por el despertar de chile,esperanza,por que tendremos un mejor pais,...,mejora del sistema de salud publico,garantizar y fortalecer el sistema publico de ...,isapre o aseguradora,quien quiera atenderse en el sector privado qu...,"Pagar todos los impuestos que corresponden, si...",,,Región Metropolitana de Santiago,,971


## Processing Uses Cases
1. Emotions 
2. Contributions
3. Country needs 
4. Personal/familiar needs

### Persons Table (Dialogue)

In [441]:
persons_table = create_table(survey)

In [444]:
persons_table.sample(3)

Unnamed: 0,file_id,age,sex,level,comuna_id,age_range
918,enc_u_4560398922358481769,59,f,media_incompleta,12101,45-60
48,enc_u_4598361490157529121,38,f,basica_completa,1,30-45
735,enc_u_4561993999324998034,38,h,universitaria_completa,16102,30-45


### Dialogues

In [446]:
dialogues_table = create_table_dialogues(survey)

In [448]:
dialogues_table.sample(3)

Unnamed: 0,file_id,date,init_time,end_time,location,address,comuna_id,n_members,group_name
295,enc_u_4579431974804201508,10-02-2020,16:50:00,17:50:00,gobernacion el loa,guia maderos 2296,2201,9,usuarios de oficina movil de bienes nacionales
351,enc_u_4574346270115169401,05-02-2020,10:20:00,12:00:00,municipalidad de teodoro schmidt,balmaceda 450,9117,5,usuarios de oficina movil de bienes nacionales
913,enc_u_4560441384125748798,28-01-2020,10:00:00,12:00:00,seremitt region bio bio,o'higgins poniente ndeg77 3er piso concepcion,8101,9,usuarios de oficina movil de bienes nacionales


### Emotions

<img src="diagrams/q1.png" width=730 height=520 />

In [29]:
%%time
emotions_table = process_emotions(survey)

CPU times: user 994 ms, sys: 119 ms, total: 1.11 s
Wall time: 1.12 s


In [31]:
emotions_table.sample(2)

Unnamed: 0,file_ids,name,name_token,macro,text,text_tokens
71,ENC_U_4597419179157584588,impotencia,[impotencia],impotencia,de que la justicia no haga lo suyo.,"[justicia, haga]"
9,ENC_U_4602015808803327609,dolor,[dolor],dolor,por sentirse abandonado,"[sentirse, abandonado]"


### Individuals

In [375]:
individuals_table = create_table_individuals(ind_online_survey, ind_survey)

In [379]:
individuals_table.sample(2)

Unnamed: 0,id,date,age,comuna_id,level,online,age_range
3545,5349,26-01-2020,65,4204,Básica completa,False,>=60
3731,5535,23-01-2020,35,12201,Universitaria incompleta. Técnica completa,False,30-45


### Country Needs

In [41]:
n = create_table_country_needs(survey)

0                  salud
1                  salud
2     mejores pensiones.
3       pensiones dignas
4                  salud
             ...        
95                   afp
96      mejorar la salud
97        medio ambiente
98                 salud
99            educacion 
Name: P2_1_A, Length: 100, dtype: object


### Family Needs

### Contributions