# Cleaning data
Here we remove symbols and names that appear at the end of every dialogue or question, also we're going to search for missing values and missformating.

In [45]:
import pandas as pd
import re

In [46]:
df_dialogos=pd.read_csv("dialogos.csv")
df_preguntas=pd.read_csv("preguntas.csv")

In [47]:
print(df_dialogos.dtypes)
print("\n",df_preguntas.dtypes)

Fecha      object
Dialogo    object
dtype: object

 Fecha        object
Pregunta     object
Respuesta    object
dtype: object


In [48]:
df_preguntas.head()

Unnamed: 0,Fecha,Pregunta,Respuesta
0,"\""2022-07-06","Muy buenos días, presidente y funcionarios qu...",Lo vamos a ver hoy mismo también.\n\nINTERLOC...
1,"\""2022-07-06","¿Puede recibir el secretario de gobierno, per...","Sí, sí, nada más que en unos días porque tien..."
2,"\""2022-07-06","Sí, y le voy a dejar la prueba de lo que es, ...","Sí, lo vemos.\n\nINTERLOCUTOR"
3,"\""2022-07-06","Por último, presidente, yo le he estado insis...",Estamos trabajando en Veracruz y en otros esta...
4,"\""2022-07-06",¿Puedo venir cuando venga Román?\n\nPRESIDENT...,"Sí, sí, sí. Para que nos informe, puede ser l..."


In [49]:
df_dialogos.head()

Unnamed: 0,Fecha,Dialogo
0,"\""2022-07-06","Buenos días, buenas tardes. Ánimo, ánimo.\n\nB..."
1,"\""2022-07-06","El tercero de aquí, usted, usted, usted. Allá..."
2,"\""2022-07-06",Lo vamos a ver hoy mismo también.\n\nINTERLOC...
3,"\""2022-07-06","Sí, sí, nada más que en unos días porque tien..."
4,"\""2022-07-06","Sí, lo vemos.\n\nINTERLOCUTOR"


We need to remove the " \\" " from Fecha to give it the right format

In [50]:
df_dialogos["Fecha"]=df_dialogos["Fecha"].apply(lambda x: x.replace(u'\\"',u''))
df_preguntas["Fecha"]=df_preguntas["Fecha"].apply(lambda x: x.replace(u'\\"',u''))

In [51]:
df_dialogos.head()

Unnamed: 0,Fecha,Dialogo
0,2022-07-06,"Buenos días, buenas tardes. Ánimo, ánimo.\n\nB..."
1,2022-07-06,"El tercero de aquí, usted, usted, usted. Allá..."
2,2022-07-06,Lo vamos a ver hoy mismo también.\n\nINTERLOC...
3,2022-07-06,"Sí, sí, nada más que en unos días porque tien..."
4,2022-07-06,"Sí, lo vemos.\n\nINTERLOCUTOR"


In [52]:
df_preguntas.head()

Unnamed: 0,Fecha,Pregunta,Respuesta
0,2022-07-06,"Muy buenos días, presidente y funcionarios qu...",Lo vamos a ver hoy mismo también.\n\nINTERLOC...
1,2022-07-06,"¿Puede recibir el secretario de gobierno, per...","Sí, sí, nada más que en unos días porque tien..."
2,2022-07-06,"Sí, y le voy a dejar la prueba de lo que es, ...","Sí, lo vemos.\n\nINTERLOCUTOR"
3,2022-07-06,"Por último, presidente, yo le he estado insis...",Estamos trabajando en Veracruz y en otros esta...
4,2022-07-06,¿Puedo venir cuando venga Román?\n\nPRESIDENT...,"Sí, sí, sí. Para que nos informe, puede ser l..."


In [53]:
df_preguntas["Fecha"]=pd.to_datetime(df_preguntas["Fecha"])
df_dialogos["Fecha"]=pd.to_datetime(df_dialogos["Fecha"])

In [54]:
print(df_dialogos.dtypes)
print("\n",df_preguntas.dtypes)

Fecha      datetime64[ns]
Dialogo            object
dtype: object

 Fecha        datetime64[ns]
Pregunta             object
Respuesta            object
dtype: object


In [55]:
df_preguntas.head()

Unnamed: 0,Fecha,Pregunta,Respuesta
0,2022-07-06,"Muy buenos días, presidente y funcionarios qu...",Lo vamos a ver hoy mismo también.\n\nINTERLOC...
1,2022-07-06,"¿Puede recibir el secretario de gobierno, per...","Sí, sí, nada más que en unos días porque tien..."
2,2022-07-06,"Sí, y le voy a dejar la prueba de lo que es, ...","Sí, lo vemos.\n\nINTERLOCUTOR"
3,2022-07-06,"Por último, presidente, yo le he estado insis...",Estamos trabajando en Veracruz y en otros esta...
4,2022-07-06,¿Puedo venir cuando venga Román?\n\nPRESIDENT...,"Sí, sí, sí. Para que nos informe, puede ser l..."


In [56]:
df_dialogos.head()

Unnamed: 0,Fecha,Dialogo
0,2022-07-06,"Buenos días, buenas tardes. Ánimo, ánimo.\n\nB..."
1,2022-07-06,"El tercero de aquí, usted, usted, usted. Allá..."
2,2022-07-06,Lo vamos a ver hoy mismo también.\n\nINTERLOC...
3,2022-07-06,"Sí, sí, nada más que en unos días porque tien..."
4,2022-07-06,"Sí, lo vemos.\n\nINTERLOCUTOR"


Now, let's eliminate the symbol characters and names from dialogues, and parce it to lower case.

In [57]:
df_dialogos["Dialogo"]=df_dialogos["Dialogo"].apply(lambda x:re.sub("[A-Z][A-Z][A-Z]*","",x)).apply\
(lambda x: x.replace("\n","").replace(u"ÓN","").lower())
df_preguntas["Pregunta"]=df_preguntas["Pregunta"].apply(lambda x:re.sub("[A-Z][A-Z][A-Z]*","",x)).apply\
(lambda x: x.replace("\n","").replace(u"ÉS","").replace(u"LÓ","").lower())
df_preguntas["Respuesta"]=df_preguntas["Respuesta"].apply(lambda x:re.sub("[A-Z][A-Z][A-Z]*","",x)).apply\
(lambda x: x.replace("\n","").replace(u"ÓN","").lower())
df_dialogos.head()

Unnamed: 0,Fecha,Dialogo
0,2022-07-06,"buenos días, buenas tardes. ánimo, ánimo.bueno..."
1,2022-07-06,"el tercero de aquí, usted, usted, usted. allá..."
2,2022-07-06,lo vamos a ver hoy mismo también.
3,2022-07-06,"sí, sí, nada más que en unos días porque tien..."
4,2022-07-06,"sí, lo vemos."


In [58]:
df_preguntas.head()

Unnamed: 0,Fecha,Pregunta,Respuesta
0,2022-07-06,"muy buenos días, presidente y funcionarios qu...",lo vamos a ver hoy mismo también.
1,2022-07-06,"¿puede recibir el secretario de gobierno, per...","sí, sí, nada más que en unos días porque tien..."
2,2022-07-06,"sí, y le voy a dejar la prueba de lo que es, ...","sí, lo vemos."
3,2022-07-06,"por último, presidente, yo le he estado insis...",estamos trabajando en veracruz y en otros esta...
4,2022-07-06,¿puedo venir cuando venga román?,"sí, sí, sí. para que nos informe, puede ser l..."


In [59]:
df_preguntas.to_csv("preguntas_cleaned.csv",index=False)
df_dialogos.to_csv("dialogos_cleaned.csv",index=False)