# Leer XML (manual)

In [2]:
import pandas as pd
import xml.etree.ElementTree as et 

xtree = et.parse("tweets_es_interTASS.xml")
xroot = xtree.getroot()

df_cols = ["tweetid", "user", "content", "date", "lang", "sentiment"]
rows = []
pd.set_option('display.max_colwidth', -1)

In [44]:
for node in xroot: 
    t_id = node.find("tweetid").text
    t_user = node.find("user").text
    t_content = node.find("content").text
    t_date = node.find("date").text
    t_lang = node.find("lang").text
    t_sentiment = node.find("./sentiment/polarity/value").text
    
    rows.append({"tweetid": t_id, "user":t_user, "content": t_content, "date": t_date, "lang": t_lang, "sentiment": t_sentiment})
    out_df = pd.DataFrame(rows, columns=df_cols)

In [48]:
out_df.to_csv("tweets_TAAS.csv", index = None, header=True)

# Funcion general

In [38]:
import pandas as pd
import xml.etree.ElementTree as et

def parse_XML(xml_file, df_cols): 
    """Parse the input XML file and store the result in a pandas 
    DataFrame with the given columns. 
    
    The first element of df_cols is supposed to be the identifier 
    variable, which is an attribute of each node element in the 
    XML data; other features will be parsed from the text content 
    of each sub-element. 
    """
    
    xtree = et.parse(xml_file)
    xroot = xtree.getroot()
    rows = []
    
    for node in xroot: 
        res = []
        for el in df_cols: 
            if node is not None and node.find(el) is not None:
                if el == df_cols[-1]:
                    res.append(node.find("./sentiment/polarity/value").text)
                else:
                    res.append(node.find(el).text)
            else: 
                res.append(None)
        rows.append({df_cols[i]: res[i] 
                     for i, _ in enumerate(df_cols)})
    
    out_df = pd.DataFrame(rows, columns=df_cols)
        
    return out_df

In [44]:
df_cols = ["tweetid", "user", "content", "date", "lang", "sentiment"]
out_df = parse_XML("intertass-PE-train-tagged.xml", df_cols)

In [45]:
out_df.to_csv("tweets_interTAAS_Train_PE.csv", index = None, header=True)
df = pd.read_csv("tweets_interTAAS_Train_PE.csv")
df.head(10)

Unnamed: 0,tweetid,user,content,date,lang,sentiment
0,772432598027145216,71546415,"Sin ser fan de Juan Gabriel, siempre supe que era una fuerza de la naturaleza. Hoy escuché ""Querida"", y me dio una ternura enorme.",Sun Sep 04 13:54:17 +0000 2016,es,P
1,771715645843079169,106919551,ayer preguntaban y dónde están las solteras!!!! todo mi grupo alza la mano y yo la única que no y todas voltean a verme AJAJAJAJAJJA,Fri Sep 02 14:25:22 +0000 2016,es,NEU
2,771744506861461504,599653674,"Que el finde sea para hacer cualquier cosa que a uno lo haga FELIZ, lo que sea pero que sea lo que a uno le de la reverenda gana",Fri Sep 02 16:20:03 +0000 2016,es,NEU
3,771521266599604224,599653674,"Elige amar, así duela, así parezca un imposible, así te tiemble el alma, así tengas miedo, así vayas a salir herida. El amor transforma",Fri Sep 02 01:32:58 +0000 2016,es,NEU
4,774703192105971712,280686132,"Hoy me sentí como grace de ""al fondo hay sitio"" cuando la atropellaron, solo que no fue de mentira y casi no la cuento que horrible",Sat Sep 10 20:16:48 +0000 2016,es,N
5,774619666505400322,391872193,"@Fiorela_Gue aw ! recién veo esto, sorrry ! tu pues me dices algo y luego queda en nada vamos hoy a la reu de mi prima? le dije a Mari",Sat Sep 10 14:44:54 +0000 2016,es,NONE
6,774612388435795968,714677089589452804,hoy me toco visitar a mamá en su descanso eterno le contare todo lo que vivo ella fue es y siempre sera mi MEJOR AMIGA sin igual,Sat Sep 10 14:15:59 +0000 2016,es,P
7,774804336236978177,453529360,"Las remuneraciones económicas son lo que todos esperan, pero un ""me encanta lo que has hecho"", lo vale todo. El cliente es primero.",Sun Sep 11 02:58:43 +0000 2016,es,P
8,773691234871148544,2178283473,"@sadalienpotato ¿Opto por el rapado? En serio, estoy muy confusa. (Y admito que me lo corto por aburrimiento, como el 99% de la gente)",Thu Sep 08 01:15:39 +0000 2016,es,NEU
9,775087224857567232,714677089589452804,Lo que mas amo de mi escritorio es que hay una foto de el y mía juntos aparte de mi cuarto mis cuadro también están de el,Sun Sep 11 21:42:49 +0000 2016,es,P


In [26]:
print(df.shape)

(506, 6)


# Juntar los conjuntos de entrenamiento y pruebas 

## Juntar los train set

In [41]:
tweets_general_df = pd.read_csv("tweets_TASS_General.csv")

In [42]:
tweets_intertass_es_df = pd.read_csv("tweets_interTAAS_Train_ES.csv")

In [43]:
tweets_intertass_cr_df = pd.read_csv("tweets_interTAAS_Train_CR.csv")

In [46]:
tweets_intertass_pe_df = pd.read_csv("tweets_interTAAS_Train_PE.csv")

In [47]:
print(tweets_general_df.shape)
print(tweets_intertass_es_df.shape)
print(tweets_intertass_cr_df.shape)
print(tweets_intertass_pe_df.shape)

(7219, 6)
(1008, 6)
(800, 6)
(1000, 6)


In [48]:
tweets_es = tweets_general_df.append(tweets_intertass_es_df).append(tweets_intertass_cr_df).append(tweets_intertass_pe_df)
tweets_es.shape

(10027, 7)

In [49]:
tweets_es.to_csv("tweets_es.csv", index = None, header=True)