# Importaciones Librerias

In [1]:
import pandas as pd
import re
import regex
import emoji
from datetime import datetime

# Extraer Data

In [2]:
# Busca el patr√≥n para ubicar las fecha y hora de los mensajes
def inicia_con_fecha_y_hora(s):
    #Ejemplo: '17/3/2022 11:57 p. m. -'
    #Ejemplo: '21/2/2021 11:27 a. m. - ... '
    patron = '[\d]{1,2}\/[\d]{2}\/[\d]{2}[ ][\d]{1,2}[:][\d]{2}[‚ÄØ]{1}[apm.‚ÄØ]{1,} \-'
    resultado = re.match(patron, s)  # Verificar si cada l√≠nea del txt hace match con el patr√≥n de fecha y hora
    if resultado:
        return True
    return False

In [3]:
# Busca el patr√≥n para ubicar el nombre de los usuarios del chat
def encontrar_miembros(s):
    patrones = [
        '([\w√°√©√≠√≥√∫]+[ ][\w√°√©√≠√≥√∫\.]+):', # Nombre Inicial Apellido .
        '([+][\d]{2}[ ][\d]{3}[ ][\d]{3}[ ][\d]{3}):', # N√∫mero de telefono (Per√∫)
        '([\w√°√©√≠√≥√∫]+[ ][\w√°√©√≠√≥√∫]+[ ][\w√°√©√≠√≥√∫]+):', # Nombre Apellido Apellido
        '([\w√°√©√≠√≥√∫]+[ ][\w√°√©√≠√≥√∫]+):', # Nombre Apellido
        '([\w√°√©√≠√≥√∫]+):'  # Nombre
    ]
    #Unifica todos tipos de busquedas regex por medio de un '|'
    patron = '|'.join(patrones)
    #Realiza el regex busqueda
    resultado = re.match(patron, s)
    if resultado:
        return True
    return False

In [4]:
# Divide la linea del mensaje en dos partes (una parte ser√° la fecha y hora del mensaje y la otra parte sera el contacto)
def obtener_partes(s):
    dict_linea = {}
    #Divide el mensaje por el caracter '-'
    split_linea = s.split(' - ')
    #Almacena la primera parte del split que ser√≠a la fecha y hora del mensaje
    parte_1 = split_linea[0]
    # Almacena la segunda parte del split que contendr√≠a el contacto
    parte_2 = split_linea[1:]
    # Divide la primera parte por el ' '
    split_fecha_hora = parte_1.split(' ')
    #De la primera parte del ' ' obtiene la fecha
    fecha = split_fecha_hora[0]
    #Obtain the list of the time
    #VALIDAR ESTO POR QUE HACE UN IF (Se entiende que siempre tendr√≠a)
    if len(split_fecha_hora) > 1:
        hora = split_fecha_hora[1:]
        #Obtain the time
        hora = hora[0]
    # Obtener el contacto y mensaje
    usuario_mensaje = ' '.join(parte_2)
    # Utiliza el encontrar_miembros para obtener por regex el nombre del contacto
    if encontrar_miembros(usuario_mensaje):
        split_mensaje = usuario_mensaje.split(': ')
        usuario = split_mensaje[0]
        mensaje = split_mensaje[1:]
        mensaje = ' '.join(mensaje)
    # Si no encuentra el contacto, significa que es una continuaci√≥n de linea, asi que solo guarda el mensaje
    else:
        fecha = None
        hora = None
        usuario = None
        mensaje = parte_1.strip()
        
    # Almacenar en diccionario la informaci√≥n obtenida de la linea del mensaje (fecha, hora, contacto, mensaje)
    dict_linea['fecha']  = fecha 
    dict_linea['hora'] = hora
    dict_linea['usuario'] = usuario
    dict_linea['mensaje'] = mensaje
    return dict_linea

In [5]:
# Leer el archivo chat
ruta_chat = 'source\Chat de WhatsApp con Team Reembolso - Valorant.txt'
dict_linea = []
lista_mensajes = []
indice_linea_con_fecha = -1
with open(ruta_chat, encoding="utf-8") as archivo:
    for linea in archivo:
        linea = linea.strip()
        # Valida si la linea que se va a revisar contiene fecha y hora (si fuera ese el caso)
        if(inicia_con_fecha_y_hora(linea)):
            dict_linea = obtener_partes(linea)
            lista_mensajes.append([dict_linea['fecha'], dict_linea['hora'], dict_linea['usuario'], dict_linea['mensaje'].strip()])
            indice_linea_con_fecha = indice_linea_con_fecha + 1
        # Si no contiene la fecha_y_hora significa que es una linea que es continuaci√≥n de la linea superior a esta
        else:
            dict_linea = obtener_partes(linea)
            # Almacenas el mensaje de la linea sin fecha ni contacto
            mensaje = dict_linea['mensaje']
            # Llamas a la anterior linea con fecha y se concatena el mensaje guardado a la linea anterior
            lista_mensajes[indice_linea_con_fecha][3] = lista_mensajes[indice_linea_con_fecha][3].strip() + " "+  mensaje       


In [6]:
# Crear Dataframe con la informaci√≥n
df_mensajes_extraer = pd.DataFrame(lista_mensajes, columns = ['Fecha', 'Hora', 'Usuario', 'Mensaje'])

In [7]:
df_mensajes_extraer['extract_datetime'] = datetime.now()

In [8]:
df_mensajes_extraer.head()

Unnamed: 0,Fecha,Hora,Usuario,Mensaje,extract_datetime
0,24/08/23,6:15‚ÄØp.‚ÄØm.,Tania,Me hubiera pasado,2024-07-25 19:48:37.459665
1,24/08/23,6:15‚ÄØp.‚ÄØm.,Omar Ramos,XDDD,2024-07-25 19:48:37.459665
2,24/08/23,6:15‚ÄØp.‚ÄØm.,Enrique,<Multimedia omitido>,2024-07-25 19:48:37.459665
3,24/08/23,6:15‚ÄØp.‚ÄØm.,Enrique,<Multimedia omitido>,2024-07-25 19:48:37.459665
4,24/08/23,6:16‚ÄØp.‚ÄØm.,Omar Ramos,Yo prefiero la parrilla,2024-07-25 19:48:37.459665


In [9]:
df_mensajes_extraer.to_csv("fuente\Extraer\mensajes.csv", index = False ,sep= "|")

## Transformar Mensajes

In [10]:
df_mensajes_transformar = df_mensajes_extraer.copy()

In [11]:
df_mensajes_transformar = df_mensajes_transformar[
    [
     'Fecha'
    ,'Hora'
    ,'Usuario'
    ,'Mensaje'   
    ]
]

In [12]:
df_mensajes_transformar['Hora'] = df_mensajes_transformar['Hora'].str.replace(r'[^0-9a-zA-Z: ]', '', regex=True)

In [13]:
df_mensajes_transformar['Hora'] = df_mensajes_transformar['Hora'].str.replace('\u202f', '', regex=False)

In [14]:
df_mensajes_transformar['Fecha_hora'] = pd.to_datetime(df_mensajes_transformar['Fecha'] 
                                                       + ' ' 
                                                       + df_mensajes_transformar['Hora'], format='%d/%m/%y %I:%M%p')

In [15]:
df_mensajes_transformar['transform_datetime'] = datetime.now()

In [16]:
df_mensajes_transformar.head()

Unnamed: 0,Fecha,Hora,Usuario,Mensaje,Fecha_hora,transform_datetime
0,24/08/23,6:15pm,Tania,Me hubiera pasado,2023-08-24 18:15:00,2024-07-25 19:48:44.993394
1,24/08/23,6:15pm,Omar Ramos,XDDD,2023-08-24 18:15:00,2024-07-25 19:48:44.993394
2,24/08/23,6:15pm,Enrique,<Multimedia omitido>,2023-08-24 18:15:00,2024-07-25 19:48:44.993394
3,24/08/23,6:15pm,Enrique,<Multimedia omitido>,2023-08-24 18:15:00,2024-07-25 19:48:44.993394
4,24/08/23,6:16pm,Omar Ramos,Yo prefiero la parrilla,2023-08-24 18:16:00,2024-07-25 19:48:44.993394


In [17]:
df_mensajes_transformar.to_csv("fuente\\Transformacion\\mensajes.csv", index = False ,sep= "|")

# Transformar: Obtener listado total de Emojis y Urls

In [18]:
# Obtener una lista de todos los emojis utilizados chat
def obtener_emojis(mensaje):
    emoji_lista=[]
    data = regex.findall(r'\X', mensaje) 
    for caracter in data:
        #Validate if the character is an emoji in spanish
        if any(c in emoji.EMOJI_DATA for c in caracter): 
            emoji_lista.append(caracter)
    return emoji_lista

In [19]:
# Obtener una lista de todas las urls utilizados en el chat
def obtener_urls(mensaje):
    urls_lista = []
    data = regex.findall(r'http[s]{0,1}[:][\/]{2}[a-z\.0-9\/A-Z?=_&-]{1,}', mensaje)
    if len(data) > 0:
        for url in data:
            urls_lista.append(url)
    return urls_lista


In [20]:
#Count of sendings emojis
lista_emojis = []
emojis_del_mensaje = []

#Count of sendings urls
lista_urls = []
urls_del_mensaje = []


for index, row in df_mensajes_transformar.iterrows():
    # Guardar el listado de emojis DEL MENSAJE
    emojis_del_mensaje = obtener_emojis(row.Mensaje)
    # A√±adir los emojis DEL mensaje en una lista general de emojis
    lista_emojis.append(emojis_del_mensaje)
    
    # Guardar el listado de urls DEL MENSAJE
    urls_del_mensaje = obtener_urls(row.Mensaje)
    # A√±adir los urls del MENSAJE en una lista general de Urls
    lista_urls.append(urls_del_mensaje)

# Generar Dataframe del listado de emojis
df_emojis = pd.DataFrame({'emojis_por_mensaje':lista_emojis})
# Generar Dataframe del listado de urls
df_urls = pd.DataFrame({'urls_por_mensaje': lista_urls})

In [21]:
# Agregar en el Dataframe principal una lista de emojis que tiene cada mensaje
df_mensajes_emojis = pd.merge(df_mensajes_transformar
                              , df_emojis
                              , how='left'
                              , left_index=True
                              , right_index=True)

In [22]:
# Agregar en el Dataframe principal una lista de urls que tiene cada mensaje
df_mensajes_emojis_urls = pd.merge(df_mensajes_emojis
                                   , df_urls
                                   , how='left'
                                   , left_index = True
                                   , right_index = True)

## Dataframe de emojis

In [23]:
df_emojis_transformar = df_mensajes_emojis_urls[
    df_mensajes_emojis_urls['emojis_por_mensaje'].apply(lambda x: len(x) > 0)
]

In [24]:
df_emojis_transformar = df_emojis_transformar[['Fecha', 'Hora', 'Fecha_hora','Usuario', 'emojis_por_mensaje']]

In [25]:
df_emojis_transformar = df_emojis_transformar.explode('emojis_por_mensaje')

In [26]:
df_emojis_transformar['transform_datetime'] = datetime.now()

In [27]:
df_emojis_transformar.head()

Unnamed: 0,Fecha,Hora,Fecha_hora,Usuario,emojis_por_mensaje,transform_datetime
21,24/08/23,6:24pm,2023-08-24 18:24:00,Enrique,üòÆ,2024-07-25 19:49:06.724414
28,24/08/23,6:24pm,2023-08-24 18:24:00,Enrique,üëâüèª,2024-07-25 19:49:06.724414
28,24/08/23,6:24pm,2023-08-24 18:24:00,Enrique,üëàüèª,2024-07-25 19:49:06.724414
49,24/08/23,7:33pm,2023-08-24 19:33:00,Daniel O.,üëâ,2024-07-25 19:49:06.724414
49,24/08/23,7:33pm,2023-08-24 19:33:00,Daniel O.,üëà,2024-07-25 19:49:06.724414


In [28]:
df_emojis_transformar.to_csv("fuente\\Transformacion\\emojis.csv", index = False ,sep= "|")

## Dataframe de Urls

In [29]:
df_con_urls_transformar = df_mensajes_emojis_urls[df_mensajes_emojis_urls['urls_por_mensaje'].apply(lambda x: len(x) > 0)]

In [30]:
df_con_urls_transformar = df_con_urls_transformar[['Fecha', 'Hora','Fecha_hora' ,'Usuario', 'urls_por_mensaje']]

In [31]:
df_con_urls_transformar = df_con_urls_transformar.explode('urls_por_mensaje')

In [32]:
df_con_urls_transformar['transform_datetime'] = datetime.now()

In [33]:
df_con_urls_transformar.head()

Unnamed: 0,Fecha,Hora,Fecha_hora,Usuario,urls_por_mensaje,transform_datetime
44,24/08/23,7:23pm,2023-08-24 19:23:00,Sebasti√°n Encarnaci√≥n,https://vm.tiktok.com/ZMjeG2f2Q/,2024-07-25 19:49:13.836639
137,24/08/23,9:08pm,2023-08-24 21:08:00,Sebasti√°n Encarnaci√≥n,https://vm.tiktok.com/ZMjenm2o6/,2024-07-25 19:49:13.836639
174,24/08/23,10:37pm,2023-08-24 22:37:00,Tania,https://vm.tiktok.com/ZMjevAEDd/,2024-07-25 19:49:13.836639
187,25/08/23,9:17am,2023-08-25 09:17:00,Sebasti√°n Encarnaci√≥n,https://vm.tiktok.com/ZMjdFjgQp/,2024-07-25 19:49:13.836639
188,25/08/23,9:22am,2023-08-25 09:22:00,Sebasti√°n Encarnaci√≥n,https://vm.tiktok.com/ZMjdF8c4b/,2024-07-25 19:49:13.836639


In [34]:
df_con_urls_transformar.to_csv("fuente\\Transformacion\\urls.csv", index = False ,sep= "|")

## Dataframe de Mensaje_Omitido

In [35]:
df_mensaje_omitido_transformar = df_mensajes_emojis_urls[df_mensajes_emojis_urls['Mensaje']=='<Multimedia omitido>']

In [36]:
df_mensaje_omitido_transformar = df_mensaje_omitido_transformar[['Fecha', 'Hora', 'Fecha_hora', 'Usuario','Mensaje']]

In [37]:
df_mensaje_omitido_transformar['transform_datetime'] = datetime.now()

In [38]:
df_mensaje_omitido_transformar.head()

Unnamed: 0,Fecha,Hora,Fecha_hora,Usuario,Mensaje,transform_datetime
2,24/08/23,6:15pm,2023-08-24 18:15:00,Enrique,<Multimedia omitido>,2024-07-25 19:49:17.229180
3,24/08/23,6:15pm,2023-08-24 18:15:00,Enrique,<Multimedia omitido>,2024-07-25 19:49:17.229180
5,24/08/23,6:16pm,2023-08-24 18:16:00,Enrique,<Multimedia omitido>,2024-07-25 19:49:17.229180
8,24/08/23,6:18pm,2023-08-24 18:18:00,Enrique,<Multimedia omitido>,2024-07-25 19:49:17.229180
15,24/08/23,6:23pm,2023-08-24 18:23:00,Luis Lucho Centria,<Multimedia omitido>,2024-07-25 19:49:17.229180


In [39]:
df_mensaje_omitido_transformar.to_csv("fuente\\Transformacion\\mensaje_omitido.csv", index = False ,sep= "|")

# Exportar

In [40]:
df_mensajes_transformar.to_csv("fuente\\Cargar\\mensajes.csv", index = False ,sep= "|")

In [41]:
df_emojis_transformar.to_csv("fuente\\Cargar\\emojis.csv", index = False ,sep= "|")

In [42]:
df_con_urls_transformar.to_csv("fuente\\Cargar\\urls.csv", index = False ,sep= "|")

In [43]:
df_mensaje_omitido_transformar.to_csv("fuente\\Cargar\\mensaje_omitido.csv", index = False ,sep= "|")