In [7]:
# !pip install regex, demoji, plotly, wordcloud

In [8]:
import pandas as pd
import re

import regex
import demoji

import numpy as np
from collections import Counter

import plotly.express as px
import matplotlib.pyplot as plt
from PIL import Image
from wordcloud import WordCloud, STOPWORDS

### Paso 1: Definir funciones necesarias

In [13]:
# Patron regex para identificar el comienzo de cada línea del txt con la fecha y la hora
def IniciaConFechaYHora(s):
    # Ejemplo: '9/16/23, 5:59 PM - ...'
    patron = '^([1-9]|1[0-2])(\/)([1-9]|1[0-9]|2[0-9]|3[0-1])(\/)(2[0-9]), ([0-9]+):([0-9][0-9])\s?([AP][M]) -'
    resultado = re.match(patron, s)  # Verificar si cada línea del txt hace match con el patrón de fecha y hora
    if resultado:
        return True
    return False

# Patrón para encontrar a los miembros del grupo dentro del txt
def EncontrarMiembro(s):
    patrones = ['Jose Hancco:','🪐❤️:']

    patron = '^' + '|'.join(patrones)
    resultado = re.match(patron, s)  # Verificar si cada línea del txt hace match con el patrón de miembro
    if resultado:
        return True
    return False

# Separar las partes de cada línea del txt: Fecha, Hora, Miembro y Mensaje
def ObtenerPartes(linea):
    # Ejemplo: '9/16/23, 5:59 PM - Sandreke: Todos debemos aprender a analizar datos'
    splitLinea = linea.split(' - ')
    FechaHora = splitLinea[0]                     # '9/16/23, 5:59 PM'
    splitFechaHora = FechaHora.split(', ')
    Fecha = splitFechaHora[0]                    # '9/16/23'
    Hora = ' '.join(splitFechaHora[1:])          # '5:59 PM'
    Mensaje = ' '.join(splitLinea[1:])             # 'Sandreke: Todos debemos aprender a analizar datos'
    if EncontrarMiembro(Mensaje):
        splitMensaje = Mensaje.split(': ')
        Miembro = splitMensaje[0]               # 'Sandreke'
        Mensaje = ' '.join(splitMensaje[1:])    # 'Todos debemos aprender a analizar datos'
    else:
        Miembro = None       
    return Fecha, Hora, Miembro, Mensaje

### Paso 2: Obtener el dataframe usando el archivo txt y las funciones definidas

In [18]:
# Leer el archivo txt descargado del chat de WhatsApp
RutaChat = 'Data/WhatsApp Chat with ❤️.txt'

# Lista para almacenar los datos (Fecha, Hora, Miembro, Mensaje) de cada línea del txt
DatosLista = []
with open(RutaChat, encoding="utf-8") as fp:
    fp.readline() # Eliminar primera fila relacionada al cifrado de extremo a extremo
    Fecha, Hora, Miembro = None, None, None
    while True:
        linea = fp.readline()
        if not linea:
            break
        linea = linea.strip()
        if IniciaConFechaYHora(linea): # Si cada línea del txt coincide con el patrón fecha y hora
            Fecha, Hora, Miembro, Mensaje = ObtenerPartes(linea) # Obtener datos de cada línea del txt
            DatosLista.append([Fecha, Hora, Miembro, Mensaje])

# Convertir la lista con los datos a dataframe
df = pd.DataFrame(DatosLista, columns=['Fecha', 'Hora', 'Miembro', 'Mensaje'])

# Cambiar la columna Fecha a formato datetime
df['Fecha'] = pd.to_datetime(df['Fecha'], format="%m/%d/%y")

# Eliminar los posibles campos vacíos del dataframe
# y lo que no son mensajes como cambiar el asunto del grupo o agregar a alguien
df = df.dropna()

# Resetear el índice
df.reset_index(drop=True, inplace=True)
df
display(df)

Unnamed: 0,Fecha,Hora,Miembro,Mensaje
0,2024-04-06,12:35 PM,Jose Hancco,<Media omitted>
1,2024-04-06,12:36 PM,Jose Hancco,"Pera, como q _estoy comiendo asi_"
2,2024-04-06,12:36 PM,Jose Hancco,Acaso esta mal?
3,2024-04-06,12:36 PM,Jose Hancco,<Media omitted>
4,2024-04-06,12:36 PM,Jose Hancco,"Mmmm sip, mi app da la letra"
...,...,...,...,...
99926,2024-08-25,6:46 PM,🪐❤️,Por eso pregunto peque
99927,2024-08-25,6:46 PM,Jose Hancco,tranqui
99928,2024-08-25,6:46 PM,Jose Hancco,dejame un rato
99929,2024-08-25,6:46 PM,Jose Hancco,intentar algo


#### Filtrar el chat por fecha de acuerdo a lo requerido

In [None]:
start_date = '2023-04-06'
end_date = '2024-08-25'

df = df[(df['Fecha'] >= start_date) & (df['Fecha'] <= end_date)]
df

Unnamed: 0,Fecha,Hora,Miembro,Mensaje
0,2024-04-06,12:35 PM,Jose Hancco,<Media omitted>
1,2024-04-06,12:36 PM,Jose Hancco,"Pera, como q _estoy comiendo asi_"
2,2024-04-06,12:36 PM,Jose Hancco,Acaso esta mal?
3,2024-04-06,12:36 PM,Jose Hancco,<Media omitted>
4,2024-04-06,12:36 PM,Jose Hancco,"Mmmm sip, mi app da la letra"
...,...,...,...,...
99926,2024-08-25,6:46 PM,🪐❤️,Por eso pregunto peque
99927,2024-08-25,6:46 PM,Jose Hancco,tranqui
99928,2024-08-25,6:46 PM,Jose Hancco,dejame un rato
99929,2024-08-25,6:46 PM,Jose Hancco,intentar algo


### Paso 3: Estadísticas de mensajes, multimedia, emojis y links

#### Total de mensajes, multimedia, emojis y links enviados

In [None]:
def ObtenerEmojis(Mensaje):
    emoji_lista = []
    data = regex.findall(r'\X', Mensaje)  # Obtener lista de caracteres de cada mensaje
    for caracter in data:
        if demoji.replace(caracter) != caracter:
            emoji_lista.append(caracter)
    return emoji_lista

# Obtener la cantidad total de mensajes
total_mensajes = df.shape[0]

# Obtener la cantidad de archivos multimedia enviados
multimedia_mensajes = df[df['Mensaje'] == '<Media omitted>'].shape[0]

# Obtener la cantidad de emojis enviados
df['Emojis'] = df['Mensaje'].apply(ObtenerEmojis) # Se agrega columna 'Emojis'
emojis = sum(df['Emojis'].str.len())

# Obtener la cantidad de links enviados
url_patron = r'(https?://\S+)'
df['URLs'] = df.Mensaje.apply(lambda x: len(re.findall(url_patron, x))) # Se agrega columna 'URLs'
links = sum(df['URLs'])

# Obtener la cantidad de encuestas
encuestas = df[df['Mensaje'] == 'POLL:'].shape[0]

# Todos los datos pasarlo a diccionario
estadistica_dict = {'Tipo': ['Mensajes', 'Multimedia', 'Emojis', 'Links', 'Encuestas'],
        'Cantidad': [total_mensajes, multimedia_mensajes, emojis, links, encuestas]
        }

#Convertir diccionario a dataframe
estadistica_df = pd.DataFrame(estadistica_dict, columns = ['Tipo', 'Cantidad'])

# Establecer la columna Tipo como índice
estadistica_df = estadistica_df.set_index('Tipo')
estadistica_df

Unnamed: 0_level_0,Cantidad
Tipo,Unnamed: 1_level_1
Mensajes,99931
Multimedia,13579
Emojis,4069
Links,175
Encuestas,2


#### Emojis más usados

In [None]:
# Obtener emojis más usados y las cantidades en el chat del grupo del dataframe
emojis_lista = list([a for b in df.Emojis for a in b])
emoji_diccionario = dict(Counter(emojis_lista))
emoji_diccionario = sorted(emoji_diccionario.items(), key=lambda x: x[1], reverse=True)

# Convertir el diccionario a dataframe
emoji_df = pd.DataFrame(emoji_diccionario, columns=['Emoji', 'Cantidad'])

# Establecer la columna Emoji como índice
emoji_df = emoji_df.set_index('Emoji').head(10)

print('Número emojis únicos usados: ', len(emoji_df), '\n')
emoji_df

Número emojis únicos usados:  10 



Unnamed: 0_level_0,Cantidad
Emoji,Unnamed: 1_level_1
❤️,2334
💀,262
🤡,198
🥵,91
🥶,89
💅,88
🍐,82
👌,68
🥰,52
💔,47


In [None]:
# Plotear el pie de los emojis más usados
fig = px.pie(emoji_df, values='Cantidad', names=emoji_df.index, hole=.3, template='plotly_dark', color_discrete_sequence=px.colors.qualitative.Pastel2)
fig.update_traces(textposition='inside', textinfo='percent+label', textfont_size=20)
fig.update_layout(title={'text': '🤗 Emojis que más usamos', 'y':0.96, 'x':0.5, 'xanchor': 'center'}, font=dict(size=17))
fig.show()

### Paso 4: Estadísticas de los miembros del grupo

#### Miembros más activos

In [None]:
# Determinar los miembros más activos del grupo
df_MiembrosActivos = df.groupby('Miembro')['Mensaje'].count().sort_values(ascending=False).to_frame()
df_MiembrosActivos.reset_index(inplace=True)
df_MiembrosActivos.index = np.arange(1, len(df_MiembrosActivos)+1)
df_MiembrosActivos['% Mensaje'] = (df_MiembrosActivos['Mensaje'] / df_MiembrosActivos['Mensaje'].sum()) * 100
df_MiembrosActivos

Unnamed: 0,Miembro,Mensaje,% Mensaje
1,🪐❤️,50210,50.244669
2,Jose Hancco,49720,49.75433
3,🪐❤️:,1,0.001001


#### Estadísticas por miembro

In [None]:
# Separar mensajes (sin multimedia) y multimedia (stickers, fotos, videos)
multimedia_df = df[df['Mensaje'] == '<Media omitted>']
mensajes_df = df.drop(multimedia_df.index)

# Contar la cantidad de palabras y letras por mensaje
mensajes_df['Letras'] = mensajes_df['Mensaje'].apply(lambda s : len(s))
mensajes_df['Palabras'] = mensajes_df['Mensaje'].apply(lambda s : len(s.split(' ')))
mensajes_df.tail()

Unnamed: 0,Fecha,Hora,Miembro,Mensaje,Emojis,URLs,Letras,Palabras
99926,2024-08-25,6:46 PM,🪐❤️,Por eso pregunto peque,[],0,22,4
99927,2024-08-25,6:46 PM,Jose Hancco,tranqui,[],0,7,1
99928,2024-08-25,6:46 PM,Jose Hancco,dejame un rato,[],0,14,3
99929,2024-08-25,6:46 PM,Jose Hancco,intentar algo,[],0,13,2
99930,2024-08-25,6:46 PM,Jose Hancco,y te digo,[],0,9,3


In [None]:
# Obtener a todos los miembros
miembros = mensajes_df.Miembro.unique()

# Crear diccionario donde se almacenará todos los datos
dictionario = {}

for i in range(len(miembros)):
    lista = []
    # Filtrar mensajes de un miembro en específico
    miembro_df= mensajes_df[mensajes_df['Miembro'] == miembros[i]]

    # Agregar a la lista el número total de mensajes enviados
    lista.append(miembro_df.shape[0])
    
    # Agregar a la lista el número de palabras por total de mensajes (palabras por mensaje)
    palabras_por_msj = (np.sum(miembro_df['Palabras']))/miembro_df.shape[0]
    lista.append(palabras_por_msj)

    # Agregar a la lista el número de mensajes multimedia enviados
    multimedia = multimedia_df[multimedia_df['Miembro'] == miembros[i]].shape[0]
    lista.append(multimedia)

    # Agregar a la lista el número total de emojis enviados
    emojis = sum(miembro_df['Emojis'].str.len())
    lista.append(emojis)

    # Agregar a la lista el número total de links enviados
    links = sum(miembro_df['URLs'])
    lista.append(links)

    # Asignar la lista como valor a la llave del diccionario
    dictionario[miembros[i]] = lista
    
print(dictionario)

{'Jose Hancco': [44445, 3.50867364157948, 5275, 3487, 138], '🪐❤️': [41906, 3.2341192192048873, 8304, 582, 37], '🪐❤️:': [1, 1.0, 0, 0, 0]}


In [None]:
# Convertir de diccionario a dataframe
miembro_stats_df = pd.DataFrame.from_dict(dictionario)

# Cambiar el índice por la columna agregada 'Estadísticas'
estadísticas = ['Mensajes', 'Palabras por mensaje', 'Multimedia', 'Emojis', 'Links']
miembro_stats_df['Estadísticas'] = estadísticas
miembro_stats_df.set_index('Estadísticas', inplace=True)

# Transponer el dataframe
miembro_stats_df = miembro_stats_df.T

#Convertir a integer las columnas Mensajes, Multimedia Emojis y Links
miembro_stats_df['Mensajes'] = miembro_stats_df['Mensajes'].apply(int)
miembro_stats_df['Multimedia'] = miembro_stats_df['Multimedia'].apply(int)
miembro_stats_df['Emojis'] = miembro_stats_df['Emojis'].apply(int)
miembro_stats_df['Links'] = miembro_stats_df['Links'].apply(int)
miembro_stats_df = miembro_stats_df.sort_values(by=['Mensajes'], ascending=False)
miembro_stats_df

Estadísticas,Mensajes,Palabras por mensaje,Multimedia,Emojis,Links
Jose Hancco,44445,3.508674,5275,3487,138
🪐❤️,41906,3.234119,8304,582,37
🪐❤️:,1,1.0,0,0,0


### Paso 5: Estadísticas del comportamiento del grupo

In [None]:
df['rangoHora'] = pd.to_datetime(df['Hora'], format='%I:%M %p')

# Define a function to create the "Range Hour" column
def create_range_hour(hour):
    hour = pd.to_datetime(hour)  # Convertir a objeto de Python datetime si es necesario
    start_hour = hour.hour
    end_hour = (hour + pd.Timedelta(hours=1)).hour
    return f'{start_hour:02d} - {end_hour:02d} h'

# # Apply the function to create the "Range Hour" column
df['rangoHora'] = df['rangoHora'].apply(create_range_hour)
df

Unnamed: 0,Fecha,Hora,Miembro,Mensaje,Emojis,URLs,rangoHora
0,2024-04-06,12:35 PM,Jose Hancco,<Media omitted>,[],0,12 - 13 h
1,2024-04-06,12:36 PM,Jose Hancco,"Pera, como q _estoy comiendo asi_",[],0,12 - 13 h
2,2024-04-06,12:36 PM,Jose Hancco,Acaso esta mal?,[],0,12 - 13 h
3,2024-04-06,12:36 PM,Jose Hancco,<Media omitted>,[],0,12 - 13 h
4,2024-04-06,12:36 PM,Jose Hancco,"Mmmm sip, mi app da la letra",[],0,12 - 13 h
...,...,...,...,...,...,...,...
99926,2024-08-25,6:46 PM,🪐❤️,Por eso pregunto peque,[],0,18 - 19 h
99927,2024-08-25,6:46 PM,Jose Hancco,tranqui,[],0,18 - 19 h
99928,2024-08-25,6:46 PM,Jose Hancco,dejame un rato,[],0,18 - 19 h
99929,2024-08-25,6:46 PM,Jose Hancco,intentar algo,[],0,18 - 19 h


In [None]:
df['DiaSemana'] = df['Fecha'].dt.strftime('%A')
mapeo_dias_espanol = {'Monday': '1 Lunes','Tuesday': '2 Martes','Wednesday': '3 Miércoles','Thursday': '4 Jueves',
                      'Friday': '5 Viernes','Saturday': '6 Sábado','Sunday': '7 Domingo'}
df['DiaSemana'] = df['DiaSemana'].map(mapeo_dias_espanol)
df

Unnamed: 0,Fecha,Hora,Miembro,Mensaje,Emojis,URLs,rangoHora,DiaSemana
0,2024-04-06,12:35 PM,Jose Hancco,<Media omitted>,[],0,12 - 13 h,6 Sábado
1,2024-04-06,12:36 PM,Jose Hancco,"Pera, como q _estoy comiendo asi_",[],0,12 - 13 h,6 Sábado
2,2024-04-06,12:36 PM,Jose Hancco,Acaso esta mal?,[],0,12 - 13 h,6 Sábado
3,2024-04-06,12:36 PM,Jose Hancco,<Media omitted>,[],0,12 - 13 h,6 Sábado
4,2024-04-06,12:36 PM,Jose Hancco,"Mmmm sip, mi app da la letra",[],0,12 - 13 h,6 Sábado
...,...,...,...,...,...,...,...,...
99926,2024-08-25,6:46 PM,🪐❤️,Por eso pregunto peque,[],0,18 - 19 h,7 Domingo
99927,2024-08-25,6:46 PM,Jose Hancco,tranqui,[],0,18 - 19 h,7 Domingo
99928,2024-08-25,6:46 PM,Jose Hancco,dejame un rato,[],0,18 - 19 h,7 Domingo
99929,2024-08-25,6:46 PM,Jose Hancco,intentar algo,[],0,18 - 19 h,7 Domingo


#### Número de mensajes por rango de hora

In [None]:
# Crear una columna de 1 para realizar el conteo de mensajes
df['# Mensajes por hora'] = 1

# Sumar (contar) los mensajes que tengan la misma fecha
mensajes_hora = df.groupby('rangoHora').count().reset_index()

# Plotear la cantidad de mensajes respecto del tiempo
fig = px.line(mensajes_hora, x='rangoHora', y='# Mensajes por hora', color_discrete_sequence=['salmon'], template='plotly_dark')

# Ajustar el gráfico
fig.update_layout(
    title={'text': 'Mensajes con ella ❤️ por hora', 'y':0.96, 'x':0.5, 'xanchor': 'center'},
    font=dict(size=17))
fig.update_traces(mode='markers+lines', marker=dict(size=10))
fig.update_xaxes(title_text='Rango de hora', tickangle=30)
fig.update_yaxes(title_text='# Mensajes')
fig.show()

#### Número de mensajes por día

In [None]:
# Crear una columna de 1 para realizar el conteo de mensajes
df['# Mensajes por día'] = 1

# Sumar (contar) los mensajes que tengan la misma fecha
date_df = df.groupby('DiaSemana').count().reset_index()


# Plotear la cantidad de mensajes respecto del tiempo
fig = px.line(date_df, x='DiaSemana', y='# Mensajes por día', color_discrete_sequence=['salmon'], template='plotly_dark')

# Ajustar el gráfico
fig.update_layout(
    title={'text': 'Mensajes con ella ❤️ por día', 'y':0.96, 'x':0.5, 'xanchor': 'center'},
    font=dict(size=17))
fig.update_traces(mode='markers+lines', marker=dict(size=10))
fig.update_xaxes(title_text='Día', tickangle=30)
fig.update_yaxes(title_text='# Mensajes')
fig.show()

#### Número de mensajes a través del tiempo

In [None]:
# Crear una columna de 1 para realizar el conteo de mensajes
df['# Mensajes por día'] = 1

# Sumar (contar) los mensajes que tengan la misma fecha
date_df = df.groupby('Fecha').sum().reset_index()

# Plotear la cantidad de mensajes respecto del tiempo
fig = px.line(date_df, x='Fecha', y='# Mensajes por día', color_discrete_sequence=['salmon'], template='plotly_dark')

# Ajustar el gráfico
fig.update_layout(
    title={'text': 'Mensajes con ella ❤️ a lo largo del tiempo', 'y':0.96, 'x':0.5, 'xanchor': 'center'},
    font=dict(size=17))
fig.update_xaxes(title_text='Fecha', tickangle=45, nticks=35)
fig.update_yaxes(title_text='# Mensajes')
fig.show()


The default value of numeric_only in DataFrameGroupBy.sum is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



#### Word Cloud de palabras más usadas

In [None]:
# Crear un string que contendrá todas las palabras
total_palabras = ' '
stopwords = STOPWORDS.update(['que', 'qué', 'con', 'de', 'te', 'en', 'la', 'lo', 'le', 'el', 'las', 'los', 'les', 'por', 'es',
                              'son', 'se', 'para', 'un', 'una', 'chicos', 'su', 'si', 'chic','nos', 'ya', 'hay', 'esta',
                              'pero', 'del', 'mas', 'más', 'eso', 'este', 'como', 'así', 'todo', 'https','Media','omitted',
                              'y', 'mi', 'o', 'q', 'yo', 'al'])

mask = np.array(Image.open('Resources/heart.jpg'))

# Obtener y acumular todas las palabras de cada mensaje
for mensaje in mensajes_df['Mensaje'].values:
    palabras = str(mensaje).lower().split() # Obtener las palabras de cada línea del txt
    for palabra in palabras:
        total_palabras = total_palabras + palabra + ' ' # Acumular todas las palabras

wordcloud = WordCloud(width = 800, height = 800, background_color ='black', stopwords = stopwords,
                      max_words=100, min_font_size = 5,
                      mask = mask, colormap='OrRd',).generate(total_palabras)

# Plotear la nube de palabras más usadas
wordcloud.to_image()

KeyboardInterrupt: 