# Análisis General del Chat de whatsapp

## Librerías

In [1]:
import pandas as pd
import numpy as np

## Cargamos los datos preparados

In [2]:
df = pd.read_csv('../data/data_clear.csv')
df

Unnamed: 0,Date,Day,Num_Day,Month,Num_Month,Year,Time,Author,Message
0,20/11/2021,Sabado,20,Nov,11,2021,15:37:00,user 0,<Multimedia omitido>
1,20/11/2021,Sabado,20,Nov,11,2021,15:53:00,user 1,<Multimedia omitido>
2,20/11/2021,Sabado,20,Nov,11,2021,15:57:00,user 2,<Multimedia omitido>
3,20/11/2021,Sabado,20,Nov,11,2021,16:20:00,user 3,Buenas tardes!! Tienen el número de la carpint...
4,20/11/2021,Sabado,20,Nov,11,2021,16:26:00,user 4,<Multimedia omitido>
...,...,...,...,...,...,...,...,...,...
8257,29/04/2022,Viernes,29,Abr,4,2022,15:57:00,user 28,<Multimedia omitido>
8258,29/04/2022,Viernes,29,Abr,4,2022,17:11:00,user 0,<Multimedia omitido>
8259,29/04/2022,Viernes,29,Abr,4,2022,19:50:00,user 0,<Multimedia omitido>
8260,29/04/2022,Viernes,29,Abr,4,2022,20:03:00,user 14,<Multimedia omitido>


## Estadística Básica del DataFrame

In [3]:
total_message = df.shape[0]
media_message = df[df['Message'] == '<Multimedia omitido>'].shape[0]
del_message = df[df['Message'] == 'Se eliminó este mensaje'].shape[0]

print('Numero de Mensajes: ', total_message)
print('Numero de Mensajes multimedia: ', media_message)
print('numero de mensajes eliminados: ', del_message)
print(f'Porcentaje de Mensajes Multimedia: {(media_message/total_message)*100:.2f}%')
print(f'Porcentaje de Mensajes eliminados: {(del_message/total_message)*100:.2f}%')

Numero de Mensajes:  8262
Numero de Mensajes multimedia:  4776
numero de mensajes eliminados:  147
Porcentaje de Mensajes Multimedia: 57.81%
Porcentaje de Mensajes eliminados: 1.78%


## Cantidad de letras por mensaje

Creamos una nueva columna donde vamos a almacenar la cantidad de letras por cada registro

In [4]:
df['Letters'] = df['Message'].apply(lambda s:len(s))

df

Unnamed: 0,Date,Day,Num_Day,Month,Num_Month,Year,Time,Author,Message,Letters
0,20/11/2021,Sabado,20,Nov,11,2021,15:37:00,user 0,<Multimedia omitido>,20
1,20/11/2021,Sabado,20,Nov,11,2021,15:53:00,user 1,<Multimedia omitido>,20
2,20/11/2021,Sabado,20,Nov,11,2021,15:57:00,user 2,<Multimedia omitido>,20
3,20/11/2021,Sabado,20,Nov,11,2021,16:20:00,user 3,Buenas tardes!! Tienen el número de la carpint...,75
4,20/11/2021,Sabado,20,Nov,11,2021,16:26:00,user 4,<Multimedia omitido>,20
...,...,...,...,...,...,...,...,...,...,...
8257,29/04/2022,Viernes,29,Abr,4,2022,15:57:00,user 28,<Multimedia omitido>,20
8258,29/04/2022,Viernes,29,Abr,4,2022,17:11:00,user 0,<Multimedia omitido>,20
8259,29/04/2022,Viernes,29,Abr,4,2022,19:50:00,user 0,<Multimedia omitido>,20
8260,29/04/2022,Viernes,29,Abr,4,2022,20:03:00,user 14,<Multimedia omitido>,20


## Cantidad de palabras por mensaje

Creamos una nueva columna donde vamos a almacenar la cantidad de palabra por mensaje

In [5]:
df['Words'] = df['Message'].apply(lambda s:len(s.split(' ')))

df

Unnamed: 0,Date,Day,Num_Day,Month,Num_Month,Year,Time,Author,Message,Letters,Words
0,20/11/2021,Sabado,20,Nov,11,2021,15:37:00,user 0,<Multimedia omitido>,20,2
1,20/11/2021,Sabado,20,Nov,11,2021,15:53:00,user 1,<Multimedia omitido>,20,2
2,20/11/2021,Sabado,20,Nov,11,2021,15:57:00,user 2,<Multimedia omitido>,20,2
3,20/11/2021,Sabado,20,Nov,11,2021,16:20:00,user 3,Buenas tardes!! Tienen el número de la carpint...,75,12
4,20/11/2021,Sabado,20,Nov,11,2021,16:26:00,user 4,<Multimedia omitido>,20,2
...,...,...,...,...,...,...,...,...,...,...,...
8257,29/04/2022,Viernes,29,Abr,4,2022,15:57:00,user 28,<Multimedia omitido>,20,2
8258,29/04/2022,Viernes,29,Abr,4,2022,17:11:00,user 0,<Multimedia omitido>,20,2
8259,29/04/2022,Viernes,29,Abr,4,2022,19:50:00,user 0,<Multimedia omitido>,20,2
8260,29/04/2022,Viernes,29,Abr,4,2022,20:03:00,user 14,<Multimedia omitido>,20,2


## Cantidad de Links

Debemos recordar que en la limpieza de datos convertimos los enlaces en la cadena LLLL, por lo que vamos a buscar los enlaces por mensajes y guardar dicha cantidad en una nueva columna para que al final sumemos todos los valores de la nueva columna

In [6]:
# contar el numero de links por mensaje y guardarlo en la nueva columna
df['URL_count'] = df.Message.apply(lambda x:x.count('LLLL'))

# contar todos los valores de la nueva columna
links = np.sum(df.URL_count)

links

225

## Estadística Básica de cada miembro del chat

Seleccionamos los registros con mensajes que no sean solo multimedia

In [7]:
# dataframe sin multimedia
df_noMedia = df[df['Message'] != '<Multimedia omitido>']
df_noMedia.shape


(3486, 12)

Iteramos sobre cada miembro y calculamos el total de mensajes enviados, total de mensajes multimedia y el promedio de palabras por mensaje

In [8]:
# listamos los miembros del grupo
member = df.Author.unique()

# creamos un Dataframe para guardar los valores
stat_df = pd.DataFrame(columns=['Author', 'N_Message', 'N_Multimedia', 'Prom_Words'])

# creamos una lista donde gurdamos los valores que vamos a pasar al DataFrame
list_val = []

# iteramos sobre cada miembro para mostrar su respectiva informacion
for i in enumerate(member):
    
    # filtramos los mensajes de cada miembro
    member = df[df['Author'] == i[1]]
    
    # filtramos los mensajes de cada miembro que no sean multimedia
    member_noMedia = df_noMedia[df_noMedia['Author'] == i[1]]

    # cantidad de mensajes multimedia
    media = sum(member['Message'] == '<Multimedia omitido>')

    # promedio de palabras por mensaje
    if member_noMedia.shape[0] == 0:
        word_per_message = 0
    else:
        word_per_message = np.sum(member_noMedia['Words'])/member_noMedia.shape[0]
    
    word_per_message = ('%.2f' % round(word_per_message, 2))
    
    list_val = [
        {'Author':i[1], 
        'N_Message':member.shape[0], 
        'N_Multimedia':media, 
        'Prom_Words':word_per_message}
    ]
    
    stat_df = pd.concat([stat_df, pd.DataFrame(list_val)], ignore_index=True)



In [9]:
stat_df

Unnamed: 0,Author,N_Message,N_Multimedia,Prom_Words
0,user 0,69,66,15.33
1,user 1,1,1,0.00
2,user 2,198,173,9.56
3,user 3,127,72,13.78
4,user 4,140,133,13.86
...,...,...,...,...
228,user 228,2,2,0.00
229,user 229,13,4,5.78
230,user 230,3,0,7.67
231,user 231,1,0,4.00
