# Proyecto análisis de conversación de mensajería

## Cargar datos
- Exportar una conversación personal o grupal de Whastapp o Telegram en un formato adecuado (JSON, CSV, etc), no exportar audios, archivos multimedia, etc
- Importar archivo y convertirlo en dataframe
- Obtener y graficar los siguientes datos. Elegir el gráfico que mejor represente los datos

In [7]:
import json
import datetime 
import pandas as pd


chat = open('data/result.json', encoding='utf8')

data = json.load(chat)

df = pd.DataFrame(data["messages"])
df

Unnamed: 0,id,type,date,actor,actor_id,action,inviter,text,from,from_id,members,edited,reply_to_message_id,file,mime_type
0,1055,service,2021-08-09T15:36:57,Delfina Quinteros,user991384208,join_group_by_link,Group,,,,,,,,
1,1056,service,2021-08-09T15:37:13,Enzo Fernandez,user1726569146,join_group_by_link,Group,,,,,,,,
2,1057,service,2021-08-09T15:38:24,Lucas Ollarce,user623280426,join_group_by_link,Group,,,,,,,,
3,1058,service,2021-08-09T15:39:00,Bruno,user1133965522,join_group_by_link,Group,,,,,,,,
4,1059,service,2021-08-09T16:27:09,Santiago Martinez,user807010702,join_group_by_link,Group,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
89,1207,message,2021-09-27T20:21:52,,,,,Les dejo los links a videos y material en PowerBi,Gabriel Arenas 🇦🇷,user192620519,,,,,
90,1208,message,2021-09-27T20:22:06,,,,,"[El video que vimos: , {'type': 'link', 'text'...",Gabriel Arenas 🇦🇷,user192620519,,,,,
91,1209,message,2021-09-27T20:25:27,,,,,"[Este otro ejemplo del que les hable, panel d...",Gabriel Arenas 🇦🇷,user192620519,,,,,
92,1210,message,2021-09-27T20:29:53,,,,,"[En esta página, encuentran datasets de difer...",Gabriel Arenas 🇦🇷,user192620519,,,,,


### Cantidad de mensajes enviados por cada usuario

In [8]:
groups = ['from']
df.groupby(groups, as_index=False).agg(mensajes = ('text', 'count'))

Unnamed: 0,from,mensajes
0,Andrea Navarro (juncotic.com),3
1,Arian M,8
2,Bruno,1
3,Daniel Beato,2
4,Danilo Verardo,1
5,Delfina Quinteros,2
6,Douglas,2
7,Emiliano Muñoz,3
8,Enzo Fernandez,1
9,Facu Luna,1


### Promedio de palabras utilizadas por mensaje por cada usuario

In [9]:
df['total_words'] = [len(str(x).split(" ")) for x in df['text']]
df.groupby(['from'])[['total_words']].mean()

Unnamed: 0_level_0,total_words
from,Unnamed: 1_level_1
Andrea Navarro (juncotic.com),4.666667
Arian M,4.25
Bruno,4.0
Daniel Beato,3.0
Danilo Verardo,8.0
Delfina Quinteros,7.0
Douglas,4.5
Emiliano Muñoz,6.333333
Enzo Fernandez,4.0
Facu Luna,4.0


### Porcentaje de mensajes enviados por cada usuario

In [10]:
total_messages = df['id'].count()
df.groupby(
    ['from'],
    as_index=False
).agg(average=('id', lambda x: (x.count()/total_messages)*100))

Unnamed: 0,from,average
0,Andrea Navarro (juncotic.com),3.191489
1,Arian M,8.510638
2,Bruno,1.06383
3,Daniel Beato,2.12766
4,Danilo Verardo,1.06383
5,Delfina Quinteros,2.12766
6,Douglas,2.12766
7,Emiliano Muñoz,3.191489
8,Enzo Fernandez,1.06383
9,Facu Luna,1.06383


### Frecuencia de envío de mensaje dependiendo la hora del día

In [11]:
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%dT%H:%M:%S')
groups = [df['date'].dt.hour]
df_aux = df.groupby(groups).agg(frecuency=('id','count'))
df_aux

Unnamed: 0_level_0,frecuency
date,Unnamed: 1_level_1
9,1
10,1
12,1
15,5
16,8
17,30
18,34
19,8
20,5
23,1


### Frecuencia de envío de mensaje dependiendo del día de la semana

In [12]:
groups = [df['date'].dt.weekday]
df_aux = df.groupby(groups).agg(frecuency=('id','count'))
df_aux

Unnamed: 0_level_0,frecuency
date,Unnamed: 1_level_1
0,87
5,4
6,3


### Hora del día preferida por cada usuario para enviar mensajeszz

In [13]:
groups = ["from"]
df.groupby(groups).agg(preferida = ("date", lambda x: x.dt.hour.mode()))

Unnamed: 0_level_0,preferida
from,Unnamed: 1_level_1
Andrea Navarro (juncotic.com),17
Arian M,18
Bruno,18
Daniel Beato,"[10, 18]"
Danilo Verardo,17
Delfina Quinteros,"[17, 18]"
Douglas,"[17, 19]"
Emiliano Muñoz,17
Enzo Fernandez,19
Facu Luna,19


### Día de la semana preferida por cada usuario para enviar mensajes

In [14]:
groups = ["from"]
df.groupby(groups).agg(dia_preferido= ("date", lambda x: x.dt.weekday.mode()))

Unnamed: 0_level_0,dia_preferido
from,Unnamed: 1_level_1
Andrea Navarro (juncotic.com),0
Arian M,5
Bruno,0
Daniel Beato,0
Danilo Verardo,0
Delfina Quinteros,0
Douglas,0
Emiliano Muñoz,0
Enzo Fernandez,0
Facu Luna,0


### Cantidad promedio de mensajes enviados por hora para cada usuario

In [15]:
df['time'] = [x.hour for x in df['date']]
hours = []
for i in df['date']:
    hours.append(i.hour)
groups = [df['time'],'from']
agregar = {'id': lambda x: x.count()}
df.groupby(groups).agg(agregar)

Unnamed: 0_level_0,Unnamed: 1_level_0,id
time,from,Unnamed: 2_level_1
9,Gabriel Arenas 🇦🇷,1
10,Daniel Beato,1
12,Yago,1
15,Ramiro Alberto Giandinoto,1
16,Andrea Navarro (juncotic.com),1
16,Ramiro Alberto Giandinoto,1
17,Andrea Navarro (juncotic.com),2
17,Arian M,2
17,Danilo Verardo,1
17,Delfina Quinteros,1


### Cantidad de usuarios promedio que envían mensaje por cada día de la semana

In [16]:
number_of_weeks = ((df['date'].max() - df['date'].min()).days)/7
print(number_of_weeks)
groups = ['from',df['date'].dt.weekday]
print(df['from'].unique())
df_aux = df.groupby( groups).agg(total_messages=('from',lambda x: x.count()/number_of_weeks)
                       )
df_aux.groupby(['date']).agg(total_users = ('total_messages',lambda x: x.sum()/len(df_aux.index.unique())))

7.0
[nan 'Andrea Navarro (juncotic.com)' 'Ramiro Alberto Giandinoto' 'seba F'
 'Fede Pardo' 'Santiago Riera' 'Juan Pablo Garcia' 'Arian M' 'Lautaro G'
 'Lucas Galdame' 'Juli Navarrete' 'Emiliano Muñoz' 'Delfina Quinteros'
 'Danilo Verardo' 'Santiago Moyano' 'Douglas' 'Gabriel Arenas 🇦🇷'
 'Daniel Beato' 'Yago' 'Giancarlo Galvarini' 'Santiago Martinez' 'Bruno'
 'Matias' 'Lucas Ollarce' 'Nicolás Olivares' 'jose Ruti' 'Enzo Fernandez'
 'Facu Luna']


Unnamed: 0_level_0,total_users
date,Unnamed: 1_level_1
0,0.313364
5,0.018433
6,0.013825


### Cantidad de mensajes envíados por mes

In [20]:
groups = ['from',df['date'].dt.month]
df_aux = df.groupby(groups).agg(total_messages = ('id', lambda x: x.count()))
df_aux

Unnamed: 0_level_0,Unnamed: 1_level_0,total_messages
from,date,Unnamed: 2_level_1
Andrea Navarro (juncotic.com),8,3
Arian M,8,2
Arian M,9,6
Bruno,9,1
Daniel Beato,9,2
Danilo Verardo,8,1
Delfina Quinteros,8,1
Delfina Quinteros,9,1
Douglas,8,1
Douglas,9,1


### Cantidad mínima, máxima y promedio de palabras por mensaje

In [19]:
groups = ['total_words']
agregar = {'total_words':["min", "max", "mean"]}
df.groupby(groups).agg(agregar)

Unnamed: 0_level_0,total_words,total_words,total_words
Unnamed: 0_level_1,min,max,mean
total_words,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,1,1,1.0
2,2,2,2.0
3,3,3,3.0
4,4,4,4.0
5,5,5,5.0
6,6,6,6.0
7,7,7,7.0
8,8,8,8.0
9,9,9,9.0
10,10,10,10.0
