# Proyecto análisis de conversación de mensajería

## Cargar datos
- Exportar una conversación personal o grupal de Whastapp o Telegram en un formato adecuado (JSON, CSV, etc), no exportar audios, archivos multimedia, etc
- Importar archivo y convertirlo en dataframe
- Obtener y graficar los siguientes datos. Elegir el gráfico que mejor represente los datos

In [19]:
import json
import pandas as pd
import datetime
with open ('/home/santiagom/BDD-II-2021/data/basededatos.json', 'r') as file:
    data = json.load(file)

df = pd.DataFrame(data["messages"])
df

Unnamed: 0,id,type,date,actor,actor_id,action,inviter,text,from,from_id,members,edited,reply_to_message_id,file,mime_type,photo,width,height
0,2779,service,2021-08-09T15:35:59,Santiago Moyano,user1133947710,join_group_by_link,Group,,,,,,,,,,,
1,2780,service,2021-08-09T15:36:50,Jose Ruti,user1274646303,join_group_by_link,Group,,,,,,,,,,,
2,2781,service,2021-08-09T15:36:57,Delfina,user991384208,join_group_by_link,Group,,,,,,,,,,,
3,2782,service,2021-08-09T15:37:13,Enzo Fernández,user1726569146,join_group_by_link,Group,,,,,,,,,,,
4,2783,service,2021-08-09T15:38:24,Lucas Ollarce,user623280426,join_group_by_link,Group,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
98,3051,message,2021-10-04T18:19:30,,,,,okey profe,Santiago Moyano,user1133947710,,,,,,,,
99,3145,message,2021-10-18T18:03:19,,,,,"Buenas tardes, chicos, arrancamos meet 18:30 hs",Gabriel Arenas 🇦🇷,user192620519,,,,,,,,
100,3146,message,2021-10-18T18:04:03,,,,,okey!,Giancarlo Galvarini,user1009916191,,,,,,,,
101,3147,message,2021-10-18T18:16:05,,,,,,Santiago Riera,user805229404,,,,,,(File not included. Change data exporting sett...,737.0,448.0


### Cantidad de mensajes enviados por cada usuario

In [2]:


# agrupado por nombre de usuario
"""df[df['usuario'] == 'from'].groupby('from').agg(
    Especificar nombre de columnas de agregación
    total_mensajes=('from', "count"),   
    max_quantiy=('quantity', "max"),  
    most_common_card=("card", lambda x: x.mode())    
)"""

groups = ['from']

df.groupby( groups, as_index=False).agg(mensajes = ('text', 'count'))


#df.groupby('from')[['id']].count()



Unnamed: 0,from,mensajes
0,Andrea Navarro (juncotic.com),3
1,Arian M,8
2,Bruno R,1
3,Danilo Verardo,1
4,Delfina,2
5,Douglas,2
6,Emiliano Muñoz,3
7,Enzo Fernández,1
8,Facu Luna,1
9,Fede Pardo,4


### Promedio de palabras utilizadas por mensaje por cada usuario

In [3]:
# columna con promedio de palabras de cada mensaje

# agrupamiento por usuario y cantidad de palabras


df['total_words'] = [len(str(x).split(" ")) for x in df['text']]
df.groupby(['from'])[['total_words']].mean()

Unnamed: 0_level_0,total_words
from,Unnamed: 1_level_1
Andrea Navarro (juncotic.com),4.666667
Arian M,4.25
Bruno R,4.0
Danilo Verardo,8.0
Delfina,7.0
Douglas,4.5
Emiliano Muñoz,6.333333
Enzo Fernández,4.0
Facu Luna,4.0
Fede Pardo,2.25


### Porcentaje de mensajes enviados por cada usuario

In [4]:
total_messages = df['id'].count()
df.groupby(
   ['from'],
    as_index=False 
).agg(average=('id',lambda x: (x.count()/total_messages)*100) )

Unnamed: 0,from,average
0,Andrea Navarro (juncotic.com),2.912621
1,Arian M,7.76699
2,Bruno R,0.970874
3,Danilo Verardo,0.970874
4,Delfina,1.941748
5,Douglas,1.941748
6,Emiliano Muñoz,2.912621
7,Enzo Fernández,0.970874
8,Facu Luna,0.970874
9,Fede Pardo,3.883495


### Frecuencia de envío de mensaje dependiendo la hora del día

In [10]:
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%dT%H:%M:%S')
groups = [df['date'].dt.hour]
df_aux = df.groupby(groups).agg(frecuency=('id','count'))
df_aux

Unnamed: 0_level_0,frecuency
date,Unnamed: 1_level_1
9,1
10,1
12,1
15,7
16,8
17,30
18,41
19,8
20,5
23,1


### Frecuencia de envío de mensaje dependiendo del día de la semana

In [11]:
groups = [df['date'].dt.weekday]
df_aux = df.groupby(groups).agg(frecuency=('id','count'))
df_aux

Unnamed: 0_level_0,frecuency
date,Unnamed: 1_level_1
0,96
5,4
6,3


### Hora del día preferida por cada usuario para enviar mensajes

In [12]:
groups = ["from"]
df.groupby(groups).agg(preferida = ("date", lambda x: x.dt.hour.mode()))

Unnamed: 0_level_0,preferida
from,Unnamed: 1_level_1
Andrea Navarro (juncotic.com),17
Arian M,18
Bruno R,18
Danilo Verardo,17
Delfina,"[17, 18]"
Douglas,"[17, 19]"
Emiliano Muñoz,17
Enzo Fernández,19
Facu Luna,19
Fede Pardo,17


### Día de la semana preferida por cada usuario para enviar mensajes

In [13]:
groups = ["from"]
df.groupby(groups).agg(dia_preferido= ("date", lambda x: x.dt.weekday.mode()))

Unnamed: 0_level_0,dia_preferido
from,Unnamed: 1_level_1
Andrea Navarro (juncotic.com),0
Arian M,5
Bruno R,0
Danilo Verardo,0
Delfina,0
Douglas,0
Emiliano Muñoz,0
Enzo Fernández,0
Facu Luna,0
Fede Pardo,0


### Cantidad promedio de mensajes enviados por hora para cada usuario

In [14]:
df['time'] = [x.hour for x in df['date']]
hours = []
for i in df['date']:
    hours.append(i.hour)
groups = [df['time'],'from']
agregar = {'id': lambda x: x.count()}
df.groupby(groups).agg(agregar)

Unnamed: 0_level_0,Unnamed: 1_level_0,id
time,from,Unnamed: 2_level_1
9,Gabriel Arenas 🇦🇷,1
10,Tato,1
12,Yago,1
15,Ramiro Alberto Giandinoto,1
16,Andrea Navarro (juncotic.com),1
16,Ramiro Alberto Giandinoto,1
17,Andrea Navarro (juncotic.com),2
17,Arian M,2
17,Danilo Verardo,1
17,Delfina,1


### Cantidad de usuarios promedio que envían mensaje por cada día de la semana

In [15]:
number_of_weeks = ((df['date'].max() - df['date'].min()).days)/7
print(number_of_weeks)
groups = ['from',df['date'].dt.weekday]
print(df['from'].unique())
df_aux = df.groupby( groups).agg(total_messages=('from',lambda x: x.count()/number_of_weeks)
                       )
df_aux.groupby(['date']).agg(total_users = ('total_messages',lambda x: x.sum()/len(df_aux.index.unique())))

10.0
[nan 'Andrea Navarro (juncotic.com)' 'Ramiro Alberto Giandinoto' 'seba F'
 'Fede Pardo' 'Santiago Riera' 'Juan Pablo Garcia' 'Arian M' 'Lautaro G'
 'Lucas Galdame' 'Julián' 'Emiliano Muñoz' 'Delfina' 'Danilo Verardo'
 'Santiago Moyano' 'Douglas' 'Gabriel Arenas 🇦🇷' 'Tato' 'Yago'
 'Giancarlo Galvarini' 'Santiago Martinez' 'Bruno R' 'Matias'
 'Lucas Ollarce' 'Nicolás Olivares' 'Jose Ruti' 'Enzo Fernández'
 'Facu Luna']


Unnamed: 0_level_0,total_users
date,Unnamed: 1_level_1
0,0.241935
5,0.012903
6,0.009677


### Cantidad de mensajes envíados por mes

In [16]:
groups = ['from',df['date'].dt.month]
df_aux = df.groupby(groups).agg(total_messages = ('id', lambda x: x.count()))
df_aux

Unnamed: 0_level_0,Unnamed: 1_level_0,total_messages
from,date,Unnamed: 2_level_1
Andrea Navarro (juncotic.com),8,3
Arian M,8,2
Arian M,9,6
Bruno R,9,1
Danilo Verardo,8,1
Delfina,8,1
Delfina,9,1
Douglas,8,1
Douglas,9,1
Emiliano Muñoz,8,2


### Cantidad mínima, máxima y promedio de palabras por mensaje

In [22]:
groups = ['total_words']
agregar = {'total_words':["min", "max", "mean"]}
df.groupby(groups).agg(agregar)

KeyError: 'total_words'