# Proyecto análisis de conversación de mensajería

## Cargar datos
- Exportar una conversación personal o grupal de Whastapp o Telegram en un formato adecuado (JSON, CSV, etc), no exportar audios, archivos multimedia, etc
- Importar archivo y convertirlo en dataframe
- Obtener y graficar los siguientes datos. Elegir el gráfico que mejor represente los datos

<h4>
    Para este Trabajo Práctico, vamos a usar los datos de conversación que trabajamos en el  <a href="../tp3_valores_atipicos/TP3.ipynb">Trabajo Práctico 3</a>, donde tratamos los datos faltantes.
</h4>

<h4>
    Esos datos los exportamos en el archivo <a href="data/clean_chat.csv">clean_chat</a>.
</h4>

In [1]:
import pandas as pd
import requests
import numpy as np
import os
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import datetime 
import dateutil


In [133]:
df = pd.read_csv('data/clean_chat.csv')
df['date_only'] = pd.to_datetime(df['date_only'], errors='coerce')


df['days'] = df['date_only'].apply(lambda x: x.strftime("%A"))

df['words_message'] = df['text'].str.split(" ").str.len()
df

Unnamed: 0.1,Unnamed: 0,id,type,date,text,from,from_id,text_length,date_only,time_only,hour_only,days,words_message
0,720,729,message,2021-09-10 08:30:11,"['ID de la reunión\n', {'type': 'link', 'text'...",María Marta Arrieta,user1691333349,3,2021-09-10,08:30:11,8,Friday,9.0
1,719,728,message,2021-09-10 08:30:05,Buen dia !!!Nos reunimos en 30 minutos !!! 🥐☕🫖,María Marta Arrieta,user1691333349,46,2021-09-10,08:30:05,8,Friday,9.0
2,718,727,message,2021-09-07 11:34:16,Gracias profe!!,Marcos Adrián Rugoso,user1052727325,15,2021-09-07,11:34:16,11,Tuesday,2.0
3,717,726,message,2021-09-07 11:33:56,"Hola profe, igualmente!",Yago,user810386556,23,2021-09-07,11:33:56,11,Tuesday,3.0
4,716,725,message,2021-09-07 10:59:50,Gracias profe! 😁,Pablo Fracaro,user830260616,16,2021-09-07,10:59:50,10,Tuesday,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
692,7,8,message,2021-03-19 13:53:27,Gravias profe por la clase de hoy. Extrañaba l...,Matias Ruiz,user857392417,62,2021-03-19,13:53:27,13,Friday,10.0
693,6,7,message,2021-03-19 13:39:41,"Gran desafío y junto a Uds , con Uds y por Ud...",María Marta Arrieta,user1691333349,63,2021-03-19,13:39:41,13,Friday,15.0
694,5,6,message,2021-03-19 13:37:53,Gracias María Marta!!! Un placer por fin tener...,Daiana Ascurra,user867417470,59,2021-03-19,13:37:53,13,Friday,11.0
695,4,5,message,2021-03-19 13:37:34,Igualmente profe! Un gusto,Giancarlo Galvarini,user1009916191,26,2021-03-19,13:37:34,13,Friday,4.0


### Cantidad de mensajes enviados por cada usuario

In [6]:
df.groupby(['from']).groups.keys()

dict_keys(['Arian M', 'Daiana Ascurra', 'Esteban', 'Facu Luna', 'Giancarlo Galvarini', 'Johnatan', 'Julian Campana', 'Lautaro G', 'Marcos Adrián Rugoso', 'María Marta Arrieta', 'Matias', 'Matias Navarro', 'Matias Ruiz', 'Matías Romani', 'Nicolas Contreras', 'Nicolás Olivares', 'Ornella Grasso', 'Pablo Fracaro', 'Ramiro', 'Ramiro Giand.', 'Santiago Martinez', 'Santiago Riera', 'Tomas Gañan', 'Yago', 'seba F'])

In [134]:
df.groupby('from')['type'].count()


from
Arian M                  35
Daiana Ascurra           22
Esteban                  23
Facu Luna                10
Giancarlo Galvarini      18
Johnatan                 18
Julian Campana           26
Lautaro G                 7
Marcos Adrián Rugoso     15
María Marta Arrieta     300
Matias                    7
Matias Navarro            6
Matias Ruiz              17
Matías Romani             6
Nicolas Contreras        14
Nicolás Olivares         10
Ornella Grasso           30
Pablo Fracaro            43
Ramiro                    6
Ramiro Giand.            29
Santiago Martinez        10
Santiago Riera            9
Tomas Gañan               5
Yago                     19
seba F                   12
Name: type, dtype: int64

### Promedio de palabras utilizadas por mensaje por cada usuario

In [39]:
df.groupby('from').agg({'words_message':'mean'})

Unnamed: 0_level_0,text_length
from,Unnamed: 1_level_1
Arian M,25.114286
Daiana Ascurra,46.136364
Esteban,26.130435
Facu Luna,32.7
Giancarlo Galvarini,29.222222
Johnatan,26.666667
Julian Campana,45.423077
Lautaro G,27.571429
Marcos Adrián Rugoso,31.4
María Marta Arrieta,85.29


### Porcentaje de mensajes enviados por cada usuario

In [49]:
df.groupby('from')['type'].count()/df['type'].count()*100

from
Arian M                  5.021521
Daiana Ascurra           3.156385
Esteban                  3.299857
Facu Luna                1.434720
Giancarlo Galvarini      2.582496
Johnatan                 2.582496
Julian Campana           3.730273
Lautaro G                1.004304
Marcos Adrián Rugoso     2.152080
María Marta Arrieta     43.041607
Matias                   1.004304
Matias Navarro           0.860832
Matias Ruiz              2.439024
Matías Romani            0.860832
Nicolas Contreras        2.008608
Nicolás Olivares         1.434720
Ornella Grasso           4.304161
Pablo Fracaro            6.169297
Ramiro                   0.860832
Ramiro Giand.            4.160689
Santiago Martinez        1.434720
Santiago Riera           1.291248
Tomas Gañan              0.717360
Yago                     2.725968
seba F                   1.721664
Name: type, dtype: float64

### Frecuencia de envío de mensaje dependiendo la hora del día

In [83]:
df.groupby('hour_only')['type'].count()

hour_only
5      1
6      1
7     14
8     33
9     12
10    49
11    49
12    91
13    63
14    46
15    48
16    33
17    20
18    54
19    53
20    99
21    12
22    19
Name: type, dtype: int64

### Frecuencia de envío de mensaje dependiendo del día de la semana

In [85]:
groups = [df['date_only'].dt.to_period('D'),"type"]
agregations = {'type':["count"]}

df.groupby(groups).agg(agregations)

Unnamed: 0_level_0,Unnamed: 1_level_0,type
Unnamed: 0_level_1,Unnamed: 1_level_1,count
date_only,type,Unnamed: 2_level_2
2021-03-19,message,6
2021-03-21,message,7
2021-03-26,message,25
2021-03-27,message,4
2021-03-29,message,11
...,...,...
2021-08-30,message,29
2021-09-03,message,7
2021-09-04,message,2
2021-09-07,message,6


### Hora del día preferida por cada usuario para enviar mensajes

In [88]:
df.groupby('from')['hour_only'].max()

from
Arian M                 20
Daiana Ascurra          21
Esteban                 20
Facu Luna               20
Giancarlo Galvarini     22
Johnatan                21
Julian Campana          20
Lautaro G               20
Marcos Adrián Rugoso    21
María Marta Arrieta     22
Matias                  17
Matias Navarro          13
Matias Ruiz             20
Matías Romani           21
Nicolas Contreras       20
Nicolás Olivares        20
Ornella Grasso          20
Pablo Fracaro           22
Ramiro                  20
Ramiro Giand.           22
Santiago Martinez       20
Santiago Riera          21
Tomas Gañan             21
Yago                    20
seba F                  20
Name: hour_only, dtype: int64

### Día de la semana preferida por cada usuario para enviar mensajes

In [100]:
df.groupby('from')['days'].max()

from
Arian M                 Wednesday
Daiana Ascurra          Wednesday
Esteban                 Wednesday
Facu Luna               Wednesday
Giancarlo Galvarini       Tuesday
Johnatan                Wednesday
Julian Campana          Wednesday
Lautaro G               Wednesday
Marcos Adrián Rugoso    Wednesday
María Marta Arrieta     Wednesday
Matias                  Wednesday
Matias Navarro          Wednesday
Matias Ruiz             Wednesday
Matías Romani           Wednesday
Nicolas Contreras       Wednesday
Nicolás Olivares        Wednesday
Ornella Grasso          Wednesday
Pablo Fracaro           Wednesday
Ramiro                  Wednesday
Ramiro Giand.           Wednesday
Santiago Martinez         Tuesday
Santiago Riera          Wednesday
Tomas Gañan             Wednesday
Yago                    Wednesday
seba F                  Wednesday
Name: days, dtype: object

### Cantidad promedio de mensajes enviados por hora para cada usuario

In [102]:
groups = ["from","hour_only"]
agregations = {'type':["count"]}

df.groupby(groups).agg(agregations)

Unnamed: 0_level_0,Unnamed: 1_level_0,type
Unnamed: 0_level_1,Unnamed: 1_level_1,count
from,hour_only,Unnamed: 2_level_2
Arian M,10,1
Arian M,11,1
Arian M,12,18
Arian M,13,1
Arian M,14,2
...,...,...
seba F,10,2
seba F,12,1
seba F,13,2
seba F,18,3


### Cantidad de usuarios promedio que envían mensaje por cada día de la semana

In [109]:
df.groupby('date_only')['from'].count()

date_only
2021-03-19     6
2021-03-21     7
2021-03-26    25
2021-03-27     4
2021-03-29    11
              ..
2021-08-30    29
2021-09-03     7
2021-09-04     2
2021-09-07     6
2021-09-10     2
Name: from, Length: 62, dtype: int64

### Cantidad de mensajes envíados por mes

In [111]:
groups = [df['date_only'].dt.to_period('M'),"type"]
agregations = {'type':["count"]}

df.groupby(groups).agg(agregations)

Unnamed: 0_level_0,Unnamed: 1_level_0,type
Unnamed: 0_level_1,Unnamed: 1_level_1,count
date_only,type,Unnamed: 2_level_2
2021-03,message,105
2021-04,message,183
2021-05,message,136
2021-06,message,195
2021-08,message,61
2021-09,message,17


### Cantidad mínima, máxima y promedio de palabras por mensaje

In [138]:
df.groupby(['from']).agg({'words_message':['min','max','mean']})

Unnamed: 0_level_0,words_message,words_message,words_message
Unnamed: 0_level_1,min,max,mean
from,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Arian M,1.0,25.0,5.666667
Daiana Ascurra,1.0,46.0,8.285714
Esteban,1.0,19.0,5.454545
Facu Luna,2.0,11.0,5.0
Giancarlo Galvarini,1.0,28.0,5.75
Johnatan,1.0,16.0,5.333333
Julian Campana,1.0,90.0,9.954545
Lautaro G,1.0,13.0,5.142857
Marcos Adrián Rugoso,1.0,21.0,4.866667
María Marta Arrieta,1.0,161.0,18.59507
