# Proyecto análisis de conversación de mensajería

## Cargar datos
- Exportar una conversación personal o grupal de Whastapp o Telegram en un formato adecuado (JSON, CSV, etc), no exportar audios, archivos multimedia, etc
- Importar archivo y convertirlo en dataframe
- Obtener y graficar los siguientes datos. Elegir el gráfico que mejor represente los datos

In [423]:
import json
import pandas as pd
import numpy as np
import requests
import os, sys
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import dateutil


bd2 = open('../data/result.json', encoding='utf8')
data = json.load(bd2)


msgs = data['messages']
df = pd.DataFrame(msgs)

df = df.filter(items = ['id','date', 'from', 'reply_to_message_id' ,'text'])
df['date'] = pd.to_datetime(df['date'], format="%Y-%m-%d")
df

Unnamed: 0,id,date,from,reply_to_message_id,text
0,21639,2021-08-09 17:34:53,,,
1,21647,2021-08-09 17:36:48,Augusto Missino,,Alguno quedó sin grupo?
2,21648,2021-08-09 17:36:51,Lautaro G,,Grupo: giancarlo y lautaro
3,21652,2021-08-09 17:37:47,Lucas Galdame Villegas,,"Grupo: Lucas g\nGaldame, Gaston Fenske y Danie..."
4,21656,2021-08-09 17:38:16,Julián,,Grupo: Delfina Quinteros y Julián Navarrete
5,21657,2021-08-09 17:38:18,Emiliano Muñoz,21647.0,Estamos con lucas ollarce por si queres ser co...
6,21659,2021-08-09 17:38:53,,,
7,21665,2021-08-09 17:40:43,Augusto Missino,21657.0,Bueno
8,21674,2021-08-09 17:41:08,Delfina Quinteros,21656.0,si alguien todavia no tiene grupo puede ser co...
9,21677,2021-08-09 17:41:35,Emiliano Muñoz,,"Grupo: Emiliano, Lucas Ollarce, Augusto"


### Cantidad de mensajes enviados por cada usuario

In [424]:
df_msg = df.groupby('from')['text'].count()

df_msg


from
Andrea Navarro (juncotic.com)    2
Augusto Missino                  3
Bruno                            1
Danilo Verardo                   1
Delfina Quinteros                2
Doki                             1
Douglas                          2
Emiliano Muñoz                   3
Enzo Fernandez                   1
Facu Luna                        1
Fede Pardo                       2
Gabriel Arenas 🇦🇷                4
Giancarlo                        2
Julián                           2
Lautaro G                        2
Lucas Galdame Villegas           5
Lucas Ollarce                    1
Matias                           1
Nico Olivares                    1
Pariente                         2
Ramiro Alberto Giandinoto        2
Santi Riera                      1
Santiago Moyano                  2
Seba Fernandez                   1
Tato Beato                       2
jose Ruti                        1
Name: text, dtype: int64

### Promedio de palabras utilizadas por mensaje por cada usuario

In [425]:
df_text = df['text']
quantity = 0
content = ''
for item in df_text:
    if not item == '':
        if type(item) == list:
            if type(item[0]) == dict:
                content = item[0]['text']
                quantity += 1
        else:
            content = item.split(' ')
            quantity += len(content)
        
print(f'Cantidad de palabras: {quantity}')
total_msg = df_msg.sum()
print(f'Cantidad de mensajes: {total_msg}')

total = quantity/total_msg
print(f'Se ulilizaron un promedio de: {total} palabras por mensaje.')

df.groupby('from')['text'].count() * total

Cantidad de palabras: 138
Cantidad de mensajes: 48
Se ulilizaron un promedio de: 2.875 palabras por mensaje.


from
Andrea Navarro (juncotic.com)     5.750
Augusto Missino                   8.625
Bruno                             2.875
Danilo Verardo                    2.875
Delfina Quinteros                 5.750
Doki                              2.875
Douglas                           5.750
Emiliano Muñoz                    8.625
Enzo Fernandez                    2.875
Facu Luna                         2.875
Fede Pardo                        5.750
Gabriel Arenas 🇦🇷                11.500
Giancarlo                         5.750
Julián                            5.750
Lautaro G                         5.750
Lucas Galdame Villegas           14.375
Lucas Ollarce                     2.875
Matias                            2.875
Nico Olivares                     2.875
Pariente                          5.750
Ramiro Alberto Giandinoto         5.750
Santi Riera                       2.875
Santiago Moyano                   5.750
Seba Fernandez                    2.875
Tato Beato                        5

### Porcentaje de mensajes enviados por cada usuario

In [426]:
percentage = (df.groupby('from')['text'].count() / total_msg) * 100
percentage

from
Andrea Navarro (juncotic.com)     4.166667
Augusto Missino                   6.250000
Bruno                             2.083333
Danilo Verardo                    2.083333
Delfina Quinteros                 4.166667
Doki                              2.083333
Douglas                           4.166667
Emiliano Muñoz                    6.250000
Enzo Fernandez                    2.083333
Facu Luna                         2.083333
Fede Pardo                        4.166667
Gabriel Arenas 🇦🇷                 8.333333
Giancarlo                         4.166667
Julián                            4.166667
Lautaro G                         4.166667
Lucas Galdame Villegas           10.416667
Lucas Ollarce                     2.083333
Matias                            2.083333
Nico Olivares                     2.083333
Pariente                          4.166667
Ramiro Alberto Giandinoto         4.166667
Santi Riera                       2.083333
Santiago Moyano                   4.166667
Seba F

### Frecuencia de envío de mensaje dependiendo la hora del día

In [427]:
groups = [df['date'].dt.to_period('h')]
agregations = {
         'text':["count"] 
            }
df.groupby(groups).agg(agregations)


Unnamed: 0_level_0,text
Unnamed: 0_level_1,count
date,Unnamed: 1_level_2
2021-08-09 17:00,19
2021-08-09 18:00,1
2021-08-30 18:00,2
2021-09-06 09:00,1
2021-09-06 10:00,1
2021-09-06 12:00,1
2021-09-06 15:00,1
2021-09-06 18:00,21
2021-09-06 19:00,6


### Frecuencia de envío de mensaje dependiendo del día de la semana

In [428]:
day = [df['date'].dt.weekday]
agregations = {
         'text':"count" 
            }
df.groupby(day).agg(agregations)

Unnamed: 0_level_0,text
date,Unnamed: 1_level_1
0,53


Todos los mensajes fueron enviados el mismo dia de la semana que fue el dia lunes por eso nos representa que todos los mensajes enviados fueron el mismo dia.

### Hora del día preferida por cada usuario para enviar mensajes

In [429]:
groups = [df['date'].dt.to_period('h'),"from"]
agregations = {
         'text':'count' 
            }
df.groupby( groups).agg(agregations)

Unnamed: 0_level_0,Unnamed: 1_level_0,text
date,from,Unnamed: 2_level_1
2021-08-09 17:00,Andrea Navarro (juncotic.com),2
2021-08-09 17:00,Augusto Missino,2
2021-08-09 17:00,Danilo Verardo,1
2021-08-09 17:00,Delfina Quinteros,1
2021-08-09 17:00,Douglas,1
2021-08-09 17:00,Emiliano Muñoz,2
2021-08-09 17:00,Fede Pardo,1
2021-08-09 17:00,Julián,1
2021-08-09 17:00,Lautaro G,1
2021-08-09 17:00,Lucas Galdame Villegas,3


Las horas preferida por los integrantes es a las 17 horas, 18 horas y se podria considerar tambien a partir de las 19 horas

### Día de la semana preferida por cada usuario para enviar mensajes

In [430]:
groups = [df['date'].dt.to_period('w'),"from"]
agregations = {
         'text': "count" 
            }
df.groupby( groups).agg(agregations)

Unnamed: 0_level_0,Unnamed: 1_level_0,text
date,from,Unnamed: 2_level_1
2021-08-09/2021-08-15,Andrea Navarro (juncotic.com),2
2021-08-09/2021-08-15,Augusto Missino,2
2021-08-09/2021-08-15,Danilo Verardo,1
2021-08-09/2021-08-15,Delfina Quinteros,1
2021-08-09/2021-08-15,Douglas,1
2021-08-09/2021-08-15,Emiliano Muñoz,2
2021-08-09/2021-08-15,Fede Pardo,1
2021-08-09/2021-08-15,Julián,1
2021-08-09/2021-08-15,Lautaro G,1
2021-08-09/2021-08-15,Lucas Galdame Villegas,3


### Cantidad promedio de mensajes enviados por hora para cada usuario

In [431]:
groups = [df['date'].dt.to_period('h'),"from"]
agregations = {
         'text': ["count"]
            }
df.groupby(groups).agg(agregations)

Unnamed: 0_level_0,Unnamed: 1_level_0,text
Unnamed: 0_level_1,Unnamed: 1_level_1,count
date,from,Unnamed: 2_level_2
2021-08-09 17:00,Andrea Navarro (juncotic.com),2
2021-08-09 17:00,Augusto Missino,2
2021-08-09 17:00,Danilo Verardo,1
2021-08-09 17:00,Delfina Quinteros,1
2021-08-09 17:00,Douglas,1
2021-08-09 17:00,Emiliano Muñoz,2
2021-08-09 17:00,Fede Pardo,1
2021-08-09 17:00,Julián,1
2021-08-09 17:00,Lautaro G,1
2021-08-09 17:00,Lucas Galdame Villegas,3


### Cantidad de usuarios promedio que envían mensaje por cada día de la semana

In [432]:
groups = [df['date'].dt.weekday, 'from']
agregations = {
         'text':["count"] 
            }
df.groupby( groups).agg(agregations)

Unnamed: 0_level_0,Unnamed: 1_level_0,text
Unnamed: 0_level_1,Unnamed: 1_level_1,count
date,from,Unnamed: 2_level_2
0,Andrea Navarro (juncotic.com),2
0,Augusto Missino,3
0,Bruno,1
0,Danilo Verardo,1
0,Delfina Quinteros,2
0,Doki,1
0,Douglas,2
0,Emiliano Muñoz,3
0,Enzo Fernandez,1
0,Facu Luna,1


### Cantidad de mensajes envíados por mes

In [433]:
groups = [df['date'].dt.to_period('m'),"from"]
agregations = {
         'text': "count" 
            }
df.groupby(groups).agg(agregations)


Unnamed: 0_level_0,Unnamed: 1_level_0,text
date,from,Unnamed: 2_level_1
2021-08,Andrea Navarro (juncotic.com),2
2021-08,Augusto Missino,2
2021-08,Danilo Verardo,1
2021-08,Delfina Quinteros,1
2021-08,Douglas,1
2021-08,Emiliano Muñoz,2
2021-08,Fede Pardo,1
2021-08,Gabriel Arenas 🇦🇷,1
2021-08,Julián,1
2021-08,Lautaro G,1


### Cantidad mínima, máxima y promedio de palabras por mensaje

In [445]:
df_text = df['text']
content = ''
max_size_text = []
words_max = 0
quantity_total = 0
for item in df_text:
    quantity = 0
    if not item == '':
        if type(item) == list:
            if type(item[0]) == dict:
                content = item[0]['text']
                quantity += 1
                quantity_total += quantity
                print(f'{content} | Palabras: {quantity}')
        else:
            content = item.split(' ')
            quantity += len(content)
            quantity_total += quantity
            print(f'{content} | Palabras: {quantity}')
            words_max_aux = len(content)
            if words_max < words_max_aux:
                words_max = words_max_aux
                max_size_text = content

print(f'Texto con el (Maximo) de palabras: {max_size_text}, Contiene: {words_max} palabras.')
total = quantity_total/df_msg.sum()
print(f'Se ulilizaron un promedio de: {total} palabras por mensaje.')


['Alguno', 'quedó', 'sin', 'grupo?'] | Palabras: 4
['Grupo:', 'giancarlo', 'y', 'lautaro'] | Palabras: 4
['Grupo:', 'Lucas', 'g\nGaldame,', 'Gaston', 'Fenske', 'y', 'Daniel', 'Beato'] | Palabras: 8
['Grupo:', 'Delfina', 'Quinteros', 'y', 'Julián', 'Navarrete'] | Palabras: 6
['Estamos', 'con', 'lucas', 'ollarce', 'por', 'si', 'queres', 'ser', 'con', 'nosotros'] | Palabras: 10
['Bueno'] | Palabras: 1
['si', 'alguien', 'todavia', 'no', 'tiene', 'grupo', 'puede', 'ser', 'con', 'nosotros'] | Palabras: 10
['Grupo:', 'Emiliano,', 'Lucas', 'Ollarce,', 'Augusto'] | Palabras: 5
['Grupo:', 'Arenas', 'Douglas,', 'Fernández', 'Enzo,', 'Cerna', 'Verardo', 'Danilo'] | Palabras: 8
['Profe', 'sume', 'a', 'gaston'] | Palabras: 4
['Grupo:', 'Bruno', 'Romero,', 'Santiago', 'Moyano'] | Palabras: 5
['Fenske'] | Palabras: 1
['Profe', 'este', 'grupo', 'lo', 'puso?'] | Palabras: 5
['Usuario', 'github:', 'AndreaNavarroMoreno'] | Palabras: 3
['Usuario', 'gitlab:', 'andrea.navarro'] | Palabras: 3
['.'] | Palabras