# Proyecto análisis de conversación de mensajería

## Cargar datos
- Exportar una conversación personal o grupal de Whastapp o Telegram en un formato adecuado (JSON, CSV, etc), no exportar audios, archivos multimedia, etc
- Importar archivo y convertirlo en dataframe

<div>
	<h3>Carga de Datos</h3>
	<div>
		Para este trabajo práctico, examinaremos la conversación en telegram de las materias TIF I y TIF II. El grupo fue creado el 21 de Marzo de 2021 y tiene 25 participantes.  
	</div>
	<br>
	<div>Trabajaremos con el <a href="data/chat_tif_telegram.json">Historial</a> en formato JSON.</div>
</div>

In [None]:
import pandas as pd
import requests
import numpy as np
import os
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns


In [None]:
df = pd.read_json('data/chat_tif_telegram.json')

df

msn_json = df['messages']

msn_json


msn = pd.DataFrame(msn_json.to_list())

msn


## Conocer los datos

- Observar que tipo de datos tiene el dataframe y que tipo de valores tiene
- Explicar que significa cada campo y que tipo de acciones quedan registradas

In [None]:
msn.shape

In [None]:
msn.dtypes

<table >
	<tr>
		<td>
			<p class="normal">id</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">type</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">date</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">actor</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">actor_id</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">action</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">title</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">text</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">inviter</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">from</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">from_id</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">members</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">reply_to_message_id</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">photo</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">width</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">height</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">file</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">thumbnail</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">media_type</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">sticker_emoji</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">mime_type</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">duration_seconds</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
	<tr>
		<td>
			<p class="normal">edited</p>
		</td>
		<td>
			<p class="normal"></p>
		</td>
	</tr>
</table>

In [None]:
msn.info()

## Datos faltantes

- Analizar de manera visual y no visual si existen datos faltantes

In [None]:
faltantes = []
print(msn.columns)
for columna in msn.columns:
    atributo = {}
    atributo["columna"] = columna
    # Obtener promedio de valores nulos para la columna
    atributo["porcentaje"] = np.mean(msn[columna].isna())*100
    # Obtener cantidad de valores nulos para la columna
    atributo["cantidad"] = np.sum(msn[columna].isna())
    faltantes.append(atributo)  

# Convertir lista de diccionarios en dataframe
faltantes_df = pd.DataFrame(faltantes)

faltantes_df

- Tratar datos faltantes en el caso que los haya
- Explicar qué método se utilizó y por qué

## Outliers

- Analizar de manera visual y no visual si existen valores atípicos para cada valor no categórico

- Si existen valores atípicos, ¿estos son causados por errores en la carga de datos o por otra razón?. Explicar la razón