# <center> Aplicación en Bioestadística: Análisis de Depresión en RR.SS.
## <center>Dataset Peer Review

El conjunto de datos utilizados durante el desarrollo del proyecto provienen de una investigación llevada a cabo en distintas universidades de los Países Bajos y cuyas conclusiones vienen descritas en la publicación *Social Media and Depression Symptoms: A Network Perspective*. 

Al tratarse de un dataset fruto de una publicación científica, podríamos decir que cuenta con una mayor validez en comparación a un dataset que obtengamos a través de una plataforma como Kaggle. No obstante, esto no significa que no debamos revisarlo.

Es por ello, que aprovechando que en el paper se describe el procedimiento que se ha seguido para obtener los datos, nos aseguraremos que el dataset es fiel a lo descrito en el documento. Podríamos decir que se trata de un especie de revisión por pares (Peer Review) del dataset, que puede ser complementaria a el análisis exploratorio de los datos (EDA).

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
data = pd.read_csv('../raw-data/OSF_socialmedia_data.csv')

1. En la publicación se indica que de los 132 participantes iniciales, 7 fueron descartados por no llevar a cabo un número mínimo de mediciones. Esto nos da como resultado un numero total de 125 participantes.

In [2]:
print(f"Existen {data['Participant'].unique().size} participantes en el estudio.")

Existen 125 participantes en el estudio.


2. Teniendo en cuenta la existencia de 125 participantes que durante 7 dias llevan a cabo 14 mediciones diarias, nos da como resultado un total de 12250 mediciones.

In [3]:
print(f"Existen {data.shape[0]:,} filas/mediciones en el dataframe.")

Existen 12,245 filas/mediciones en el dataframe.


Desconocemos el motivo por el cual faltan 5 mediciones. A continuación, observaremos cuales son aquellos participantes que no poseen un total de 98 mediciones.

In [4]:
for x in data['Participant'].unique():
    mediciones_participante = data[data['Participant'] == x]
    numero = len(mediciones_participante)
    if(numero != 98):
        print(f"El participante {x} ha realizado {numero} mediciones.")
    

El participante 7027026 ha realizado 97 mediciones.
El participante 8039514 ha realizado 96 mediciones.
El participante 8810136 ha realizado 96 mediciones.


3. La publicación nos indica que los participantes respondieron una media de 66,18 mediciones válidas.

In [5]:
total = 0
for x in data['Participant'].unique():
    mediciones_participante_respondidas = data[(data['Participant'] == x)  & (data['Responded'] == 1)]
    numero_respondidas = len(mediciones_participante_respondidas)
    total = total + numero_respondidas
print(f"Tenemos una media de {total/125} mediciones por participante válidas.")

Tenemos una media de 69.56 mediciones por participante válidas.


4. A su vez nos informa de que el participante que menos mediciones válidas realizó fueron 29 y el que más 92.

In [6]:
mediciones_totales_validas = []
for x in data['Participant'].unique():
    mediciones_participante_respondidas = data[(data['Participant'] == x)  & (data['Responded'] == 1)]
    mediciones_totales_validas.append(len(mediciones_participante_respondidas))
print(f"El participante que menos mediciones válidas ha realizado han sido {min(mediciones_totales_validas)}.")
print(f"El participante que menos mediciones válidas ha realizado han sido {max(mediciones_totales_validas)}.")

El participante que menos mediciones válidas ha realizado han sido 33.
El participante que menos mediciones válidas ha realizado han sido 95.


5. El paper explica que la columna AutoPSMU hace referencia al uso automatico pasivo de las redes sociales. No obstante, muchos de los participantes debieron de "fallar" al responder a este apartado por lo que la investigación no lo tiene en cuenta.

In [7]:
data.drop('AutoPSMU', axis=1, inplace=True)
data.head()

Unnamed: 0.1,Unnamed: 0,Participant,Date,Day,Time,Session.Name,Notification.No,LifePak.Download.No,Responded,Completed.Session,...,DeprMood,Loneliness,Concentrat,LossOfInt,Inferior,Hopeless,Stress,PSMU,News,Active
0,1,115091,05/02/2017,Tuesday,10:00:06,Daily questions,1,1,1,1,...,55.0,61.0,64.0,68.0,50.0,56.0,73.0,66.0,39.0,38.0
1,2,115091,05/02/2017,Tuesday,12:02:48,Daily questions,2,1,1,1,...,59.0,57.0,70.0,58.0,37.0,56.0,67.0,0.0,27.0,23.0
2,3,115091,05/02/2017,Tuesday,14:03:02,Daily questions,3,1,1,1,...,20.0,44.0,70.0,67.0,26.0,38.0,39.0,63.0,34.0,36.0
3,4,115091,05/02/2017,Tuesday,16:34:28,Daily questions,4,1,1,1,...,25.0,56.0,79.0,89.0,30.0,20.0,60.0,67.0,29.0,23.0
4,5,115091,05/02/2017,Tuesday,18:00:00,Daily questions,5,1,0,0,...,,,,,,,,,,


6. La feature *Active* se refiere a el uso activo de redes sociales, por lo que vamos a renombrarla como ASMU para que no lleve a confusiones.

In [8]:
data.rename(columns={'Active':'ASMU'})

Unnamed: 0.1,Unnamed: 0,Participant,Date,Day,Time,Session.Name,Notification.No,LifePak.Download.No,Responded,Completed.Session,...,DeprMood,Loneliness,Concentrat,LossOfInt,Inferior,Hopeless,Stress,PSMU,News,ASMU
0,1,115091,05/02/2017,Tuesday,10:00:06,Daily questions,1,1,1,1,...,55.0,61.0,64.0,68.0,50.0,56.0,73.0,66.0,39.0,38.0
1,2,115091,05/02/2017,Tuesday,12:02:48,Daily questions,2,1,1,1,...,59.0,57.0,70.0,58.0,37.0,56.0,67.0,0.0,27.0,23.0
2,3,115091,05/02/2017,Tuesday,14:03:02,Daily questions,3,1,1,1,...,20.0,44.0,70.0,67.0,26.0,38.0,39.0,63.0,34.0,36.0
3,4,115091,05/02/2017,Tuesday,16:34:28,Daily questions,4,1,1,1,...,25.0,56.0,79.0,89.0,30.0,20.0,60.0,67.0,29.0,23.0
4,5,115091,05/02/2017,Tuesday,18:00:00,Daily questions,5,1,0,0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12240,12241,9873359,04/25/2017,Tuesday,14:00:09,Daily questions,3,1,1,1,...,0.0,0.0,14.0,0.0,0.0,0.0,14.0,22.0,0.0,0.0
12241,12242,9873359,04/25/2017,Tuesday,16:40:58,Daily questions,4,1,1,1,...,0.0,0.0,11.0,0.0,0.0,0.0,0.0,6.0,0.0,24.0
12242,12243,9873359,04/25/2017,Tuesday,18:00:06,Daily questions,5,1,1,1,...,0.0,0.0,10.0,0.0,0.0,0.0,0.0,11.0,0.0,18.0
12243,12244,9873359,04/25/2017,Tuesday,20:05:31,Daily questions,6,1,1,1,...,0.0,8.0,22.0,8.0,0.0,0.0,15.0,10.0,0.0,0.0


In [9]:
# PRUEBAS
mediciones_participante_respondidas2 = data[(data['Responded'] == 1) & (data['Completed.Session'] == 0)]
print(f"Hay {mediciones_participante_respondidas2.shape[0]:,} filas/mediciones en el dataframe.")
mediciones_participante_respondidas2.head()
print(mediciones_participante_respondidas2['Participant'].nunique())

Hay 62 filas/mediciones en el dataframe.
42


In [10]:
noresponded = data[(data['Responded'] == 0)]
print(f"Hay {noresponded.shape[0]:,} filas/mediciones en el dataframe.")

Hay 3,550 filas/mediciones en el dataframe.


In [11]:
mediciones_participante_respondidas2 = data[(data['Responded'] == 1) & (data['Completed.Session'] == 1)]
print(f"Existen {mediciones_participante_respondidas2.shape[0]:,} filas/mediciones en el dataframe.")

Existen 8,633 filas/mediciones en el dataframe.


In [33]:
pd.set_option("display.max_rows", None, "display.max_columns", None)
mediciones_respondidas_noCompletadas = data[(data['Responded'] == 1) & (data['Completed.Session'] == 0)]
suma_valores_nulos = mediciones_respondidas_noCompletadas.iloc[:, 14:24].isnull().sum(axis=1)
contador_todo_nulos =  0
contador_todo_respondido =  0
for x in suma_valores_nulos.index:
    if x == 10:
        contador_todo_nulos = contador_todo_nulos + 1
    if x == 0:
        contador_todo_respondido = contador_todo_respondido + 1
print(f"Existen {contador_todo_nulos} mediciones indicadas como no respondias, que no han rellenado ningun campo.")
print(f"Existen {contador_todo_respondido} mediciones indicadas como no respondias, que han rellenado todos los campos.")
print(suma_valores_nulos)



for x, y in zip(suma_valores_nulos, suma_valores_nulos.index):
    if x == 10:
        data.drop([y])
        
mediciones_respondidas_noCompletadas = data[(data['Responded'] == 1) & (data['Completed.Session'] == 0)]
suma_valores_nulos = mediciones_respondidas_noCompletadas.iloc[:, 14:24].isnull().sum(axis=1)
contador_todo_nulos =  0
contador_todo_respondido =  0
for x in suma_valores_nulos.index:
    if x == 10:
        contador_todo_nulos = contador_todo_nulos + 1
    if x == 0:
        contador_todo_respondido = contador_todo_respondido + 1



Existen 0 mediciones indicadas como no respondias, que no han rellenado ningun campo.
Existen 0 mediciones indicadas como no respondias, que han rellenado todos los campos.
200       2
255      10
289       5
1212      6
1242      1
1268     10
1628     10
1646      8
1770      9
1885      1
1924     10
2314      9
2331      6
2427     10
2737     10
2743      3
2825      0
2870     10
2975      8
3039     10
3084      8
3282      8
3312     10
3405      5
3441      9
3595      1
3952      3
4232     10
4427     10
4479      3
4930      9
5532     10
5577      7
6579      6
6740     10
7017      5
7525      6
7551     10
8130     10
8572     10
8579      8
8615      9
8732      0
8733      0
9368      9
9766      0
9767      0
9768      0
9858      0
10124     4
10292     1
10577    10
10586    10
11088     2
11131     2
11246     8
11406    10
11429     9
11587     9
11865     3
12118     3
12140     9
dtype: int64
Existen 0 mediciones indicadas como no respondias, que no han rellenad