# Bases de Datos III - Proyecto (15%)

## Twitch Social Networks - Análisis de Redes Sociales en Twitch

## Introducción

Este dataset se centra en las redes de usuarios de Twitch, que es una plataforma popular para la transmisión de videojuegos en vivo. Los nodos en estas redes representan a los usuarios de Twitch, mientras que las aristas representan amistades mutuas entre ellos. El dataset incluye diversas características de los usuarios, como los juegos que les gustan y su ubicación, y se centra en la tarea de clasificación binaria de nodos para predecir si un usuario usa lenguaje explícito en sus transmisiones.

### Descripción del Dataset



#### Variables

- **Nodes (Nodos)**: Representan los usuarios individuales en la red de Twitch.
- **Edges (Aristas)**: Representan las relaciones de amistad entre los usuarios.
- **Density (Densidad)**: Es una medida de cuán conectada está la red.
- **Transitivity (Transitividad)**: Es una medida de la tendencia a formar triángulos en la red.
- **Features (Características)**: Atributos de los usuarios como juegos jugados, ubicación, y hábitos de transmisión.



#### Estadísticas del Dataset

- **Número de Nodos**: Varía entre 1,912 y 9,498 dependiendo del idioma.
- **Número de Aristas**: Varía entre 31,299 y 153,138.
- **Densidad**: Varía entre 0.002 y 0.017.
- **Transitividad**: Varía entre 0.042 y 0.131.



### Descripción detallada de los archivos y datos

#### `musae_ES_edges.csv`
Este archivo contiene las relaciones entre diferentes nodos (usuarios de Twitch). Las columnas "from" y "to" representan identificadores únicos de usuarios en Twitch. Cada fila en este archivo muestra una relación de amistad entre dos usuarios.

#### `musae_ES_features.json`
Este archivo en formato JSON contiene características de cada nodo. Cada clave es un identificador único para un nodo y el valor asociado es una lista de características. Estas pueden incluir varios aspectos como los juegos que juegan, su ubicación geográfica, etc.

Lamentablemente como no se cuenta con una leyenda o guia, nos vemos en la imposibilitados de realizar los siguientes tipoos de analisis:

1. **Análisis Descriptivo**: Sin entender qué representa cada variable, te resultará difícil realizar un análisis descriptivo significativo que ofrezca insights sobre los datos.

2. **Modelado Supervisado**: Los modelos de aprendizaje supervisado requieren un buen entendimiento de las características para ser efectivos. No saber qué representan las variables puede hacer que no sepas qué modelo aplicar ni cómo interpretar los resultados.

3. **Correlaciones y Relaciones**: Sin entender qué significan las variables, sería inútil calcular correlaciones o relaciones entre ellas, ya que no podrías interpretar el significado de estas relaciones.

En resumen, aunque puedes realizar ciertos tipos de análisis no supervisados, como agrupamiento o reducción de dimensionalidad, la falta de una leyenda o guía que explique las características limita seriamente tu capacidad para generar insights significativos o aplicables.

#### `musae_ES_target.csv`
Este archivo contiene información adicional sobre cada nodo, representada en diferentes campos:

* id: Identificador único para cada nodo.
* days: Número de días desde algún evento significativo (e.g., creación de la cuenta).
* mature: Indica si el streamer utiliza lenguaje explícito (True/False).
* views: Número de vistas que ha recibido el nodo.
* partner: Indica si el nodo es un socio de Twitch (True/False).
* new_id: Otro identificador para el nodo, aunque su uso no está claro.

### Cargar y Previsualización del Dataset

In [1]:
import pandas as pd
import json

# Cargar los archivos
edges = pd.read_csv('./data/twitch_ES/musae_ES_edges.csv')
with open('./data/twitch_ES/musae_ES_features.json') as f:
    features = json.load(f)
target = pd.read_csv('./data/twitch_ES/musae_ES_target.csv')

# Mostrar los primeros registros de cada archivo
print("Primeros registros de Edges:")
print(edges.head())
print("\nPrimeros registros de Features:")
for key, value in list(features.items())[:5]:
    print(f"{key}: {value}")
print("\nPrimeros registros de Target:")
print(target.head())


Primeros registros de Edges:
   from    to
0     0  1819
1     0  2840
2     1  1565
3     1  1309
4     1  1397

Primeros registros de Features:
1412: [89, 166, 1040, 846, 2987, 1649, 920, 224, 3097, 400, 569, 822, 2362, 802, 2728, 2734]
3032: [515, 1943, 289, 3084, 1575, 3164, 920, 224, 3097, 400, 1391, 635, 569, 821, 2645, 1147, 440]
4032: [1948, 421, 586, 202, 2024, 846, 45, 3164, 920, 224, 2798, 2064, 2534, 139, 2664, 2362]
3945: [438, 2464, 967, 861, 152, 1649, 920, 1907, 2185, 2986, 1607, 1895, 1013, 928, 569, 139, 608, 2362, 802, 1530, 1028, 1147, 763, 2734, 82]
949: [2598, 1713, 1053, 2928, 473, 846, 920, 224, 3097, 706, 1525, 2912, 2362]

Primeros registros de Target:
          id  days  mature   views  partner  new_id
0   68458707  1522   False    4405    False    3558
1  133928858   768   False  164810     True    3372
2   46892468  1895   False    4953    False     818
3  128745923   828    True   12262    False     236
4   84422595  1317   False    4937    False    2255


### Tareas posibles:

#### Transferencia de Aprendizaje

La transferencia de aprendizaje se refiere al método por el cual un modelo desarrollado para una tarea particular se adapta para una segunda tarea relacionada. Por ejemplo, si se han recopilado datos de usuarios que transmiten en un idioma en particular en Twitch, un modelo entrenado para clasificar estos usuarios podría transferirse para clasificar usuarios que transmiten en otro idioma.

**Aplicaciones**
- Mejorar el rendimiento del modelo en datasets más pequeños.
- Rápido despliegue de modelos en diferentes contextos.

#### Clasificación Binaria de Nodos

En el contexto de las redes sociales, los nodos suelen representar entidades como usuarios o elementos de contenido. La clasificación binaria de nodos involucra etiquetar estos nodos en una de dos categorías. Por ejemplo, en una red de Twitch, podríamos querer clasificar si un streamer utiliza o no lenguaje explícito.

**Aplicaciones**
- Filtrado de contenido.
- Personalización de la experiencia del usuario.


#### Predicción de Enlaces

La predicción de enlaces trata de prever futuras relaciones entre nodos en una red. En una red social como Twitch, esto podría significar predecir quiénes se seguirán mutuamente en el futuro.

**Aplicaciones**
- Sugerencia de amigos o conexiones.
- Detección de spam o comportamiento malicioso.

#### Detección de Comunidades

La detección de comunidades involucra identificar grupos de nodos que interactúan más frecuentemente entre sí que con nodos fuera del grupo. Estos pueden representar, por ejemplo, grupos de streamers que suelen jugar los mismos juegos o que comparten una base de seguidores similar.

**Aplicaciones**
- Segmentación de mercado.
- Recomendación de contenido.

#### Visualización de Redes

La visualización de redes permite representar gráficamente la estructura de la red, lo que puede hacer más fácil identificar patrones, como comunidades o nodos influyentes.

**Aplicaciones**
- Análisis exploratorio de datos.
- Comunicación de hallazgos en informes o presentaciones.

## 1. Depuraración del dataset escogido para su correcta manipulación en los análisis (10%)

### 1.1 Carga del Dataset y Revisión Inicial

In [18]:
import pandas as pd
import json

# Cargar CSV de aristas
edges_df = pd.read_csv("./data/twitch_ES/musae_ES_edges.csv")
print("Primeros registros de aristas:")
print(edges_df.head())

# Cargar JSON de características de nodos
with open("./data/twitch_ES/musae_ES_features.json") as f:
    features_json = json.load(f)
print("Primeras características de nodos:")
print({k: features_json[k] for k in list(features_json)[:5]})

# Cargar CSV de targets (objetivos)
target_df = pd.read_csv("./data/twitch_ES/musae_ES_target.csv")
print("Primeros registros de objetivos:")
print(target_df.head())


Primeros registros de aristas:
   from    to
0     0  1819
1     0  2840
2     1  1565
3     1  1309
4     1  1397
Primeras características de nodos:
{'1412': [89, 166, 1040, 846, 2987, 1649, 920, 224, 3097, 400, 569, 822, 2362, 802, 2728, 2734], '3032': [515, 1943, 289, 3084, 1575, 3164, 920, 224, 3097, 400, 1391, 635, 569, 821, 2645, 1147, 440], '4032': [1948, 421, 586, 202, 2024, 846, 45, 3164, 920, 224, 2798, 2064, 2534, 139, 2664, 2362], '3945': [438, 2464, 967, 861, 152, 1649, 920, 1907, 2185, 2986, 1607, 1895, 1013, 928, 569, 139, 608, 2362, 802, 1530, 1028, 1147, 763, 2734, 82], '949': [2598, 1713, 1053, 2928, 473, 846, 920, 224, 3097, 706, 1525, 2912, 2362]}
Primeros registros de objetivos:
          id  days  mature   views  partner  new_id
0   68458707  1522   False    4405    False    3558
1  133928858   768   False  164810     True    3372
2   46892468  1895   False    4953    False     818
3  128745923   828    True   12262    False     236
4   84422595  1317   False    4

### 1.2 Verificación de Integridad

In [19]:
print("Valores faltantes en aristas:", edges_df.isna().sum())
print("Valores faltantes en objetivos:", target_df.isna().sum())

# Para el archivo de características, como es un JSON, podríamos hacer algo más manual:
missing_features = {k: v for k, v in features_json.items() if not v}
print("Valores faltantes en características:", len(missing_features))


Valores faltantes en aristas: from    0
to      0
dtype: int64
Valores faltantes en objetivos: id         0
days       0
mature     0
views      0
partner    0
new_id     0
dtype: int64
Valores faltantes en características: 0


#### 1.2.2 Eliminación de datos faltantes

In [20]:
edges_df.dropna(inplace=True)
target_df.dropna(inplace=True)

#### 1.2.3 Eliminación nodos o aristas duplicadas

In [21]:
edges_df.drop_duplicates(inplace=True)
target_df.drop_duplicates(subset='id', inplace=True)

### 1.3 Identificación y Tratamiento de Outliers usando el método IQR

#### 1.3.1 Justificación para usar IQR

Hemos decidido usar el método del Rango Intercuartílico (IQR, por sus siglas en inglés) para el tratamiento de outliers en nuestro conjunto de datos. Las razones para esta elección son:

1. **Robustez**: El método IQR es robusto ante valores extremos, lo que lo hace especialmente útil para conjuntos de datos con outliers pronunciados.

2. **No paramétrico**: A diferencia de otros métodos como el Z-score, el IQR no hace suposiciones sobre la distribución subyacente de los datos. Esto lo hace más versátil y aplicable a una gama más amplia de escenarios.

3. **Independencia de la forma de la distribución**: El método IQR no requiere que los datos sigan una distribución específica, como la distribución normal, lo que lo hace adecuado para nuestro conjunto de datos.

4. **Aplicabilidad a nuestras características**: Dado que estamos trabajando con una red, algunas de las métricas pueden tener distribuciones largamente sesgadas o con una forma inusual. El método IQR es especialmente útil en tales circunstancias.

#### 1.3.2 Aplicación del método IQR

##### Aplicando en las caracteristicas de los nodos

In [23]:
import pandas as pd

# Convertir el diccionario JSON de características en un DataFrame
features_df = pd.DataFrame.from_dict(features_json, orient='index')

# Calculando IQR para cada columna
Q1 = features_df.quantile(0.25)
Q3 = features_df.quantile(0.75)
IQR = Q3 - Q1

# Definiendo límites para los outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Identificando outliers
outliers = ((features_df < lower_bound) | (features_df > upper_bound))

# Tratamiento de outliers
features_df[outliers] = None

# Imputar estos valores NaN con algún otro valor o estrategia
for col in features_df.columns:
    median_value = features_df[col].median()
    features_df[col].fillna(median_value, inplace=True)

print("Después del tratamiento de outliers:")
print(features_df.head())


Después del tratamiento de outliers:
        0     1     2     3     4     5      6       7     8       9   ...  \
1412    89   166  1040   846  2987  1649  920.0   224.0  3097   400.0  ...   
3032   515  1943   289  3084  1575  3164  920.0   224.0  3097   400.0  ...   
4032  1948   421   586   202  2024   846  920.0   224.0   920   224.0  ...   
3945   438  2464   967   861   152  1649  920.0  1907.0  2185  2986.0  ...   
949   2598  1713  1053  2928   473   846  920.0   224.0  3097   706.0  ...   

         67     68      69      70      71     72      73      74      75  \
1412  635.0  436.0  1213.0  1147.0  2631.0  436.0  1213.0  1598.0  1260.0   
3032  635.0  436.0  1213.0  1147.0  2631.0  436.0  1213.0  1598.0  1260.0   
4032  635.0  436.0  1213.0  1147.0  2631.0  436.0  1213.0  1598.0  1260.0   
3945  635.0  436.0  1213.0  1147.0  2631.0  436.0  1213.0  1598.0  1260.0   
949   635.0  436.0  1213.0  1147.0  2631.0  436.0  1213.0  1598.0  1260.0   

          76  
1412  3057.0  
3

##### Aplicando en los nodos

In [25]:
import pandas as pd

# Seleccionamos las columnas numéricas que nos interesan
numeric_cols = ['days', 'views', 'new_id']

# Aplicar el método IQR para cada columna numérica
for col in numeric_cols:
    Q1 = target_df[col].quantile(0.25)
    Q3 = target_df[col].quantile(0.75)
    IQR = Q3 - Q1
    
    # Definir límites para los outliers
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # Identificar outliers
    outliers = target_df[(target_df[col] < lower_bound) | (target_df[col] > upper_bound)]
    
    # Tratamiento de outliers (cambiar por la mediana)
    median_value = target_df[col].median()
    target_df[col].fillna(median_value, inplace=True)


### 1.4 Conversión de Tipos de Datos

#### 1.4.1 Identificación de Tipos de Datos Actuales

In [28]:
print("Tipos de datos de edges_df:")
print(edges_df.dtypes)

print("\nTipos de datos de target_df:")
print(target_df.dtypes)

print("\nTipos de datos de features_df:")
print(features_df.dtypes)


Tipos de datos de edges_df:
from    int32
to      int32
dtype: object

Tipos de datos de target_df:
id         int32
days       int64
mature      bool
views      int64
partner     bool
new_id     int64
dtype: object

Tipos de datos de features_df:
0       int64
1       int64
2       int64
3       int64
4       int64
       ...   
72    float64
73    float64
74    float64
75    float64
76    float64
Length: 77, dtype: object


#### 1.4.2 Conversión para Aristas y Nodos

In [29]:
# Conversión de tipos de datos para el DataFrame de aristas
edges_df['from'] = edges_df['from'].astype(int)
edges_df['to'] = edges_df['to'].astype(int)

# Conversión de tipos de datos para las características de los nodos, considerando las claves como enteros
features_json = {int(k): v for k, v in features_json.items()}

#### 1.4.3 Conversión para Objetivos

In [30]:
target_df['id'] = target_df['id'].astype(int)
target_df['days'] = target_df['days'].astype(int)
target_df['mature'] = target_df['mature'].astype(bool)
target_df['views'] = target_df['views'].astype(int)
target_df['partner'] = target_df['partner'].astype(bool)
target_df['new_id'] = target_df['new_id'].astype(int)

#### 1.4.4 Verificación de Conversión

In [32]:
print("\nTipos de datos después de la conversión:")

print("Tipos de datos de edges_df:")
print(edges_df.dtypes)

print("\nTipos de datos de target_df:")
print(target_df.dtypes)

print("\nTipos de datos de features_df:")
print(features_df.dtypes)



Tipos de datos después de la conversión:
Tipos de datos de edges_df:
from    int32
to      int32
dtype: object

Tipos de datos de target_df:
id         int32
days       int32
mature      bool
views      int32
partner     bool
new_id     int32
dtype: object

Tipos de datos de features_df:
0       int64
1       int64
2       int64
3       int64
4       int64
       ...   
72    float64
73    float64
74    float64
75    float64
76    float64
Length: 77, dtype: object


### 1.5 Normalización de Características

#### 1.5.1 Normalizar `target_df`

In [33]:
from sklearn.preprocessing import MinMaxScaler

# Inicializar el escalador
scaler = MinMaxScaler()

# Normalizar columnas numéricas en el DataFrame target_df
cols_to_normalize = ['days', 'views', 'new_id']  # Ajustar según las columnas numéricas que tengas
target_df[cols_to_normalize] = scaler.fit_transform(target_df[cols_to_normalize])

# Mostrar las primeras filas del DataFrame normalizado
print("Primeros registros de target_df normalizado:")
print(target_df.head())


Primeros registros de target_df normalizado:
          id      days  mature     views  partner    new_id
0   68458707  0.354098   False  0.000144    False  0.765655
1  133928858  0.163934   False  0.005395     True  0.725629
2   46892468  0.448172   False  0.000162    False  0.176028
3  128745923  0.179067    True  0.000401    False  0.050785
4   84422595  0.302396   False  0.000161    False  0.485259


#### 1.5.2 Normalizar `features_df`

In [40]:
# Normalizar todas las columnas en features_df
features_df = (features_df - features_df.min()) / (features_df.max() - features_df.min())

# Verificar los datos normalizados
print("Primeras características de nodos normalizadas:")
print(features_df.head())


Primeras características de nodos normalizadas:
            0         1         2         3         4         5         6   \
1412  0.000000  0.052014  0.328377  0.266267  0.943987  0.516438  0.371069   
3032  0.143001  0.615604  0.090794  0.973152  0.497152  1.000000  0.371069   
4032  0.624035  0.132889  0.184752  0.062855  0.639241  0.260134  0.371069   
3945  0.117153  0.780844  0.305283  0.271004  0.046835  0.516438  0.371069   
949   0.842229  0.542658  0.332490  0.923879  0.148418  0.260134  0.371069   

            7         8         9   ...        67   68        69        70  \
1412  0.107345  0.978824  0.126422  ...  0.017895  0.0  0.037607  0.826687   
3032  0.107345  0.978824  0.126422  ...  0.017895  0.0  0.037607  0.826687   
4032  0.107345  0.290771  0.070796  ...  0.017895  0.0  0.037607  0.826687   
3945  0.971751  0.690582  0.943742  ...  0.017895  0.0  0.037607  0.826687   
949   0.107345  0.978824  0.223135  ...  0.017895  0.0  0.037607  0.826687   

       71  72 

In [41]:
# Convertir el DataFrame normalizado de nuevo a un diccionario
features_json_normalized = features_df.to_dict(orient='index')

# Verificar la conversión
print("Primeras características de nodos normalizadas en formato de diccionario:")
print({k: features_json_normalized[k] for k in list(features_json_normalized)[:5]})


Primeras características de nodos normalizadas en formato de diccionario:
{'1412': {0: 0.0, 1: 0.0520139549635268, 2: 0.3283770958557419, 3: 0.26626658243840806, 4: 0.9439873417721519, 5: 0.5164379189275455, 6: 0.3710691823899371, 7: 0.10734463276836158, 8: 0.9788242730720607, 9: 0.1264222503160556, 10: 0.18000632711167353, 11: 0.25128040973111393, 12: 0.7456224132441898, 13: 0.2489652976758994, 14: 0.8606821106821106, 15: 0.8626126126126126, 16: 0.5055714740528494, 17: 0.5498712998712999, 18: 0.4955611921369689, 19: 0.5033783783783784, 20: 0.5041827541827542, 21: 0.5263835263835264, 22: 0.4752765126870527, 23: 0.48124398845783906, 24: 0.4780645161290323, 25: 0.4722672721375284, 26: 0.4485769728331177, 27: 0.3997391587870884, 28: 0.47364996746909566, 29: 0.47364996746909566, 30: 0.47170116429495473, 31: 0.36787391012743126, 32: 0.3665143603133159, 33: 0.3710041976105909, 34: 0.2411764705882353, 35: 0.345679012345679, 36: 0.33191640099185266, 37: 0.38898949655921766, 38: 0.3577673167451

## Preparación para Análisis de Red

1. Creación de la Red
2. Añadir Atributos a los Nodos

In [6]:
import networkx as nx

G = nx.Graph()

for index, row in edges_df.iterrows():
    G.add_edge(row['from'], row['to'])


In [7]:
for node, attributes in features_json.items():
    G.nodes[int(node)]['features'] = attributes

#### Cálculo de Medidas de Centralidad y Dispersión de Influencia

In [8]:
# Grado
degree_centrality = nx.degree_centrality(G)

# Cercanía
closeness_centrality = nx.closeness_centrality(G)

# Centralidad de intermediación
betweenness_centrality = nx.betweenness_centrality(G)