# Manejando Merges y joins

In [38]:
import pandas as pd
import numpy as np
from faker import Faker
import random

# Inicializar Faker
fake = Faker()

# Generar datos demográficos
num_records = 100

# Generar lista de correos electrónicos única
correos_electronicos = [fake.email() for _ in range(num_records)]

data_demografica = {
    "correo_electronico": correos_electronicos,
    "nombre": [fake.first_name() for _ in range(num_records)],
    "apellido": [fake.last_name() for _ in range(num_records)],
    "edad": [fake.random_int(min=18, max=70) for _ in range(num_records)],
    "genero": [fake.random_element(elements=("Masculino", "Femenino")) for _ in range(num_records)],
    "pais": [fake.country() for _ in range(num_records)]
}

# Crear DataFrame de datos demográficos
df_demografica = pd.DataFrame(data_demografica)

# Generar datos de estadísticas de consumo de aplicaciones
apps = ["WhatsApp", "Instagram", "Facebook", "Twitter", "TikTok", "Snapchat"]

data_consumo = []

# Recorrer cada correo electrónico y cada aplicación
for correo in correos_electronicos:
    # Número aleatorio de elementos a seleccionar (entre 1 y la longitud de apps)
    num_elements = random.randint(1, len(apps))

    # Seleccionar un subset aleatorio de apps
    selected_apps = random.sample(apps, num_elements)

    for app in selected_apps:
        data_consumo.append({
            "correo_electronico": correo,
            "fecha": fake.date_this_year(),
            "app": app,
            "tiempo_uso_minutos": fake.random_int(min=1, max=300)
        })

# Crear DataFrame de datos de consumo
df_consumo = pd.DataFrame(data_consumo)

# Mostrar los DataFrames generados
print("DataFrame de Datos Demográficos:")
print(df_demografica.head())
print("\nDataFrame de Datos de Consumo de Aplicaciones:")
print(df_consumo.head())


DataFrame de Datos Demográficos:
        correo_electronico   nombre apellido  edad     genero  \
0    milleramy@example.org  Jessica  Johnson    43  Masculino   
1       okline@example.org  Michael   Juarez    40   Femenino   
2       jose69@example.net    Julie      Lee    28   Femenino   
3  kennethbeck@example.net  Jessica    Quinn    64  Masculino   
4      kelly96@example.org     Kyle   Garcia    67  Masculino   

                    pais  
0                Mayotte  
1               Dominica  
2  Saint Kitts and Nevis  
3                Ireland  
4                Germany  

DataFrame de Datos de Consumo de Aplicaciones:
      correo_electronico       fecha        app  tiempo_uso_minutos
0  milleramy@example.org  2024-06-22     TikTok                 239
1  milleramy@example.org  2024-07-01   WhatsApp                 173
2  milleramy@example.org  2024-05-19    Twitter                 175
3  milleramy@example.org  2024-04-28   Facebook                  86
4  milleramy@example.org  

## Pruebas de agrupacion

In [None]:
# Agrupar por correo electrónico, contar y calcular la media de tiempo de uso
df_agrupado = df_consumo.groupby('correo_electronico').agg(
    num_registros=('correo_electronico', 'size'),
    media_tiempo_uso=('tiempo_uso_minutos', 'mean'),
    varianza_tiempo_uso=('tiempo_uso_minutos', 'var')
).reset_index()

# Mostrar el DataFrame agrupado
print("DataFrame Agrupado:")
print(df_agrupado.head())


DataFrame Agrupado:
        correo_electronico  num_registros  media_tiempo_uso  \
0      aaron72@example.org              3        145.000000   
1       alan41@example.net              5        166.400000   
2     andrea12@example.com              5         96.000000   
3  andrewdavis@example.com              3        107.666667   
4    barbara34@example.org              4        110.500000   

   varianza_tiempo_uso  
0          8197.000000  
1          7283.300000  
2          3855.000000  
3         14174.333333  
4          2115.000000  


In [None]:
df_consumo.groupby('correo_electronico').mean('tiempo_uso_minutos')