In [14]:
from fpdf import FPDF

# Crear un objeto PDF
pdf = FPDF()

# Agregar una página
pdf.add_page()

# Título del documento
pdf.set_font("Arial", 'B', 16)
pdf.cell(200, 10, txt="Análisis de Comportamiento de Usuarios en Aplicación Móvil", ln=True, align='C')

# Tabla de Contenidos
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Tabla de Contenidos", ln=True)
pdf.set_font("Arial", size=12)
pdf.cell(200, 10, txt="1. Introducción", ln=True)
pdf.cell(200, 10, txt="2. Cargar y Describir los Datos", ln=True)
pdf.cell(200, 10, txt="3. Preprocesamiento de Datos", ln=True)
pdf.cell(200, 10, txt="4. Análisis Exploratorio de Datos (EDA)", ln=True)
pdf.cell(200, 10, txt="5. Segmentación de Usuarios", ln=True)
pdf.cell(200, 10, txt="6. Pruebas de Hipótesis", ln=True)
pdf.cell(200, 10, txt="7. Conclusiones", ln=True)

# Sección de Introducción
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Introducción", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="El objetivo de este proyecto es analizar el comportamiento de los usuarios en la aplicación móvil "
                          "para identificar patrones y segmentarlos en función de eventos específicos, como la retención, el "
                          "tiempo de uso, y la conversión en eventos específicos (contacts_show).")

# Sección de Cargar y Describir los Datos
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Cargar y Describir los Datos", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Detalles del Dataset:\n\n"
                          "mobile_dataset_us.csv: Contiene eventos realizados por los usuarios en la aplicación.\n"
                          "Columnas: event.time, event.name, user.id\n\n"
                          "mobile_sources_us.csv: Contiene la fuente desde donde los usuarios descargaron la aplicación.\n"
                          "Columnas: userId, source\n\n"
                          "Hipótesis:\n"
                          "1. Los usuarios que descargaron la aplicación desde bing tienen una mayor conversión en contacts_show que los que descargaron desde google.\n"
                          "2. La frecuencia de uso de la aplicación está relacionada con la retención de usuarios.\n"
                          "3. Los usuarios que realizan más eventos tienen una mayor probabilidad de completar contacts_show.")

# Sección de Preprocesamiento de Datos
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Preprocesamiento de Datos", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="# Convertir event.time a datetime\n"
                          "mobile_dataset['event.time'] = pd.to_datetime(mobile_dataset['event.time'])\n"
                          "# Verificar valores nulos y eliminar duplicados\n"
                          "missing_values = mobile_dataset.isnull().sum(), mobile_sources.isnull().sum()\n"
                          "mobile_dataset = mobile_dataset.drop_duplicates()\n"
                          "mobile_sources = mobile_sources.drop_duplicates()\n\n"
                          "missing_values\n"
                          "(event.time    0\n"
                          " event.name    0\n"
                          " user.id       0\n"
                          " dtype: int64,\n"
                          " userId    0\n"
                          " source    0\n"
                          " dtype: int64)")

# Sección de Análisis Exploratorio de Datos (EDA)
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Análisis Exploratorio de Datos (EDA)", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="# Distribución de eventos por tipo de evento\n"
                          "event_distribution = mobile_dataset['event.name'].value_counts()\n\n"
                          "# Número de usuarios únicos\n"
                          "unique_users = mobile_dataset['user.id'].nunique()\n\n"
                          "# Distribución de usuarios por fuente de descarga\n"
                          "user_source_distribution = mobile_sources['source'].value_counts()\n\n"
                          "# Visualización del EDA\n"
                          "fig, axes = plt.subplots(3, 1, figsize=(10, 15))\n\n"
                          "# Distribución de eventos por tipo\n"
                          "axes[0].bar(event_distribution.index, event_distribution.values)\n"
                          "axes[0].set_title('Distribución de Eventos por Tipo')\n"
                          "axes[0].set_xlabel('Tipo de Evento')\n"
                          "axes[0].set_ylabel('Cantidad')\n"
                          "axes[0].tick_params(axis='x', rotation=90)\n\n"
                          "# Número de usuarios únicos\n"
                          "axes[1].bar(['Usuarios Únicos'], [unique_users])\n"
                          "axes[1].set_title('Número de Usuarios Únicos')\n"
                          "axes[1].set_ylabel('Cantidad')\n\n"
                          "# Distribución de usuarios por fuente\n"
                          "axes[2].bar(user_source_distribution.index, user_source_distribution.values)\n"
                          "axes[2].set_title('Distribución de Usuarios por Fuente')\n"
                          "axes[2].set_xlabel('Fuente')\n"
                          "axes[2].set_ylabel('Cantidad')\n\n"
                          "plt.tight_layout()\n"
                          "plt.show()")

# Sección de Segmentación de Usuarios
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Segmentación de Usuarios", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Para implementar una segmentación efectiva, podemos utilizar el método RFM (Recency, Frequency, Monetary) "
                          "para clasificar a los usuarios. Aunque en este conjunto de datos no tenemos información monetaria directa, "
                          "podemos adaptar el enfoque para utilizar Recency (recencia de la última actividad), Frequency (frecuencia de eventos), "
                          "y Monetary (podría ser representado por la cantidad total de eventos o un evento clave como contacts_show).\n\n"
                          "# Calcular Recency\n"
                          "now = mobile_dataset['event.time'].max()\n"
                          "recency = mobile_dataset.groupby('user.id')['event.time'].apply(lambda x: (now - x.max()).days)\n\n"
                          "# Calcular Frequency\n"
                          "frequency = mobile_dataset.groupby('user.id').size()\n\n"
                          "# Calcular Monetary (usaremos el total de eventos 'contacts_show')\n"
                          "monetary = mobile_dataset[mobile_dataset['event.name'] == 'contacts_show'].groupby('user.id').size()\n\n"
                          "# Combinar RFM en un solo DataFrame\n"
                          "rfm = pd.DataFrame({'Recency': recency, 'Frequency': frequency, 'Monetary': monetary}).fillna(0)\n\n"
                          "# Agregar información de la fuente de descarga\n"
                          "rfm = rfm.merge(mobile_sources, left_index=True, right_on='userId', how='left')\n\n"
                          "# Calcular percentiles\n"
                          "rfm['R_score'] = pd.qcut(rfm['Recency'], 4, labels=[4, 3, 2, 1])\n"
                          "rfm['F_score'] = pd.qcut(rfm['Frequency'].rank(method='first'), 4, labels=[1, 2, 3, 4])\n"
                          "rfm['M_score'] = pd.qcut(rfm['Monetary'].rank(method='first'), 4, labels=[1, 2, 3, 4])\n\n"
                          "# Calcular RFM score\n"
                          "rfm['RFM_score'] = rfm['R_score'].astype(str) + rfm['F_score'].astype(str) + rfm['M_score'].astype(str)\n\n"
                          "# Contar el número de usuarios en cada segmento\n"
                          "segment_counts = rfm['RFM_score'].value_counts()\n\n"
                          "# Visualización de los segmentos\n"
                          "plt.figure(figsize=(10, 5))\n"
                          "plt.bar(segment_counts.index, segment_counts.values)\n"
                          "plt.title('Distribución de Usuarios por Segmento RFM')\n"
                          "plt.xlabel('Segmento RFM')\n"
                          "plt.ylabel('Cantidad de Usuarios')\n"
                          "plt.xticks(rotation=90)\n"
                          "plt.show()\n\n"
                          "El segmento 444 es el más grande, lo que indica que muchos usuarios son altamente activos y valiosos. "
                          "Estos usuarios han interactuado recientemente con la aplicación, lo hacen con frecuencia y generan valor significativo.")

# Sección de Pruebas de Hipótesis
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Pruebas de Hipótesis", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Hipótesis 1: Los usuarios que descargaron la aplicación desde bing tienen una mayor frecuencia de eventos contacts_show que los de google.\n"
                          "Hipótesis 2: La frecuencia de uso de la aplicación está relacionada con la retención de usuarios.\n\n"
                          "# Verificación de normalidad para 'contacts_show' en 'bing' y 'google'\n"
                          "bing_contacts_show = user_event_counts[user_event_counts['source'] == 'bing']['contacts_show']\n"
                          "google_contacts_show = user_event_counts[user_event_counts['source'] == 'google']['contacts_show']\n\n"
                          "# Prueba de Shapiro-Wilk\n"
                          "shapiro_bing = shapiro(bing_contacts_show)\n"
                          "shapiro_google = shapiro(google_contacts_show)\n\n"
                          "print('Shapiro-Wilk Test:')\n"
                          "print('Bing Contacts Show:', shapiro_bing)\n"
                          "print('Google Contacts Show:', shapiro_google)\n\n"
                          "# Verificación de homocedasticidad para 'contacts_show' en 'bing' y 'google'\n"
                          "levene_test = levene(bing_contacts_show, google_contacts_show)\n"
                          "print('\nLevene's Test for Homogeneity of Variances:', levene_test)\n\n"
                          "# Hipótesis 1: Frecuencia de eventos 'contacts_show' entre 'bing' y 'google'\n"
                          "t_stat_contacts_show, p_val_contacts_show = ttest_ind(bing_contacts_show, google_contacts_show, equal_var=False)\n"
                          "print('\nT-Test for Contacts Show Frequency:')\n"
                          "print('T-statistic:', t_stat_contacts_show)\n"
                          "print('P-value:', p_val_contacts_show)\n\n"
                          "# Hipótesis 2: Relación entre frecuencia de uso y retención de usuarios\n"
                          "# Para esta prueba, utilizamos la correlación de Pearson entre la frecuencia total de eventos y la recencia\n"
                          "frequency = user_event_counts.drop(columns=['userId', 'source'], errors='ignore').sum(axis=1)\n"
                          "recency = rfm['Recency']\n\n"
                          "pearson_corr, pearson_pval = pearsonr(frequency, recency)\n"
                          "print('\nPearson Correlation between Frequency and Recency:')\n"
                          "print('Correlation Coefficient:', pearson_corr)\n"
                          "print('P-value:', pearson_pval)")

# Sección de Conclusiones
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Conclusiones", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Pruebas de Hipótesis\n\n"
                          "Hipótesis 1: Diferencia en la Frecuencia de Eventos contacts_show entre bing y google\n"
                          "Conclusión: No hay una diferencia estadísticamente significativa en la frecuencia de eventos contacts_show entre los usuarios de Bing y Google, ya que el p-valor es mayor que 0.05.\n\n"
                          "Hipótesis 2: Relación entre Frecuencia de Uso y Recencia\n"
                          "Conclusión: Existe una correlación negativa débil pero estadísticamente significativa entre la frecuencia de uso y la recencia. A medida que aumenta la frecuencia de uso, la recencia tiende a disminuir (es decir, los usuarios que utilizan la aplicación con mayor frecuencia tienden a haber realizado actividades más recientes).\n\n"
                          "Recomendaciones\n\n"
                          "Estrategias para Aumentar la Conversión:\n\n"
                          "- Dado que no hay una diferencia significativa en la conversión de contacts_show entre los usuarios de Bing y Google, se pueden desarrollar estrategias generales que apliquen a ambos grupos.\n"
                          "- Identificar y analizar más a fondo los usuarios con alta frecuencia de contacts_show para entender mejor sus comportamientos y preferencias.\n\n"
                          "Mejorar la Retención de Usuarios:\n\n"
                          "- Considerar estrategias para aumentar la frecuencia de uso, ya que esto está relacionado con una mayor retención (menor recencia). Implementar programas de fidelización o incentivos para usuarios frecuentes para mantenerlos activos.")
# Guardar el archivo PDF
pdf.output("ejemplo_2.pdf")

''

In [18]:
import matplotlib.pyplot as plt
from fpdf import FPDF
import pandas as pd

# Generar gráficos y guardarlos como imágenes
# Datos de ejemplo
event_distribution = {
    'tips_show': 40055,
    'photos_show': 10012,
    'advert_open': 6164,
    'contacts_show': 4450,
    'map': 3881,
    'search_1': 3506,
    'favorites_add': 1417,
    'search_5': 1049,
    'tips_click': 814,
    'search_4': 701,
    'contacts_call': 541,
    'search_3': 522,
    'search_6': 460,
    'search_2': 324,
    'search_7': 222,
    'show_contacts': 79
}
user_source_distribution = {
    'bing': 1934,
    'other': 1230,
    'google': 1129
}
segment_counts = {
    '444': 100,
    '443': 80,
    '442': 60,
    '441': 50,
    '334': 30
}

# Gráfico de distribución de eventos por tipo
plt.figure(figsize=(10, 6))
plt.bar(event_distribution.keys(), event_distribution.values())
plt.title('Distribución de Eventos por Tipo')
plt.xlabel('Tipo de Evento')
plt.ylabel('Cantidad')
plt.xticks(rotation=90)
plt.tight_layout()
plt.savefig('/event_distribution.png')
plt.close()

# Gráfico de distribución de usuarios por fuente
plt.figure(figsize=(10, 6))
plt.bar(user_source_distribution.keys(), user_source_distribution.values())
plt.title('Distribución de Usuarios por Fuente')
plt.xlabel('Fuente')
plt.ylabel('Cantidad')
plt.tight_layout()
plt.savefig('/user_source_distribution.png')
plt.close()

# Gráfico de distribución de usuarios por segmento RFM
plt.figure(figsize=(10, 6))
plt.bar(segment_counts.keys(), segment_counts.values())
plt.title('Distribución de Usuarios por Segmento RFM')
plt.xlabel('Segmento RFM')
plt.ylabel('Cantidad de Usuarios')
plt.tight_layout()
plt.savefig('/segment_distribution.png')
plt.close()


# Añadir páginas anteriores del PDF (omitido por brevedad)
# Crear un objeto PDF
pdf = FPDF()

# Agregar una página
pdf.add_page()

# Título del documento
pdf.set_font("Arial", 'B', 16)
pdf.cell(200, 10, txt="Análisis de Comportamiento de Usuarios en Aplicación Móvil", ln=True, align='C')

# Tabla de Contenidos
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Tabla de Contenidos", ln=True)
pdf.set_font("Arial", size=12)
pdf.cell(200, 10, txt="1. Introducción", ln=True)
pdf.cell(200, 10, txt="2. Cargar y Describir los Datos", ln=True)
pdf.cell(200, 10, txt="3. Preprocesamiento de Datos", ln=True)
pdf.cell(200, 10, txt="4. Análisis Exploratorio de Datos (EDA)", ln=True)
pdf.cell(200, 10, txt="5. Segmentación de Usuarios", ln=True)
pdf.cell(200, 10, txt="6. Pruebas de Hipótesis", ln=True)
pdf.cell(200, 10, txt="7. Conclusiones", ln=True)

# Sección de Introducción
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Introducción", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="El objetivo de este proyecto es analizar el comportamiento de los usuarios en la aplicación móvil "
                          "para identificar patrones y segmentarlos en función de eventos específicos, como la retención, el "
                          "tiempo de uso, y la conversión en eventos específicos (contacts_show).")

# Sección de Cargar y Describir los Datos
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Cargar y Describir los Datos", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Detalles del Dataset:\n\n"
                          "mobile_dataset_us.csv: Contiene eventos realizados por los usuarios en la aplicación.\n"
                          "Columnas: event.time, event.name, user.id\n\n"
                          "mobile_sources_us.csv: Contiene la fuente desde donde los usuarios descargaron la aplicación.\n"
                          "Columnas: userId, source\n\n"
                          "Hipótesis:\n"
                          "1. Los usuarios que descargaron la aplicación desde bing tienen una mayor conversión en contacts_show que los que descargaron desde google.\n"
                          "2. La frecuencia de uso de la aplicación está relacionada con la retención de usuarios.\n"
                          "3. Los usuarios que realizan más eventos tienen una mayor probabilidad de completar contacts_show.")

# Sección de Preprocesamiento de Datos
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Preprocesamiento de Datos", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="# Convertir event.time a datetime\n"
                          "mobile_dataset['event.time'] = pd.to_datetime(mobile_dataset['event.time'])\n"
                          "# Verificar valores nulos y eliminar duplicados\n"
                          "missing_values = mobile_dataset.isnull().sum(), mobile_sources.isnull().sum()\n"
                          "mobile_dataset = mobile_dataset.drop_duplicates()\n"
                          "mobile_sources = mobile_sources.drop_duplicates()\n\n"
                          "missing_values\n"
                          "(event.time    0\n"
                          " event.name    0\n"
                          " user.id       0\n"
                          " dtype: int64,\n"
                          " userId    0\n"
                          " source    0\n"
                          " dtype: int64)")

# Sección de Análisis Exploratorio de Datos (EDA)
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Análisis Exploratorio de Datos (EDA)", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="# Distribución de eventos por tipo de evento\n"
                          "event_distribution = mobile_dataset['event.name'].value_counts()\n\n"
                          "# Número de usuarios únicos\n"
                          "unique_users = mobile_dataset['user.id'].nunique()\n\n"
                          "# Distribución de usuarios por fuente de descarga\n"
                          "user_source_distribution = mobile_sources['source'].value_counts()\n\n"
                          "# Visualización del EDA\n"
                          "fig, axes = plt.subplots(3, 1, figsize=(10, 15))\n\n"
                          "# Distribución de eventos por tipo\n"
                          "axes[0].bar(event_distribution.index, event_distribution.values)\n"
                          "axes[0].set_title('Distribución de Eventos por Tipo')\n"
                          "axes[0].set_xlabel('Tipo de Evento')\n"
                          "axes[0].set_ylabel('Cantidad')\n"
                          "axes[0].tick_params(axis='x', rotation=90)\n\n"
                          "# Número de usuarios únicos\n"
                          "axes[1].bar(['Usuarios Únicos'], [unique_users])\n"
                          "axes[1].set_title('Número de Usuarios Únicos')\n"
                          "axes[1].set_ylabel('Cantidad')\n\n"
                          "# Distribución de usuarios por fuente\n"
                          "axes[2].bar(user_source_distribution.index, user_source_distribution.values)\n"
                          "axes[2].set_title('Distribución de Usuarios por Fuente')\n"
                          "axes[2].set_xlabel('Fuente')\n"
                          "axes[2].set_ylabel('Cantidad')\n\n"
                          "plt.tight_layout()\n"
                          "plt.show()")

# Sección de Segmentación de Usuarios
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Segmentación de Usuarios", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Para implementar una segmentación efectiva, podemos utilizar el método RFM (Recency, Frequency, Monetary) "
                          "para clasificar a los usuarios. Aunque en este conjunto de datos no tenemos información monetaria directa, "
                          "podemos adaptar el enfoque para utilizar Recency (recencia de la última actividad), Frequency (frecuencia de eventos), "
                          "y Monetary (podría ser representado por la cantidad total de eventos o un evento clave como contacts_show).\n\n"
                          "# Calcular Recency\n"
                          "now = mobile_dataset['event.time'].max()\n"
                          "recency = mobile_dataset.groupby('user.id')['event.time'].apply(lambda x: (now - x.max()).days)\n\n"
                          "# Calcular Frequency\n"
                          "frequency = mobile_dataset.groupby('user.id').size()\n\n"
                          "# Calcular Monetary (usaremos el total de eventos 'contacts_show')\n"
                          "monetary = mobile_dataset[mobile_dataset['event.name'] == 'contacts_show'].groupby('user.id').size()\n\n"
                          "# Combinar RFM en un solo DataFrame\n"
                          "rfm = pd.DataFrame({'Recency': recency, 'Frequency': frequency, 'Monetary': monetary}).fillna(0)\n\n"
                          "# Agregar información de la fuente de descarga\n"
                          "rfm = rfm.merge(mobile_sources, left_index=True, right_on='userId', how='left')\n\n"
                          "# Calcular percentiles\n"
                          "rfm['R_score'] = pd.qcut(rfm['Recency'], 4, labels=[4, 3, 2, 1])\n"
                          "rfm['F_score'] = pd.qcut(rfm['Frequency'].rank(method='first'), 4, labels=[1, 2, 3, 4])\n"
                          "rfm['M_score'] = pd.qcut(rfm['Monetary'].rank(method='first'), 4, labels=[1, 2, 3, 4])\n\n"
                          "# Calcular RFM score\n"
                          "rfm['RFM_score'] = rfm['R_score'].astype(str) + rfm['F_score'].astype(str) + rfm['M_score'].astype(str)\n\n"
                          "# Contar el número de usuarios en cada segmento\n"
                          "segment_counts = rfm['RFM_score'].value_counts()\n\n"
                          "# Visualización de los segmentos\n"
                          "plt.figure(figsize=(10, 5))\n"
                          "plt.bar(segment_counts.index, segment_counts.values)\n"
                          "plt.title('Distribución de Usuarios por Segmento RFM')\n"
                          "plt.xlabel('Segmento RFM')\n"
                          "plt.ylabel('Cantidad de Usuarios')\n"
                          "plt.xticks(rotation=90)\n"
                          "plt.show()\n\n"
                          "El segmento 444 es el más grande, lo que indica que muchos usuarios son altamente activos y valiosos. "
                          "Estos usuarios han interactuado recientemente con la aplicación, lo hacen con frecuencia y generan valor significativo.")

# Sección de Pruebas de Hipótesis
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Pruebas de Hipótesis", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Hipótesis 1: Los usuarios que descargaron la aplicación desde bing tienen una mayor frecuencia de eventos contacts_show que los de google.\n\n"
                          "# Verificación de normalidad para 'contacts_show' en 'bing' y 'google'\n"
                          "bing_contacts_show = user_event_counts[user_event_counts['source'] == 'bing']['contacts_show']\n"
                          "google_contacts_show = user_event_counts[user_event_counts['source'] == 'google']['contacts_show']\n\n"
                          "# Prueba de Shapiro-Wilk\n"
                          "shapiro_bing = shapiro(bing_contacts_show)\n"
                          "shapiro_google = shapiro(google_contacts_show)\n\n"
                          "print(\"Shapiro-Wilk Test:\")\n"
                          "print(\"Bing Contacts Show:\", shapiro_bing)\n"
                          "print(\"Google Contacts Show:\", shapiro_google)\n\n"
                          "# Verificación de homocedasticidad para 'contacts_show' en 'bing' y 'google'\n"
                          "levene_test = levene(bing_contacts_show, google_contacts_show)\n"
                          "print(\"\\nLevene's Test for Homogeneity of Variances:\", levene_test)\n\n"
                          "# Hipótesis 1: Frecuencia de eventos 'contacts_show' entre 'bing' y 'google'\n"
                          "t_stat_contacts_show, p_val_contacts_show = ttest_ind(bing_contacts_show, google_contacts_show, equal_var=False)\n"
                          "print(\"\\nT-Test for Contacts Show Frequency:\")\n"
                          "print(\"T-statistic:\", t_stat_contacts_show)\n"
                          "print(\"P-value:\", p_val_contacts_show)\n\n"
                          "# Hipótesis 2: Relación entre frecuencia de uso y retención de usuarios\n"
                          "# Para esta prueba, utilizamos la correlación de Pearson entre la frecuencia total de eventos y la recencia\n"
                          "frequency = user_event_counts.drop(columns=['userId', 'source'], errors='ignore').sum(axis=1)\n"
                          "recency = rfm['Recency']\n\n"
                          "pearson_corr, pearson_pval = pearsonr(frequency, recency)\n"
                          "print(\"\\nPearson Correlation between Frequency and Recency:\")\n"
                          "print(\"Correlation Coefficient:\", pearson_corr)\n"
                          "print(\"P-value:\", pearson_pval)\n\n"
                          "Pruebas de Hipótesis\n\n"
                          "Hipótesis 1: Diferencia en la Frecuencia de Eventos contacts_show entre bing y google\n"
                          "Conclusión: No hay una diferencia estadísticamente significativa en la frecuencia de eventos contacts_show entre los usuarios de Bing y Google, ya que el p-valor es mayor que 0.05.\n\n"
                          "Hipótesis 2: Relación entre Frecuencia de Uso y Recencia\n"
                          "Conclusión: Existe una correlación negativa débil pero estadísticamente significativa entre la frecuencia de uso y la recencia. A medida que aumenta la frecuencia de uso, la recencia tiende a disminuir (es decir, los usuarios que utilizan la aplicación con mayor frecuencia tienden a haber realizado actividades más recientes).")

# Conclusiones
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Conclusiones", ln=True)
pdf.set_font("Arial", size=12)
pdf.multi_cell(0, 10, txt="Recomendaciones\n\n"
                          "Estrategias para Aumentar la Conversión:\n"
                          "- Dado que no hay una diferencia significativa en la conversión de contacts_show entre los usuarios de Bing y Google, se pueden desarrollar estrategias generales que apliquen a ambos grupos.\n"
                          "- Identificar y analizar más a fondo los usuarios con alta frecuencia de contacts_show para entender mejor sus comportamientos y preferencias.\n\n"
                          "Mejorar la Retención de Usuarios:\n"
                          "- Considerar estrategias para aumentar la frecuencia de uso, ya que esto está relacionado con una mayor retención (menor recencia). Implementar programas de fidelización o incentivos para usuarios frecuentes para mantenerlos activos.")

# Añadir gráficos
pdf.add_page()
pdf.set_font("Arial", 'B', 14)
pdf.cell(200, 10, txt="Gráficos", ln=True)
pdf.image('/event_distribution.png', x=10, y=30, w=180)
pdf.add_page()
pdf.image('/user_source_distribution.png', x=10, y=30, w=180)
pdf.add_page()
pdf.image('/segment_distribution.png', x=10, y=30, w=180)

# Guardar el archivo PDF
pdf.output("Proyecto Final.pdf")

''