# ¡Hola, James!  

Mi nombre es Carlos Ortiz, soy code reviewer de TripleTen y voy a revisar el proyecto que acabas de desarrollar.

Cuando vea un error la primera vez, lo señalaré. Deberás encontrarlo y arreglarlo. La intención es que te prepares para un espacio real de trabajo. En un trabajo, el líder de tu equipo hará lo mismo. Si no puedes solucionar el error, te daré más información en la próxima ocasión. 

Encontrarás mis comentarios más abajo - **por favor, no los muevas, no los modifiques ni los borres**.

¿Cómo lo voy a hacer? Voy a leer detenidamente cada una de las implementaciones que has llevado a cabo para cumplir con lo solicitado. Verás los comentarios de esta forma:

<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si todo está perfecto.
</div>


<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Si tu código está bien pero se puede mejorar o hay algún detalle que le hace falta.
</div>


<div class="alert alert-block alert-danger">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
    
Si de pronto hace falta algo o existe algún problema con tu código o conclusiones.
</div>


Puedes responderme de esta forma: 


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
</div>
¡Empecemos!

# ¿Cuál es la mejor tarifa?

Trabajas como analista para el operador de telecomunicaciones Megaline. La empresa ofrece a sus clientes dos tarifas de prepago, Surf y Ultimate. El departamento comercial quiere saber cuál de las tarifas genera más ingresos para poder ajustar el presupuesto de publicidad.

Vas a realizar un análisis preliminar de las tarifas basado en una selección de clientes relativamente pequeña. Tendrás los datos de 500 clientes de Megaline: quiénes son los clientes, de dónde son, qué tarifa usan, así como la cantidad de llamadas que hicieron y los mensajes de texto que enviaron en 2018. Tu trabajo es analizar el comportamiento de los clientes y determinar qué tarifa de prepago genera más ingresos.

## Introducción

Analizaremos el desempeño de las tarifas de prepago "Surf" y "Ultimate", con el objetivo de optimizar el presupuesto de publicidad, se llevará a cabo un análisis preliminar centrado en una muestra representativa de 500 clientes de Megaline. Este análisis abarcará aspectos clave, como la demografía de los clientes, el uso de las tarifas, la cantidad de llamadas y mensajes de texto realizados en el año 2018. Debemos estudair el comportamiento de los clientes y determinar cuál de las tarifas genera mayores ingresos.
 Los resultados obtenidos contribuirán significativamente a la toma de decisiones estratégicas para mejorar la rentabilidad y satisfacción del cliente.

## Inicialización

In [1]:
# Cargar todas las librerías
import pandas as pd
import numpy as np
from math import factorial
from scipy import stats as st
from scipy.stats import ttest_ind
import math as mt
import matplotlib.pyplot as plt
import seaborn as sns


## Cargar datos

In [2]:
# Carga los archivos de datos en diferentes DataFrames
df_users = pd.read_csv('/datasets/megaline_users.csv')
df_calls = pd.read_csv('/datasets/megaline_calls.csv')
df_messages = pd.read_csv('/datasets/megaline_messages.csv')
df_internet = pd.read_csv('/datasets/megaline_internet.csv')
df_plans = pd.read_csv('/datasets/megaline_plans.csv')


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Buen trabajo con la importación de datos y de librerías.
</div>

## Preparar los datos

## Tarifas

In [3]:
# Imprime la información general/resumida sobre el DataFrame de las tarifas
df_plans.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   messages_included      2 non-null      int64  
 1   mb_per_month_included  2 non-null      int64  
 2   minutes_included       2 non-null      int64  
 3   usd_monthly_pay        2 non-null      int64  
 4   usd_per_gb             2 non-null      int64  
 5   usd_per_message        2 non-null      float64
 6   usd_per_minute         2 non-null      float64
 7   plan_name              2 non-null      object 
dtypes: float64(2), int64(5), object(1)
memory usage: 256.0+ bytes


In [4]:
# Imprime una muestra de los datos para las tarifas
display(df_plans.head(20))


Unnamed: 0,messages_included,mb_per_month_included,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute,plan_name
0,50,15360,500,20,10,0.03,0.03,surf
1,1000,30720,3000,70,7,0.01,0.01,ultimate


Al mostrar la tabla de tarifas facilitada, nos encontramos con información relacionada a cada uno de los planes prepago que ofrece el operador de telecomunicaciones Megaline, sin embargo en la columna de 'mb_per_month_included' transformaremos los datos de mb a gb.

## Corregir datos

In [5]:
#Modificando los valores a 'GB' 
df_plans['mb_per_month_included'] = df_plans['mb_per_month_included'] / 1024 
display(df_plans.head())

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute,plan_name
0,50,15.0,500,20,10,0.03,0.03,surf
1,1000,30.0,3000,70,7,0.01,0.01,ultimate


## Enriquecer los datos

## Usuarios/as

In [6]:
# Imprime la información general/resumida sobre el DataFrame de usuarios
df_users.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     500 non-null    int64 
 1   first_name  500 non-null    object
 2   last_name   500 non-null    object
 3   age         500 non-null    int64 
 4   city        500 non-null    object
 5   reg_date    500 non-null    object
 6   plan        500 non-null    object
 7   churn_date  34 non-null     object
dtypes: int64(2), object(6)
memory usage: 31.4+ KB


In [7]:
# Imprime una muestra de datos para usuarios

display(df_users.head(20))

Unnamed: 0,user_id,first_name,last_name,age,city,reg_date,plan,churn_date
0,1000,Anamaria,Bauer,45,"Atlanta-Sandy Springs-Roswell, GA MSA",2018-12-24,ultimate,
1,1001,Mickey,Wilkerson,28,"Seattle-Tacoma-Bellevue, WA MSA",2018-08-13,surf,
2,1002,Carlee,Hoffman,36,"Las Vegas-Henderson-Paradise, NV MSA",2018-10-21,surf,
3,1003,Reynaldo,Jenkins,52,"Tulsa, OK MSA",2018-01-28,surf,
4,1004,Leonila,Thompson,40,"Seattle-Tacoma-Bellevue, WA MSA",2018-05-23,surf,
5,1005,Livia,Shields,31,"Dallas-Fort Worth-Arlington, TX MSA",2018-11-29,surf,
6,1006,Jesusa,Bradford,73,"San Francisco-Oakland-Berkeley, CA MSA",2018-11-27,ultimate,2018-12-18
7,1007,Eusebio,Welch,42,"Grand Rapids-Kentwood, MI MSA",2018-07-11,surf,
8,1008,Emely,Hoffman,53,"Orlando-Kissimmee-Sanford, FL MSA",2018-08-03,ultimate,
9,1009,Gerry,Little,19,"San Jose-Sunnyvale-Santa Clara, CA MSA",2018-04-22,surf,


 Una vez revisado los datos, nos encontramos con la columna 'churn_date' que contiene información respecto a la fecha en la que el usuario dejó de usar el servicio (si el valor es ausente, la tarifa se estaba usando cuando fue extraída esta base de datos), razon por la cual para facilitar la comprensión de los mismos, se cambiarán todos los usuarios cuyo plan se encuentra activo con la palabra "active" y el tipo de datos de la columna "reg_date" a formato de fecha americana.

### Corregir los datos

In [8]:
df_users['churn_date'] = df_users["churn_date"].fillna("active")
df_users['reg_date'] = pd.to_datetime(df_users['reg_date'], format='%Y-%m-%d')
df_users.info()
display(df_users.head(30))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   user_id     500 non-null    int64         
 1   first_name  500 non-null    object        
 2   last_name   500 non-null    object        
 3   age         500 non-null    int64         
 4   city        500 non-null    object        
 5   reg_date    500 non-null    datetime64[ns]
 6   plan        500 non-null    object        
 7   churn_date  500 non-null    object        
dtypes: datetime64[ns](1), int64(2), object(5)
memory usage: 31.4+ KB


Unnamed: 0,user_id,first_name,last_name,age,city,reg_date,plan,churn_date
0,1000,Anamaria,Bauer,45,"Atlanta-Sandy Springs-Roswell, GA MSA",2018-12-24,ultimate,active
1,1001,Mickey,Wilkerson,28,"Seattle-Tacoma-Bellevue, WA MSA",2018-08-13,surf,active
2,1002,Carlee,Hoffman,36,"Las Vegas-Henderson-Paradise, NV MSA",2018-10-21,surf,active
3,1003,Reynaldo,Jenkins,52,"Tulsa, OK MSA",2018-01-28,surf,active
4,1004,Leonila,Thompson,40,"Seattle-Tacoma-Bellevue, WA MSA",2018-05-23,surf,active
5,1005,Livia,Shields,31,"Dallas-Fort Worth-Arlington, TX MSA",2018-11-29,surf,active
6,1006,Jesusa,Bradford,73,"San Francisco-Oakland-Berkeley, CA MSA",2018-11-27,ultimate,2018-12-18
7,1007,Eusebio,Welch,42,"Grand Rapids-Kentwood, MI MSA",2018-07-11,surf,active
8,1008,Emely,Hoffman,53,"Orlando-Kissimmee-Sanford, FL MSA",2018-08-03,ultimate,active
9,1009,Gerry,Little,19,"San Jose-Sunnyvale-Santa Clara, CA MSA",2018-04-22,surf,active


### Enriquecer los datos

## Llamadas

In [9]:
# Imprime la información general/resumida sobre el DataFrame de las llamadas

df_calls.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 137735 entries, 0 to 137734
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id         137735 non-null  object 
 1   user_id    137735 non-null  int64  
 2   call_date  137735 non-null  object 
 3   duration   137735 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 4.2+ MB


In [10]:
# Imprime una muestra de datos para las llamadas
display(df_calls.head())


Unnamed: 0,id,user_id,call_date,duration
0,1000_93,1000,2018-12-27,8.52
1,1000_145,1000,2018-12-27,13.66
2,1000_247,1000,2018-12-27,14.48
3,1000_309,1000,2018-12-28,5.76
4,1000_380,1000,2018-12-30,4.22


Se observan los tipos de datos de cada una de la columna, la columna "call_date' es de tipo 'object' por lo que le sera cambiado el tipo de dato a fecha para facilitar su analisis posterior.

### Corregir los datos

In [11]:
df_calls['call_date'] = pd.to_datetime(df_calls['call_date'], format='%Y-%m-%d')
df_calls.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 137735 entries, 0 to 137734
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype         
---  ------     --------------   -----         
 0   id         137735 non-null  object        
 1   user_id    137735 non-null  int64         
 2   call_date  137735 non-null  datetime64[ns]
 3   duration   137735 non-null  float64       
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 4.2+ MB


### Enriquecer los datos

In [12]:
# Añadiremos la columna 'month' y 'year'

df_calls['month'] = df_calls['call_date'].dt.month
df_calls['year'] = df_calls['call_date'].dt.year
display(df_calls.head())

Unnamed: 0,id,user_id,call_date,duration,month,year
0,1000_93,1000,2018-12-27,8.52,12,2018
1,1000_145,1000,2018-12-27,13.66,12,2018
2,1000_247,1000,2018-12-27,14.48,12,2018
3,1000_309,1000,2018-12-28,5.76,12,2018
4,1000_380,1000,2018-12-30,4.22,12,2018


## Mensajes

In [13]:
# Imprime la información general/resumida sobre el DataFrame de los mensajes

df_messages.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76051 entries, 0 to 76050
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            76051 non-null  object
 1   user_id       76051 non-null  int64 
 2   message_date  76051 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.7+ MB


In [14]:
# Imprime una muestra de datos para los mensajes

display(df_messages.head())

Unnamed: 0,id,user_id,message_date
0,1000_125,1000,2018-12-27
1,1000_160,1000,2018-12-31
2,1000_223,1000,2018-12-31
3,1000_251,1000,2018-12-27
4,1000_255,1000,2018-12-26


### Corregir los datos

In [15]:
df_messages['message_date'] = pd.to_datetime(df_messages['message_date'], format='%Y-%m-%d')
df_messages.info()
display(df_messages.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76051 entries, 0 to 76050
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   id            76051 non-null  object        
 1   user_id       76051 non-null  int64         
 2   message_date  76051 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(1)
memory usage: 1.7+ MB


Unnamed: 0,id,user_id,message_date
0,1000_125,1000,2018-12-27
1,1000_160,1000,2018-12-31
2,1000_223,1000,2018-12-31
3,1000_251,1000,2018-12-27
4,1000_255,1000,2018-12-26


### Enriquecer los datos

In [16]:
# Añadiremos la columna 'month'

df_messages['month'] = df_messages['message_date'].dt.month
display(df_messages.head())

Unnamed: 0,id,user_id,message_date,month
0,1000_125,1000,2018-12-27,12
1,1000_160,1000,2018-12-31,12
2,1000_223,1000,2018-12-31,12
3,1000_251,1000,2018-12-27,12
4,1000_255,1000,2018-12-26,12


## Internet

In [17]:
# Imprime la información general/resumida sobre el DataFrame de internet

df_internet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104825 entries, 0 to 104824
Data columns (total 4 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   id            104825 non-null  object 
 1   user_id       104825 non-null  int64  
 2   session_date  104825 non-null  object 
 3   mb_used       104825 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 3.2+ MB


In [18]:
# Imprime una muestra de datos para el tráfico de internet

display(df_internet.head())

Unnamed: 0,id,user_id,session_date,mb_used
0,1000_13,1000,2018-12-29,89.86
1,1000_204,1000,2018-12-31,0.0
2,1000_379,1000,2018-12-28,660.4
3,1000_413,1000,2018-12-26,270.99
4,1000_442,1000,2018-12-27,880.22


### Corregir los datos

In [19]:
df_internet['session_date'] = pd.to_datetime(df_internet['session_date'], format='%Y-%m-%d')
df_internet.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104825 entries, 0 to 104824
Data columns (total 4 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   id            104825 non-null  object        
 1   user_id       104825 non-null  int64         
 2   session_date  104825 non-null  datetime64[ns]
 3   mb_used       104825 non-null  float64       
dtypes: datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 3.2+ MB


### Enriquecer los datos

In [20]:
# Añadiremos la columna 'month'

df_internet['month'] = df_internet['session_date'].dt.month
display(df_internet.head())

Unnamed: 0,id,user_id,session_date,mb_used,month
0,1000_13,1000,2018-12-29,89.86,12
1,1000_204,1000,2018-12-31,0.0,12
2,1000_379,1000,2018-12-28,660.4,12
3,1000_413,1000,2018-12-26,270.99,12
4,1000_442,1000,2018-12-27,880.22,12


## Estudiar las condiciones de las tarifas

In [21]:
# Imprime las condiciones de la tarifa y asegúrate de que te quedan claras
display(df_plans.head())


Unnamed: 0,messages_included,mb_per_month_included,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute,plan_name
0,50,15.0,500,20,10,0.03,0.03,surf
1,1000,30.0,3000,70,7,0.01,0.01,ultimate


## Agregar datos por usuario


In [22]:
# Calcula el número de llamadas hechas por cada usuario al mes. Guarda el resultado.

calls_per_user_per_month = df_calls.groupby(['user_id', 'month']).size().reset_index(name='calls_count')
display(calls_per_user_per_month.head())

Unnamed: 0,user_id,month,calls_count
0,1000,12,16
1,1001,8,27
2,1001,9,49
3,1001,10,65
4,1001,11,64


In [23]:
# Calcula la cantidad de minutos usados por cada usuario al mes. Guarda el resultado.

df_calls['rounded_duration'] = np.ceil(df_calls['duration'])

# Calcular la cantidad total de minutos usados por cada usuario al mes
minutes_per_user_per_month = df_calls.groupby(['user_id', 'month', 'year'])['rounded_duration'].sum().reset_index()


display(minutes_per_user_per_month.head())

Unnamed: 0,user_id,month,year,rounded_duration
0,1000,12,2018,124.0
1,1001,8,2018,182.0
2,1001,9,2018,315.0
3,1001,10,2018,393.0
4,1001,11,2018,426.0


In [24]:
# Calcula el número de mensajes enviados por cada usuario al mes. Guarda el resultado.
messages_per_month = df_messages.groupby(['user_id', 'month']).size().reset_index(name='num_messages')
display(messages_per_month.head())

Unnamed: 0,user_id,month,num_messages
0,1000,12,11
1,1001,8,30
2,1001,9,44
3,1001,10,53
4,1001,11,36


In [25]:
# Calcula el volumen del tráfico de Internet usado por cada usuario al mes. Guarda el resultado.

traffic_per_month = df_internet.groupby(['user_id', 'month'])['mb_used'].sum().reset_index()

display(traffic_per_month.head())

Unnamed: 0,user_id,month,mb_used
0,1000,12,1901.47
1,1001,8,6919.15
2,1001,9,13314.82
3,1001,10,22330.49
4,1001,11,18504.3


In [26]:
# Fusiona los datos de llamadas, minutos, mensajes e Internet con base en user_id y month

result_df = calls_per_user_per_month.merge(minutes_per_user_per_month, on=['user_id', 'month'], how='outer')
result_df = result_df.merge(messages_per_month, on=['user_id', 'month'], how='outer')
result_df = result_df.merge(traffic_per_month, on=['user_id', 'month'], how='outer')


display(result_df.head())

Unnamed: 0,user_id,month,calls_count,year,rounded_duration,num_messages,mb_used
0,1000,12,16.0,2018.0,124.0,11.0,1901.47
1,1001,8,27.0,2018.0,182.0,30.0,6919.15
2,1001,9,49.0,2018.0,315.0,44.0,13314.82
3,1001,10,65.0,2018.0,393.0,53.0,22330.49
4,1001,11,64.0,2018.0,426.0,36.0,18504.3


In [27]:
# Añade la información de la tarifa
result_df_plan = pd.merge(result_df, df_users[['user_id', 'plan']], on='user_id')

# Transformar megas a gigas y redondear hacia arriba
result_df_plan['mb_used'] = np.ceil(result_df_plan['mb_used'] / 1024)

# Renombrando la columna para reflejar que ahora está en gigas
result_df_plan = result_df_plan.rename(columns={'mb_used': 'gb_used'})


display(result_df_plan.head(10))

Unnamed: 0,user_id,month,calls_count,year,rounded_duration,num_messages,gb_used,plan
0,1000,12,16.0,2018.0,124.0,11.0,2.0,ultimate
1,1001,8,27.0,2018.0,182.0,30.0,7.0,surf
2,1001,9,49.0,2018.0,315.0,44.0,14.0,surf
3,1001,10,65.0,2018.0,393.0,53.0,22.0,surf
4,1001,11,64.0,2018.0,426.0,36.0,19.0,surf
5,1001,12,56.0,2018.0,412.0,44.0,19.0,surf
6,1002,10,11.0,2018.0,59.0,15.0,7.0,surf
7,1002,11,55.0,2018.0,386.0,32.0,19.0,surf
8,1002,12,47.0,2018.0,384.0,41.0,15.0,surf
9,1003,12,149.0,2018.0,1104.0,50.0,27.0,surf


In [28]:
df_plans

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute,plan_name
0,50,15.0,500,20,10,0.03,0.03,surf
1,1000,30.0,3000,70,7,0.01,0.01,ultimate


In [29]:
# Calcula el ingreso mensual para cada usuario
#definiremos 2 diccionarios que incluirán información de cada uno de los planes de la compañia.

surf_tariff = {
    'usd_monthly_pay': 20,
    'minutes_included': 500,
    'messages_included': 50,
    'mb_per_month_included': 15360,
    'usd_per_minute': 0.03,
    'usd_per_message': 0.03,
    'usd_per_gb': 10
}

ultimate_tariff = {
    'usd_monthly_pay': 70,
    'minutes_included': 3000,
    'messages_included': 1000,
    'mb_per_month_included': 30720,
    'usd_per_minute': 0.01,
    'usd_per_message': 0.01,
    'usd_per_gb': 7
}

def calculate_monthly_revenue(row):
    if row['plan'] == 'surf':
        extra_minutes = max(0, row['rounded_duration'] - surf_tariff['minutes_included'])
        extra_messages = max(0, row['num_messages'] - surf_tariff['messages_included'])
        extra_data_gb = max(0, (row['gb_used'] - (surf_tariff['mb_per_month_included'])/ 1024))
        
        return surf_tariff['usd_monthly_pay'] + \
               extra_minutes * surf_tariff['usd_per_minute'] + \
               extra_messages * surf_tariff['usd_per_message'] + \
               extra_data_gb * surf_tariff['usd_per_gb']
    
    elif row['plan'] == 'ultimate':
        extra_minutes = max(0, row['rounded_duration'] - ultimate_tariff['minutes_included'])
        extra_messages = max(0, row['num_messages'] - ultimate_tariff['messages_included'])
        extra_data_gb = max(0, (row['gb_used'] - (ultimate_tariff['mb_per_month_included'])/ 1024))
        
        return ultimate_tariff['usd_monthly_pay'] + \
               extra_minutes * ultimate_tariff['usd_per_minute'] + \
               extra_messages * ultimate_tariff['usd_per_message'] + \
               extra_data_gb * ultimate_tariff['usd_per_gb']
    
# Aplicar la función de cálculo del ingreso mensual.
result_df_plan['monthly_revenue'] = result_df_plan.apply(calculate_monthly_revenue, axis=1)

# Mostrar el DataFrame con el ingreso mensual calculado.
display(result_df_plan[['user_id', 'month', 'monthly_revenue']])

result_df_revenue= result_df_plan.copy()



Unnamed: 0,user_id,month,monthly_revenue
0,1000,12,70.00
1,1001,8,20.00
2,1001,9,20.00
3,1001,10,90.09
4,1001,11,60.00
...,...,...,...
2288,1204,12,112.00
2289,1349,10,20.78
2290,1349,11,40.66
2291,1349,12,20.33





<div class="alert alert-block alert-info">
<b>Hola Carlos, Mantendré la división pero solo para la columna de 'mb_per_month_included' que se encuentra en mb .</b> <a class="tocSkip"></a>
</div>


## Estudia el comportamiento de usuario

### Llamadas

In [30]:
# Compara el número de minutos mensuales que necesitan los usuarios de cada plan. Traza un histograma.

# Pivot para la duración de llamadas
pivot_calls = result_df_plan_complete.pivot_table(values='rounded_duration', columns='plan', index='month', aggfunc='mean')
pivot_calls.plot(kind='bar', figsize=(10, 6))
plt.title('Duración Promedio de Llamadas por Mes y Plan')
plt.xlabel('Mes')
plt.ylabel('Duración Promedio de Llamadas')
plt.show()

# Histograma para la duración de llamadas
sns.histplot(data=result_df_plan_complete, x='rounded_duration', hue='plan', kde=True)
plt.title('Histograma de Duración de Llamadas por Plan')
plt.xlabel('Duración de Llamadas')
plt.ylabel('Frecuencia')
plt.show()

NameError: name 'result_df_plan_complete' is not defined

In [None]:
# Calcula la media y la varianza de la duración mensual de llamadas.

# Calcular la media y la varianza de la duración de las llamadas por plan
mean_duration_by_plan = df_calls.groupby('plan')['duration'].mean()
variance_duration_by_plan = df_calls.groupby('plan')['duration'].var()

# Mostrar los resultados
print("Media de duración por plan:")
print(mean_duration_by_plan)
print("\nVarianza de duración por plan:")
print(variance_duration_by_plan)


In [None]:
# Traza un diagrama de caja para visualizar la distribución de la duración mensual de llamadas

# Diagrama de caja para la duración de llamadas por plan
result_df_plan_complete.boxplot(by='plan', column='rounded_duration', grid=False, figsize=(10, 6))
plt.title('Distribución de la Duración Mensual de Llamadas por Plan')
plt.xlabel('Plan')
plt.ylabel('Duración de Llamadas')
plt.suptitle('')  
plt.show()

Duración Media de Llamadas:

- La duración media de las llamadas varía para cada mes y plan.
- Se observa que hay diferencias en la duración de las llamadas entre los usuarios de los planes "Surf" y "Ultimate".

Variabilidad en la Duración:
- La caja del diagrama de caja muestra la variabilidad en la duración de las llamadas.
- Usuarios de ambos planes presentan cierta variabilidad en sus comportamientos de llamadas.


### Mensajes

In [None]:
# Comprara el número de mensajes que tienden a enviar cada mes los usuarios de cada plan.

# Pivot para el número de mensajes
pivot_messages = result_df_plan_complete.pivot_table(values='num_messages', columns='plan', index='month', aggfunc='mean')
pivot_messages.plot(kind='bar', figsize=(10, 6))
plt.title('Número Promedio de Mensajes por Mes y Plan')
plt.xlabel('Mes')
plt.ylabel('Número Promedio de Mensajes')
plt.show()

# Histograma para el número de mensajes
sns.histplot(data=result_df_plan_complete, x='num_messages', hue='plan', kde=True)
plt.title('Histograma de Número de Mensajes por Plan')
plt.xlabel('Número de Mensajes')
plt.ylabel('Frecuencia')
plt.show()

Comparación entre Planes:

- En general, los usuarios del plan "Surf" tienden a enviar más mensajes que el usuario del plan "Ultimate".
- La variabilidad en el número de mensajes es más pronunciada en el plan "Surf".

- Los usuarios del plan "Surf" tienden a ser más activos en el uso de mensajes, especialmente con el tiempo y en momentos específicos, como el mes de diciembre.

### Internet

In [None]:
# Pivot para los datos consumidos.

pivot_data = result_df_plan_complete.pivot_table(values='gb_used', columns='plan', index='month', aggfunc='mean')
pivot_data.plot(kind='bar', figsize=(10, 6))
plt.title('Datos Consumidos Promedio por Mes y Plan')
plt.xlabel('Mes')
plt.ylabel('Datos Consumidos Promedio (GB)')
plt.show()

# Histograma para los datos consumidos.

sns.histplot(data=result_df_plan_complete, x='gb_used', hue='plan', kde=True)
plt.title('Histograma de Datos Consumidos por Plan')
plt.xlabel('Datos Consumidos (GB)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
display(df_traffic.head(10))

In [None]:
# Construyendo una tabla pivot para el tráfico de Internet por plan y mes
pivot_table_traffic = pd.pivot_table(df_traffic, values='gb_used', index='month', columns='plan', aggfunc='sum')

# Graficando la tabla pivot como un gráfico de barras
pivot_table_traffic.plot(kind='bar', figsize=(10, 6))
plt.title('Tráfico de Internet Mensual por Plan')
plt.xlabel('Mes')
plt.ylabel('Tráfico de Internet (GB)')
plt.legend(title='Plan', loc='upper right')
plt.show()

In [None]:
# Filtrar por tráfico de Internet
df_traffic = result_df_plan_complete[['month', 'gb_used', 'plan']]


# Agrupar por mes y calcular la media y la varianza
mean_traffic_per_month = df_traffic.groupby('month')['gb_used'].mean()
variance_traffic_per_month = df_traffic.groupby('month')['gb_used'].var()

# Mostrando los resultados
print("Media de la duración mensual de tráfico de Internet:")
print(mean_traffic_per_month)

print("\nVarianza de la duración mensual de tráfico de Internet:")
print(variance_traffic_per_month)


Comparación entre Planes:

En general, los usuarios del plan "Surf" tienden a experimentar más variaciones en la duración mensual del tráfico de Internet en comparación con los usuarios del plan "Ultimate".
Diciembre destaca como un mes con un aumento notable en la duración del tráfico de Internet para ambos planes.

## Ingreso

In [None]:
# Pivot para los ingresos mensuales por plan
pivot_revenue = result_df_revenue.pivot_table(values='monthly_revenue', columns='plan', index='month', aggfunc='mean')
pivot_revenue.plot(kind='bar', figsize=(10, 6))
plt.title('Ingresos Mensuales Promedio por Mes y Plan')
plt.xlabel('Mes')
plt.ylabel('Ingresos Mensuales Promedio ($)')
plt.show()

# Histograma para los ingresos
sns.histplot(data=result_df_revenue, x='monthly_revenue', hue='plan', kde=True)
plt.title('Histograma de Ingresos por Plan')
plt.xlabel('Ingresos Mensuales ($)')
plt.ylabel('Frecuencia')
plt.show()

# Análisis estadístico
statistical_analysis = result_df_revenue.groupby('plan')['monthly_revenue'].describe()
print("Análisis Estadístico de Ingresos por Plan:")
print(statistical_analysis)

- En promedio, el Plan Surf genera ingresos más altos que el Plan Ultimate, asi como tambien una mayor variabilidad en los ingresos, con algunos usuarios generando ingresos notoriamente más altos.

- El Plan Ultimate presenta una distribución más consistente y menos variabilidad en los ingresos mensuales.


## Prueba las hipótesis estadísticas

In [None]:
# Obteniendo  las muestras de ingresos para cada plan
surf_income = result_df_revenue[result_df_revenue['plan'] == 'surf']['monthly_revenue']
ultimate_income = result_df_revenue[result_df_revenue['plan'] == 'ultimate']['monthly_revenue']

# Realizando la prueba de t de Student
t_stat, p_value = ttest_ind(surf_income, ultimate_income, equal_var=False)

# Definiendo el nivel de significancia
alpha = 0.05

# Evaluando el p-value
if p_value < alpha:
    print("Rechazamos la hipótesis nula. Hay evidencia suficiente para sugerir que hay una diferencia significativa en los ingresos promedio.")
else:
    print("No podemos rechazar la hipótesis nula. No hay suficiente evidencia para sugerir que hay una diferencia significativa en los ingresos promedio.")

In [None]:
# Fusionando ambos DataFrames (df_users y result_df_plan) en base a la columna 'user_id'
merged_df_users = pd.merge(df_users, result_df_plan_complete[['user_id', 'monthly_revenue']], on='user_id', how='left')

# Eliminando filas con valores nulos en las columnas de interés.
df_users_ready = merged_df_users.dropna(subset=['monthly_revenue', 'city'])

# Filtrando el DataFrame para obtener los ingresos de NY-NJ y otras regiones
ny_nj_incomes = df_users_ready[df_users_ready['city'] == 'New York-Newark-Jersey City, NY-NJ-PA MSA']['monthly_revenue']
other_incomes = df_users_ready[df_users_ready['city'] != 'New York-Newark-Jersey City, NY-NJ-PA MSA']['monthly_revenue']

# Realizando la prueba de dos muestras (t-test)
statistic, p_value = ttest_ind(ny_nj_incomes, other_incomes, equal_var=False)

# Imprimir resultados
print(f'Estadístico de prueba (t): {statistic}')
print(f'Valor p: {p_value}')

# Tomando una decisión basada en el valor p
alpha = 0.05
if p_value < alpha:
    print('Se rechaza la hipótesis nula. Hay evidencia suficiente para sugerir que hay diferencias en los ingresos promedio.')
else:
    print('No hay suficiente evidencia para rechazar la hipótesis nula. No hay diferencias significativas en los ingresos promedio.')

<div class="alert alert-block alert-success">
    
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Buen trabajo con estas pruebas de hipótesis.
</div>

## Conclusión general


Con base en el análisis de los datos y las decisiones tomadas durante el procesamiento, se pueden destacar las siguientes conclusiones importantes:


- Se realizó un análisis preliminar de las tarifas Surf y Ultimate utilizando datos de 500 clientes de Megaline, centrándose en información como llamadas, mensajes y uso de Internet en el año 2018.

- Se agruparon los datos de llamadas, minutos, mensajes e Internet por usuario y mes, creando dataframes agregados para cada tipo de actividad.

- Se calculó mensualmente el ingreso para cada usuario, teniendo en cuenta los límites de los planes y los costos adicionales por uso excedente.

- Se realizaron descripciones estadísticas y visualizaciones de los ingresos por plan para comprender mejor la distribución de los datos.

- Se llevó a cabo una prueba de t de Student para evaluar si existen diferencias significativas en los ingresos promedio entre los usuarios de los planes Ultimate y Surf.

- Se obtuvieron estadísticas descriptivas y se visualizaron los ingresos por plan, destacando las diferencias en términos de promedio y distribución.

Comparación General: 

- El plan Surf es el principal generador de ingresos para Megaline. Este plan no solo cuenta con más usuarios, sino que también contribuye de manera significativa a los ingresos totales debido a las tarifas adicionales por uso excedente.

- Aunque el plan Ultimate tiene un costo mensual más alto, la cantidad limitada de usuarios y su consumo moderado reducen su impacto en los ingresos totales.

- Si el objetivo principal es maximizar los ingresos totales, el plan Surf parece ser más efectivo en este análisis debido a su mayor base de usuarios y la generación de ingresos adicionales por uso excedente.



<div class="alert alert-block alert-danger">
    
# Comentarios generales
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Hola, James. Nos quedan unos pocos elementos por corregir en la tabla.
</div>

<div class="alert alert-block alert-success">

# Comentarios generales
<b>Comentario del revisor</b> <a class="tocSkip"></a>

Todo corregido. Has aprobado un nuevo proyecto. ¡Felicitaciones!
</div>