# ¿Cuál es la mejor tarifa?

Trabajas como analista para el operador de telecomunicaciones Megaline. La empresa ofrece a sus clientes dos tarifas de prepago, Surf y Ultimate. El departamento comercial quiere saber cuál de las tarifas genera más ingresos para poder ajustar el presupuesto de publicidad.

Vas a realizar un análisis preliminar de las tarifas basado en una selección de clientes relativamente pequeña. Tendrás los datos de 500 clientes de Megaline: quiénes son los clientes, de dónde son, qué tarifa usan, así como la cantidad de llamadas que hicieron y los mensajes de texto que enviaron en 2018. Tu trabajo es analizar el comportamiento de los clientes y determinar qué tarifa de prepago genera más ingresos.

[Te proporcionamos algunos comentarios para orientarte mientras completas este proyecto. Pero debes asegurarte de eliminar todos los comentarios entre corchetes antes de entregar tu proyecto.]

[Antes de sumergirte en el análisis de datos, explica por tu propia cuenta el propósito del proyecto y las acciones que planeas realizar.]

[Ten en cuenta que estudiar, modificar y analizar datos es un proceso iterativo. Es normal volver a los pasos anteriores y corregirlos/ampliarlos para permitir nuevos pasos.]

## Inicialización

In [2]:
# Cargar todas las librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats as st


## Cargar datos

In [3]:
# Carga los archivos de datos en diferentes DataFrames
url_plans = 'https://raw.githubusercontent.com/Davichobacter/data_science_tt/refs/heads/main/Sprint_5_DATA/megaline_plans.csv'
plans_df = pd.read_csv(url_plans)

url_calls = 'https://raw.githubusercontent.com/Davichobacter/data_science_tt/refs/heads/main/Sprint_5_DATA/megaline_calls.csv'
calls_df = pd.read_csv(url_calls)

url_internet = 'https://raw.githubusercontent.com/Davichobacter/data_science_tt/refs/heads/main/Sprint_5_DATA/megaline_internet.csv'
internet_df = pd.read_csv(url_internet)

url_messages = 'https://raw.githubusercontent.com/Davichobacter/data_science_tt/refs/heads/main/Sprint_5_DATA/megaline_messages.csv'
messages_df = pd.read_csv(url_messages)

url_users = 'https://raw.githubusercontent.com/Davichobacter/data_science_tt/refs/heads/main/Sprint_5_DATA/megaline_users.csv'
users_df = pd.read_csv(url_users)

In [None]:
# Carga los archivos de datos en diferentes DataFrames
calls_df = pd.read_csv('/datasets/megaline_calls.csv')

internet_df = pd.read_csv('/datasets/megaline_internet.csv')

messages_df = pd.read_csv('/datasets/megaline_messages.csv')

plans_df = pd.read_csv('/datasets/megaline_plans.csv')

users_df = pd.read_csv('/datasets/megaline_users.csv')

## Preparar los datos

[Los datos para este proyecto se dividen en varias tablas. Explora cada una para tener una comprensión inicial de los datos. Si es necesario, haz las correcciones requeridas en cada tabla.]

## Tarifas

In [4]:
# Imprime la información general/resumida sobre el DataFrame de las tarifas
plans_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   messages_included      2 non-null      int64  
 1   mb_per_month_included  2 non-null      int64  
 2   minutes_included       2 non-null      int64  
 3   usd_monthly_pay        2 non-null      int64  
 4   usd_per_gb             2 non-null      int64  
 5   usd_per_message        2 non-null      float64
 6   usd_per_minute         2 non-null      float64
 7   plan_name              2 non-null      object 
dtypes: float64(2), int64(5), object(1)
memory usage: 260.0+ bytes


In [5]:
# Imprime una muestra de los datos para las tarifas

plans_df.head()

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute,plan_name
0,50,15360,500,20,10,0.03,0.03,surf
1,1000,30720,3000,70,7,0.01,0.01,ultimate


[Describe lo que ves y observas en la información general y en la muestra de datos impresa para el precio de datos anterior. ¿Hay algún problema (tipos de datos no adecuados, datos ausentes, etc.) que pudieran necesitar investigación y cambios adicionales? ¿Cómo se puede arreglar?]


> El DataFrame `plans_df` contiene la información relativa a dos tarifas: Surf y Ultimate. Tiene 8 columnas con los siguientes tipos de datos:
> - `messages_included`: int64 (sin valores nulos) - Número de mensajes incluidos en la tarifa.
> - `mb_per_month_included`: int64 (sin valores nulos) - Megabytes de internet incluidos en la tarifa.
> - `minutes_included`: int64 (sin valores nulos) - Minutos de llamadas incluidos en la tarifa.
> - `usd_monthly_pay`: int64 (sin valores nulos) - Costo mensual de la tarifa en USD.
> - `usd_per_gb`: int64 (sin valores nulos) - Costo por GB adicional en USD.
> - `usd_per_message`: float64 (sin valores nulos) - Costo por mensaje adicional en USD.
> - `usd_per_minute`: float64 (sin valores nulos) - Costo por minuto adicional en USD.
> - `plan_name`: object (sin valores nulos) - Nombre de la tarifa (surf o ultimate).

> **Problemas y posibles soluciones:**
> - No se observan datos ausentes ni tipos de datos inadecuados en este DataFrame. Todos los datos están completos y con el tipo correcto. No se requieren correcciones adicionales en este DataFrame.

### Corregir datos

[Corrige los problemas obvios con los datos basándote en las observaciones iniciales.]

> No se observan datos ausentes ni tipos de datos inadecuados en este DataFrame. Todos los datos estan completos y con el tipo correcto. No se requieren correcciones adicionales en este DataFrame.

### Enriquecer los datos

[Agrega factores adicionales a los datos si crees que pudieran ser útiles.]

In [6]:
plans_df['gb_per_month_included'] = np.int64(plans_df['mb_per_month_included'] / 1024)
plans_df.head()

Unnamed: 0,messages_included,mb_per_month_included,minutes_included,usd_monthly_pay,usd_per_gb,usd_per_message,usd_per_minute,plan_name,gb_per_month_included
0,50,15360,500,20,10,0.03,0.03,surf,15
1,1000,30720,3000,70,7,0.01,0.01,ultimate,30


> Agregue la columna «GB por mes» para que coincida con la tarifa. Así, si después hay que hacer un cálculo con enteros, será más fácil.

## Usuarios/as

In [7]:
# Imprime la información general/resumida sobre el DataFrame de usuarios

users_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   user_id     500 non-null    int64 
 1   first_name  500 non-null    object
 2   last_name   500 non-null    object
 3   age         500 non-null    int64 
 4   city        500 non-null    object
 5   reg_date    500 non-null    object
 6   plan        500 non-null    object
 7   churn_date  34 non-null     object
dtypes: int64(2), object(6)
memory usage: 31.4+ KB


In [8]:
# Porcentaje de valores no nulos en la columna Churn_Date
users_df['churn_date'].notnull().sum() / users_df.shape[0] *100

np.float64(6.800000000000001)

In [9]:
# Imprime una muestra de datos para usuarios

users_df.sample(10)

Unnamed: 0,user_id,first_name,last_name,age,city,reg_date,plan,churn_date
170,1170,Olin,Adkins,18,"Pittsburgh, PA MSA",2018-09-25,surf,
50,1050,Jone,Owen,23,"Miami-Fort Lauderdale-West Palm Beach, FL MSA",2018-03-20,ultimate,2018-10-07
407,1407,Tristan,Daugherty,27,"New York-Newark-Jersey City, NY-NJ-PA MSA",2018-11-29,ultimate,
130,1130,Clarence,Cunningham,27,"Philadelphia-Camden-Wilmington, PA-NJ-DE-MD MSA",2018-05-17,surf,
438,1438,Harvey,Brooks,36,"Orlando-Kissimmee-Sanford, FL MSA",2018-06-15,surf,
276,1276,Karmen,Carney,20,"Phoenix-Mesa-Chandler, AZ MSA",2018-02-14,surf,
380,1380,Lajuana,Kelley,35,"San Jose-Sunnyvale-Santa Clara, CA MSA",2018-09-04,ultimate,
214,1214,Emil,Robles,34,"San Francisco-Oakland-Berkeley, CA MSA",2018-01-01,ultimate,
367,1367,Minh,Fischer,18,"Baltimore-Columbia-Towson, MD MSA",2018-07-23,surf,
325,1325,Cleora,Lyons,43,"Dallas-Fort Worth-Arlington, TX MSA",2018-06-26,surf,


[Describe lo que ves y observas en la información general y en la muestra de datos impresa para el precio de datos anterior. ¿Hay algún problema (tipos de datos no adecuados, datos ausentes, etc.) que pudieran necesitar investigación y cambios adicionales? ¿Cómo se puede arreglar?]

> El DataFrame contiene la información relativa a dos tarifas. Surf y Ultimate. Cada tarifa incluye información detallada sobre los datos incluidos, los megabytes de internet, los minutos de llamadas, el pago mensual, el costo por GB adicional, el costo por mensaje adicional y el costo por minuto adicional.

> El DataFrame `users_df` contiene información sobre los 500 clientes de Megaline. Tiene 8 columnas con los siguientes tipos de datos:
> - `user_id`: int64 (sin valores nulos) - Identificador único para cada usuario.
> - `first_name`: object (sin valores nulos) - Nombre del usuario.
> - `last_name`: object (sin valores nulos) - Apellido del usuario.
> - `age`: int64 (sin valores nulos) - Edad del usuario.
> - `city`: object (sin valores nulos) - Ciudad de residencia del usuario.
> - `reg_date`: object (sin valores nulos) - Fecha de registro del usuario.
> - `plan`: object (sin valores nulos) - Plan de suscripción del usuario (Surf o Ultimate).
> - `churn_date`: object (34 valores no nulos) - Fecha en que el usuario dejó de usar el servicio. La mayoría de los valores son nulos, lo que indica que la mayoría de los usuarios siguen activos.

> **Problemas y posibles soluciones:**
> - La columna `reg_date` y `churn_date` son de tipo `object`. Deberían ser convertidas a tipo datetime para facilitar el análisis temporal.
> - La columna `churn_date` tiene muchos valores ausentes (NaN). Esto es esperado, ya que representa la fecha en que un usuario dejó de usar el servicio, y la mayoría de los usuarios siguen activos. No es necesario imputar estos valores ausentes, ya que su ausencia tiene un significado (el usuario no ha dejado el servicio).

### Corregir los datos

[Corrige los problemas obvios con los datos basándote en las observaciones iniciales.]

In [10]:
users_df['reg_date'] = pd.to_datetime(users_df['reg_date'])
users_df['churn_date'] = pd.to_datetime(users_df['churn_date'])

In [11]:
users_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   user_id     500 non-null    int64         
 1   first_name  500 non-null    object        
 2   last_name   500 non-null    object        
 3   age         500 non-null    int64         
 4   city        500 non-null    object        
 5   reg_date    500 non-null    datetime64[ns]
 6   plan        500 non-null    object        
 7   churn_date  34 non-null     datetime64[ns]
dtypes: datetime64[ns](2), int64(2), object(4)
memory usage: 31.4+ KB


In [12]:
users_df.sample(5)

Unnamed: 0,user_id,first_name,last_name,age,city,reg_date,plan,churn_date
445,1445,Elodia,Donovan,71,"Dallas-Fort Worth-Arlington, TX MSA",2018-01-27,ultimate,NaT
104,1104,Thurman,Stephens,20,"Chicago-Naperville-Elgin, IL-IN-WI MSA",2018-12-23,ultimate,NaT
105,1105,Micheal,Poole,57,"Providence-Warwick, RI-MA MSA",2018-01-08,surf,NaT
252,1252,Mitsue,York,27,"Detroit-Warren-Dearborn, MI MSA",2018-06-10,surf,NaT
404,1404,Paulita,Conley,33,"New York-Newark-Jersey City, NY-NJ-PA MSA",2018-04-16,surf,NaT


> Corregí los tipos de datos de las columnas `reg_date` y `churn_date` del DataFrame `users_df`, convirtiéndolas de tipo `object` a `datetime`. Esto es importante para poder realizar análisis temporales con estas columnas, como extraer el mes o el año, o calcular duraciones. Los valores ausentes en `churn_date` se mantuvieron ya que representan a los usuarios activos.

### Enriquecer los datos

[Agrega factores adicionales a los datos si crees que pudieran ser útiles.]

In [14]:
users_df['reg_month'] = users_df['reg_date'].dt.month
users_df['reg_year'] = users_df['reg_date'].dt.year

In [15]:
users_df.sample(5)

Unnamed: 0,user_id,first_name,last_name,age,city,reg_date,plan,churn_date,reg_month,reg_year
176,1176,Terrance,Shaffer,75,"New York-Newark-Jersey City, NY-NJ-PA MSA",2018-10-03,surf,NaT,10,2018
443,1443,Genaro,Quinn,58,"Atlanta-Sandy Springs-Roswell, GA MSA",2018-03-11,surf,NaT,3,2018
38,1038,Olympia,Velazquez,32,"Nashville-Davidson–Murfreesboro–Franklin, TN MSA",2018-06-25,ultimate,NaT,6,2018
327,1327,Natosha,Peck,20,"New York-Newark-Jersey City, NY-NJ-PA MSA",2018-02-17,surf,NaT,2,2018
241,1241,Lala,Walls,24,"Richmond, VA MSA",2018-08-27,surf,NaT,8,2018


> Agregué las columnas `reg_month` y `reg_year` extrayendo el mes y el año de la columna `reg_date`. Esto puede ser útil para analizar patrones de registro de usuarios a lo largo del tiempo.

## Llamadas

In [None]:
# Imprime la información general/resumida sobre el DataFrame de las llamadas



In [None]:
# Imprime una muestra de datos para las llamadas



[Describe lo que ves y observas en la información general y en la muestra de datos impresa para el precio de datos anterior. ¿Hay algún problema (tipos de datos no adecuados, datos ausentes, etc.) que pudieran necesitar investigación y cambios adicionales? ¿Cómo se puede arreglar?]

### Corregir los datos

[Corrige los problemas obvios con los datos basándote en las observaciones iniciales.]

### Enriquecer los datos

[Agrega factores adicionales a los datos si crees que pudieran ser útiles.]

## Mensajes

In [None]:
# Imprime la información general/resumida sobre el DataFrame de los mensajes



In [None]:
# Imprime una muestra de datos para los mensajes



[Describe lo que ves y observas en la información general y en la muestra de datos impresa para el precio de datos anterior. ¿Hay algún problema (tipos de datos no adecuados, datos ausentes, etc.) que pudieran necesitar investigación y cambios adicionales? ¿Cómo se puede arreglar?]

### Corregir los datos

[Corrige los problemas obvios con los datos basándote en las observaciones iniciales.]

### Enriquecer los datos

[Agrega factores adicionales a los datos si crees que pudieran ser útiles.]

## Internet

In [None]:
# Imprime la información general/resumida sobre el DataFrame de internet



In [None]:
# Imprime una muestra de datos para el tráfico de internet



[Describe lo que ves y observas en la información general y en la muestra de datos impresa para el precio de datos anterior. ¿Hay algún problema (tipos de datos no adecuados, datos ausentes, etc.) que pudieran necesitar investigación y cambios adicionales? ¿Cómo se puede arreglar?]

### Corregir los datos

[Corrige los problemas obvios con los datos basándote en las observaciones iniciales.]

### Enriquecer los datos

[Agrega factores adicionales a los datos si crees que pudieran ser útiles.]

## Estudiar las condiciones de las tarifas

[Es sumamente importante entender cómo funcionan las tarifas, cómo se les cobra a los usuarios en función de su plan de suscripción. Así que te sugerimos imprimir la información de la tarifa para ver una vez más sus condiciones.]

In [None]:
# Imprime las condiciones de la tarifa y asegúrate de que te quedan claras



## Agregar datos por usuario

[Ahora que los datos están limpios, agrega los datos por usuario y por periodo para que solo haya un registro por usuario y por periodo. Esto facilitará mucho el análisis posterior.]

In [None]:
# Calcula el número de llamadas hechas por cada usuario al mes. Guarda el resultado.



In [None]:
# Calcula la cantidad de minutos usados por cada usuario al mes. Guarda el resultado.



In [None]:
# Calcula el número de mensajes enviados por cada usuario al mes. Guarda el resultado.



In [None]:
# Calcula el volumen del tráfico de Internet usado por cada usuario al mes. Guarda el resultado.



[Junta los datos agregados en un DataFrame para que haya un registro que represente lo que consumió un usuario único en un mes determinado.]

In [None]:
# Fusiona los datos de llamadas, minutos, mensajes e Internet con base en user_id y month



In [None]:
# Añade la información de la tarifa



[Calcula los ingresos mensuales por usuario (resta el límite del paquete gratuito del número total de llamadas, mensajes de texto y datos; multiplica el resultado por el valor del plan de llamadas; añade la tarifa mensual en función del plan de llamadas). Nota: Dadas las condiciones del plan, ¡esto podría no ser tan trivial como un par de líneas! Así que no pasa nada si dedicas algo de tiempo a ello.]

In [None]:
# Calcula el ingreso mensual para cada usuario



## Estudia el comportamiento de usuario

[Calcula algunas estadísticas descriptivas para los datos agregados y fusionados que nos sean útiles y que muestren un panorama general captado por los datos. Dibuja gráficos útiles para facilitar la comprensión. Dado que la tarea principal es comparar las tarifas y decidir cuál es más rentable, las estadísticas y gráficas deben calcularse por tarifa.]

[En los comentarios hallarás pistas relevantes para las llamadas, pero no las hay para los mensajes e Internet. Sin embargo, el principio del estudio estadístico que se aplica para ellos es el mismo que para las llamadas.]

### Llamadas

In [None]:
# Compara la duración promedio de llamadas por cada plan y por cada mes. Traza un gráfico de barras para visualizarla.



In [None]:
# Compara el número de minutos mensuales que necesitan los usuarios de cada plan. Traza un histograma.



[Calcula la media y la variable de la duración de las llamadas para averiguar si los usuarios de los distintos planes se comportan de forma diferente al realizar sus llamadas.]

In [None]:
# Calcula la media y la varianza de la duración mensual de llamadas.



In [None]:
# Traza un diagrama de caja para visualizar la distribución de la duración mensual de llamadas



[Elabora las conclusiones sobre el comportamiento de los usuarios con respecto a las llamadas. ¿Su comportamiento varía en función del plan?]

### Mensajes

In [None]:
# Comprara el número de mensajes que tienden a enviar cada mes los usuarios de cada plan



In [None]:
# Compara la cantidad de tráfico de Internet consumido por usuarios por plan



[Elabora las conclusiones sobre el comportamiento de los usuarios con respecto a los mensajes. ¿Su comportamiento varía en función del plan?]

### Internet

[Elabora las conclusiones sobre cómo los usuarios tienden a consumir el tráfico de Internet. ¿Su comportamiento varía en función del plan?]

## Ingreso

[Del mismo modo que has estudiado el comportamiento de los usuarios, describe estadísticamente los ingresos de los planes.]

[Elabora las conclusiones sobre cómo difiere el ingreso entre los planes.]

## Prueba las hipótesis estadísticas

[Prueba la hipótesis de que son diferentes los ingresos promedio procedentes de los usuarios de los planes de llamada Ultimate y Surf.]

[Elabora las hipótesis nula y alternativa, escoge la prueba estadística, determina el valor alfa.]

In [None]:
# Prueba las hipótesis



[Prueba la hipótesis de que el ingreso promedio de los usuarios del área NY-NJ es diferente al de los usuarios de otras regiones.]

[Elabora las hipótesis nula y alternativa, escoge la prueba estadística, determina el valor alfa.]

In [None]:
# Prueba las hipótesis



## Conclusión general

[En esta sección final, enumera tus conclusiones importantes. Asegúrate de que estas abarquen todas las decisiones (suposiciones) importantes que adoptaste y que determinaron la forma elegida para procesar y analizar los datos.]