# ¿Cuál es la mejor tarifa?

Trabajas como analista para el operador de telecomunicaciones Megaline. La empresa ofrece a sus clientes dos tarifas de prepago, Surf y Ultimate. El departamento comercial quiere saber cuál de las tarifas genera más ingresos para poder ajustar el presupuesto de publicidad.

Vas a realizar un análisis preliminar de las tarifas basado en una selección de clientes relativamente pequeña. Tendrás los datos de 500 clientes de Megaline: quiénes son los clientes, de dónde son, qué tarifa usan, así como la cantidad de llamadas que hicieron y los mensajes de texto que enviaron en 2018. Tu trabajo es analizar el comportamiento de los clientes y determinar qué tarifa de prepago genera más ingresos.

[Te proporcionamos algunos comentarios para orientarte mientras completas este proyecto. Pero debes asegurarte de eliminar todos los comentarios entre corchetes antes de entregar tu proyecto.]

[Antes de sumergirte en el análisis de datos, explica por tu propia cuenta el propósito del proyecto y las acciones que planeas realizar.]

[Ten en cuenta que estudiar, modificar y analizar datos es un proceso iterativo. Es normal volver a los pasos anteriores y corregirlos/ampliarlos para permitir nuevos pasos.]

Primero planeo leer los dataframes, revisar si tiene valores duplicados, ausentes, en su caso eliminarlos, ver cuantas filas, que tipo de datos con el método info, imprimir 5 filas aleatorias con sample(). Con ello, estoy limpiando los datos.

## Inicialización

In [2]:
import pandas as pd
from matplotlib import pyplot as pyplot
from scipy import stats as st
from scipy.stats import ttest_ind
from scipy.stats import levene
import numpy as np
import seaborn as sns

## Cargar datos

In [13]:
calls = pd.read_csv(r'E:\análisis de datos\datasets\megaline_calls.csv')
internet = pd.read_csv(r'E:\análisis de datos\datasets\megaline_internet.csv')
messages = pd.read_csv(r'E:\análisis de datos\datasets\messages.csv')
plans = pd.read_csv(r'E:\análisis de datos\datasets\megaline_tariffs.csv')
users = pd.read_csv(r'E:\análisis de datos\datasets\megaline_users1.csv')

## Preparar los datos

[Los datos para este proyecto se dividen en varias tablas. Explora cada una para tener una comprensión inicial de los datos. Si es necesario, haz las correcciones requeridas en cada tabla.]


In [52]:
def quick_info(dataframe):
    """Esta función indaga la información con método info de cada dataframe."""
    for nombre, df in dataframe.items():
        print(f'Información general del dataframe \033[4m\033[1m{nombre}\033[0m\033[0m')
        df.info()
        print('-'*60)

dataframes = {"calls":calls,"internet":internet,"plans":plans,"messages":messages,"users":users}
quick_info(dataframes)

Información general del dataframe [4m[1mcalls[0m[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 137735 entries, 0 to 137734
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id         137735 non-null  object 
 1   user_id    137735 non-null  int64  
 2   call_date  137735 non-null  object 
 3   duration   137735 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 4.2+ MB
------------------------------------------------------------
Información general del dataframe [4m[1minternet[0m[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104825 entries, 0 to 104824
Data columns (total 4 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   id            104825 non-null  object 
 1   user_id       104825 non-null  int64  
 2   session_date  104825 non-null  object 
 3   mb_used       104825 non-null  float64
dtypes: float64(1), int64(1), ob

In [68]:
def quick_sample(dataframe):
    """Esta función imprime las primeras 5 filas de cada dataframe con el uso de método head."""
    for nombre, df in dataframe.items():
        print(f'Impresión de las primeras 5 filas del dataframe \033[4m\033[1m{nombre}\033[0m\033[0m')
        print(df.head())
        print('-'*60)

quick_sample(dataframes)    

Impresión de las primeras 5 filas del dataframe [4m[1mcalls[0m[0m
         id  user_id   call_date  duration
0   1000_93     1000  2018-12-27      8.52
1  1000_145     1000  2018-12-27     13.66
2  1000_247     1000  2018-12-27     14.48
3  1000_309     1000  2018-12-28      5.76
4  1000_380     1000  2018-12-30      4.22
------------------------------------------------------------
Impresión de las primeras 5 filas del dataframe [4m[1minternet[0m[0m
         id  user_id session_date  mb_used
0   1000_13     1000   2018-12-29    89.86
1  1000_204     1000   2018-12-31     0.00
2  1000_379     1000   2018-12-28   660.40
3  1000_413     1000   2018-12-26   270.99
4  1000_442     1000   2018-12-27   880.22
------------------------------------------------------------
Impresión de las primeras 5 filas del dataframe [4m[1mplans[0m[0m
   messages_included  mb_per_month_included  minutes_included  \
0                 50                  15360               500   
1               100