# Mentoria DiploDatos - ChurnNoMore

##### Cual es el objetivo de este proyecto? 
Los clientes son el corazon operativo de un negocio, poder distinguir las caracteristicas principales que inciden en la toma de decision de un cliente es esencial para actuar sobre el posible abandono (**churn**). 
Este proyecto tiene como objetivo principal, crear un modelo de aprendizaje supervisado que sea capaz de predecir el problema indicado. 

##### Que problema  resolvemos a través del Machine Learning? 
El analisis es esencial para toda empresa de bienes o servicios. Un caso tipico para el area de marketing o comercializacion. Acompañenos para ver como la ciencia de datos resuelve problemas cotidianos de los negocios. 

##### Cual es la industria analizada?
El dataset contiene informacion acerca de una empresa prestadora de servicios del rubro de telefonia celular. El siguiente analisis podria ser aplicado tambien a industrias similares talos como prestaciones de servicios de internet, televisacion, incluso servicios de streaming o plataformas online. 


## Temario 1: Analisis y visualizacion de datos. 

In [2]:
# Import libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from tabulate import tabulate
warnings.filterwarnings("ignore")

In [3]:
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 55)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [4]:
# Load daataset
df = pd.read_csv("trainingModel.csv")

In [5]:
# Preview the dataset head
df.head(10)

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Gender,Churn
0,KS,128.0,415.0,No,Yes,25.0,265.1,110.0,45.07,197.4,99.0,16.78,244.7,91.0,11.01,10.0,3.0,2.7,1.0,M,False
1,OH,107.0,415.0,No,Yes,26.0,161.6,123.0,27.47,195.5,103.0,16.62,254.4,103.0,11.45,13.7,3.0,3.7,1.0,,False
2,NJ,137.0,415.0,No,No,0.0,243.4,114.0,41.38,121.2,110.0,10.3,162.6,104.0,7.32,12.2,5.0,3.29,0.0,,False
3,OH,84.0,408.0,Yes,No,0.0,299.4,71.0,50.9,61.9,88.0,5.26,196.9,89.0,8.86,6.6,7.0,1.78,2.0,F,False
4,OK,75.0,415.0,Yes,No,0.0,166.7,113.0,28.34,148.3,122.0,12.61,186.9,121.0,8.41,10.1,3.0,2.73,3.0,,False
5,AL,118.0,510.0,Yes,No,0.0,223.4,98.0,,220.6,101.0,18.75,203.9,118.0,9.18,6.3,6.0,1.7,0.0,,False
6,MA,121.0,510.0,No,Yes,24.0,218.2,88.0,37.09,348.5,108.0,29.62,212.6,118.0,9.57,7.5,7.0,2.03,3.0,F,False
7,MO,147.0,415.0,Yes,No,0.0,157.0,79.0,26.69,103.1,94.0,8.76,211.8,96.0,9.53,7.1,6.0,1.92,0.0,M,False
8,WV,141.0,415.0,Yes,Yes,37.0,258.6,84.0,43.96,222.0,111.0,18.87,326.4,97.0,14.69,11.2,5.0,3.02,0.0,F,False
9,RI,74.0,415.0,No,No,0.0,187.7,127.0,31.91,163.4,148.0,13.89,196.0,94.0,8.82,9.1,5.0,2.46,0.0,,False


In [6]:
# Get the number of rows and columns
df.shape

(104192, 21)

In [7]:
# Look for missing values
df.isna().sum()

State                      5550
Account length             5550
Area code                  6734
International plan         5550
Voice mail plan            5550
Number vmail messages      5550
Total day minutes          6660
Total day calls            6660
Total day charge           6623
Total eve minutes          5550
Total eve calls            5550
Total eve charge           5550
Total night minutes        6697
Total night calls          5550
Total night charge         6697
Total intl minutes         5550
Total intl calls           6660
Total intl charge          6697
Customer service calls     6623
Gender                    49913
Churn                      6697
dtype: int64

In [8]:
# See what datatypes are in the dataset
df.dtypes

State                      object
Account length            float64
Area code                 float64
International plan         object
Voice mail plan            object
Number vmail messages     float64
Total day minutes         float64
Total day calls           float64
Total day charge          float64
Total eve minutes         float64
Total eve calls           float64
Total eve charge          float64
Total night minutes       float64
Total night calls         float64
Total night charge        float64
Total intl minutes        float64
Total intl calls          float64
Total intl charge         float64
Customer service calls    float64
Gender                     object
Churn                      object
dtype: object

## Comprender los datos
Entender el tipo de informacion que contiene cada "feature" es muy importante para resolver el problema de negocio en cuestion. 
Para ello, repasaremos que nos indica cada variable:

* State: Se refiere al estado donde vive el usuario consumidor del servicio.
* Account length: La cantidad de dias que tiene el plan.
* Area code: Codigo postal
* International plan: Si el cliente cuenta o no con un plan international.
* Voice mail plan: Si contaba o no con envio de mensajes de voz
* Number vmail messages: Número de mensajes de buzón de voz.
* Total day minutes: Minutos totales usados durante el día.
* Total day calls: Número total de llamadas durante el día.
* Total day charge: Cargos totales durante el día.
* Total eve minutes: Minutos totales usados durante la tarde.
* Total eve calls: Número total de llamadas durante la tarde.
* Total eve charge: Cargos totales durante la tarde.
* Total night minutes: Minutos totales usados durante la noche.
* Total night calls: Número total de llamadas durante la noche.
* Total night charge: Cargos totales durante la noche.
* Total intl minutes: Minutos totales usados en llamadas internacionales.
* Total intl calls: Número total de llamadas internacionales.
* Total intl charge: Cargos totales por llamadas internacionales.
* Customer service calls: Número de llamadas al servicio al cliente.



### Análisis del Negocio
Para la empresa de telecomunicaciones, estos datos son cruciales para entender el comportamiento de sus clientes y predecir la "fuga" o "churn" (clientes que abandonan el servicio). Aquí hay algunos puntos clave para el análisis de negocio:

* Identificación de patrones de churn: Analizar los factores que contribuyen a que los clientes abandonen el servicio.
* Segmentación de clientes: Dividir a los clientes en segmentos como puede ser el area geografica, por ejemplo.
* Optimización de planes: Determinar qué planes (internacionales, buzón de voz) son más populares y cuáles podrían necesitar ajustes.
* Atención al cliente: Evaluar el impacto de las llamadas al servicio al cliente en la retención de clientes.
* Cargos y uso: Ver cómo los cargos diurnos, vespertinos, nocturnos e internacionales afectan el comportamiento del cliente.


#### Trabajo practico 1: Analisis y visualizacion de los datos
Vamos a hacer un análisis básico de los datos para ver algunas estadísticas descriptivas y posibles correlaciones entre las variables.

##### Cuestiones a analizar:
* ¿Cual es la tasa de abandono de la empresa?¿Es similar para todos los estados o hay diferencias significativas?
* ¿Qué características diferencian a los clientes que abandonan el servicio de los que no?
* ¿Cómo afecta el uso de minutos y las llamadas a los cargos totales?
* ¿Existe alguna correlación entre las llamadas al servicio al cliente y la tasa de churn?
* ¿El servicio es mas costoso segun el momento del dia que se utilice (mañana, tarde, noche)?
* ¿Qué impacto tiene la duración de la cuenta en la probabilidad de churn?
* ¿Los clientes con planes internacionales y voice mail plan tienen una tasa de churn diferente a los que no tienen?
* ¿Cómo afecta el uso de minutos y las llamadas a los cargos totales?¿Es posible identificar un patron fuera de lo normal?

##### Mentor: Franco Genolet  - Contador Público y Diplomado en Ciencia de Datos
Linkedin: https://www.linkedin.com/in/frangenolet/