# EDA en el Desarrollo de un Proyecto de Machine Learning 


# Entender el caso de Negocio

### Descripción

Una empresa de telecomunicaciones en sus campañas del 2018 y 2019 tuvo una serie de problemas de fraude, unas de ellos fue la pérdida de equipos celulares en sus servicios postpago, debido a la usurpación de identidad y el no pago del servicio, todo generado por clientes fraudulentos. 

Por ello, se definió buscar una solución para detectar a dichas personas tempranamente y quitarles el servicio, dando de baja dicho equipo. Para reducir el tiempo de monitoreo, que usualmente lo hace el equipo de BI en 3 meses, se ha diseñado una solución analítica que detecte a dichos clientes en tan solo 7 a 15 dias, dicho proyecto fue llamado **FUGA DE TERMINALES**.

## Instalamos librerías 

In [None]:
# Import necessary libs

import pandas as pd
import numpy as np
import scipy as scy

import warnings
warnings.filterwarnings('ignore')

# visualization
import seaborn as sns
import matplotlib.pyplot as plt

# Preprocesar label
from sklearn import preprocessing

# Crea una semilla cualesquiera
seed = 16
np.random.seed(seed)

In [None]:
pd.options.display.max_columns = 300
pd.options.display.max_rows = 300

## Leer datos del negocio

In [None]:
## data 
dataset = pd.read_csv('telco.csv',sep=';')

In [None]:
dataset.shape

In [None]:
dataset.head()

In [None]:
dataset.tcsera.nunique()

In [None]:
dataset.Cod_Punto_Venta.nunique()

## Análisis Exploratorio de los Datos (EDA)

In [None]:
dataset.shape #Observamos la cantidad de datos que tenemos tanto en filas y columnas

Observamos el tipo de variables que tenemos

In [None]:
dataset.dtypes

In [None]:
dataset.info()

### Poner algunas características 

In [None]:
print("Número de observaciones = {}".format(dataset.shape[0]))
print("Total de variables disponibles = {}".format(dataset.columns.shape[0]))
print("Columnas que cuentan con algún valor nulo-")
print(dataset.isnull().sum())

In [None]:
dataset.tcsera.nunique() #Observamos que esta bien porque debería ser un cliente único ya que es data del codmes 201912

#### Analizando el Target: 'riesgo_neto_imei'

In [None]:
print(dataset.riesgo_neto_imei.value_counts())
print(dataset.riesgo_neto_imei.value_counts(normalize=True))

Observamos que la clase menor de fuga es mucho más pequeño ahora este sera el puntode partida para entender en base
a esta variables objetivo los resultados

## Variables cuantitativas para un análisis descriptivo

In [None]:
#target
target = ['riesgo_neto_imei']  

# data continua comercial
var_1 = ["Ingresos", "Precio","Costo_Equipo"]

# data continua trafico
var_2 = ["prom_llam_201908","prom_llam_201909","prom_llam_201910","prom_llam_201911","prom_llam_201912"]   

In [None]:
var_1

Analizamos variables importantes para el negocio en este caso el **Ingreso** que se refiere con cuanto esta entrado como servicio el cliente, también el **Precio** de dicho equipo que adquiere y el **Costo del Equipo** para la empresa.

## Medidas de tendencia central 

- **La media aritmética** se define como la suma de N elementos dividida entre N. Se trata una medida bastante conocida entre la gente, aunque tiene el inconveniente de que es muy susceptible a valores extremos.

- **La mediana** es el valor que dentro del conjunto de datos es menor que el 50% de los datos y mayor que el 50% restante.

- **La moda** es el valor más repetido (solo aplicable a variables discretas).

In [None]:
dataset[var_1].describe()

Tambien por variable

In [None]:
media = dataset["Precio"].mean()
mediana = dataset["Precio"].median()
moda = dataset["Precio"].mode()
print("""
    Media: %d
    Mediana: %d
    Moda: %d
""" % (media,mediana,moda))

## Medidas de posición: cuartiles y percentiles

El concepto es igual al de mediana, salvo que aquí la división ya no es en el 50%. El 25% de las observaciones es menor que el primer cuartil. Los cuartiles abarcan el 25%, 50% y 75% de las observaciones. Los percentiles son una generalización con cualquier porcentaje.

In [None]:
dataset[var_2].describe()

In [None]:
dataset["prom_llam_201908"].quantile(0.75) 

El resultado es que el 25% con más prom_llam_201908 es de un 2,8 llamadas como mínimo

## Medidas de dispersión: desviación típica

La ^**desviación típica** mide la dispersión de los datos respecto a la media. Se trata de la raíz cuadrada de la varianza, que en sí misma no es una medida de dispersión. Para calcular la desviación típica usamos std y var para la varianza. (ddof=0 es necesario si quieres seguir la definición de desviación típica y varianza de algunas bibliografías, la razón es que hay un parámetro de ajuste que Pandas pone a 1, pero otras librerías ponen a 0). En Excel es la diferencia que hay entre DESVEST.M (ddof=1) y DESVEST.P (ddof=0).

In [None]:
std = dataset["prom_llam_201912"].std(ddof=1)
var = dataset["prom_llam_201912"].var(ddof=1)
print(std,var)

## Coeficiente de Correlación

In [None]:
corr_matrix = dataset[target+var_1+var_2].corr()
corr_matrix

## Variables cualitativas para un análisis descriptivo

Podemos organizar estos conteos en una tabla de frecuencia, que registra los totales y los nombres de las categorías utilizando la función value_counts que nos proporciona Pandas del siguiente modo:

In [None]:
dataset['Gama'].value_counts() 

Una tabla de frecuencia relativa muestra los porcentajes, en lugar de los recuentos de los valores en cada categoría. Ambos tipos de tablas muestran cómo los casos se distribuyen a través de las categorías. De esta manera, ellas describen la distribución de una variable categórica, ya que enumeran las posibles categorías y nos dicen con qué frecuencia se produce cada una de ellas.

In [None]:
dataset['Gama'].value_counts(normalize=True) 

In [None]:
dataset['Segmento_Equipo'].mode()

In [None]:
dataset['Segmento_Equipo'].value_counts()

# EDA univariado gráfico

Usaremos plot de **Matplotlib**

In [None]:
plt.plot(dataset['Costo_Equipo'])
plt.show();

Usaremos sns para usar la iterfaz de **Seaborn**

In [None]:
sns.set() 
# Grouped boxplot
plt.figure(figsize=(12,8)) # Generamos una gráfica mas grande y visible

plt.plot(dataset['Costo_Equipo']) 
plt.show();

Observamos como está distribuido de menor a mayor el **costo el equipo**

### Gráfico de Barras para ver la cantidad de Marcas de celular que prefiere el cliente

In [None]:
# Grouped boxplot
plt.figure(figsize=(18,10))
sns.countplot(x='Marca', data=dataset)
plt.show();

### Histograma para entender la distribución de la Ingresos que se percibe por el servicio que se le da al cliente

In [None]:
# Grouped boxplot
plt.figure(figsize=(16,8))
sns.distplot(dataset["Ingresos"] , label="Ingresos")
plt.legend()
plt.show()

### Diagrama de Cajas para ver las distribución de los Precios por la venta del celular

In [None]:
# Grouped boxplot
plt.figure(figsize=(12,6))
sns.boxplot(x='Precio', data=dataset);

Observamos mucha dispersión y bastantes puntos fuera de la caja es decir se tiene una alta concretración de datos atípicos o **outliers**

## Análisis descriptivo multivariado

### Cualitativa - cualitativa


**Tablas de contingencia** 

Observamos la cantidad de **Segmentos de Equipo** con respecto al **riesgo_neto_imei**

In [None]:
pd.crosstab(dataset['riesgo_neto_imei'], dataset['Segmento_Equipo'],margins=True)

Observamos la cantidad de **Segmentos de Equipo** con respecto al **riesgo_neto_imei** en porcentajes relativos total

In [None]:
pd.crosstab(dataset['riesgo_neto_imei'], dataset['Segmento_Equipo'],margins=True).apply(lambda r: r/len(dataset) *100,
                                                                                        axis=1)


Observamos la cantidad de **Segmentos de Equipo** en porcentajes relativos con respecto al **riesgo_neto_imei**

In [None]:
pd.crosstab(dataset['riesgo_neto_imei'], dataset['Segmento_Equipo']).apply(lambda r: r/r.sum() *100,axis=0)

### Gráfico de Barras de los Ingresos con respecto al Segmento_Equipo

In [None]:
# Grouped boxplot
plt.figure(figsize=(12,8))
sns.barplot(x='Segmento_Equipo', y='Ingresos', data=dataset , ci = None)
plt.title("Gráfico de Barra",fontsize=30)
plt.xlabel("Segmento_Equipo",fontsize=20)
plt.ylabel("Ingresos",fontsize=20)
plt.show()

### Cualitativa - cuantitativa

### Gráfico de Dispersión del Precio vs El Costo de Equipo

In [None]:
plt.figure(figsize=(12,8))
sns.scatterplot(x='Precio', y='Costo_Equipo', data=dataset,hue='Gama')
plt.show()

### Gráfico de Dispersión del Precio vs El Costo de Equipo filtrado por la Gama 

In [None]:
plt.figure(figsize=(12,8))
sns.lmplot(x='Costo_Equipo', y='Precio', data=dataset,
           fit_reg=False,
           col= 'Gama',
           hue='Gama',
           col_wrap=3,
           size=7
          )   
plt.show()

### Gráfico de agrupamiento para ver la línea de tiempo del promedio ponderado de las llamadas de los ultimos 5 meses

In [None]:
dataset[var_2].median()

In [None]:
pd.DataFrame(dataset[var_2].median().reset_index())

In [None]:
df = pd.DataFrame(dataset[var_2].median().reset_index(),)
df.rename(columns={'index': 'Mes de llamada', 0 : 'Promedio de llamada'},inplace=True)

In [None]:
df

In [None]:
plt.figure(figsize=(12,8))
sns.lineplot(x='Mes de llamada',y='Promedio de llamada', data=df)

### Gráfico multivariado para ver el tráfico de los últimos 5  meses de llamadas promedio por cada clase del riesgo_neto_imei

In [None]:
var_2

In [None]:
var_3 = var_2.copy()
var_3.append('riesgo_neto_imei')

In [None]:
var_3

In [None]:
sns.pairplot(dataset[var_3]);

### Histograma agrupado por el Costo de Equipo con respecto al riesgo_neto_imei

In [None]:
g = sns.FacetGrid(dataset, col='riesgo_neto_imei',size=5, aspect=1.2)
g.map(plt.hist, 'Costo_Equipo', bins=10)
plt.show()
g.savefig("archivo.png")

### Scaterplot agrupado por Departamento entre Costo de Equipo vs el Precio respecto al riesgo_neto_imei 

In [None]:
g = sns.FacetGrid(dataset, col="Departamento", hue="riesgo_neto_imei",col_wrap=4)
g.map(plt.scatter, "Precio","Costo_Equipo" ,alpha=.7)
g.add_legend();
g.savefig("archivo1.png")

### Diagrama de Cajas del Precio vs la Geografía con respecto al riesgo_neto_imei

In [None]:
# Grouped boxplot
plt.figure(figsize=(16,8))
sns.boxplot(x="Geografia", y="Precio", hue="riesgo_neto_imei", data=dataset, palette="Set1")

### Cuantitativa - cuantitativa


### Gráfico de regresión para determinar correlación entre prom_llam_201909 vs prom_llam_201912

In [None]:
plt.figure(figsize=(12,8))
sns.regplot(dataset.prom_llam_201909, dataset.prom_llam_201912)
plt.title('Promedio de llamadas del 201912 vs. Promedio de llamadas del 201909', fontsize = 18)
plt.show()

### Grafíco de calor y tabla de la correlación de Pearson 

In [None]:
dataset[var_2].corr(method= 'pearson')

In [None]:
sns.set(font_scale=2)
corr_matrix = dataset[var_2].corr()
plt.figure(figsize=(16, 10))
ax = sns.heatmap(corr_matrix,annot=True, fmt=".1f",cmap="YlGnBu") 
ax.set_ylim(sorted(ax.get_xlim(), reverse=True))
## Gráfico de calor para las correlaciones

## Valores Atípicos

In [None]:
dataset_prop = pd.read_csv('propension_banca.csv')
dataset_prop

In [None]:
data_prop_muestra = dataset_prop.loc[dataset_prop.codmes == 201901]

In [None]:
dataset1 = data_prop_muestra[['id_persona','codtarget','cem','ingreso_neto','linea_ofrecida','margen']]
dataset1

### Métodos de detección de valores atípicos univariantes
### IQR y la trama de Box-plot

- Un método robusto para etiquetar valores atípicos es el método IQR (Inter Quartile Range) desarrollado por John Tukey, pionero del análisis exploratorio de datos. 

- El diagrama de caja y bigotes usa cuartiles para trazar la forma de una variable.
 
- El rango intercuartil es el rango entre el primer y el tercer cuartil (los bordes de la caja). Cualquier punto de datos que esté fuera de 1,5 veces el IQR por debajo del primer cuartil o 1,5 veces el IQR por encima del tercer cuartil se considera un valor atípico.



In [None]:
r = dataset1[['ingreso_neto']]
r

In [None]:
Q1 = r.quantile(0.25)
Q3 = r.quantile(0.75)
IQR = Q3 - Q1
print("Q1 = {}".format(Q1[0]))
print("Q3 = {}".format(Q3[0]))
print("IQR = {}".format(IQR[0]))
Data_SO = r[~((r < (Q1 - 1.5 * IQR)) |(r > (Q3 + 1.5 * IQR))).any(axis=1)]
Data_CO = r[((r < (Q1 - 1.5 * IQR)) |(r > (Q3 + 1.5 * IQR))).any(axis=1)]
print("Datos con outliers en el Precio = {}".format(Data_CO.shape[0]))
print("Datos sin outliers en el Precio = {}".format(Data_SO.shape[0]))