# Cocinando nuestos datos 👨🏽‍🍳.

Ahora que hemos hecho un análisis y tenemos una mejor comprensión de nuestro conjunto de datos. es hora de preprocesarlos en preparación para el modelo.

Recordemos que muchos modelos de Machine Learning hacen ciertas suposiciones sobre cómo estan distribuidos nuestros datos.

Si las características de nuestro conjunto de datos no complen con las suposiciones que hace el modelo de ML, los resultados no seran del todo confiables.Es por eso que la etapa de preprocesamiento de datos es tan crítica e importante.

Muchos modelos de Machine Learning solo aceptan tipos de dato numericos, por lo que si alguna de nuestras características es categórica , primero debemos transformarlas a numerica.

Podemos ver los tipos de datos en nuestro dataframe utilizando el atributo `dtype`


In [34]:
import pandas as pd


#-- Leer archivo
data_phones = pd.read_csv('/content/Churn.csv')

#-- tiops de datos
data_phones.dtypes

Account_Length      int64
Vmail_Message       int64
Day_Mins          float64
Eve_Mins          float64
Night_Mins        float64
Intl_Mins         float64
CustServ_Calls      int64
Churn              object
Intl_Plan          object
Vmail_Plan         object
Day_Calls           int64
Day_Charge        float64
Eve_Calls           int64
Eve_Charge        float64
Night_Calls         int64
Night_Charge      float64
Intl_Calls          int64
Intl_Charge       float64
State              object
Area_Code           int64
Phone              object
dtype: object

Recordemos que `int64`y `float` son tipos de dato numétricos como `Int_Calls` e `Eve_Charge`, mientras que cualquier columna que incluya texto , como `State` se codifica como un objeto o una cadena de texto (String).

Algunas caracteristicas que tienen el tipo de dato objeto como `Int1_Plan` , que tiene dos valores posibles `yes`& `no`.



In [None]:
data_phones['Intl_Plan'].head()

0     no
1     no
2     no
3    yes
4    yes
Name: Intl_Plan, dtype: object

Pero , como podriamos pasar estas variables categoricas a numericas, bueno pues simple, podemos codificar 0-`no` & 1-`yes`y lo haremos utilizando `replace()`

In [None]:
data_phones['Intl_Plan'] = data_phones['Intl_Plan'].replace({'no':0,'yes':1})

data_phones['Intl_Plan'].head()

0    0
1    0
2    0
3    1
4    1
Name: Intl_Plan, dtype: int64

o también podemos usar `LabelEncoder()`.

In [None]:
from sklearn.preprocessing import LabelEncoder
data_phones['Intl_Plan'] = LabelEncoder().fit_transform(data_phones['Intl_Plan'])
data_phones['Intl_Plan'].head()

0    0
1    0
2    0
3    1
4    1
Name: Intl_Plan, dtype: int64

Verificamos que los datos esten actualizados.

In [None]:
data_phones.dtypes

Account_Length      int64
Vmail_Message       int64
Day_Mins          float64
Eve_Mins          float64
Night_Mins        float64
Intl_Mins         float64
CustServ_Calls      int64
Churn              object
Intl_Plan           int64
Vmail_Plan         object
Day_Calls           int64
Day_Charge        float64
Eve_Calls           int64
Eve_Charge        float64
Night_Calls         int64
Night_Charge      float64
Intl_Calls          int64
Intl_Charge       float64
State              object
Area_Code           int64
Phone              object
dtype: object

La columna `state`por otro lado es un poco más compleja de representar numericamente por que hay muchos estados.

In [None]:
n= 4
data_phones['State'].sample(n)

648     WI
2943    KS
1614    MT
1933    PA
Name: State, dtype: object

Podríamos asignar un número a cada estado:

* 0 para Kansas.
* 1 para Ohio.
* 2 para new Jersey
* Etc.

Pero hacer esto es peligroso , ya que implica alguna forma de ordenar los estados, esto tendria sentido para una columna que tuviese categorias como 'low','median','high' pero en nuestro caso no es asi , no tiene ningun sentido y haría que nuestro futuro modelo sea menos efectivo.


Podemos codificarlos utilizando la codificación activa , esta crea nuevas caracteristicas binarias correspondientes a qué estado pertenece un cliente determinado, cada fila del DataFrame tendra un 1 en exactamente una columna de estado y cero en todas las demas columnas de `state`.

Al hacerlo nuestro modelo puede usar la información acerca de a qué estado pertenece un cliente , sin hacerlo erroneamente.


Otro paso importanto de preprocesamiento es el escalado de características, la mayoria de los modelos requieren que las caracteristicas estén en la misma escala, pero esto rara vez es cierto para los datos del mundo real.

En nuestro DataFrame de telecomunicaciones,por ejemplo la columna `Intl_alls` varia de 0 a 20.

In [None]:
data_phones['Intl_Calls'].describe()

count    3333.000000
mean        4.479448
std         2.461214
min         0.000000
25%         3.000000
50%         4.000000
75%         6.000000
max        20.000000
Name: Intl_Calls, dtype: float64

Mientras que la columna `Night_Mins` varia de 23 a 395.

In [None]:
data_phones['Night_Mins'].describe()

count    3333.000000
mean      200.872037
std        50.573847
min        23.200000
25%       167.000000
50%       201.200000
75%       235.300000
max       395.000000
Name: Night_Mins, dtype: float64

Por lo tanto , debemos reescalar nuestros datos y asegurarnos de que todas nuestras caracteristicas estén en la misma escala.

Haremos esto usando un proceso conocio como estandarización, que centra la distribución alrededor de la media de los datos y calcula el número de desviacion estandar de la media de cada punto.


Para hacerlo , podemos usar la función `StandardScaler`de Sklearn.

In [None]:
from sklearn.preprocessing import StandardScaler

df = StandardScaler().fit_transform(df)

### Identificación de características para convertir


Es preferible tener características como `'Churn'` codificadas como 0 y 1 en lugar de no y sí, para que luego pueda introducirlas en algoritmos de aprendizaje automático que solo aceptan valores numéricos.

Además de `'Churn'`, otras características que son de tipo objeto se pueden convertir en 0 y 1. En este ejemplo, exploraremos los diferentes tipos de datos de telecomunicaciones.



In [None]:
data_phones.dtypes

Account_Length      int64
Vmail_Message       int64
Day_Mins          float64
Eve_Mins          float64
Night_Mins        float64
Intl_Mins         float64
CustServ_Calls      int64
Churn              object
Intl_Plan           int64
Vmail_Plan         object
Day_Calls           int64
Day_Charge        float64
Eve_Calls           int64
Eve_Charge        float64
Night_Calls         int64
Night_Charge      float64
Intl_Calls          int64
Intl_Charge       float64
State              object
Area_Code           int64
Phone              object
dtype: object

Churn, Vmail_Plan e Intl_Plan, en particular, son funciones binarias que se pueden convertir fácilmente en 0 y 1. Esto es lo que haremos a continuación.

La refundición de tipos de datos es una parte importante del preprocesamiento de datos. En este ejemplo, asignaremos los valores 1 a 'yes' y 0 a 'no' a las funciones 'Vmail_Plan' y 'Churn', respectivamente.

Vimos dos enfoques para hacer esto : uno usando pandas y el otro usando scikit-learn.

Para tareas sencillas como esta, se recomienda hacerlo con pandas, así que eso es lo que haremos.

Al hacer ciencia de datos, es importante tener en cuenta que siempre hay más de una forma de realizar una tarea y debe elegir la que sea más eficaz para su aplicación.

In [None]:
# Remplazamos `no`con 0 & 1 - `yes`en la columna `Vmail_Plan``

data_phones['Vmail_Plan'] = data_phones['Vmail_Plan'].replace({'no': 0 , 'yes': 1})

# Hacer lo mismo pero con 'Churn'

data_phones['Churn'] = data_phones['Churn'].replace({'yes':1,'no':0})

# Verificamos los resultados.


data_phones['Vmail_Plan'].head()

0    1
1    1
2    0
3    0
4    0
Name: Vmail_Plan, dtype: int64

In [None]:
# Verificamos los resultados.
data_phones['Churn'].head()

0    0
1    0
2    0
3    0
4    0
Name: Churn, dtype: int64

### One hot encoding.


Anteriormente vimos cómo la columna `'State'` se puede codificar numéricamente usando la técnica de una codificación en caliente.

Hacer esto manualmente sería bastante tedioso, ¡especialmente cuando tienes 50 estados y más de 3000 clientes! Afortunadamente, pandas tiene una función `get_dummies()` que aplica automáticamente una codificación en caliente sobre la función seleccionada.

In [None]:
data_state = pd.get_dummies(data_phones['State'])

# Verificamos nuestros datos

data_state.head()

Unnamed: 0,AK,AL,AR,AZ,CA,CO,CT,DC,DE,FL,GA,HI,IA,ID,IL,IN,KS,KY,LA,MA,MD,ME,MI,MN,MO,MS,MT,NC,ND,NE,NH,NJ,NM,NV,NY,OH,OK,OR,PA,RI,SC,SD,TN,TX,UT,VA,VT,WA,WI,WV,WY
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0


Tengamos en cuenta que esto crea un DataFrame completamente nuevo. Una vez que vuelva a fusionar esto con el DataFrame de telecomunicaciones original, puedes comenzar a usar estas características de estado en sus modelos. Sin embargo, ten en cuenta que ahora tenemos muchas más funciones en nuestro conjunto de datos, por lo que deberíamos considerar eliminar las que sean innecesarias.

## Escala de Caracateristicas.

Recordemos las diferentes escalas de las columnas `'Intl_Calls'` y `'Night_Mins'`.

Nuestro trabajo en este ejemplo es volver a escalarlos utilizando [StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)


En su espacio de trabajo, el DataFrame de telecomunicaciones se ha subconjunto para incluir solo las funciones que desea cambiar de escala: 

* 'Intl_Calls' 

*  'Night_Mins'

Para aplicar StandardScaler, primero debemos crear una instancia usando StandardScaler () y luego aplicar el método fit_transform (), pasando el DataFrame que desea cambiar de escala. 

In [None]:
# Se paramos columnas a escalar
telco_scaled = data_phones.loc[:,['Intl_Calls','Night_Mins']]

In [None]:
# Import StandardScaler
from sklearn.preprocessing import StandardScaler
# Scale telco
telco_scaled = StandardScaler().fit_transform(telco_scaled)

# Add column names back for readability
telco_scaled_df = pd.DataFrame(telco_scaled, columns=["Intl_Calls", "Night_Mins"])

# Print summary statistics
print(telco_scaled_df.describe())

         Intl_Calls    Night_Mins
count  3.333000e+03  3.333000e+03
mean  -1.264615e-16  6.602046e-17
std    1.000150e+00  1.000150e+00
min   -1.820289e+00 -3.513648e+00
25%   -6.011951e-01 -6.698545e-01
50%   -1.948306e-01  6.485803e-03
75%    6.178983e-01  6.808485e-01
max    6.307001e+00  3.839081e+00


Ambas columnas están ahora en la misma escala. En la práctica, deberemos asegurarnos de que este sea el caso para todas las funciones de interés. A continuación: selección de funciones e ingeniería de funciones. 

## Selección e Ingenieria de Funciones.

Los conjuntos de datos a menudo tienen caracteristicas que no proporcionan poder predictivo y debeen descartarse antes del modelado de datos.Un ejemplo de caracteristicas que se pueden descartar son identificadores unicos como números de teléfono, números de seguro social y números de cuenta.

Pandas tiene un método para eliminarlos que se puede usar para eliminar columnas.

In [None]:
data_phones.drop(['Soc_Sec','Tax_ID'], axis = 1)

Las caracteristicas que estan relacionadas con otra también se pueden descartar, ya que no proporcionan información adicional al modelo.

El método `corr` nos permite explorar la correlación entre las caracteristicasde nuestroconjunto de datos.

In [35]:
data_phones.corr()

Unnamed: 0,Account_Length,Vmail_Message,Day_Mins,Eve_Mins,Night_Mins,Intl_Mins,CustServ_Calls,Day_Calls,Day_Charge,Eve_Calls,Eve_Charge,Night_Calls,Night_Charge,Intl_Calls,Intl_Charge,Area_Code
Account_Length,1.0,-0.004628,0.006216,-0.006757,-0.008955,0.009514,-0.003796,0.03847,0.006214,0.01926,-0.006745,-0.013176,-0.00896,0.020661,0.009546,-0.012463
Vmail_Message,-0.004628,1.0,0.000778,0.017562,0.007681,0.002856,-0.013263,-0.009548,0.000776,-0.005864,0.017578,0.007123,0.007663,0.013957,0.002884,-0.001994
Day_Mins,0.006216,0.000778,1.0,0.007043,0.004323,-0.010155,-0.013423,0.00675,1.0,0.015769,0.007029,0.022972,0.0043,0.008033,-0.010092,-0.008264
Eve_Mins,-0.006757,0.017562,0.007043,1.0,-0.012584,-0.011035,-0.012985,-0.021451,0.00705,-0.01143,1.0,0.007586,-0.012593,0.002541,-0.011067,0.00358
Night_Mins,-0.008955,0.007681,0.004323,-0.012584,1.0,-0.015207,-0.009288,0.022938,0.004324,-0.002093,-0.012592,0.011204,0.999999,-0.012353,-0.01518,-0.005825
Intl_Mins,0.009514,0.002856,-0.010155,-0.011035,-0.015207,1.0,-0.00964,0.021565,-0.010157,0.008703,-0.011043,-0.013605,-0.015214,0.032304,0.999993,-0.018288
CustServ_Calls,-0.003796,-0.013263,-0.013423,-0.012985,-0.009288,-0.00964,1.0,-0.018942,-0.013427,0.002423,-0.012987,-0.012802,-0.009277,-0.017561,-0.009675,0.027572
Day_Calls,0.03847,-0.009548,0.00675,-0.021451,0.022938,0.021565,-0.018942,1.0,0.006753,0.006462,-0.021449,-0.019557,0.022927,0.004574,0.021666,-0.009646
Day_Charge,0.006214,0.000776,1.0,0.00705,0.004324,-0.010157,-0.013427,0.006753,1.0,0.015769,0.007036,0.022972,0.004301,0.008032,-0.010094,-0.008264
Eve_Calls,0.01926,-0.005864,0.015769,-0.01143,-0.002093,0.008703,0.002423,0.006462,0.015769,1.0,-0.011423,0.00771,-0.002056,0.017434,0.008674,-0.011886


Podemos observar como minutos dl dia, minutos de la tarde, minutos en la noche y minutos internacionals estan altamene correlacionados con carga de dia, carga de tarde, carga de noche, carga internacional y esto tiene sentido intuitivamente y desde un modelo podemos mejorar el rendimiento de estos eliminando estas funciones redundantes.



Este proceso de elegir qué caracteristicas usar en nuestro modelo se conoce como seleccion de caracteristicas.


También neecisatmos crear nuevas funciones - columnas para ayudar e mejorar el rendimiento del modelo, esto se conoce como ingenieria de caracteristicas, un ejemplo de este seria crear una caracteristica llamada `total minuts` que consiste en combinar las suma de los minutos del dia,tarde noche e internacionales o podemos crear una nueva fncion que sea la relacion entre minutos y carga.

## Eliminar funciones innecesarias

Algunas funciones como 'Area_Code' y 'Phone' no son útiles cuando se trata de predecir el abandono de clientes y deben descartarse antes del modelado. La forma más fácil de hacerlo en Python es usando el método `.drop()` de pandas DataFrames.



In [38]:
# eliminamos las caracteristicas inecesarias
data_phone = data_phones.drop(['Area_Code','Phone'], axis = 1)

# Verificamos la eliminacion de caracteristicas

data_phone.columns

Index(['Account_Length', 'Vmail_Message', 'Day_Mins', 'Eve_Mins', 'Night_Mins',
       'Intl_Mins', 'CustServ_Calls', 'Churn', 'Intl_Plan', 'Vmail_Plan',
       'Day_Calls', 'Day_Charge', 'Eve_Calls', 'Eve_Charge', 'Night_Calls',
       'Night_Charge', 'Intl_Calls', 'Intl_Charge', 'State'],
      dtype='object')

Ingeniería de una nueva columna.

Aprovechar el conocimiento del dominio para diseñar nuevas funciones es una parte esencial del modelado. Esta cita de Andrew Ng resume la importancia de la ingeniería de funciones:


Proponer funciones es difícil, requiere mucho tiempo y requiere conocimientos especializados. El "aprendizaje automático aplicado" es básicamente ingeniería de funciones.


Nuestro trabajo es crear una nueva caracteristica que contenga información sobre la duración promedio de las llamadas nocturnas realizadas por los clientes.

In [40]:
data_phone['Avg-Night_Calls'] = data_phone['Night_Mins']/data_phone['Night_Calls']

data_phone['Avg-Night_Calls'] .head()

0    2.689011
1    2.469903
2    1.563462
3    2.212360
4    1.544628
Name: Avg-Night_Calls, dtype: float64