In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

### Eliminacion de columnas innecesarias

Devido a que el problema que queremos solucionar es saber sin algun contacto previo, dado solo el perfil de una persona, si esta aceptara abrir un CDT, vamos a eliminar todas las columnas las cuales dependan de algun contacto previo, ya que estas no nos serviran para nuestro modelo.

Explicacion extra de algunas columnas que vamos a quitar:
- `Contact`: el modo de contacto tal cual no nos importa, ya que para saber el modo de contacto utilizado, tenemos que haberlo contactado previamente (Y haber realizado la llamada preguntando si quiere abrir un CDT)
- `Campaign`: esta es la cantidad de veces que se ha contactado a la persona dentro de esta campaña, lo cual tampoco nos interesa.
- `Pdays`: es el numero de dias que han pasado desde que se contacto a la persona por ultima vez, lo cual no nos interesa.
- `Previous`: es el numero de veces que se ha contactado a la persona previamente, lo cual no nos interesa.
- `Poutcome`: es el resultado de la campaña de marketing anterior, lo cual no nos interesa.

In [None]:
df = pd.read_csv('data.csv', sep=';')
df = df.drop(['contact', 'day', 'month', 'duration', 'campaign', 'pdays', 'previous', 'poutcome'], axis=1)
df

Como vimos en la exploracion, no tenemos nulos en las columnas, es por esto que no hay ninguna necesidad de realizar un tratamiento de nulos.
<br><br>
Por la naturaleza de los datos, asumimos que no hay datos duplicados, ya que cabe la muy real posibilidad (por el hecho de ser tan pocas categorias y estas ser muy generales) de que haya personas con los mismos datos.
<br><br>
Ahora vamos a normalizar los datos.
<br>
Apesar de que los metodos que vamos a usar son resistentes a los datos atipicos, de igual manera normalizaremos ya que uno de los metodos escogidos (regresion logistica) utiliza descenso de gradiente, proceso el cual es optimizado si los datos estan normalizados.

Normalizaremos solamente las columnas numericas, ya que las categoricas no necesitan ser normalizadas.

In [None]:
scaler = StandardScaler()
df[['age', 'balance']] = scaler.fit_transform(df[['age', 'balance']])

Ahora vamos a convertir las columnas categoricas

In [None]:
df = pd.get_dummies(df, columns=['job', 'marital', 'education'])

columns = ['default', 'housing', 'loan', 'y']
for col in columns:
    df[col] = df[col].map({'yes': True, 'no': False})


In [None]:
df.head()

Ahora vamos a exportar nuestro dataframe como CSV.

In [None]:
df.to_csv('output.csv', index=False)