# TP N° 2
## Obteniendo un posible CUIT a partir de una fecha de nacimiento y género

### Librerias necesarias

In [253]:
%matplotlib inline

# Libreria para tratar con Arrays y otro tipos de datos utilizados
import numpy as np

# Libreria para graficar
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# Libreria que probee herramientas para el manejo de datos
import pandas as pd

# Libreria que incluye redes neuronales, en nuestro caso un MLP (Multi Layer Preceptron)
from sklearn.neural_network import MLPRegressor

# Libreria de hora y fecha
from time import time
from datetime import datetime
from dateutil.relativedelta import relativedelta

# Librerias para realizar preprocesado de datos (Transformaciones y estandarizacion)
from sklearn import preprocessing
from sklearn.preprocessing import StandardScaler 

plt.style.use('seaborn-poster')

### Cargando el archivo CSV en memoria

In [254]:
# Cargamos el CSV en memoria
cuiles = pd.read_csv('cuiles2.csv', names = ["CUIL", "Nacimiento", "Sexo"])

# Definimos los datasets de entrenamiento y prueba
train = cuiles.sample(frac=0.75)
test = cuiles.drop(train.index)

print(train)
print('\n-------------------------------------------\n')
print(test)

            CUIL  Nacimiento Sexo
46   27340120065  01-01-1970    F
639  20360362516  01-01-1978    M
231  27176014240  14-04-1965    F
985  20293188689  13-01-1982    M
362  27169381874  26-08-1963    F
738  27388893104  28-02-1995    F
879  27181001289  20-12-1966    F
431  27263643092  04-12-1977    F
886  27167764369  24-05-1963    F
762  27296546440  01-01-1970    F
33   20224642696  14-07-1972    M
59   27238347136  22-04-1974    F
349  27363575825  10-06-1992    F
121  27181255426  31-10-1966    F
257  23165816579  28-12-1963    M
828  27316954664  01-01-1978    F
67   27160544258  03-04-1963    F
793  27259871722  01-01-1970    F
832  27209112243  09-07-1969    F
673  20221882084  15-05-1971    M
290  27252306396  24-03-1976    F
555  27322435326  15-03-1986    F
386  27160377610  18-08-1962    F
485  27233304250  13-04-1973    F
549  27267691326  30-10-1978    F
859  27220066210  21-02-1971    F
608  27349673016  22-10-1989    F
927  27281619565  01-01-1970    F
397  272979490

### Creando la instancia de regresor utilizando un MLP (Multi Layer Perceptron)

#### Multi Layer Perceptron (Perceptrón Multicapa)
Utilizamos un tipo de red neuronal llamado Perceptrón Multicapa, el mismo consta de 4 capas, compuestas por 200 perceptrones para la entrada, 400 y 400 en sus capas ocultas, y 200 en sus capas de salida.
Utilizamos el algoritmo adam (https://arxiv.org/abs/1412.6980) a que provee una excelente respuesta para datasets con mas de 100 registros; cuya funcion de activación es la de rectificador (ReLU), es decir sus valores van desde 0 a f(x) = max(x) es decir, el valor maximo del dataset de entrada.
Esto es particularmente útil dado que probando otro tipo de funciones, como la tangente hiperbolica, se obtinen resultados escalados y suponemos se requeriria una especie de postproceso para reconvertir la salida al dominio de la entrada. Con ReLU nos aseguramos conservar la escala.

In [255]:
# Creamos el objeto MLP con las opciones definidas en su constructor
mlp = MLPRegressor(hidden_layer_sizes=(200,400,400,200), max_iter = 2000, solver='adam', \
                   alpha=0.01, activation = 'relu', random_state = 9)

def nacimiento_a_dias(arr): 
    return [((datetime.now() - datetime.strptime(item, '%d-%m-%Y')).days) for item in arr]

# Features de entrenamiento
x_train = nacimiento_a_dias(train['Nacimiento'])
z_train = train['Sexo']

# Labels de entrenamiento
y_train = train['CUIL'].astype(float)

# Features de prueba
x_test = nacimiento_a_dias(test['Nacimiento'])
z_test = test['Sexo']

# Labels de prueba
y_test = test['CUIL'].astype(float)

# Convertimos la feature z a 1 y 0
le = preprocessing.LabelEncoder()
le.fit(z_train)
z_train = le.transform(z_train)
le = preprocessing.LabelEncoder()
le.fit(z_test)
z_test = le.transform(z_test)

#Creamos la matriz de features, es decir [[Cantidad de dias pasados , Sexo]]
X_train = np.column_stack((x_train, z_train))
X_test = np.column_stack((x_test, z_test))

print(X_train)
print('\n-------------------------------------------\n')
print(X_test)

[[17677     0]
 [14755     1]
 [19400     0]
 ...
 [13078     1]
 [16611     0]
 [16219     0]]

-------------------------------------------

[[13876     0]
 [16813     0]
 [17677     0]
 [18631     1]
 [12614     0]
 [12985     1]
 [22785     0]
 [20738     1]
 [11827     1]
 [18526     1]
 [18642     0]
 [15957     0]
 [17716     0]
 [19532     0]
 [20967     0]
 [15380     0]
 [16435     0]
 [15525     0]
 [12402     0]
 [20643     1]
 [13600     0]
 [17530     0]
 [16298     1]
 [19363     0]
 [21597     0]
 [20770     0]
 [20429     0]
 [22287     0]
 [13518     0]
 [17677     0]
 [20498     1]
 [13526     0]
 [13475     1]
 [20961     1]
 [21551     0]
 [17740     0]
 [20325     0]
 [20436     0]
 [15352     0]
 [14987     1]
 [18151     0]
 [20686     0]
 [15363     1]
 [16545     1]
 [17677     0]
 [15393     0]
 [17677     0]
 [13613     0]
 [13391     1]
 [15705     0]
 [20369     0]
 [12462     1]
 [17198     1]
 [14012     1]
 [12557     0]
 [20732     0]
 [16837     0]
 [2

#### Tratamiento a los datos de entrada
Los datos de entrada constan de una matriz de 2xN formada por [Cantidad de dias, Sexo], utilizamos
cantidad de días dado que debemos darle una entrada representativa a la red neuronal, que pueda aprender.
No podemos usar un dato tipo cadena de texto dado que no guardaria una relacion con el dominio del problema.

La columna Sexo, tambien es estandarizada a 0 y 1, siendo 0 Femenino y 1 Hombre.

#### Probando la red neuronal

In [256]:
# MLP resultó tras muchísimas pruebas ser muy sensible a las diferentes escalas y rangos de datos
# Por eso realizamos un escalamiento de -1 a 1 en la matriz de entrada
scaler = StandardScaler()  
scaler.fit(X_train)  
X_train = scaler.transform(X_train)
scaler.fit(X_test)  
X_test = scaler.transform(X_test)

#y = y.tolist()
#scaler = StandardScaler()  
#scaler.fit(y)  
#y = scaler.transform(y)

t0 = time()
mlp = mlp.fit(X_train, y_train)
pred = mlp.predict(X_test)

print(f"Tiempo de entrenamiento: {round(time()-t0, 3)}s")



Tiempo de entrenamiento: 136.674s


#### Resultados
Verificamos la exactitud de la predicción mostrando la tabla de tests junto con las predicciones hechas por el algoritmo.

In [257]:
results = test
results['Predicción'] = pred
results['Delta'] = abs(results['CUIL'] - results['Predicción'])

pd.options.display.float_format = '{:.0f}'.format
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    print(results)

            CUIL  Nacimiento Sexo  Predicción      Delta
4    27282301283  29-05-1980    F 26455918675  826382608
12   27225806239  14-05-1972    F 26250409454  975396785
14   27237351911  01-01-1970    F 26204046036 1033305875
15   20181405547  23-05-1967    M 21725323535 1543917988
23   27305314345  12-11-1983    F 26584730062  720584283
25   20295666553  06-11-1982    M 21969006972 1673340419
26   27120792550  07-01-1956    F 26285962988  834829562
36   20144483686  15-08-1961    M 21651942791 1507459105
39   20319994735  07-01-1986    M 22035650474 1715655739
43   23179900009  05-09-1967    M 21728980382 1450919627
51   27184461922  12-05-1967    F 26170945953 1013515969
52   23241706214  17-09-1974    F 26298663034 3056956820
55   27211404057  23-11-1969    F 26202308748 1009095309
56   27169447484  03-12-1964    F 26169405091 1000042393
65   27144335703  29-12-1960    F 26213200819  931134884
69   27253020151  16-04-1976    F 26331189104  921831047
73   27230112512  27-05-1973   

Obtenemos el score del algoritmo.

In [258]:
print(f"Score del MLP: {mlp.score(X_test, y_test)}")

Score del MLP: 0.8137726754118763
