# Exámen final
## Fese I: Desarrollo del Modelo Predictivo
Para esta primera fase del exámen final de machine learning se realizaran cinco (5) puntos principales:
- Realizar un análisis exploratorio de datos sobre las features, identificando cualquier patrón relevante o relación entre las variables.
- Preprocesar los datos adecuadamente.
- Realizar un análisis de las variables más importantes para la predicción, justificando su relevanacia
- Seleccionar y justificar el uso de l modelo de machine learning que se condere más adecuado.
- Entrenar le modelo y asegúrarse de evaluarlo con métricas adecuadas para un problema de clasificación, tales como precisión, recall, f1-score, o área bajo la curva ROC.

### Análisis exploratorio de datos (EDA)

Para hacer el análisis exploratorio de datos se está utilizando el set de datos `TechnicalInterviewFraudPrevention.csv`. La herramiento que voy a utilizar para analizar y manipular los datos será pandas.

In [37]:
# importación de la libreria `pandas`
import pandas as pd

In [38]:
# `lectura del conjunto de datos
df = pd.read_csv('data/TechnicalInterviewFraudPrevention.csv')

df

Como paso inicial en cada EDA es prioritario conocer que variables son, o no, categoricas. Para alcanzar lo anterior es útil saber cuántos tipos de columnas tenemos en el dataframe.

In [39]:
df.dtypes.unique()

array([dtype('int64'), dtype('float64'), dtype('O')], dtype=object)

Es probable que las variables categoricas sean aquellas que sean de tipo objeto.

In [40]:
categorical_columns = list()
for i in df.columns:
    if df[i].dtype == 'object':
        categorical_columns.append(i)
categorical_columns

['J', 'Q', 'R', 'Monto']

Ya identificadas que columnas pueden ser categoricas (debido a su tipo de dato) se analizan para determinar con serteza su pertenencia a este conjunto

In [41]:
# valores de la columna J
df['J'].unique()

array(['UY', 'MX', 'US', 'ES', 'AR', 'CA', 'GB', 'UA', 'CL', 'CO', 'IT',
       'GT', 'PT', 'CH', 'TR', 'FR', 'KR', 'AU', 'BR'], dtype=object)

La columna J parece contener iniciales de paises, por ende si queda como variable categorica.

In [42]:
# valroes de la columna Q
df['Q'].unique()

array(['0.00', '600.17', '28.65', '181.94', '200.03', '283.99', '97.32',
       '244.31', '270.31', '49.19', '385.47', '505.80', '575.69', '18.27',
       '20.36', '42.08', '43.90', '51.76', '91.33', '147.30', '38.37',
       '31.04', '339.91', '244.51', '44.24', '47.42', '301.94', '98.12',
       '15.11', '33.35', '52.04', '82.88', '119.47', '44.85', '65.23',
       '42.70', '135.79', '135.28', '422.54', '187.99', '46.32', '16.12',
       '48.82', '246.20', '74.01', '276.50', '311.25', '335.27', '67.20',
       '25.44', '94.24', '18.74', '34.38', '50.03', '60.44', '29.04',
       '36.91', '34.83', '43.10', '51.62', '99.07', '50.00', '71.90',
       '187.66', '198.14', '188.97', '26.20', '375.32', '406.29',
       '262.53', '327.06', '19.69', '590.01', '45.10', '63.11', '80.33',
       '90.78', '89.21', '58.72', '24.10', '62.68', '72.35', '93.02',
       '206.17', '79.82', '771.71', '32.68', '71.51', '60.79', '33.25',
       '398.08', '37.30', '47.00', '68.43', '503.57', '94.86', '173.

Estos valores parecen ser números que fueron reconocidos como strings, se procede a convertirlos a flotantes.

In [43]:
# convertir los valores de la columna Q a flotantes
df['Q'] = df['Q'].str.replace(',', '').astype(float)

# eliminar de categorical_columns
categorical_columns.remove('Q')

categorical_columns

['J', 'R', 'Monto']

df['R'].unique()

In [45]:
# convertir los valorse de la columna R a flotantes
df['R'] = df['R'].str.replace(',', '').astype(float)

# eliminar de categorical_columns
categorical_columns.remove('R')

categorical_columns

['J', 'Monto']

In [47]:
df.Monto.unique()

array(['37.51', '8.18', '13.96', ..., '132.17', '195.63', '21.58'],
      dtype=object)

In [48]:
# convertir los valores de la columna Monto a flotantes
df.Monto = df.Monto.str.replace(',','').astype(float)

# eliminar de categorical_columns
categorical_columns.remove('Monto')

categorical_columns

['J']

Como resultado solo nos quedó una variable categorica (`J`). Ahora para verificar el resto de las variables se va a rrecorrer y ver los elementos que tienen.|

In [51]:
for i in df.columns:
    if not i in categorical_columns:
        print(df[i].unique())

[ 0  9  1 10 11  2  3  4  8  5 19 12 30  6 20 14 13  7 27 17 15]
[10  7 16  8 12 18 14 17 15  3 11  9  6 13  4  5  2 19 -1  1 20]
[5.02570e+04 2.90140e+04 9.20000e+01 ... 8.10670e+04 3.98372e+05
 1.51280e+04]
[  0   1  12   4   3   2   8  27  30   5   6   7  10  16  42  18   9  33
  24  20  36  13  15  21 180  40  19  17  11  80  60]
[ 0  1  2  4  3  6 11 10 16  5  8 14  9 18 12 35  7 15 24 45 27 30 25]
[0.    0.014 0.007 0.25  0.19  0.5   0.031 0.02  0.028 0.012 0.036 1.
 0.667 0.002 0.008 0.017 0.001 0.003 0.097 0.07  0.074 0.106 0.019 0.025
 0.011 0.024 0.055 0.006 0.094 0.053 0.03  0.009 0.375 0.01  0.042 0.081
 0.093 0.029 0.032 0.005 0.013 0.16  0.039 0.143 0.048 0.004 0.167 0.111
 0.021 0.016 0.127 0.035 0.023 0.015 0.417 0.333 0.083 0.047 0.04  0.062
 0.067 0.06  0.222 0.038 0.056 0.043 0.026 0.072 0.082 0.018 0.2   0.045
 0.033 0.154 0.022 0.229 0.128 0.259 0.051 0.091 0.078 0.104 0.125 0.08
 0.069 0.142 0.139 0.095 0.044 0.041 0.059 0.124 0.12  0.208 0.131 0.11
 0.064 0.049 0