# **Librerias necesarias**

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# **Obtención de los datos**

In [3]:
dataset=pd.read_csv('transacDC2017.csv/transacDC2017.csv',sep=';')

In [4]:
dataset.head()

Unnamed: 0,client_id,date,mcc,country_code,amount_sol,amount_usd,nb_transaction,client_age,client_gender,debit_type,merchant_id,merchant_name,merchant_type,merchant_geoid,merchant_departement,merchant_province,merchant_district,merchant_lon,merchant_lat
0,PJ1MmUtnJoo=,2016-06-01 20:22:13+02,5533,PE,230.0,70.91958,1,69.0,M,TD,52438230,IZA MOTORS PERU SAC,Venta de repuestos para vehiculos,150132,LIMA,LIMA,San Juan De Luriganc,-11.979603,-77.004344
1,AQhFrCiSF78=,2016-09-13 23:10:35+02,5533,PE,14.0,4.316844,1,43.0,F,TD,52438230,IZA MOTORS PERU SAC,Venta de repuestos para vehiculos,150132,LIMA,LIMA,San Juan De Luriganc,-11.979603,-77.004344
2,aBM/ALhZK9k=,2017-04-13 16:21:15+02,5533,PE,345.0,106.37937,1,24.0,M,TD,52438230,IZA MOTORS PERU SAC,Venta de repuestos para vehiculos,150132,LIMA,LIMA,San Juan De Luriganc,-11.979603,-77.004344
3,8f3H6sKptnU=,2017-04-04 18:17:22+02,5533,PE,460.0,141.83916,1,70.0,M,TD,52438230,IZA MOTORS PERU SAC,Venta de repuestos para vehiculos,150132,LIMA,LIMA,San Juan De Luriganc,-11.979603,-77.004344
4,WoNB5LNBqHw=,2016-11-27 13:26:51+01,5533,PE,12.0,3.700152,1,38.0,M,TD,52438230,IZA MOTORS PERU SAC,Venta de repuestos para vehiculos,150132,LIMA,LIMA,San Juan De Luriganc,-11.979603,-77.004344


In [5]:
dataset.shape

(300000, 19)

# **Análisis describiendo los datos**

#### **- Primeras impresiones**

Relación entre **mcc:Código del rubro del comercio** y **merchant_id: ID del comercio** -> merchant_id pertenece a mcc, individuo y grupo.

Todas las columnas que empiezan con **merchant** son datos referidos al propio comercio, se puede utilizar la columna **merchant_ID** como si se realizaría una consulta a una base de datos ya que es el 'primary key'.

Existen columnas que no serán útiles como **country_code** porque el área de estudio es en Lima,Perú y no existe variación en los valores de estas columnas.

Existen **300000 filas** y son sobre **130000 clientes** aproximadamente.

#### **- Columnas del dataset**

In [6]:
columns=list(dataset.columns)
print(columns)

['client_id', 'date', 'mcc', 'country_code', 'amount_sol', 'amount_usd', 'nb_transaction', 'client_age', 'client_gender', 'debit_type', 'merchant_id', 'merchant_name', 'merchant_type', 'merchant_geoid', 'merchant_departement', 'merchant_province', 'merchant_district', 'merchant_lon', 'merchant_lat']


#### **- Columnas numéricas**

In [7]:
columns_num=list(dataset._get_numeric_data().columns)
print(columns_num)

['mcc', 'amount_sol', 'amount_usd', 'nb_transaction', 'client_age', 'merchant_id', 'merchant_geoid', 'merchant_lon', 'merchant_lat']


#### **- Columnas categóricas**

In [8]:
columns_cat=list(set(columns) - set(columns_num))
print(columns_cat)

['merchant_type', 'date', 'merchant_district', 'country_code', 'client_gender', 'client_id', 'merchant_departement', 'merchant_province', 'merchant_name', 'debit_type']


#### **- Columnas mixtas**

Columnas candidatas para realizar feature engineering

columns_mix=['date']

#### **- Columnas que puedan contener errores tipográficos**

Es posible que **client_id** contenga errores de tipeo, también es una columna mixta pero con poca probabilidad de separamiento. 

#### **- Columnas que contienen valores blancos, vacíos o nulos**

**Cantidad de datos vacíos por columna**

In [17]:
dataset.isna().sum()

client_id                   0
date                        0
mcc                         0
country_code                0
amount_sol                  0
amount_usd                  0
nb_transaction              0
client_age              49354
client_gender           49355
debit_type                  0
merchant_id                 0
merchant_name               0
merchant_type               0
merchant_geoid              0
merchant_departement        0
merchant_province           0
merchant_district           0
merchant_lon            10017
merchant_lat            10017
dtype: int64

**Porcentaje de datos vacios por columna**

In [19]:
(dataset.isnull().sum()/len(dataset))*100

client_id                0.000000
date                     0.000000
mcc                      0.000000
country_code             0.000000
amount_sol               0.000000
amount_usd               0.000000
nb_transaction           0.000000
client_age              16.451333
client_gender           16.451667
debit_type               0.000000
merchant_id              0.000000
merchant_name            0.000000
merchant_type            0.000000
merchant_geoid           0.000000
merchant_departement     0.000000
merchant_province        0.000000
merchant_district        0.000000
merchant_lon             3.339000
merchant_lat             3.339000
dtype: float64

#### **Suposiciones basadas en el análisis previo**

- Buscar algún método para la imputación de los datos faltantes.
- Las columnas **mcc,merchant_id,merchant_geoid** son numéricas actualmente, posiblemente deban ser transformadas a categóricas.
- Se debe aplicar feature engineering a la columna **date** y separarla para obtener más niveles temporales de granularidad.

#### **Distribución numérica**

In [61]:
dataset.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
mcc,300000.0,5958.716,765.5722,1520.0,5541.0,5812.0,5912.0,9311.0
amount_sol,300000.0,102.9805,492.9974,0.05,19.8,39.7,90.5,80440.08
amount_usd,300000.0,31.75364,152.0138,0.0154173,6.105251,12.24134,27.90531,24803.38
nb_transaction,300000.0,1.00004,0.006324439,1.0,1.0,1.0,1.0,2.0
client_age,250646.0,37.06679,11.68546,19.0,28.0,35.0,44.0,98.0
merchant_id,300000.0,48294210.0,20036150.0,10003060.0,37628920.0,49959190.0,53081100.0,99990390.0
merchant_geoid,300000.0,150131.0,3.864205,150116.0,150132.0,150132.0,150132.0,150132.0
merchant_lon,289983.0,-12.01068,0.07805935,-16.39941,-12.02542,-12.00702,-11.99721,-11.93516
merchant_lat,289983.0,-77.00256,0.09005327,-77.07417,-77.00827,-77.00555,-76.99922,-71.53394


- La **cantidad de transacciones (nb_transaction)** es en su mayoría 1.
- Posiblemente deban eliminarse las columnas **country_code,merchant_departement,merchant_province** del análisis porque solo presentan un valor.

In [11]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 19 columns):
client_id               300000 non-null object
date                    300000 non-null object
mcc                     300000 non-null int64
country_code            300000 non-null object
amount_sol              300000 non-null float64
amount_usd              300000 non-null float64
nb_transaction          300000 non-null int64
client_age              250646 non-null float64
client_gender           250645 non-null object
debit_type              300000 non-null object
merchant_id             300000 non-null int64
merchant_name           300000 non-null object
merchant_type           300000 non-null object
merchant_geoid          300000 non-null int64
merchant_departement    300000 non-null object
merchant_province       300000 non-null object
merchant_district       300000 non-null object
merchant_lon            289983 non-null float64
merchant_lat            289983 non-null flo

In [12]:
dataset.head(1)

Unnamed: 0,client_id,date,mcc,country_code,amount_sol,amount_usd,nb_transaction,client_age,client_gender,debit_type,merchant_id,merchant_name,merchant_type,merchant_geoid,merchant_departement,merchant_province,merchant_district,merchant_lon,merchant_lat
0,PJ1MmUtnJoo=,2016-06-01 20:22:13+02,5533,PE,230.0,70.91958,1,69.0,M,TD,52438230,IZA MOTORS PERU SAC,Venta de repuestos para vehiculos,150132,LIMA,LIMA,San Juan De Luriganc,-11.979603,-77.004344
