# Reto de iniciación a Data Science!

Bienvenido a este primer reto inicial para ir adentrándose al mundo de la ciencia de datos. En esta serie de retos iremos profundizando en los contenidos fundamentales que un Data Scientist debe conocer y guiarte en este apasionante camino. ¿Suena divertido verdad?

Como primer reto veremos el concepto de EDA (Exploratory Data Analysis) que es el primer paso que debe realizar un Data Scientist para conocer la naturaleza de sus datos y prepararlos para que sean usados por un modelo. En este caso usaremos un dataset con movimientos bancarios y el objetivo sería predecir movimientos fraudulentos. Para conocer más detalles sobre el dataset dirígete al siguiente [enlace](https://www.kaggle.com/ntnu-testimon/paysim1)

No te entretendremos más y manos a la obra!

## Primeros pasos

Lo primero que tenemos que hacer para analizar nuestros datos es cargar el dataset en el entorno y echaremos un vistazo a ver que forma tienen nuestros datos.

Para manejar el dataset, transformarlo y cualquier tipo de operación que hagamos sobre él utilizaremos una librería llamada Pandas. Dejamos aquí el [enlace](https://pandas.pydata.org/) a su documentación para los curiosos.

In [1]:
! pip install pandas
! pip install numpy

Looking in indexes: https://pypi.org/simple, https://francisco.algaba.next:****@globaldevtools.bbva.com/artifactory/api/pypi/repository-Runtime-Python-Global/simple
You should consider upgrading via the 'pip install --upgrade pip' command.[0m
Looking in indexes: https://pypi.org/simple, https://francisco.algaba.next:****@globaldevtools.bbva.com/artifactory/api/pypi/repository-Runtime-Python-Global/simple
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [2]:
# Importamos las librerías que vayamos a usar
import pandas as pd
import numpy as np

In [3]:
# Definimos la ruta donde tenemos nuestro dataset
filename = 'Reduced_FraudDetection_synthetic.csv'

# Al tratarse un fichero CSV lo cargamos con la funcion read_csv de pandas facilitando la ruta del archivo
data = pd.read_csv(filename)

In [4]:
# Ya tenemos nuestro dataset en la variable data, 
# usando la funcion head() de pandas podemos echar un vistazo a las primeras columnas
data.head()

Unnamed: 0.1,Unnamed: 0,step,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
0,0,1,PAYMENT,9839.64,C1231006815,170136.0,160296.36,M1979787155,0.0,0.0,0,0
1,1,1,PAYMENT,1864.28,C1666544295,21249.0,19384.72,M2044282225,0.0,0.0,0,0
2,2,1,PAYMENT,11668.14,C2048537720,41554.0,29885.86,M1230701703,0.0,0.0,0,0
3,3,1,PAYMENT,7817.71,C90045638,53860.0,46042.29,M573487274,0.0,0.0,0,0
4,4,1,PAYMENT,7107.77,C154988899,183195.0,176087.23,M408069119,0.0,0.0,0,0


## Exploración de los datos

Ahora que ya hemos cargado nuestros datos, echado un vistazo incial sobre ellos... ¡es hora de analizarlos!

En este primer análisis que proponemos veremos si hay algún tipo de relación entre un tipo de movimiento, en este caso las transferencias y la cantidad de dinero tranferida y ver su proporción de operaciones fraudulentas.

Lo primero que vamos a hacer es sacar el número de movimientos por tipo de moviemiento. Como podemos ver arriba, nuestro dataset tiene una columna llamada `type` que nos indica que tipo de movimiento es. A continuación seleccionaremos esta columna y haremos un conteo de los diferentes tipos usando la funcion `value_counts()` de pandas.

In [5]:
data['type'].value_counts()

CASH_OUT    372916
PAYMENT     358582
CASH_IN     233214
TRANSFER     88817
DEBIT         6905
Name: type, dtype: int64

Una vez hemos visto que tenemos un número considerable de muestras de transferencia de cara a poder sacar una hipótesis, vamos a coger todos los movimientos del tipo `TRANSFER` de nuestro dataset.

In [6]:
all_tranfers = data.loc[data['type'] == 'TRANSFER']

Ahora vamos a ver la proporción de transferencias que son fraudulentas

In [7]:
isFraud = all_tranfers['isFraud'].value_counts()
print('Un {0:.2f}% de las tranferencias son fraudulentas'.format(100 * isFraud[1]/np.sum(isFraud)))

Un 0.77% de las tranferencias son fraudulentas


Vemos que solo un 0.77% de todas las transferencias son fraudulentas. Vamos a separarlas del dataset par analizarlas más en detalle

In [8]:
no_fraud_transfer = data.loc[data['isFraud'] == 0]
fraud_transfer = data.loc[data['isFraud'] == 1]

Como primer análisis vamos a estudiar si hay algún tipo de conexión en la cantidad de dinero que se transfiere

In [9]:
# Cogemos la cantidad media de dinero transferido en transferencias no fraudulentas
mean_no_fraud_amount = no_fraud_transfer['amount'].mean()

In [10]:
# Cogemos la cantidad media de dinero transferido en transferencias fraudulentas
mean_fraud_amount = fraud_transfer['amount'].mean()

In [11]:
# Obtenemos la diferencia entre ambas medias
mean_fraud_amount - mean_no_fraud_amount
print('La diferencia media de cantidad transferida en operaciones fraudulentas es: {0:.2f}'.format(mean_fraud_amount))

La diferencia media de cantidad transferida en operaciones fraudulentas es: 1188894.37


Se observa que la cantidad de dinero transferida en operaciones fraudulentas es muy superior que en operaciones que no lo son por lo que grandes movimientos de dinero pueden ser un patrón a tener muy en cuenta a la hora de predecir movimientos sospechosos de dinero.

## ¡Ahora es tu turno!

Ahora que ya conoces las operaciones esenciales al trabajar con el dataset, analiza otro tipo de operación y busca algún tipo de patrón que pueda indicar que pueda ser fraudulento. 

Una vez hayas terminado con tu análisis haznoslo saber a través de...

In [12]:
# Your code here