# *Credit Card Fraud Detection - Task 1*

![logo](images/logo1.jpg)

In [1]:
import pandas as pd

## Compreensão do Tema

### Compreensão do Tema

Uma fraude de cartão de crédito ocorre quando um indivíduo não autorizado acede à informação do cartão de crédito de uma outra pessoa para fazer compras em seu nome, indevidamente.

Estas fraudes são um problema cada vez mais comum e recorrente na atualidade, pelo que todas as entidades envolvidas investem significativamente em descobrir padrões e indicadores que podem indiciar situações ou tentativas de fraude.

### Determinação dos Objetivos do Tema

De maneira a ir ao encontro das necessidades dos bancos, reguladores e fornecedores de cartões de crédito, é essencial conseguir prever corretamente se uma transação financeira é, com alta probabilidade, fraudulenta.

Como tal, torna-se extremamente útil desenvolver um modelo que identifique eficazmente transações suspeitas de fraude, de maneira a aumentar a segurança financeira e a reduzir as atividades fraudulentas.

### Avaliação da Situação

Os dados disponíveis para análise foram fornecidos por uma empresa de cartões de crédito, correspondendo a informação de 2023, com registos sobre clientes e comerciantes.

O conjunto de dados inclui informação detalhada sobre transações, clientes, comerciantes e cidades, estando cada transação detalhada como legítima ou fraudulenta, permitindo uma abordagem de aprendizagem supervisionada para identificar de padrões fraudulentos.

### Determinação dos Objetivos de Mineração de Dados

O problema consiste em prever se uma transação é, ou não, fraudulenta, tendo como base um conjunto de dados associados à transação, ou seja, classificar cada transação como pertencente a um de dois grupos, mutuamente exclusivos: fraudulenta ou legítima (não fraudulenta).

Para resolver o problema, deve ser desenvolvido um modelo de aprendizagem computacional com capacidade para efetuar uma classificação binária que distinga os dois casos possíveis para cada transação.

Pretende-se que o modelo, devidamente treinado seguindo uma abordagem de aprendizagem supervisionada, tenha uma exatidão de TODO% a classificar os dados de teste, considerando-se, nesse caso, garantida a sua viabilidade prática.

Tendo em conta que é mais importante capturar todas as transações fraudulentas, ainda que correndo o risco de incluir algumas transações legítimas, do que só identificar as transações garantidamente fraudulentas, mas deixando escapar algumas transações fraudulentas, espera-se que o modelo tenha um *recall* mais elevado do que a sua precisão. TODO - nesta secção?

## Compreensão dos Dados

### Recolha dos Dados Iniciais

O *dataset* fornecido é constituído por quatro ficheiros, dividindo a informação da forma abaixo exposta.

1. **cities.csv:** informação sobre várias cidades
2. **customers.csv:** informação demográfica de cada cliente
3. **merchants.csv:** detalhes de cada comerciante
4. **transactions.csv:** registos de transações individuais

In [2]:
cities = pd.read_csv("data/cities.csv")
customers = pd.read_csv("data/customers.csv")
merchants = pd.read_csv("data/merchants.csv")
transactions = pd.read_csv("data/transactions.csv")

O ficheiro **cities.csv**, que contém informação sobre várias cidades, é constituído por 1000 linhas e 5 colunas.

In [3]:
cities.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   city      1000 non-null   object 
 1   lat       1000 non-null   float64
 2   long      1000 non-null   float64
 3   city_pop  1000 non-null   int64  
 4   state     1000 non-null   object 
dtypes: float64(2), int64(1), object(2)
memory usage: 39.2+ KB


Cada linha representa uma cidade e as colunas são as seguintes:

0. **city:** nome da cidade
1. **lat:** latitude da cidade
2. **lon:** longitude da cidade
3. **city_pop:** população da cidade
4. **state:** estado a que pertence a cidade

In [4]:
cities.head()

Unnamed: 0,city,lat,long,city_pop,state
0,Los Angeles,-74.548889,99.427394,241017,CA
1,Houston,-42.365373,-144.864377,80059,IL
2,Phoenix,88.913019,-110.233489,974249,AZ
3,Phoenix,-41.381127,126.16858,331243,AZ
4,Los Angeles,14.491613,34.365628,773771,AZ


O ficheiro **customers.csv**, que contém a informação demográfica de cada cliente, é constituído por 1100 linhas e 9 colunas.

In [5]:
customers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1100 entries, 0 to 1099
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   cc_num  1100 non-null   int64  
 1   first   1100 non-null   object 
 2   last    1100 non-null   object 
 3   gender  1100 non-null   object 
 4   street  1100 non-null   object 
 5   city    1100 non-null   object 
 6   zip     1080 non-null   float64
 7   job     1080 non-null   object 
 8   dob     1100 non-null   object 
dtypes: float64(1), int64(1), object(7)
memory usage: 77.5+ KB


Cada linha representa um cliente e as colunas são as seguintes:

0. **cc_num:** número do cartão de crédito do cliente
1. **first:** primeiro nome do cliente
2. **last:** último nome do cliente
3. **gender:** género do cliente
4. **street:** rua da morada do cliente
5. **city:** cidade da morada do cliente
6. **zip:** código-postal da morada do cliente
7. **job:** emprego do cliente
8. **dob:** data de nascimento do cliente

In [6]:
customers.head()

Unnamed: 0,cc_num,first,last,gender,street,city,zip,job,dob
0,2468117351683689,Jane,Clark,M,1st Ave,Los Angeles,14540.0,Lawyer,1992-12-07
1,7312796986089604,Alice,Johnson,F,Elm St,Houston,24562.0,Clerk,1969-09-29
2,8219705739824918,Bob,Clark,M,1st Ave,Phoenix,60521.0,Doctor,2002-12-20
3,9983622937436029,Jane,Johnson,F,2nd Ave,Phoenix,71277.0,Teacher,1970-03-13
4,5847400826403727,Bob,Johnson,M,Maple St,Los Angeles,69097.0,Engineer,1986-08-20


O ficheiro **merchants.csv**, que contém os detalhes de cada comerciante, é constituído por 100 linhas e 5 colunas.

In [7]:
merchants.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   merchant     100 non-null    object 
 1   category     98 non-null     object 
 2   merch_lat    98 non-null     float64
 3   merch_long   100 non-null    float64
 4   merchant_id  100 non-null    int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 4.0+ KB


Cada linha representa um comerciante e as colunas são as seguintes:

0. **merchant:** nome do comerciante
1. **category:** categoria do negócio do comerciante
2. **merch_lat:** latitude do comerciante
3. **merch_lon:** longitude do comerciante
4. **merchant_id:** identificador único do comerciante

In [8]:
merchants.head()

Unnamed: 0,merchant,category,merch_lat,merch_long,merchant_id
0,Merchant_1,Groceries,-27.53123,-129.203915,1
1,Merchant_2,Groceries,-41.654886,90.051574,2
2,Merchant_3,Groceries,40.156147,108.606189,3
3,Merchant_4,Apparel,-61.315035,-49.025479,4
4,Merchant_5,Apparel,57.517665,-155.894706,5


O ficheiro **transactions.csv**, que contém os registos de transações individuais, é constituído por 30000 linhas e 9 colunas.

In [9]:
transactions.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   index                  30000 non-null  int64  
 1   trans_date_trans_time  29900 non-null  object 
 2   cc_num                 30000 non-null  int64  
 3   device_os              12036 non-null  object 
 4   merchant               30000 non-null  object 
 5   amt                    29900 non-null  float64
 6   trans_num              30000 non-null  object 
 7   unix_time              30000 non-null  int64  
 8   is_fraud               30000 non-null  int64  
dtypes: float64(1), int64(4), object(4)
memory usage: 2.1+ MB


Cada linha representa uma transação e as colunas são as seguintes:

0. **index:** índice da transação
1. **trans_date_trans_time:** data e hora da transação
2. **cc_num:** número do cartão de crédito associado à transação
3. **device_os:** sistema operativo a partir do qual foi efetuada a transação
4. **merchant:** nome do comerciante da transação
5. **amt:** quantidade da transação
6. **trans_num:** número único da transação
7. **unix_time:** *timestamp* *Unix* da transação
8. **is_fraud:** etiqueta que indica se a transação foi fraudulenta (1) ou não (0)

In [10]:
transactions.head()

Unnamed: 0,index,trans_date_trans_time,cc_num,device_os,merchant,amt,trans_num,unix_time,is_fraud
0,5381,2023-01-01 00:39:03,2801374844713453,,Merchant_85,252.75,TRANS_662964,1672533543,0
1,4008,2023-01-01 01:16:08,3460245159749480,,Merchant_23,340.17,TRANS_134939,1672535768,0
2,1221,2023-01-01 01:24:28,7308701990157768,macOS,Merchant_70,76.38,TRANS_258923,1672536268,0
3,9609,2023-01-01 02:06:57,8454886440761098,X11,Merchant_33,368.88,TRANS_226814,1672538817,0
4,5689,2023-01-01 02:10:54,6350332939133843,,Merchant_90,323.32,TRANS_668449,1672539054,0


Os atributos *trans_data_trans_time*/*unix_time*, *merchant* e *amt* parecem ser aquelas mais relevantes para determinar o valor da variável-alvo (*is_fraud*), por serem as que mais se relacionam com a transação propriamente dita.

Em sentido contrário, as colunas *index*, *trans_num*, *merchant_id*, *first* e *last* deverão ser completamente irrelevantes para o modelo, por serem meramente indicativas. Por isso, estas colunas poderão vir a ser eliminadas numa próxima fase.

Tendo em conta que existe um número bastante elevado de dados (30000 transações, que serão divididos em conjuntos de treino e de teste) e de informação adicional (sobre cidades, clientes e comerciantes), é expectável que se consigam extrair conclusões pertinentes a partir dos dados, isto é, fazer previsões/classificações acertadas, pelo que não se afigura necessário procurar novos dados.

Para além disto, o número de atributos considera-se mais do que suficiente para o problema a tratar, pelo que a dimensionalidade poderá ter de ser reduzida de maneira a evitar a "maldição da dimensionalidade".

Sendo os dados provenientes de uma só origem, não se antecipam quaisquer problemas de compatibilidade/coerência.

Por último, os casos de valores em falta e/ou incorretos serão analisados individualmente: se possível, os valores serão corrigidos ou imputados; senão, as linhas serão eliminados, visto que o número total de dados é suficiente para a criação de um modelo robusto.

### Descrição dos Dados

A quantidade de dados disponíveis (30000 transações com a respetiva informação) parece adequada para o modelo pretendido, permitindo o desenvolvimento de um modelo simultaneamente eficaz (em termos de exatidão) e eficiente (em termos de tempo de processamento computacional).

A eliminação de colunas/atributos irrelevantes deverá ser suficiente para escapar à maldição da dimensionalidade e evitar *overfitting*, bem como melhorar o desempenho do programa.

Os tipos dos valores e as respetivas escalas apresentam-se abaixo.

**Cidades:** 1000 linhas e 5 colunas

| Atributo | Tipo | Escala | Formato |
| -------- | ---- | ------ | ------- |
| **city** | categórico | nominal | *string* |
| **lat** | numérico contínuo | rácio | número decimal |
| **long** | numérico contínuo | rácio | número decimal |
| **city_pop** | numérico discreto | rácio | número inteiro |
| **state** | categórico | nominal | *string* |

Portanto, todos os dados de cidades estão representados/codificados de forma adequada.

In [11]:
print(cities.dtypes)

city         object
lat         float64
long        float64
city_pop      int64
state        object
dtype: object


**Clientes:** 1100 linhas e 9 colunas

| Atributo | Tipo | Escala | Formato |
| -------- | ---- | ------ | ------- |
| **cc_num** | categórico | nominal | número inteiro |
| **first** | categórico | nominal | *string* |
| **last** | categórico | nominal | *string* |
| **gender** | categórico | nominal | *string* |
| **street** | categórico | nominal | *string* |
| **city** | categórico | nominal | *string* |
| **zip** | categórico | nominal | número decimal |
| **job** | categórico | nominal | *string* |
| **dob** | categórico | ordinal | *string* |

Neste caso, os atributos *cc_num* e *zip* são valores categóricos com escala nominal - por não representarem quantidades e não haver uma ordem entre eles -, mas estão representados como números (inteiros e decimais, respetivamente), pelo que não se encontram codificados da forma mais apropriada.

Como tal, de maneira a evitar más interpretações por parte do modelo, os formatos de representação das colunas *cc_num* e *zip* terão de ser convertidos para *string* ou `pandas.Categorical`, para garantir que são tratados como valores categóricos nominais.

In [12]:
print(customers.dtypes)

cc_num      int64
first      object
last       object
gender     object
street     object
city       object
zip       float64
job        object
dob        object
dtype: object


**Comerciantes:** 100 linhas e 5 colunas

| Atributo | Tipo | Escala | Formato |
| -------- | ---- | ------ | ------- |
| **merchant** | categórico | nominal | *string* |
| **category** | categórico | nominal | *string* |
| **merch_lat** | numérico contínuo | rácio | número decimal |
| **merch_long** | numérico contínuo | rácio | número decimal |
| **merchant_id** | categórico | nominal | número inteiro |

Aqui, todos os atributos estão representados adequadamente, com exceção de *merchant_id*, que está codificado como um número inteiro, mas é um valor categórico nominal, dado que, apesar de ser representado por um número, corresponde a um identificador que não traduz nenhuma relação de ordem significativa.

Deste modo, o formato da coluna *merchant_id* terá de, posteriormente, ser transformado em *string* ou `pandas.Categorical`, caso se pretenda a sua ingestão por parte do modelo.

In [13]:
print(merchants.dtypes)

merchant        object
category        object
merch_lat      float64
merch_long     float64
merchant_id      int64
dtype: object


**Transações:** 30000 linhas e 9 colunas

| Atributo | Tipo | Escala | Formato |
| -------- | ---- | ------ | ------- |
| **index** | categórico | nominal | número inteiro |
| **trans_date_trans_time** | categórico | ordinal | *string* |
| **cc_num** | categórico | nominal | número inteiro | 
| **device_os** | categórico | nominal | *string* |
| **merchant** | categórico | nominal | *string* |
| **amt** | numérico contínuo | rácio | número decimal |
| **trans_num** | categórico | nominal | *string* |
| **unix_time** | numérico discreto | intervalar | número inteiro |
| **is_fraud** | categórico | nominal | número inteiro |

Neste conjunto de transações, as colunas *index*, *cc_num* e *is_fraud* deveriam ter um formato mais adequado ao seu significado.

Ou seja, tal como anteriormente, estas colunas são do tipo categórico com escala nominal porque, embora os seus valores sejam números inteiros, a ordem entre eles é arbitrária, pelo que, numa fase mais avançada do processo de desenvolvimento, os formatos terão de ser convertidos para *string* ou `pandas.Categorical` garantir um tratamento adequado por parte do modelo.

Note-se ainda que a coluna *trans_date_trans_time* é a única com formato *string* que representa valores categóricos ordinais (em vez de nominais), o que poderia levar à necessidade de alguma atenção redobrada num momento posterior, mas, na verdade, esta coluna deverá ser removida por traduzir a mesma informação que a coluna *unix_time* que, por sua vez, tem uma representação mais adequada.

In [14]:
print(transactions.dtypes)

index                      int64
trans_date_trans_time     object
cc_num                     int64
device_os                 object
merchant                  object
amt                      float64
trans_num                 object
unix_time                  int64
is_fraud                   int64
dtype: object


Em todo o *dataset*, a única coluna que se pode considerar codificada é *is_fraud*, sendo que o esquema de codificação consiste em representar "verdadeiro"/"sim" como 1 e "falso"/"não" como 0. Nenhuma das restantes colunas está codificada.

In [16]:
cities.describe(include = 'all')

Unnamed: 0,city,lat,long,city_pop,state
count,1000,1000.0,1000.0,1000.0,1000
unique,5,,,,5
top,Los Angeles,,,,NY
freq,218,,,,209
mean,,2.183177,1.554094,506727.953,
std,,52.322984,104.741528,287752.451715,
min,,-89.879865,-179.924703,5280.0,
25%,,-41.182482,-88.451461,251236.5,
50%,,1.504586,-1.280803,496481.5,
75%,,48.323513,94.839204,764669.25,


In [17]:
customers.describe(include = 'all')

Unnamed: 0,cc_num,first,last,gender,street,city,zip,job,dob
count,1100.0,1100,1100,1100,1100,1100,1080.0,1080,1100
unique,,108,108,2,102,6,,7,1062
top,,Jane,Clark,F,2nd Ave,Los Angeles,,Lawyer,1965-06-13
freq,,143,142,588,171,218,,172,3
mean,5568427000000000.0,,,,,,54974.311111,,
std,2631567000000000.0,,,,,,26095.544522,,
min,1001432000000000.0,,,,,,10008.0,,
25%,3278527000000000.0,,,,,,32349.25,,
50%,5591926000000000.0,,,,,,55868.5,,
75%,7955166000000000.0,,,,,,77178.25,,


In [19]:
merchants.describe(include = 'all')

Unnamed: 0,merchant,category,merch_lat,merch_long,merchant_id
count,100,98,98.0,100.0,100.0
unique,100,5,,,
top,Merchant_1,Groceries,,,
freq,1,24,,,
mean,,,3.211835,-7.469285,50.5
std,,,55.815166,104.049544,29.011492
min,,,-88.616543,-178.256215,1.0
25%,,,-45.648175,-102.881546,25.75
50%,,,0.289348,-17.104837,50.5
75%,,,49.163174,90.432801,75.25


In [18]:
transactions.describe(include = 'all')

Unnamed: 0,index,trans_date_trans_time,cc_num,device_os,merchant,amt,trans_num,unix_time,is_fraud
count,30000.0,29900,30000.0,12036,30000,29900.0,30000,30000.0,30000.0
unique,,29868,,5,101,,29470,,
top,,2023-03-19 03:05:24,,Windows,Merchant_72,,TRANS_600014,,
freq,,2,,3049,339,,4,,
mean,14994.9382,,5638691000000000.0,,,250.063287,,1705650000.0,0.019033
std,8664.71394,,2743709000000000.0,,,144.106058,,15304990.0,0.136644
min,0.0,,1001432000000000.0,,,1.01,,1672534000.0,0.0
25%,7478.75,,3256119000000000.0,,,125.235,,1696269000.0,0.0
50%,14999.5,,5491563000000000.0,,,249.625,,1706376000.0,0.0
75%,22499.25,,8149117000000000.0,,,375.2425,,1718328000.0,0.0


Ao realizar uma análise estatística descritiva sobre os dados, observando a contagem, a unicidade, a frequência, a média, o desvio padrão, os extremos (mínimo e máximo) e os quartis (incluindo a mediana) dos valores presentes em cada coluna, constatam-se os seguintes factos:

- 1
- 2

Assim, é possível extrair as seguintes conclusões:

- O

### Exploração dos Dados

### Verificação da Qualidade dos Dados

## Preparação dos Dados

## Análise Descritiva