# Individual ICO Exploratory Data Analysis
The goal of this notebook is to develop an Exploratory Data Analysis (EDA) of individual ICO to generate visualizations and possible features to be used in future models.

In [None]:
import pandas as pd

## 1. Reading data from CSV files

In [None]:
file_name_success = 'AMPLEFORTH.csv'
file_name_fraud = 'ABULABA.csv'

In [None]:
df_ico_success = pd.read_csv('../data_and_models/api_etherscan/success/'
+file_name_success, low_memory=False )
df_ico_fraud = pd.read_csv('../data_and_models/api_etherscan/fraud/'
+file_name_fraud, low_memory=False )

In [None]:
df_ico_success.head()

In [None]:
df_ico_fraud

In [None]:
df_ico_success['date'] = pd.to_datetime(df_ico['timeStamp'], unit="s")
df_ico_fraud['date'] = pd.to_datetime(df_ico['timeStamp'], unit="s")

In [None]:
df_ico_success.head()

In [None]:
df_ico_fraud.head()

In [None]:
df_ico_success.info()

### 1.1. Convert `DateTime`column to datetime dtype

In [None]:
#df_ico['timeStamp'] = pd.to_datetime(df_ico['timeStamp'])
df_ico_success.dtypes

### 1.2. Create column with time difference

In [None]:
df_ico_success['time_diff'] = df_ico_success['date'].diff()
df_ico_success['time_diff_seconds'] = df_ico_success['date'].diff().dt.seconds
df_ico_success.set_index('date', inplace=True)
df_ico_success.head(10)

In [None]:
df_ico_fraud['time_diff'] = df_ico_fraud['date'].diff()
df_ico_fraud['time_diff_seconds'] = df_ico_fraud['date'].diff().dt.seconds
df_ico_fraud.set_index('date', inplace=True)
df_ico_fraud.head(10)

In [None]:
import plotly.graph_objs as go

## 2. Exploratory visualizations

Install the following libraries:

```
pip install plotly
```
Das tabelas em JSON: (essas tabelas eu até te mostro como fazer o acesso aos dados. Tem que fazer um token.<br> Mas é tranquilo) (Acabei de ver aqui que só é possível fazer download de 10000 dados de uma vez só.) (Estou a procura de um serviço que me provenha isso, mas tá difícil de achar) (Estou verificando a possibilidade de fazer o download de toda a blockchain e deixar num servidor 1TB)

* 2.1. Histograma de espaço de tempo entre as transações

* 2.2 Quantidade de transações por dia

* 2.3 Quantidade de transações por minuto

* 2.4 Quantidade de velocidade de transações por minuto

* 2.5 Quantidade de aceleração de transações por minuto

* 2.6 Quantidade de transações cumulativas por minuto

* 2.7 Quantidade de GAS por minuto

* 2.8 Quantidade de velocidade de GAS por minuto

* 2.9 Quantidade de aceleração de GAS por minuto

* 2.10 Quantidade de GAS cumulativo por minuto

* 2.11 Razão transações / GAS por minuto (muitas vezes, o GAS vai dar zero. Daí, é preciso normalizar os GASes. Tipo, colocar uma média móvel. Ainda não pensei muito a respeito, mas a ideia é essa)

* 2.12 Transações de segunda ordem em diante por minuto

* 2.13 Transações de terceira ordem em diante por minuto

* 2.14 Transações de quarta ordem em diante por minuto

* 2.15 Transações de quinta ordem em diante por minuto


In [None]:
df_resample_hours_success = df_ico_success.resample('H').sum()
df_resample_hours_fraud = df_ico_fraud.resample('H').sum()

df_resample_hours_success.head()

In [None]:
fig = go.Figure(data=go.Scatter(x=df_resample_hours_success.index, y=df_resample_hours_success['gas'], mode='lines'))
fig.add_trace(go.Scatter(x=df_resample_hours_fraud.index, y=df_resample_hours_fraud['gas'], mode='lines'))
fig.update_layout(yaxis_type="log")
fig.show()


### 2.1. Histograma de espaço de tempo entre as transações

In [None]:
df_ico.shape

In [None]:
fig = go.Figure(data=[go.Histogram(x=df_ico_success['time_diff_seconds'])])
fig.add_trace(go.Histogram(x=df_ico_fraud['time_diff_seconds']))
fig.update_layout(yaxis_type="log")

fig.show()

### 3.2 Quantidade de transações por dia

In [None]:
df_ico_success['counter'] = 1
df_ico_fraud['counter'] = 1

In [None]:
df_ico.head()

In [None]:
df_resample_day_success = df_ico_success.resample('H').sum()
df_resample_day_fraud = df_ico_fraud.resample('H').sum()

In [None]:
df_resample_day_success.head()

In [None]:
fig = go.Figure(data=go.Scatter(x=df_resample_day_success.index, y=df_resample_day_success.counter))
fig.add_trace(go.Scatter(x=df_resample_day_fraud.index, y=df_resample_day_fraud.counter))
fig.update_layout(yaxis_type="log")

fig.show()

In [None]:
df_speed_transactions_success = df_resample_day_success.diff()
df_speed_transactions_fraud = df_resample_day_fraud.diff()

In [None]:
df_speed_transactions_success.head()

### 3.3 Quantidade de velocidade de transações por hora

In [None]:
fig = go.Figure(data=go.Scatter(x=df_speed_transactions_success.index, y=df_speed_transactions_success.counter))
fig.add_trace(go.Scatter(x=df_speed_transactions_fraud.index, y=df_speed_transactions_fraud.counter))
fig.update_layout(yaxis_type="log")
fig.show()

### 3.4 Quantidade de aceleração de transações por hora

In [None]:
df_acc_transactions_success = df_speed_transactions_success.diff()
df_acc_transactions_fraud = df_speed_transactions_fraud.diff()

df_acc_transactions_success.head ()

In [None]:
fig = go.Figure(data=go.Scatter(x=df_acc_transactions_success.index, y=df_acc_transactions_success.counter))
fig.add_trace(go.Scatter(x=df_acc_transactions_fraud.index, y=df_acc_transactions_fraud.counter))
fig.update_layout(yaxis_type="log")
fig.show()

### 3.6 Quantidade de transações cumulativas por hora


In [None]:
df_resample_hour_success = pd.DataFrame(df_ico_success.resample('H').sum())
df_resample_hour_success['cumsum'] = df_resample_hour_success.counter.cumsum()
df_resample_hour_success['cumsum_gas'] = df_resample_hour_success.gas.cumsum()
df_resample_hour_success


In [None]:
df_resample_hour_fraud = pd.DataFrame(df_ico_fraud.resample('H').sum())
df_resample_hour_fraud['cumsum'] = df_resample_hour_fraud.counter.cumsum()
df_resample_hour_fraud['cumsum_gas'] = df_resample_hour_fraud.gas.cumsum()
df_resample_hour_fraud

In [None]:
fig = go.Figure(data=go.Scatter(x=df_resample_hour_success.index, y=df_resample_hour_success.cumsum_gas))
fig.add_trace(go.Scatter(x=df_resample_hour_fraud.index, y=df_resample_hour_fraud.cumsum_gas))
fig.update_layout(yaxis_type="log")

fig.show()

### 3.7 Quantidade de GAS por hora

In [None]:
fig = go.Figure(data=go.Scatter(x=df_ico_success['gas'].resample('D').sum().index, y=df_ico_success['gas'].resample('D').sum()))
fig.add_trace(go.Scatter(x=df_ico_fraud['gas'].resample('D').sum().index, y=df_ico_fraud['gas'].resample('D').sum()))
fig.update_layout(yaxis_type="log")

fig.show()

In [None]:
df_ico.head(10)

### 3.8 Quantidade de velocidade de GAS por minuto

In [None]:
df_gas_diff = pd.DataFrame(df_ico.gas.diff())

In [None]:
fig = go.Figure(data=go.Scatter(x=df_gas_diff['gas'].resample('H').sum().index, y=df_gas_diff['gas'].resample('H').sum()))
fig.show()

### 3.9 Quantidade de aceleração de GAS por minuto

In [None]:
df_gas_diff_acceleration = pd.DataFrame(df_gas_diff.gas.diff())
fig = go.Figure(data=go.Scatter(x=df_gas_diff_acceleration['gas'].resample('H').sum().index, y=df_gas_diff_acceleration['gas'].resample('H').sum()))
fig.show()

### 3.10 Quantidade de GAS cumulativo por hora

In [None]:
df_gas_hour = pd.DataFrame(df_ico['gas'].resample('H').sum())
df_gas_hour['cumsum_gas'] = df_gas_hour.gas.cumsum()
df_gas_hour

In [None]:
fig = go.Figure(data=go.Scatter(x=df_gas_hour['cumsum_gas'].resample('H').sum().index, y=df_gas_hour['cumsum_gas'].resample('H').sum()))
fig.show()

### 3.11 Razão transações / GAS por minuto (muitas vezes, o GAS vai dar zero. Daí, é preciso normalizar os GASes. Tipo, colocar uma média móvel. Ainda não pensei muito a respeito, mas a ideia é essa) ?

### 3.12 Transações de segunda ordem em diante por minuto

In [None]:
###  3.13 Transações de terceira ordem em diante por minuto

In [None]:
###  3.14 Transações de quarta ordem em diante por minuto

In [None]:
###  3.15 Transações de quinta ordem em diante por minuto

Das tabelas de token:

15) Quantidade de tokens / moedas cunhadas (transação "000")  negociados por minuto

16) Quantidade de transferências por minuto

17) Histograma de quantidade de tokens por transação

18) Porcentagem que o destino da primeira transação tem de todos os tokens por minuto

## 4. Crossing the TxHash from Smart Contract and Tokens tables

In [None]:
import matplotlib.pyplot as plt
from matplotlib_venn import venn2

In [None]:
set_sc_txhash = set(df_ico.Txhash.to_list())
set_t_txhash = set(df_token.Txhash.to_list())

In [None]:
venn2([set_sc_txhash, set_t_txhash], set_labels=('Smart Contract', 'Tokens'), set_colors=('orange', 'blue'),)
plt.show() 

## 5. Defining the start of the ICO
The idea for this session is to stablish a way to define the start of the ICO by looking at the transactions.

In [None]:
df_ico.head()

In [None]:
df_ico.Quantity.plot()

### TxnFee vs. Number of Transactions

In [None]:
df_resample_sc_day = df_ico.resample('D').sum()[['TxnFee(ETH)', 'counter']]
df_resample_sc_hour = df_ico.resample('H').sum()[['TxnFee(ETH)', 'counter']]

df_resample_sc_day.head()

In [None]:
plt.bar(df_resample_sc_day.index, df_resample_sc_day.counter, )
plt.plot(df_resample_sc_day.index, df_resample_sc_day['TxnFee(ETH)'] )

In [None]:
fig, ax1 = plt.subplots(figsize=(20,10))

color = 'tab:red'
#ax1.set_xlabel('time (s)')
ax1.set_ylabel('exp', color=color)
ax1.plot(df_resample_sc_day.index, df_resample_sc_day['TxnFee(ETH)'] )
#ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()  # instantiate a second axes that shares the same x-axis

color = 'tab:blue'
#ax2.set_ylabel('sin', color=color)  # we already handled the x-label with ax1
ax2.bar(df_resample_sc_day.index, df_resample_sc_day.counter )
#ax2.tick_params(axis='y', labelcolor=color)

plt.figure(figsize=(20,10))
#fig.tight_layout()  # otherwise the right y-label is slightly clipped
#plt.show()


In [None]:
fig, ax1 = plt.subplots(figsize=(20,10))

color = 'tab:red'
#ax1.set_xlabel('time (s)')
ax1.set_ylabel('exp', color=color)
ax1.plot(df_resample_sc_hour.index, df_resample_sc_hour['TxnFee(ETH)'] )
#ax1.tick_params(axis='y', labelcolor=color)

ax2 = ax1.twinx()  # instantiate a second axes that shares the same x-axis

color = 'tab:blue'
#ax2.set_ylabel('sin', color=color)  # we already handled the x-label with ax1
ax2.bar(df_resample_sc_hour.index, df_resample_sc_hour.counter )
#ax2.tick_params(axis='y', labelcolor=color)

plt.figure(figsize=(20,10))
#fig.tight_layout()  # otherwise the right y-label is slightly clipped
#plt.show()


In [None]:
fig, (ax1,ax2) = plt.subplots(2,1, figsize=(20,10))

color = 'tab:red'
#ax1.set_xlabel('time (s)')
#ax1.set_ylabel('exp', color=color)
ax1.plot(df_resample_sc_day.index, df_resample_sc_day['TxnFee(ETH)'] )
#ax1.tick_params(axis='y', labelcolor=color)

#ax2 = ax1.twinx()  # instantiate a second axes that shares the same x-axis

color = 'tab:blue'
#ax2.set_ylabel('sin', color=color)  # we already handled the x-label with ax1
ax2.bar(df_resample_sc_day.index, df_resample_sc_day.counter )
#ax2.tick_params(axis='y', labelcolor=color)

plt.figure(figsize=(20,10))
#fig.tight_layout()  # otherwise the right y-label is slightly clipped
#plt.show()

In [None]:
df_resample_sc_day.plot(y='counter', kind='bar', figsize=(20,10))