##### Como consumir dados da API > Transformar em um DataFrame > Criar uma tabela no RDS > Inserir os dados a partir do DataFrame

### Definindo a função "get_data()"
Para o nosso exemplo nós vamos ter uma função **"get_data()"** que vai receber os seguintes argumentos:

 - **session_db:** Sessão com o Banco de Dados, retornada pelo a função *start()* da classe Coins.
 - **engine_db:** Engine, retornada pelo a função *start()* da classe Coins.
 - **start:** De onde ele vai começar a busca na API, ou seja, no primeiro elemento.
 - **limit:** O valor máximo da busca na API, ou seja, o maior valor da busca.
 - **convert:** O Bitcoin vai ser convertido para qual tipo de moeda? *USD* 
 - **key:** Sua chave da API (API Key), conseguir pegar dados da API
   - 63aa4995-4f67-4111-b734-e6abe13535df
 - **url:** A URL onde vai ser pego os dados.
   - https://pro-api.coinmarketcap.com/v1/cryptocurrency/listings/latest

In [1]:
start = "1"
limit = "5000"
convert = "USD"
key = "187a-4e0e-830a-5bbc92a73486"
url = "https://pro-api.coinmarketcap.com/v1/cryptocurrency/listings/latest"

---

### Definindo parâmetros da sessão (headers + parameters)
Dentro da função **"get_data()"** nós vamos ter que definir:

 - Os headers da sessão que é atualizado com:
   - session.headers.update(headers)
 - Os parâmetros passados como argumento para a função *"session.get(url, params=parameters)"*

**NOTE:**  
Mas como aqui é um ambiente de teste, vamos passar os valores exatos para os headers e parâmetros:

In [2]:
headers = {
    'Accepts': 'application/json',
    'X-CMC_PRO_API_KEY': "7e8d0c0c-187a-4e0e-830a-5bbc92a73486",
}

parameters = {
    'start': "1",
    'limit': "5000",
    'convert': "USD"
}

---

### Criando uma instância (sessão) request

In [3]:
from requests import Session

# Session instance (request).
session = Session()

---

### Atualizando os headers da sessão

In [4]:
session.headers.update(headers)

---

### Pegando os dados com o método get() da instância (sessão) request

In [5]:
try:
    response = session.get(url, params=parameters)
except Exception as e:
    print (f'Error to get data from APi: {e}')
    exit(1) # Stop application.

---

### Convertendo os dados para JSON
Os dados que vem com o retorno do método **get()** não vem em um formato muito bom para trabalhar. Para resolver isso, utilizamos o atributo **text** que retorna os os dados do método **get()** em um formato de text e passamos pelo método **json.loads()** que transformar os dados em um formato *json*.

In [6]:
import json

data = json.loads(response.text) # Convert data (text) to JSON.

In [7]:
# data

---

### Salvando apenas os dados (colunas/features) necessários
Para cada registro (amostra de dados) o retorno vai ter várias colunas/features e nós vamos selecionar apenas as colunas/features que nós temos interesse em cada registro (amostra de dados).

**NOTE:**  
Essas colunas/features serão salvas em listas vazias, uma para cada coluna/feature.

In [8]:
# Empty lists to persist data.
name = []
symbol = []
data_added = []
last_updated = []
price = []
volume_24h = []
circulating_supply = []
total_supply = []
max_supply = []
volume_24h = []
percent_change_1h = []
percent_change_24h = []
percent_change_7d = []

In [9]:
for coin in data['data']:
    name.append(coin['name']) # Append to list "name".
    symbol.append(coin['symbol']) # Append to list "symbol".
    data_added.append(coin['date_added']) # Append to list "date_added".
    last_updated.append(coin['last_updated']) # Append to list "last_updated".
    circulating_supply.append(coin['circulating_supply']) # Append to list "circulating_supply".
    total_supply.append(coin['total_supply']) # Append to list "total_supply".
    max_supply.append(coin['max_supply']) # Append to list "max_supply".
    price.append(coin['quote']['USD']['price']) # Append to list "price".
    volume_24h.append(coin['quote']['USD']['volume_24h']) # Append to list "volume_24h".
    percent_change_1h.append(coin['quote']['USD']['percent_change_1h']) # Append to list "percent_change_1h".
    percent_change_24h.append(coin['quote']['USD']['percent_change_24h']) # Append to list "percent_change_24h".
    percent_change_7d.append(coin['quote']['USD']['percent_change_7d']) # Append to list "percent_change_7d".

In [10]:
name[:10]

['Bitcoin',
 'Ethereum',
 'Tether',
 'BNB',
 'USD Coin',
 'XRP',
 'Cardano',
 'Dogecoin',
 'Polygon',
 'Solana']

In [11]:
symbol[:10]

['BTC', 'ETH', 'USDT', 'BNB', 'USDC', 'XRP', 'ADA', 'DOGE', 'MATIC', 'SOL']

In [12]:
data_added[:10]

['2010-07-13T00:00:00.000Z',
 '2015-08-07T00:00:00.000Z',
 '2015-02-25T00:00:00.000Z',
 '2017-07-25T00:00:00.000Z',
 '2018-10-08T00:00:00.000Z',
 '2013-08-04T00:00:00.000Z',
 '2017-10-01T00:00:00.000Z',
 '2013-12-15T00:00:00.000Z',
 '2019-04-28T00:00:00.000Z',
 '2020-04-10T00:00:00.000Z']

In [13]:
last_updated[:10]

['2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z',
 '2023-04-24T12:19:00.000Z']

In [14]:
circulating_supply[:10]

[19355062,
 120409031.53854153,
 81451868887.64314,
 155864097.95397437,
 30774602809.358147,
 51750810378,
 34795785890.39,
 139070066383.70523,
 9249469069.28493,
 392769276.89351153]

In [15]:
total_supply[:10]

[19355062,
 120409031.53854153,
 85090638896.27377,
 155864097.95397437,
 30774602809.358147,
 99988998998,
 35711298229.443,
 139070066383.70523,
 10000000000,
 539312704.8875339]

In [16]:
max_supply[:10]

[21000000,
 None,
 None,
 None,
 None,
 100000000000,
 45000000000,
 None,
 10000000000,
 None]

In [17]:
price[:10]

[27500.93222546507,
 1851.9553267846234,
 1.000038864204686,
 331.3808469032073,
 1.000035670197121,
 0.46418231042465674,
 0.3883007246832008,
 0.07915619450390717,
 0.9956479326483837,
 21.648135241809012]

In [18]:
volume_24h[:10]

[15635626817.280964,
 7695207304.441204,
 23541903755.415478,
 648951383.7219591,
 3907136540.8401012,
 1165834650.0511558,
 275578189.6467674,
 407329520.26261944,
 464981570.57565635,
 356157256.71992594]

In [19]:
percent_change_1h[:10]

[0.31229282,
 0.19049154,
 -0.02126086,
 0.4353044,
 -0.01698048,
 -0.18142757,
 0.01620908,
 0.1240453,
 0.22682418,
 0.31336218]

In [20]:
percent_change_24h[:10]

[-0.3630801,
 -1.15234777,
 -0.02002344,
 0.11257599,
 0.00293248,
 -0.9305695,
 -0.82768441,
 -1.38693921,
 -2.55906591,
 -2.13627051]

In [21]:
percent_change_7d[:10]

[-6.85015993,
 -10.71696074,
 -0.019893,
 -3.10290403,
 0.0468231,
 -9.60583522,
 -12.66505245,
 -14.8290024,
 -14.80349208,
 -13.22618943]

---

### Transformando os dados em um DataFrame Pandas

In [22]:
import pandas as pd

In [23]:
# Prepare a dictionary in order to turn it into a pandas dataframe below       
coin_dict = {
    "name" : name,
    "symbol": symbol,
    "data_added" : data_added,
    "last_updated" : last_updated,
    "price": price,
    "volume_24h": volume_24h,
    "circulating_supply" : circulating_supply,
    "total_supply": total_supply,
    "max_supply": max_supply,
    "volume_24h": volume_24h,
    "percent_change_1h": percent_change_1h,
    "percent_change_24h": percent_change_24h,
    "percent_change_7d": percent_change_7d
}

In [24]:
# Create dataframe to structure data
coins_df = pd.DataFrame(
    coin_dict,
    columns = [
        "name",
        "symbol",
        "data_added",
        "last_updated",
        "price",
        "volume_24h",
        "circulating_supply",
        "total_supply",
        "max_supply",
        "percent_change_1h",
        "percent_change_24h",
        "percent_change_7d"
    ]
)

In [25]:
coins_df.head(10)

Unnamed: 0,name,symbol,data_added,last_updated,price,volume_24h,circulating_supply,total_supply,max_supply,percent_change_1h,percent_change_24h,percent_change_7d
0,Bitcoin,BTC,2010-07-13T00:00:00.000Z,2023-04-24T12:19:00.000Z,27500.932225,15635630000.0,19355060.0,19355060.0,21000000.0,0.312293,-0.36308,-6.85016
1,Ethereum,ETH,2015-08-07T00:00:00.000Z,2023-04-24T12:19:00.000Z,1851.955327,7695207000.0,120409000.0,120409000.0,,0.190492,-1.152348,-10.716961
2,Tether,USDT,2015-02-25T00:00:00.000Z,2023-04-24T12:19:00.000Z,1.000039,23541900000.0,81451870000.0,85090640000.0,,-0.021261,-0.020023,-0.019893
3,BNB,BNB,2017-07-25T00:00:00.000Z,2023-04-24T12:19:00.000Z,331.380847,648951400.0,155864100.0,155864100.0,,0.435304,0.112576,-3.102904
4,USD Coin,USDC,2018-10-08T00:00:00.000Z,2023-04-24T12:19:00.000Z,1.000036,3907137000.0,30774600000.0,30774600000.0,,-0.01698,0.002932,0.046823
5,XRP,XRP,2013-08-04T00:00:00.000Z,2023-04-24T12:19:00.000Z,0.464182,1165835000.0,51750810000.0,99989000000.0,100000000000.0,-0.181428,-0.93057,-9.605835
6,Cardano,ADA,2017-10-01T00:00:00.000Z,2023-04-24T12:19:00.000Z,0.388301,275578200.0,34795790000.0,35711300000.0,45000000000.0,0.016209,-0.827684,-12.665052
7,Dogecoin,DOGE,2013-12-15T00:00:00.000Z,2023-04-24T12:19:00.000Z,0.079156,407329500.0,139070100000.0,139070100000.0,,0.124045,-1.386939,-14.829002
8,Polygon,MATIC,2019-04-28T00:00:00.000Z,2023-04-24T12:19:00.000Z,0.995648,464981600.0,9249469000.0,10000000000.0,10000000000.0,0.226824,-2.559066,-14.803492
9,Solana,SOL,2020-04-10T00:00:00.000Z,2023-04-24T12:19:00.000Z,21.648135,356157300.0,392769300.0,539312700.0,,0.313362,-2.136271,-13.226189


---

### Verificando se o DataFrame está vazio
Agora nós vamos verificar se o DataFrame que nós criamos está vázio em algumas colunas. Para isso nós vamos criar uma função "**check_if_valid_data()**".

**NOTE:**  
Uma observação aqui é que essa função vai receber um DataFrame pandas como argumento.

In [26]:
def check_if_valid_data(df: pd.DataFrame) -> bool:
    
    # Check if dataframe is empty
    if df.empty:
        print("\nDataframe empty. Finishing execution")
        return False 

    # Check for nulls
    if df.symbol.empty:
        raise Exception("\nSymbol is Null or the value is empty")
 
     # Check for nulls
    if df.price.empty:
        raise Exception("\nPrice is Null or the value is empty")

    # Check for nulls
    if df.data_added.empty:
        raise Exception("\nData is Null or the value is empty")

    return True

In [27]:
check_if_valid_data(coins_df)

True

**NOTE:**  
Vejam que, se houver algum campo vazio ele vai forçar uma exceção com o statement *"raise"*, se não, vai retornar **"True"**.

---

# Database

### Conexão com o Banco de Dados
A primeira coisa que nós vamos fazer é testar a conexão com o Banco de Dados. Para isso nós precisamos saber:

> dialect+driver://username:password@host:port/database

 - **dialect:**  Dialect names include the identifying name of the SQLAlchemy dialect, a name such as sqlite, mysql, postgresql, oracle, or mssql.
 - **driver:** The drivername is the name of the DBAPI to be used to connect to the database using all lowercase letters:
   - If not specified, a “default” DBAPI will be imported if available - this default is typically the most widely known driver available for that backend.
 - **Username:** Nome do usuário (Ou ADM) que vai acessar o Banco de Dados.
 - **Password:** Senha de acesso para conectar no Banco de Dados.
 - **Host (ou IP):** IP ou Link de acesso para se conectar com o Banco de Dados.
 - **Port:**  Porta de conexão que o Banco de Dados vai utilizar.
 - **Database:** O nome do Banco de Dados a qual vamos nos conectar.

---

### Criando uma tabela no Banco de Dados
Agora nós vamos criar o modelo de uma tabela que vai ser criada no nosso Banco de Dados.

**NOTE:**  
Essa classe também vai ter um método responsável por criar o Banco de Dados na AWS o qual vai retornar:

 - Uma sessão.
 - E a Engine.

In [32]:
from sqlalchemy import create_engine, Column, Integer, String, Float, Text
from sqlalchemy.orm import sessionmaker, declarative_base

Base = declarative_base()


class Coins(Base):
    __tablename__ = 'tb_coins'  # Se você usar instância "Base" é obrigatório.
    id = Column(Integer, primary_key=True)  # Obrigatório.
    name = Column(String)
    symbol = Column(String)
    data_added = Column(Text)
    last_updated = Column(Text)
    price = Column(Float)
    volume_24h = Column(Float)
    circulating_supply = Column(Float)
    total_supply = Column(Float)
    max_supply = Column(Float)
    volume_24h = Column(Float)
    percent_change_1h = Column(Float)
    percent_change_24h = Column(Float)
    percent_change_7d = Column(Float)


    def start():
        db_string = (
            'postgresql://postgres:7hRt5yU9pLm2@'
            'rds-server.c6qt8zkwdakp.us-east-1.rds.amazonaws.com/coins'
        )
        engine = create_engine(db_string)
        Session = sessionmaker(bind=engine)
        session = Session()
        Base.metadata.create_all(engine)
        print ('\nTable created on database')
        return session, engine

Agora vamos chamar o método start para ver se a nossa tabela foi criada:

In [33]:
session, engine = Coins.start()


Table created on database


**NOTE:**  
Se você verificar no seu Banco de Dados vai ver que foi criada uma tabela **"tbl_coins"** no seu Banco de Dados **"Coins"** na AWS.

![img](../images/tbl_coins-01.png)  


---

### Inserindo Dados na tabela a partir do método DataFrame.to_sql()
O método **to_sql()** tem os seguintes parâmetros:
 - **to_sql():**
   - **name:** Name of SQL table.
   - **con:** sqlalchemy.engine.(Engine or Connection) or sqlite3.Connection.
   - **if_exists:** How to behave if the table already exists.
     - **fail:** Raise a ValueError.
     - **replace:** Drop the table before inserting new values.
     - **append:** Insert new values to the existing table.
   - **index (True or False):** Write DataFrame index as a column. Uses index_label as the column name in the table.

In [34]:
coins_df.to_sql("tb_coins", engine, if_exists='append', index=False)

1000

**NOTE:**  
Se você verificar no seu Banco de Dados vai ver que os 5.000 registros (amostra de dados) foram inseridos no Banco de Dados.

![img](../images/tbl_coins-02.png)

---

### Salvando os dados e um arquivo .csv

In [28]:
coins_df.to_csv('tb_coins', sep='\t', encoding='utf-8')

---

Ro**drigo** **L**eite da **S**ilva - **drigols**

---