## **Análisis exploratorio (EDA) inversión de Criptomonedas**

### Nuestro proyecto se fundamenta en un análisis destinado a **inversiones a mediano y largo plazo**. Por consiguiente, no emplearemos datos OHLC (Open, High, Low, Close) ya que nuestra finalidad no se enfoca en operaciones de trading, sino en inversiones basadas en otros indicadores clave de `rendimiento (KPI) y objetivos`. Utilizaremos gráficas distintas a las velas para cumplir con nuestros objetivos de inversión.

In [1]:
%pip install pycoingecko

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, -1, Finished, Available)

Collecting pycoingecko
  Downloading pycoingecko-3.1.0-py3-none-any.whl (8.8 kB)
Installing collected packages: pycoingecko
Successfully installed pycoingecko-3.1.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0[0m[39;49m -> [0m[32;49m23.2.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49m/nfs4/pyenv-34eb1a3e-8917-4acd-b8d5-75e96d6f161e/bin/python -m pip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.





In [2]:
from pyspark.sql import SQLContext
from pycoingecko import CoinGeckoAPI
from pyspark.sql.types import *
from pyspark.sql.functions import col
from pyspark.sql.functions import max

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 9, Finished, Available)

In [3]:
# Crear una cadena de conexión
connection_string = "jdbc:sqlserver://server-cistelsa.database.windows.net:1433;databaseName=data-crypto;user=cistelsa;password=Af670504e@"

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 10, Finished, Available)

In [4]:
# Conectarse a la base de datos
df_cryptocurrencies = spark.read.jdbc(connection_string, "cryptocurrencies")
df_bitcoin_halvings = spark.read.jdbc(connection_string, "bitcoin_halvings")
df_crypto_date = spark.read.jdbc(connection_string, "crypto_date")
df_crypto_dev = spark.read.jdbc(connection_string, "crypto_dev")
df_crypto_price = spark.read.jdbc(connection_string, "crypto_price")
df_crypto_social = spark.read.jdbc(connection_string, "crypto_social")

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 11, Finished, Available)

In [5]:
df_cryptocurrencies.show()

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 12, Finished, Available)

+------------+------+------------+--------------------+------------------+------------+
|          id|symbol|        name|               image|      total_supply|  max_supply|
+------------+------+------------+--------------------+------------------+------------+
|    arbitrum|   arb|    Arbitrum|https://assets.co...|            1.0E10| 10000000000|
|     bitcoin|   btc|     Bitcoin|https://assets.co...|             2.1E7|    21000000|
|boba-network|  boba|Boba Network|https://assets.co...|             5.0E8|   500000000|
|elrond-erd-2|  egld|  MultiversX|https://assets.co...|       2.5860072E7|    31415926|
|    ethereum|   eth|    Ethereum|https://assets.co...|1.20211284999274E8|        null|
|gmd-protocol|   gmd|         GMD|https://assets.co...|           80000.0|       80000|
|         okb|   okb|         OKB|https://assets.co...|     2.359576853E8|   300000000|
|    optimism|    op|    Optimism|https://assets.co...|     4.294967296E9|  4294967296|
|      ripple|   xrp|         XR

### Realizamos una exploración profunda para poder extraer el suministro circulante de criptomonedas `circulating_supply` en forma de histórico, pero no fué posible ya que las APIs no suministran esta información específica, solo en tiempo real, es una data muy importante para la toma de decisiones y revisar que sucedió en el pasado, pero no vamos a frenar el proyecto por este inconveniente, lo tomaremos en tiempo real a continuación, aun así en el README.md va a quedar estipulado que nuestro proyecto sigue avanzando y tendrá actualizaciones dentro de las tareas a desarrollar está:
- ### La automatización del proceso de extracción en tiempo real a término indefinido incluyendo `circulating_supply`
- ### Investigación y búsqueda de la data histórica de cada criptomóneda del proyecto con relación a `circulating_supply`

In [6]:
# Declaro la función de la api de coingecko en una variable cg
cg = CoinGeckoAPI()

# Lista de las critomonedas seleccionadas para análisis
crypto_list = ['arbitrum', 'bitcoin', 'boba-network', 'elrond-erd-2', 'ethereum', 'gmd-protocol', 'okb', 'optimism', 'ripple', 'solana' ]

coin_market = cg.get_coins_markets(vs_currency='usd', ids=crypto_list)

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 13, Finished, Available)

In [7]:
# Creamos primero el esquema que va a tener nuestro dataframe en este caso solo 2 columnas
orderSchema = StructType([
    StructField("id", StringType()),
    StructField("circulating_supply", FloatType())
    ])

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 14, Finished, Available)

In [8]:
# Crear un DataFrame de Spark a partir de los datos de CoinGecko
df_spark_cp = spark.createDataFrame(coin_market, schema=orderSchema)

# Agregamos la columna de los datos al dataframe df_cryptocurrencies por medio de un join
df_cryptocurrencies = df_cryptocurrencies.join(df_spark_cp.select("id", "circulating_supply"), on="id", how="left")

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 15, Finished, Available)

In [9]:
df_cryptocurrencies.show()

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 16, Finished, Available)

+------------+------+------------+--------------------+------------------+------------+------------------+
|          id|symbol|        name|               image|      total_supply|  max_supply|circulating_supply|
+------------+------+------------+--------------------+------------------+------------+------------------+
|      solana|   sol|      Solana|https://assets.co...|5.55286963547684E8|        null|      4.07893216E8|
|gmd-protocol|   gmd|         GMD|https://assets.co...|           80000.0|       80000|          59146.73|
|      ripple|   xrp|         XRP|https://assets.co...|   9.9988501123E10|100000000000|      5.2914192E10|
|boba-network|  boba|Boba Network|https://assets.co...|             5.0E8|   500000000|      3.42812544E8|
|     bitcoin|   btc|     Bitcoin|https://assets.co...|             2.1E7|    21000000|       1.9467832E7|
|    arbitrum|   arb|    Arbitrum|https://assets.co...|            1.0E10| 10000000000|      1.27500006E9|
|         okb|   okb|         OKB|htt

In [10]:
# Renombrar la columna en el DataFrame df_crypto_price
df_crypto_price = df_crypto_price.withColumnRenamed("cryptocurrency_id", "id")
# Agregamos la columna de los datos al dataframe df_crypto_price por medio de un join
df_crypto_price = df_crypto_price.join(df_cryptocurrencies.select("id", "max_supply", "circulating_supply"), on="id", how="left")

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 17, Finished, Available)

In [12]:
# Hacemos otro Join para agregarle la fecha de la data
df_crypto_price = df_crypto_price.join(df_crypto_date.select("date_id", "date"), on="date_id", how="left")

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 19, Finished, Available)

In [13]:
new_crypto_price = df_crypto_price.select("id", "date", "price_usd", "market_cap_usd", "total_volume_usd", "max_supply", "circulating_supply")

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 20, Finished, Available)

In [19]:
new_crypto_price = new_crypto_price.withColumn("price_usd", col("price_usd").cast("float")) \
    .withColumn("market_cap_usd", col("market_cap_usd").cast("int")) \
    .withColumn("total_volume_usd", col("total_volume_usd").cast("int")) \
    .withColumn("max_supply", col("max_supply").cast("int")) \
    .withColumn("circulating_supply", col("circulating_supply").cast("int")) \
    .withColumn("date", col("date").cast("date"))

StatementMeta(, 0758cb9f-00ca-4f54-b647-acdc383726cb, 26, Finished, Available)

In [14]:
new_crypto_price.show()

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 21, Finished, Available)

+--------+----------+----------+--------------+----------------+----------+------------------+
|      id|      date| price_usd|market_cap_usd|total_volume_usd|max_supply|circulating_supply|
+--------+----------+----------+--------------+----------------+----------+------------------+
|ethereum|2015-08-07|2.83162000|             0|           90622|      null|      1.20216448E8|
|ethereum|2015-08-08|1.33075000|      80339475|          368070|      null|      1.20216448E8|
|ethereum|2015-08-10|0.68758571|      41556309|          400464|      null|      1.20216448E8|
|ethereum|2015-08-11|1.06737888|      64539006|         1518998|      null|      1.20216448E8|
|ethereum|2015-08-12|1.25661318|      76013261|         2073893|      null|      1.20216448E8|
|ethereum|2015-08-13|1.82539545|     110468836|         4380143|      null|      1.20216448E8|
|ethereum|2015-08-14|1.82597489|     110555313|         4355618|      null|      1.20216448E8|
|ethereum|2015-08-15|1.67094967|     101215246|   

In [15]:
new_crypto_price.dtypes

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 22, Finished, Available)

[('id', 'string'),
 ('date', 'date'),
 ('price_usd', 'decimal(18,8)'),
 ('market_cap_usd', 'bigint'),
 ('total_volume_usd', 'bigint'),
 ('max_supply', 'bigint'),
 ('circulating_supply', 'float')]

### Es necesario tener el dato de la capitalización de mercado máxima de cada cryptomoneda y tener una referencia para tomar alguna decisión en un ciclo alsista este puede superarse multiplicado. Obviamente depende de la calidad del proyecto que está detras de la criptomoneda, también de la comunidad y por último que esta no tenga problemas legales o por la situación global entre en crisis y desaparezca.

In [18]:
marketCapMax = new_crypto_price.groupBy("id").agg(max("market_cap_usd").alias("MaximoMarket"))
display(marketCapMax)

StatementMeta(, e3de1aa1-2b86-4b13-99ad-9945b8342ae5, 25, Finished, Available)

SynapseWidget(Synapse.DataFrame, aec5c845-3765-4884-9880-6c36540a53e3)