In [1]:
#configurando o ambiente
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!pip install pyspark -q

In [3]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

In [4]:
spark = SparkSession.builder.master("local[*]").appName("CVM_Gold").getOrCreate()

In [5]:
path_silver = '/content/drive/MyDrive/pipeline_bigdata_pyspark/silver/fundos_cvm'
df_silver = spark.read.parquet(path_silver)

##üìä Criando M√©tricas de Analytics

1. Capta√ß√£o L√≠quida e Performance

Vamos calcular quanto de dinheiro realmente entrou ou saiu do fundo (`CAPTC_LIQUIDA`) e como o patrim√¥nio se comportou.

In [6]:
# Criando a coluna de Capta√ß√£o L√≠quida
df_gold = df_silver.withColumn("CAPTC_LIQUIDA", F.col("CAPTC_DIA") - F.col("RESG_DIA"))

# Agregando por Fundo para ver os maiores do per√≠odo
ranking_patrimonio = df_gold.groupBy("CNPJ_FUNDO_CLASSE") \
    .agg(
        F.max("VL_PATRIM_LIQ").alias("PATRIMONIO_MAX"),
        F.sum("CAPTC_LIQUIDA").alias("TOTAL_CAPTC_LIQUIDA"),
        F.avg("NR_COTST").alias("MEDIA_COTISTAS")
    ) \
    .orderBy(F.desc("PATRIMONIO_MAX"))

ranking_patrimonio.show(5)

+------------------+------------------+--------------------+-----------------+
| CNPJ_FUNDO_CLASSE|    PATRIMONIO_MAX| TOTAL_CAPTC_LIQUIDA|   MEDIA_COTISTAS|
+------------------+------------------+--------------------+-----------------+
|07.593.972/0001-86|1.6139562805236E11| 3.709273933859998E9|265.8636363636364|
|42.592.315/0001-15| 1.480798032203E11|   1.457819324062E10|23937.68181818182|
|46.133.770/0001-03|1.4807554972698E11|1.436679997988000...|              1.0|
|00.822.055/0001-87|1.0926699401723E11|          -9.90959E8|              1.0|
|01.597.187/0001-15| 9.301896282606E10|1.4018843994300003E9|             43.0|
+------------------+------------------+--------------------+-----------------+
only showing top 5 rows


2. Evolu√ß√£o Mensal da Ind√∫stria (Sazonalidade)

Como o mercado se comporta m√™s a m√™s? Quais momentos de crise e euforia?

In [7]:
# Criando colunas de Ano e M√™s para agrupamento
df_mensal = df_silver.withColumn("ANO_MES", F.date_format("DT_COMPTC", "yyyy-MM"))

gold_evolucao_mensal = df_mensal.groupBy("ANO_MES") \
    .agg(
        F.sum("VL_PATRIM_LIQ").alias("PATRIMONIO_TOTAL"),
        F.sum("CAPTC_DIA").alias("TOTAL_CAPTACAO"),
        F.sum("RESG_DIA").alias("TOTAL_RESGATE"),
        F.avg("NR_COTST").alias("MEDIA_COTISTAS")
    ).orderBy("ANO_MES")

In [8]:
# Convertendo para Pandas para an√°lise visual r√°pida
analise_result = gold_evolucao_mensal.toPandas()

# Calculando o Saldo L√≠quido (O term√¥metro do mercado)
analise_result['SALDO_LIQUIDO'] = analise_result['TOTAL_CAPTACAO'] - analise_result['TOTAL_RESGATE']

display(analise_result)

Unnamed: 0,ANO_MES,PATRIMONIO_TOTAL,TOTAL_CAPTACAO,TOTAL_RESGATE,MEDIA_COTISTAS,SALDO_LIQUIDO
0,2024-01,241054700000000.0,1375382000000.0,1265636000000.0,984.225976,109746100000.0


1. Momento de Euforia (Bull Market):

* SALDO_LIQUIDO fortemente positivo (muito mais capta√ß√£o que resgate).

* O PATRIMONIO_TOTAL sobe de forma consistente m√™s a m√™s.

* O n√∫mero de cotistas (MEDIA_COTISTAS) tende a crescer, indicando novos investidores entrando na festa.

2. Momento de Crise (Bear Market / Panic):

* O SALDO_LIQUIDO fica negativo (os resgates superam as entradas).

* O PATRIMONIO_TOTAL despenca.

Isso acontece por dois motivos: as pessoas est√£o tirando dinheiro e os ativos que o fundo possui est√£o desvalorizando.

--> O sinal de alerta: Se o patrim√¥nio cai muito mais do que o saldo de resgate, significa que o mercado est√° "derretendo" os ativos.

In [9]:
import plotly.express as px

fig = px.bar(analise_result, x='ANO_MES', y='SALDO_LIQUIDO',
             title='Fluxo de Caixa da Ind√∫stria de Fundos (Capta√ß√£o L√≠quida)',
             labels={'SALDO_LIQUIDO': 'Saldo (Capta√ß√£o - Resgate)', 'ANO_MES': 'M√™s/Ano'},
             color='SALDO_LIQUIDO',
             color_continuous_scale=px.colors.diverging.RdYlGn) # Verde para positivo, vermelho para negativo

fig.show()

3. Por tipo de Fundo

In [10]:
# Analisando quem dominou o otimismo de Janeiro
gold_market_share = df_silver.groupBy("TP_FUNDO_CLASSE") \
    .agg(
        F.sum("VL_PATRIM_LIQ").alias("PL_TOTAL"),
        F.sum(F.col("CAPTC_DIA") - F.col("RESG_DIA")).alias("SALDO_LIQUIDO"),
        F.countDistinct("CNPJ_FUNDO_CLASSE").alias("QTD_FUNDOS")
    ).orderBy(F.desc("PL_TOTAL"))

# Visualizando o resultado
df_p = gold_market_share.toPandas()
display(df_p)

# Gr√°fico de Barras por Classe
import plotly.express as px
px.bar(df_p, x='TP_FUNDO_CLASSE', y='SALDO_LIQUIDO',
       title='Saldo L√≠quido por Classe de Fundo (Jan/2024)',
       color='SALDO_LIQUIDO', text_auto='.2s').show()

Unnamed: 0,TP_FUNDO_CLASSE,PL_TOTAL,SALDO_LIQUIDO,QTD_FUNDOS
0,FI,241036000000000.0,109748000000.0,25960
1,FAPI,18648450000.0,-1873671.0,13


4. Market Share por Classe de Fundo

Qual tipo de fundo domina o mercado? (A√ß√µes, Renda Fixa, Multimercado?). Essa an√°lise mostra onde o dinheiro est√° concentrado.

In [15]:
from pyspark.sql.window import Window

# Calculando Market Share com a corre√ß√£o da Window
gold_market_share = df_silver.groupBy("TP_FUNDO_CLASSE") \
    .agg(
        F.sum("VL_PATRIM_LIQ").alias("PL_POR_CLASSE"),
        F.countDistinct("CNPJ_FUNDO_CLASSE").alias("QTD_FUNDOS")
    ).withColumn("PERCENTUAL_PL", F.col("PL_POR_CLASSE") / F.sum("PL_POR_CLASSE").over(Window.partitionBy())) \
    .orderBy(F.desc("PL_POR_CLASSE"))

gold_market_share.show()

+---------------+--------------------+----------+--------------------+
|TP_FUNDO_CLASSE|       PL_POR_CLASSE|QTD_FUNDOS|       PERCENTUAL_PL|
+---------------+--------------------+----------+--------------------+
|             FI|2.410360216115541E14|     25960|  0.9999226381032803|
|           FAPI|1.864844648885000...|        13|7.736189671977602E-5|
+---------------+--------------------+----------+--------------------+



5. Ranking de Efici√™ncia (Top 10 Capta√ß√£o L√≠quida)

N√£o basta ter patrim√¥nio alto, queremos saber quem est√° atraindo novos investidores. Vamos calcular o saldo entre entradas e sa√≠das.

In [13]:
df_captacao = df_silver.withColumn("CAPTC_LIQUIDA", F.col("CAPTC_DIA") - F.col("RESG_DIA"))

gold_top_captadores = df_captacao.groupBy("CNPJ_FUNDO_CLASSE") \
    .agg(F.sum("CAPTC_LIQUIDA").alias("SALDO_CAPT_LIQUIDA")) \
    .orderBy(F.desc("SALDO_CAPT_LIQUIDA")).limit(10)

6. An√°lise de Volatilidade de Patrim√¥nio

Fundos com patrim√¥nio que oscila muito podem indicar riscos. Vamos medir o desvio padr√£o do Patrim√¥nio L√≠quido por fundo.

In [14]:
gold_volatilidade = df_silver.groupBy("CNPJ_FUNDO_CLASSE") \
    .agg(F.stddev("VL_PATRIM_LIQ").alias("VOL_PATRIMONIO")) \
    .orderBy(F.desc("VOL_PATRIMONIO")).limit(10)

###Salvando as tabelas na Gold

In [16]:
# Dicion√°rio para facilitar o salvamento em lote
tabelas_gold = {
    "ranking_patrimonio": ranking_patrimonio,
    "market_share": gold_market_share,
    "top_captadores": gold_top_captadores,
    "volatilidade": gold_volatilidade
}

for nome, df in tabelas_gold.items():
    path = f"/content/drive/MyDrive/pipeline_bigdata_pyspark/gold/{nome}"
    df.write.mode("overwrite").parquet(path)
    print(f"‚úÖ Tabela '{nome}' salva com sucesso em {path}")

‚úÖ Tabela 'ranking_patrimonio' salva com sucesso em /content/drive/MyDrive/pipeline_bigdata_pyspark/gold/ranking_patrimonio
‚úÖ Tabela 'market_share' salva com sucesso em /content/drive/MyDrive/pipeline_bigdata_pyspark/gold/market_share
‚úÖ Tabela 'top_captadores' salva com sucesso em /content/drive/MyDrive/pipeline_bigdata_pyspark/gold/top_captadores
‚úÖ Tabela 'volatilidade' salva com sucesso em /content/drive/MyDrive/pipeline_bigdata_pyspark/gold/volatilidade


###Plotagem

In [17]:
import plotly.express as px

df_p = gold_market_share.toPandas()
fig1 = px.pie(df_p, values='PL_POR_CLASSE', names='TP_FUNDO_CLASSE',
             title='Distribui√ß√£o de Patrim√¥nio L√≠quido por Classe (Jan/2024)',
             hole=0.3)
fig1.show()

A an√°lise de Market Share revela que a classe FI (Fundo de Investimento) det√©m a hegemonia absoluta do patrim√¥nio em Janeiro de 2024, indicando uma alta concentra√ß√£o de capital em instrumentos tradicionais.



In [18]:
df_c = gold_top_captadores.toPandas()
fig2 = px.bar(df_c, x='CNPJ_FUNDO_CLASSE', y='SALDO_CAPT_LIQUIDA',
             title='Top 10 Fundos por Capta√ß√£o L√≠quida',
             color='SALDO_CAPT_LIQUIDA', text_auto='.2s')
fig2.show()

A an√°lise de Efici√™ncia de Capta√ß√£o identifica os 10 fundos que apresentaram a maior resili√™ncia e atratividade comercial em Janeiro de 2024. O destaque vai para os fundos que, mesmo num mercado de trili√µes, conseguiram manter um Saldo L√≠quido (Capta√ß√£o - Resgate) positivo e robusto. Esta m√©trica √© um indicador de confian√ßa do investidor: enquanto o patrim√≥nio total (PL) reflete o passado, a Capta√ß√£o L√≠quida reflete o momento presente e a expectativa de performance futura da gestora.

In [19]:
df_v = gold_volatilidade.toPandas()
fig3 = px.scatter(df_v, x='CNPJ_FUNDO_CLASSE', y='VOL_PATRIMONIO',
                 size='VOL_PATRIMONIO', color='CNPJ_FUNDO_CLASSE',
                 title='Top 10 Fundos com Maior Volatilidade de Patrim√¥nio')
fig3.show()

A an√°lise de volatilidade revela os fundos que apresentaram as maiores oscila√ß√µes patrimoniais durante o m√™s de janeiro de 2024. Notamos que os l√≠deres deste ranking n√£o s√£o necessariamente os maiores em patrim√¥nio total, o que indica que a volatilidade est√° mais atrelada √† movimenta√ß√£o intensa de resgates e aportes (giro de cotistas) do que ao tamanho do fundo em si. Para o investidor, este gr√°fico serve como um mapa de risco operacional, identificando ve√≠culos que, apesar de estarem em uma classe est√°vel como 'FI', possuem um comportamento de liquidez muito mais agressivo e inst√°vel.