# Implementação de CDF e PMF para Variáveis Discretas e Contínuas

## 1. Introdução

Nesta tarefa, vamos calcular e plotar as funções de distribuição de probabilidade (PMF, CDF) para variáveis discretas e contínuas. Além disso, aplicaremos a fórmula de densidade de probabilidade (PDF) para variáveis contínuas.

\( \text{fórmula} \)

### 1.1 Definições

#### PMF (Função de Massa de Probabilidade)
A PMF é uma função que fornece a probabilidade de uma variável aleatória discreta assumir valores específicos. A fórmula da PMF pode ser representada por:

\[
P(X = x) = \frac{\text{Número de Ocorrências de } x}{\text{Tamanho Total da Amostra}}
\]

#### CDF (Função de Distribuição Acumulada)
A CDF calcula a probabilidade acumulada até um determinado ponto. Para uma variável aleatória \( X \), a CDF é dada por:

\[
F(x) = P(X \leq x)
\]

Ou seja, a CDF é a soma das probabilidades até o valor \( x \).

#### PDF (Função de Densidade de Probabilidade)
Para variáveis contínuas, em vez da PMF, utilizamos a PDF para representar a densidade de probabilidade em cada ponto. A PDF é dada pela derivada da CDF:

\[
f(x) = \frac{d}{dx} F(x)
\]

## 2. Variáveis do Dataset

As variáveis utilizadas nesta análise são extraídas do dataset contendo transações da rede Ethereum. Vamos analisar:

1. **Variável Discreta**: `transaction_type` (Tipo de Transação)
2. **Variável Contínua**: `ethereum_high_price_1h` (Preço Máximo do ETH em 1 Hora)

## 3. PMF e CDF para Variável Discreta: `transaction_type`

Para a variável discreta `transaction_type`, que representa o tipo de transação, calculamos a PMF e a CDF com as seguintes funções personalizadas.

In [26]:
import pandas as pd
import sqlalchemy as sa
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.animation as animation
from sqlalchemy import text
import numpy as np

# Conexão com o banco de dados PostGreSQL
conn = sa.create_engine('postgresql://metodos:m#2k24@controle-remoto.sytes.net:65432/infura_transactions')

# Query para buscar os dados da tabela 'infura_01' onde o campo 'block_datetime_utc' é igual a '2024-01-01' de meia noite até as 6 horas da manhã
query = text('SELECT * FROM infura_01 WHERE DATE(block_date_time_utc) = :data AND block_hour BETWEEN 0 AND 6 ORDER BY block_number,transaction_index')
    
df = pd.read_sql(query, conn, params={'data': '2024-01-01'})