<a href="https://colab.research.google.com/github/rafaart/DataScienceCO/blob/develop/Atividade_Complementar_2_Unidade_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np

# Baixando o dataset Medical Cost Personal Datasets
Esse dataset relaciona os dados:

| idade | sexo | imc | número de filhos | indicador de fumante | região do usuário | valor do seguro de saúde |

em uma amostra de usuário de planos de saúde

In [2]:
!gdown '16WlPQDl2sQLaEWzH-nix8lF8TPjsfP97'

Downloading...
From: https://drive.google.com/uc?id=16WlPQDl2sQLaEWzH-nix8lF8TPjsfP97
To: /content/insurance.csv
  0% 0.00/55.6k [00:00<?, ?B/s]100% 55.6k/55.6k [00:00<00:00, 73.8MB/s]


# Carregando o dataset usando a biblioteca Pandas

In [3]:
df = pd.read_csv('insurance.csv')
df.head()


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


# Cálculo de PMF da distribuição binomial

In [4]:
def calcula_pmf_binomial(k, n, p):
  """
  Calcula a probabilidade de massa de uma distribuição binomial.

  Args:
    k: Número de sucessos.
    n: Número de tentativas.
    p: Probabilidade de sucesso em uma única tentativa.

  Returns:
    A probabilidade de massa.
  """
  if k < 0 or k > n:
    return 0

  fatorial_n = 1
  for i in range(1, n + 1):
    fatorial_n *= i

  fatorial_k = 1
  for i in range(1, k + 1):
    fatorial_k *= i

  fatorial_n_menos_k = 1
  for i in range(1, n - k + 1):
    fatorial_n_menos_k *= i

  coeficiente_binomial = fatorial_n // (fatorial_k * fatorial_n_menos_k)

  probabilidade = coeficiente_binomial * (p ** k) * ((1 - p) ** (n - k))

  return probabilidade

# Cálculo de CDF da distribuição gaussiana

In [5]:
import math

def calcula_cdf_gaussiana(x, mu, sigma):
  """
  Calcula a função de distribuição cumulativa (CDF) de uma distribuição gaussiana.

  Args:
    x: Valor para o qual a CDF deve ser calculada.
    mu: Média da distribuição gaussiana.
    sigma: Desvio padrão da distribuição gaussiana.

  Returns:
    O valor da CDF para o valor x dado.
  """
  z = (x - mu) / (sigma * math.sqrt(2))
  return 0.5 * (1 + math.erf(z))


# Algumas análises estatísticas

## Chegaram 10 enfermos no hospital do plano de saúde, qual a probabilidade de 5 deles serem fumantes?

In [6]:
# Probabilidade de ser fumante
p_fumante = (df['smoker'] == 'yes').astype(int).mean()

# Número de doentes
n = 10

# Número de fumantes que queremos a probabilidade
k = 5

# Calculando a probabilidade
probabilidade = calcula_pmf_binomial(k, n, p_fumante)

print(f"Probabilidade: {probabilidade:.2f}")

Probabilidade: 0.03


## Dado que não sabemos nada sobre um novo usuário do plano de saúde, qual a probabilidade dele pagar até $ 10.000?

In [7]:
# Exemplo de uso: probabilidade de um valor estar abaixo de 10000
prob_abaixo_10000 = calcula_cdf_gaussiana(x = 10000,
                                          mu = df['charges'].mean(),
                                          sigma = df['charges'].std())
print(f'Probabilidade: {prob_abaixo_10000:.2f}')


Probabilidade: 0.39


## E do mesmo novo usuário pagar até $ 20.0000?

In [8]:
# Exemplo de uso: probabilidade de um valor estar abaixo de 20000
prob_abaixo_20000 = calcula_cdf_gaussiana(x = 20000,
                                          mu = df['charges'].mean(),
                                          sigma = df['charges'].std())
print(f'Probabilidade: {prob_abaixo_20000:.2f}')

Probabilidade: 0.71


## E se o novo usuário tem bmi acima de 27, não sabemos mais nada dele... Qual a probabilidade dele pagar acima de $ 20.000

In [9]:
# Filtrando para incluir apenas as linhas com bmi acima de 27
df_bmi_acima_27 = df[df['bmi'] > 27]

# Calculando a probabilidade de charges acima de 20000 dado que o bmi é acima de 27
prob_acima_20000_dado_bmi_acima_27 = 1-calcula_cdf_gaussiana(x = 20000,
                                                             mu = df_bmi_acima_27['charges'].mean(),
                                                             sigma = df_bmi_acima_27['charges'].std())
print(f'Probabilidade: {prob_acima_20000_dado_bmi_acima_27:.2f}')


Probabilidade: 0.34


## *>>> Perceba que você consegue fazer todos esses cálculos fazendo a contagem dos eventos favoráveis e dividindo pela total de eventos. Usando a distribuição gaussiana e binomial, você mapeou seu problema nessas distribuições. Agora você pode fazer análises (ex: cdf, pmf) para seu problema a partir dessas distribuições*

## Agora é com você!

 ### QUESTÃO 1: Dado que os usuários do plano de saúde são fumantes, qual a probabilidade dele pagar mais de $20.000?

In [10]:
# Filtrando para incluir apenas as linhas com fumantes
df_fumantes = df[df['smoker'] == 'yes']

# Calculando a probabilidade de charges acima de 20000 dado que é fumante
prob_acima_20000_dado_fumante = 1-calcula_cdf_gaussiana(x = 20000,
                                                             mu = df_fumantes['charges'].mean(),
                                                             sigma = df_fumantes['charges'].std())
print(f'Probabilidade: {prob_acima_20000_dado_fumante:.2f}')

Probabilidade: 0.85


 ### QUESTÃO 2: Dado que os usuários do plano de saúde são mulheres, qual a probabilidade dele pagar menos de $10.000?

In [11]:
# Filtrando para incluir apenas as linhas com mulheres
df_mulheres = df[df['sex'] == 'female']

# Calculando a probabilidade de charges até 10000 sendo mulher
prob_abaixo_10000 = calcula_cdf_gaussiana(x = 10000,
                                          mu = df_mulheres['charges'].mean(),
                                          sigma = df_mulheres['charges'].std())
print(f'Probabilidade: {prob_abaixo_10000:.2f}')

Probabilidade: 0.41


 ### QUESTÃO 3: Dado que os usuários do plano de saúde são homens, qual a probabilidade do seu bmi ser acima de 25?