<a href="https://colab.research.google.com/github/devLarissaRodrigues/Bootcamp-DataAnalytics-WoMakersCode/blob/main/Exercicio_individual_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Considerando a base de dados de populacao_brasileira.json, responda as questões abaixo (os dados são fictícios).
Você é uma pesquisadora desenvolvendo uma análise sobre as características
da força de trabalho nos estados brasileiros. Responda as perguntas abaixo:
1. Considere pessoas fluentes em inglês, qual a probabilidade
complementar? Ou seja, qual a probabilidade de escolhermos uma pessoa
aleatória e ela não ser fluente em inglês. Considere fluente quem tem o
nível avançado.
2. Se uma pessoa escolhida aleatoriamente for de Alagoas ou do Pará, qual
é a probabilidade de ela ter uma renda superior a 5 mil reais?
3. Descubra a probabilidade de uma pessoa, residente no estado do
Amazonas, ter ensino superior completo (considerando apenas a
escolaridade classificada como 'Superior'). Qual a probabilidade da quinta
pessoa amazonense que você conversar ter ensino superior completo?
4. Considerando a renda das pessoas do nosso conjunto, podemos dizer
que a renda de uma pessoa brasileira está na sua maioria em que faixa
(faça faixa de 1.500 reais)? Qual é a sua função densidade de probabilidade?
5. Calcule a média e a variância da renda da amostra. Depois faça a
distribuição normal, inclua o gráfico.
6. Primeiro considere a probabilidade encontrada no nosso conjunto de
pessoas com escolaridade de pós-graduação. Considerando a amostra de
população brasileira com 1 milhão de habitantes, qual a probabilidade de
encontrarmos 243 mil pessoas com pós-graduação?
7. Somando as densidades nós temos a função de densida de acumulada.
Considerando a coluna ‘Escolaridade’ faça a função de densidade
acumulada discreta para cada nível de escolaridade.
8. Qual a margem de erro amostral da proporção populacional
considerando a proporção de pessoas com nível de inglês intermediário?
9. Calcula a renda da população. Qual a probabilidade de encontrar 60
pessoas com uma renda mil reais superior à média?
10. Qual é a probabilidade de escolhermos uma pessoa residente na região
Sudeste que seja homem, tenha apenas ensino fundamental completo e
possua renda mensal superior a 2 mil reais?


## Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

## Importando o dataset

In [None]:
import gdown
# ID do arquivo no Google Drive
file_id = "1gL5uu4yVtfiYnUowkZg2eB89SgA8Neat"

# URL de download
url = f"https://drive.google.com/uc?id={file_id}"

# Nome do arquivo de saída
output = "FPI_populacao_brasileira.csv"

# Baixar o arquivo
gdown.download(url, output, quiet=False)


In [None]:
# Ler o arquivo baixado
df = pd.read_csv("FPI_populacao_brasileira.csv", encoding="utf-8")

# Exibir as primeiras linhas
print(df.head())


In [None]:
# 1. Probabilidade complementar de não ser fluente em inglês
total_pessoas = len(df)
fluentes = len(df[df["nível de proficiência em inglês"] == "Avançado"])
prob_fluente = fluentes / total_pessoas
prob_nao_fluente = 1 - prob_fluente
print(f"Probabilidade de NÃO ser fluente em inglês: {prob_nao_fluente:.2%}")

# 2. Probabilidade de renda > 5 mil para AL ou PA
df_al_pa = df[df["estado"].isin(["AL", "PA"])]
pessoas_renda_alta = len(df_al_pa[df_al_pa["renda"] > 5000])
prob_renda_al_pa = pessoas_renda_alta / len(df_al_pa)
print(f"Probabilidade de renda > 5 mil em AL ou PA: {prob_renda_al_pa:.2%}")

# 3. Probabilidade de ensino superior completo no Amazonas
df_amazonas = df[df["estado"] == "AM"]
pessoas_superior_am = len(df_amazonas[df_amazonas["escolaridade"] == "Superior"])
prob_superior_am = pessoas_superior_am / len(df_amazonas)
prob_quinta_pessoa = (1 - prob_superior_am) ** 4 * prob_superior_am
print(f"Probabilidade de ter ensino superior no AM: {prob_superior_am:.2%}")
print(f"Probabilidade da 5ª pessoa do AM ter superior: {prob_quinta_pessoa:.2%}")

# 4. Faixa de renda mais comum (bin de 1500 reais)
bins = np.arange(0, df["renda"].max() + 1500, 1500)
hist, edges = np.histogram(df["renda"], bins=bins)
faixa_mais_comum = f"{edges[np.argmax(hist)]:.0f} - {edges[np.argmax(hist) + 1]:.0f}"
print(f"Faixa de renda mais comum: {faixa_mais_comum}")

# 5. Média, variância e distribuição normal
renda_media = np.mean(df["renda"])
renda_var = np.var(df["renda"], ddof=1)
print(f"Média da renda: {renda_media:.2f}, Variância da renda: {renda_var:.2f}")

# 6. Gráfico da distribuição normal
x = np.linspace(min(df["renda"]), max(df["renda"]), 100)
y = stats.norm.pdf(x, renda_media, np.sqrt(renda_var))
plt.figure(figsize=(8,5))
plt.hist(df["renda"], bins=30, density=True, alpha=0.6, color='g')
plt.plot(x, y, 'r', label="Distribuição Normal")
plt.xlabel("Renda")
plt.ylabel("Densidade")
plt.title("Distribuição Normal da Renda")
plt.legend()
plt.show()

# 7. Função densidade acumulada para escolaridade
escolaridade_counts = df["escolaridade"].value_counts(normalize=True).sort_index()
cdf_escolaridade = escolaridade_counts.cumsum()
print("Função densidade acumulada da escolaridade:")
print(cdf_escolaridade)

# 8. Margem de erro amostral para inglês intermediário
intermediarios = len(df[df["nível de proficiência em inglês"] == "Intermediário"])
prop_intermediario = intermediarios / total_pessoas
margem_erro = 1.96 * np.sqrt((prop_intermediario * (1 - prop_intermediario)) / total_pessoas)
print(f"Margem de erro para inglês intermediário: {margem_erro:.4f}")

# 9. Probabilidade de encontrar 60 pessoas com renda > média
n = 60
prob_renda_superior = len(df[df["renda"] > renda_media]) / total_pessoas
prob_60_pessoas = stats.binom.pmf(n, total_pessoas, prob_renda_superior)
print(f"Probabilidade de encontrar 60 pessoas com renda superior à média: {prob_60_pessoas:.8f}")

# 10. Probabilidade de homem do Sudeste com fundamental e renda > 2 mil
df_sudeste = df[(df["região"] == "Sudeste") & (df["gênero"] == "Masculino") & (df["escolaridade"] == "Fundamental") & (df["renda"] > 2000)]
prob_homem_sudeste = len(df_sudeste) / total_pessoas
print(f"Probabilidade de um homem do Sudeste com fundamental e renda > 2 mil: {prob_homem_sudeste:.2%}")
