In [None]:
import pandas as pd

data = pd.read_csv('bank.csv', sep=';')
data.head(5)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no


#Exploração Inicial dos dados

1. Qual é a idade média dos indivíduos no conjunto de dados?
2. Qual é o saldo médio das contas no conjunto de dados?
3. Qual é a duração média das chamadas em segundos no conjunto de dados?
4. Qual é a profissão mais comum no conjunto de dados?

In [None]:
data.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0
mean,41.170095,1422.657819,15.915284,263.961292,2.79363,39.766645,0.542579
std,10.576211,3009.638142,8.247667,259.856633,3.109807,100.121124,1.693562
min,19.0,-3313.0,1.0,4.0,1.0,-1.0,0.0
25%,33.0,69.0,9.0,104.0,1.0,-1.0,0.0
50%,39.0,444.0,16.0,185.0,2.0,-1.0,0.0
75%,49.0,1480.0,21.0,329.0,3.0,-1.0,0.0
max,87.0,71188.0,31.0,3025.0,50.0,871.0,25.0


A função describe nos dá uma visão geral das estatísticas descritivas do conjunto de dados. Aqui estão algumas observações:

- Idade (age): A idade média é aproximadamente 41 anos, com um desvio padrão de aproximadamente 10,5 anos. A idade mínima é 19 e a máxima é 87.
- Saldo (balance): O saldo médio é aproximadamente 1422.65 com um desvio padrão significativo de 3009.64, indicando uma grande variação nos saldos das contas.
- Duração (duration): A duração média das chamadas é de aproximadamente 264 segundos (ou cerca de 4,4 minutos).
- Job: A profissão mais comum é "management", com 969 ocorrências.
- Estado Civil (marital): A maioria das pessoas é casada, com 2797 ocorrências.
- Educação (education): O nível de educação mais comum é "secondary", com 2306 ocorrências.
- Housing: A maioria das pessoas tem um empréstimo habitacional, com 2559 ocorrências de "yes".

In [None]:
import plotly.express as px

# Histograma da Idade
fig = px.histogram(data, x="age", title="Histograma da Idade")
fig.show()

# Número de categorias em `job`, `marital`, `education`e `housing`

1. Quantas categorias diferentes de empregos (job) existem no conjunto de dados?
2. Quais são as três categorias mais frequentes para o estado civil (marital)?
3. Qual é o nível de educação mais comum?
4. Quantas pessoas têm um empréstimo habitacional?

In [None]:
# Contar o número de categorias nas colunas 'job', 'marital', 'education', e 'housing'
job_count = data['job'].value_counts()
marital_count = data['marital'].value_counts()
education_count = data['education'].value_counts()
housing_count = data['housing'].value_counts()

job_count, marital_count, education_count, housing_count


(management       969
 blue-collar      946
 technician       768
 admin.           478
 services         417
 retired          230
 self-employed    183
 entrepreneur     168
 unemployed       128
 housemaid        112
 student           84
 unknown           38
 Name: job, dtype: int64,
 married     2797
 single      1196
 divorced     528
 Name: marital, dtype: int64,
 secondary    2306
 tertiary     1350
 primary       678
 unknown       187
 Name: education, dtype: int64,
 yes    2559
 no     1962
 Name: housing, dtype: int64)

## Contagem de Categorias

- Job: Temos 12 categorias de empregos diferentes, com a categoria "management" sendo a mais comum (969 ocorrências) e "unknown" a menos comum (38 ocorrências).
- Marital: Temos 3 categorias para o estado civil. A mais comum é "married" com 2797 ocorrências.
- Education: Existem 4 categorias diferentes para educação. A mais comum é "secondary" com 2306 ocorrências.
- Housing: Temos 2 categorias, "yes" e "no", indicando se a pessoa tem ou não um empréstimo habitacional. "Yes" é mais comum, com 2559 ocorrências.

In [None]:
# Gráfico de Barras de Profissões
counts = data['job'].value_counts()
fig = px.bar(x=counts.index, y=counts.values,
             labels={"x": "Profissão", "y": "Contagem"},
             title="Contagem de Profissões")
fig.show()

# Amostra por Conglomerado `education`

Na amostra por conglomerados, quantos indivíduos têm um nível de educação "secondary"?

In [None]:

import random

# Definir os clusters com base na coluna 'education'
clusters = data.groupby('education')

# Selecionar uma amostra aleatória de cada cluster
random.seed(42)
cluster_sample = pd.DataFrame()

for name, group in clusters:
    sample = group.sample(frac=0.2, random_state=42)
    cluster_sample = pd.concat([cluster_sample, sample])

# Mostrar a amostra por conglomerados de 'education'
cluster_sample['education'].value_counts()


secondary    461
tertiary     270
primary      136
unknown       37
Name: education, dtype: int64

Realizamos uma amostra por conglomerados usando a coluna education. A amostra contém 20% dos dados de cada categoria educacional. Por exemplo, na amostra temos 461 indivíduos com educação "secondary", 270 com "tertiary", 136 com "primary" e 37 com "unknown"

In [None]:
# Gráfico de Barras de Profissões
counts = data['education'].value_counts()
fig = px.bar(x=counts.index, y=counts.values,
             labels={"x": "Escolaridade", "y": "Contagem"},
             title="Contagem por Escolaridade")
fig.show()

# Tamanho da Amostra para Estimativas de Média para Populações Finitas

Qual é o tamanho da amostra necessário para estimar a média do saldo da conta com um intervalo de confiança de 95% e um erro tolerável de 0.05?

In [None]:
import math

# Parâmetros
N = len(data)  # Tamanho da população
Z = 1.96  # Valor Z para um intervalo de confiança de 95%
e = 0.05  # Erro tolerável
s = data['balance'].std()  # Desvio padrão da coluna 'balance'

# Fórmula do tamanho da amostra para populações finitas
n = ((Z**2) * (s**2) * (N - 1)) / (((e**2) * N) + (Z**2) * (s**2))
n = math.ceil(n)  # Arredondar para o próximo inteiro maior

n


4520

Para estimar a média da população com um intervalo de confiança de 95% e um erro tolerável de 0.05, o tamanho da amostra calculado é 4520. Isso é quase o tamanho da população total (4521), o que sugere que os dados têm uma alta variabilidade, exigindo uma amostra quase tão grande quanto a população para uma estimativa precisa.

# Intervalo de Confiança para `age` em Função de `loan`

Qual é o intervalo de confiança de 95% para a idade média das pessoas com um empréstimo pessoal?

In [None]:
from scipy import stats
import numpy as np

# Separar os dados com base na coluna 'loan'
loan_yes = data[data['loan'] == 'yes']['age']
loan_no = data[data['loan'] == 'no']['age']

# Calcular a média e o desvio padrão para 'age' quando 'loan' é 'yes'
mean_yes = np.mean(loan_yes)
std_yes = np.std(loan_yes)

# Calcular a média e o desvio padrão para 'age' quando 'loan' é 'no'
mean_no = np.mean(loan_no)
std_no = np.std(loan_no)

# Calcular o intervalo de confiança para 'age' quando 'loan' é 'yes'
conf_int_yes = stats.norm.interval(0.95, loc=mean_yes, scale=std_yes / np.sqrt(len(loan_yes)))

# Calcular o intervalo de confiança para 'age' quando 'loan' é 'no'
conf_int_no = stats.norm.interval(0.95, loc=mean_no, scale=std_no / np.sqrt(len(loan_no)))

conf_int_yes, conf_int_no



((40.17088553377304, 41.609143409787016),
 (40.880696244992116, 41.56055701871545))

Calculamos os intervalos de confiança para a idade (age) com um nível de confiança de 95%, separados com base na presença ou ausência de empréstimo pessoal (loan).

- Com empréstimo pessoal (loan = yes): O intervalo de confiança para a média da idade é
(40.17, 41.61).
- Sem empréstimo pessoal (loan = no): O intervalo de confiança para a média da idade é
(40.88,41.56).

Isso sugere que as médias de idade para as pessoas com e sem empréstimos pessoais são relativamente próximas, mas ainda podemos observar pequenas diferenças.

# Teste de Hipótese para `job`

Existe uma diferença significativa na idade média entre as pessoas com trabalhos de "management" e "blue-collar"?


In [None]:
# Separar os dados com base nas categorias 'management' e 'blue-collar' em 'job'
management_age = data[data['job'] == 'management']['age']
blue_collar_age = data[data['job'] == 'blue-collar']['age']

# Realizar um teste t independente para comparar as médias de idade entre 'management' e 'blue-collar'
t_stat, p_value = stats.ttest_ind(management_age, blue_collar_age)

t_stat, p_value


(0.9223197038627582, 0.35647814504155373)

* Estatística t: t = 0.922
* P-valor: p=0.356

Com um valor-p de 0.356, que é maior que o nível de significância padrão de 0.05, falhamos em rejeitar a hipótese nula. Isso sugere que não há uma diferença significativa na idade média entre as pessoas com trabalhos de "management" e "blue-collar".