# Small Business Owners in the United State

Neste trabalho, você vai focar nos proprietários de negócios nos Estados Unidos. Você começará examinando algumas características demográficas desse grupo, como idade, categoria de renda e dívida em relação ao valor do imóvel. Em seguida, você selecionará as características de alta variância e criará um modelo de agrupamento para dividir os pequenos empresários em subgrupos. Finalmente, você criará algumas visualizações para destacar as diferenças entre esses subgrupos. Boa sorte! 🍀

In [None]:
# Import libraries here


# Preparando Dados

## Importação

Vamos começar importando nossos dados para o trabalho.

### Exercício:
Leia o arquivo `"data/SCFP2019.csv.gz"` no DataFrame `df`.

In [None]:
df = ...
print("df shape:", df.shape)
df.head()

## Explorar

Como mencionado no início deste trabalho, você está focando nos proprietários de negócios. Mas qual é a porcentagem dos respondentes em `df` que são proprietários de negócios?

### Exercício:
Calcule a proporção de respondentes em `df` que são proprietários de negócios e atribua o resultado à variável `prop_biz_owners`. Você precisará revisar a documentação referente à coluna `"HBUS"` para concluir essas tarefas.

In [None]:
prop_biz_owners = ...
print("proportion of business owners in df:", prop_biz_owners)

A distribuição de renda é diferente para proprietários de negócios e não proprietários de negócios?

### Exercício:
Crie um DataFrame `df_inccat` que mostre a frequência normalizada das categorias de renda para proprietários de negócios e não proprietários de negócios. Seu DataFrame final deve se parecer com algo assim:

```
    HBUS   INCCAT  frequency
0      0     0-20   0.210348
1      0  21-39.9   0.198140
...
11     1     0-20   0.041188
```

In [None]:
inccat_dict = {
    1: "0-20",
    2: "21-39.9",
    3: "40-59.9",
    4: "60-79.9",
    5: "80-89.9",
    6: "90-100",
}

df_inccat = ...

df_inccat

### Exercício:
Usando o seaborn, crie um gráfico de barras lado a lado de `df_inccat`. Defina `hue` como `"HBUS"` e certifique-se de que as categorias de renda estejam na ordem correta ao longo do eixo x. Rotule o eixo x como `"Categoria de Renda"`, o eixo y como `"Frequência (%)"` e use o título `"Distribuição de Renda: Proprietários de Negócios vs. Não Proprietários de Negócios"`.

In [None]:
# Create bar chart of `df_inccat`



Nós analisamos a relação entre o valor do imóvel e a dívida da casa no contexto dos temerosos de crédito, mas e quanto aos proprietários de negócios? Existem diferenças notáveis entre proprietários de negócios e não proprietários de negócios?

### Exercício:
Usando o seaborn, crie um gráfico de dispersão que mostre `"HOUSES"` em relação a `"DEBT"`. Você deve colorir os pontos de dados de acordo com a propriedade de negócios. Certifique-se de rotular o eixo x como `"Dívida da Casa"`, o eixo y como `"Valor do Imóvel"` e usar o título `"Valor do Imóvel vs. Dívida da Casa"`.

In [None]:
# Plot "HOUSES" vs "DEBT" with hue as business ownership



Para a parte de construção do modelo do trabalho, você vai se concentrar nos pequenos proprietários de negócios, definidos como respondentes que têm um negócio e cuja renda não excede \$500.000.

### Exercício:
Crie um novo DataFrame `df_small_biz` que contenha apenas os proprietários de negócios cuja renda é inferior a \$500.000.

In [None]:
mask = ...
df_small_biz = ...
print("df_small_biz shape:", df_small_biz.shape)
df_small_biz.head()

Vimos que os respondentes temerosos de crédito eram relativamente jovens. Isso também se aplica aos pequenos proprietários de negócios?

### Exercício:
Crie um histograma da coluna `"AGE"` em `df_small_biz` com 10 intervalos (bins). Certifique-se de rotular o eixo x como `"Idade"`, o eixo y como `"Frequência (contagem)"` e usar o título `"Proprietários de Pequenos Negócios: Distribuição de Idade"`.

In [None]:
# Plot histogram of "AGE"



Então, podemos dizer a mesma coisa sobre os pequenos proprietários de negócios que podemos dizer sobre as pessoas temerosas de crédito?

Vamos dar uma olhada na variância no conjunto de dados.

### Exercício:
Calcule a variância de todas as características em `df_small_biz` e crie uma Série `top_ten_var` com as 10 características com a maior variância.

In [None]:
# Calculate variance, get 10 largest features
top_ten_var = ...
top_ten_var

Precisaremos remover alguns outliers para evitar problemas em nossos cálculos, então vamos eliminá-los.

### Exercício:
Calcule a variância ajustada para as características em `df_small_biz`. Seus cálculos não devem incluir os 10% superiores e inferiores das observações. Em seguida, crie uma Série `top_ten_trim_var` com as 10 características com a maior variância ajustada.

In [None]:
# Calculate trimmed variance
top_ten_trim_var = ...
top_ten_trim_var

Vamos fazer uma rápida visualização desses valores.

### Exercício:
Use o Plotly Express para criar um gráfico de barras horizontal de `top_ten_trim_var`. Certifique-se de rotular o eixo x como `"Variância Ajustada [$]"`, o eixo y como `"Características"` e usar o título `"Proprietários de Pequenos Negócios: Características de Alta Variância"`.

In [None]:
# Create horizontal bar chart of `top_ten_trim_var`

fig.show()

Com base neste gráfico, quais cinco características têm a maior variância?

### Exercício:
Gere uma lista `high_var_cols` com os nomes das colunas das cinco características com a maior variância ajustada.

In [None]:
high_var_cols = ...
high_var_cols

## Dividir

Vamos transformar essa lista em uma matriz de características.

### Exercício:
Crie a matriz de características `X` a partir de `df_small_biz`. Ela deve conter as cinco colunas em `high_var_cols`.

In [None]:
X = ...
print("X shape:", X.shape)
X.head()

# Construir Model

Agora que nossos dados estão organizados, vamos trabalhar no modelo.

## Iterar

### Exercício:
Use um loop `for` para construir e treinar um modelo K-Means onde `n_clusters` varia de 2 a 12 (inclusive). Seu modelo deve incluir um `StandardScaler`. Cada vez que um modelo for treinado, calcule a inércia e adicione-a à lista `inertia_errors`, depois calcule a pontuação de silhueta e adicione-a à lista `silhouette_scores`.

**Nota:** Para garantir a reprodutibilidade, certifique-se de definir o estado aleatório do seu modelo como `42`.

In [None]:
n_clusters = ...
inertia_errors = ...
silhouette_scores = ...

# Add `for` loop to train model and calculate inertia, silhouette score.


print("Inertia:", inertia_errors[:11])
print()
print("Silhouette Scores:", silhouette_scores[:3])

Assim como fizemos no módulo anterior, podemos começar a determinar quantos clusters precisamos com um gráfico de linha baseado na Inércia.

### Exercício:
Use o Plotly Express para criar um gráfico de linha que mostre os valores de `inertia_errors` como uma função de `n_clusters`. Certifique-se de rotular o eixo x como `"Número de Clusters"`, o eixo y como `"Inércia"` e usar o título `"Modelo K-Means: Inércia vs Número de Clusters"`.

In [None]:
# Create line plot of `inertia_errors` vs `n_clusters`

fig.show()

E vamos fazer a mesma coisa com nossos Silhouette Scores.

### Exercício:
Use o Plotly Express para criar um gráfico de linha que mostre os valores de `silhouette_scores` como uma função de `n_clusters`. Certifique-se de rotular o eixo x como `"Número de Clusters"`, o eixo y como `"Pontuação de Silhueta"` e usar o título `"Modelo K-Means: Pontuação de Silhueta vs Número de Clusters"`.

In [None]:
# Create a line plot of `silhouette_scores` vs `n_clusters`

fig.show()

Quantos clusters devemos usar? Quando você tomar uma decisão sobre isso, é hora de construir o modelo final.

### Exercício:
Construa e treine um novo modelo K-Means chamado `final_model`. O número de clusters deve ser `3`.

**Nota:** Para garantir a reprodutibilidade, certifique-se de definir o estado aleatório do seu modelo como `42`.

In [None]:
final_model = ...


# Comunicar Resultados

Excelente! Vamos compartilhar nosso trabalho!

### Exercício:
Crie um DataFrame `xgb` que contenha os valores médios das características em `X` para os 3 clusters em seu `final_model`.

In [None]:
labels = ...
xgb = ...
xgb

Como de costume, vamos fazer uma visualização com o DataFrame.

### Exercício:
Use o Plotly Express para criar um gráfico de barras lado a lado a partir de `xgb` que mostre a média das características em `X` para cada um dos clusters em seu `final_model`. Certifique-se de rotular o eixo x como `"Cluster"`, o eixo y como `"Valor [$]"` e usar o título `"Finanças dos Proprietários de Pequenos Negócios por Cluster"`.

In [None]:
# Create side-by-side bar chart of `xgb`

fig.show()

Lembre-se do que fizemos com dados de dimensões mais altas na última vez? Vamos fazer o mesmo aqui.

### Exercício:
Crie um transformador `PCA`, use-o para reduzir a dimensionalidade dos dados em `X` para 2, e depois coloque os dados transformados em um DataFrame chamado `X_pca`. As colunas de `X_pca` devem ser nomeadas como `"PC1"` e `"PC2"`.

In [None]:
# Instantiate transformer
pca = ...

# Transform `X`
X_t = ...

# Put `X_t` into DataFrame
X_pca = ...

print("X_pca shape:", X_pca.shape)
X_pca.head()

Finalmente, vamos fazer uma visualização do nosso DataFrame final.

**Task 6.5.20:** Use o Plotly Express para criar um gráfico de dispersão de `X_pca` usando seaborn. Certifique-se de colorir os pontos de dados usando os rótulos gerados pelo seu `final_model`. Rotule o eixo x como `"PC1"`, o eixo y como `"PC2"` e use o título `"Representação PCA dos Clusters"`.

In [None]:
# Create scatter plot of `PC2` vs `PC1`

fig.show()