## Sumário

1. [Introdução](#1.-Introdução)
2. [EDA e Feature Engineering](#2.-EDA-e-Feature-Engineering)
3. [Clustering](#3.-Clustering)

   [Referências](#Referências)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore'
)

## 1. Introdução

Esse notebook tem como objetivo fornecer uma solução para o case proposto. Dessa forma, busca-se executar as atividades abaixo:

1. Classificar e caracterizar os municípios com base nos dados demográficos;
2. Identificar e justificar quais os municípios mais adequados para a entrada da empresa no mercado brasileiro;
3. Elaborar um modelo de classificação para identificar a qual grupo o município pertence.

São feitas algumas considerações sobre qual seria o ambiente ideal para produzir a população ideal para consumir bebidas industrializadas.

1. Conforme [1] e [2], o consumo de bebidas industrializadas é mais prevalente dentre a população mais jovem. Dessa forma, busca-se cidades que possuam alta taxa de crescimento populacional e um bom percentual de pessoas até 25 anos.

2. Conforme [3], o consumo de bebidas industrializadas é mais prevalente dentre a população de maior renda. Dessa forma busca-se cidades que possuam renda per capita alta e baixos indices de pobreza.

3. Entende-se que grandes cidades são adequadas por possuirem um potencial de clientes maior, além de possuir mais mão de obra para contratação, visto que a empresa ainda não está implantada. Dessa forma, busca-se cidades com alta taxa de crescimento populacional e grande quantidade de população.

4. Entende-se que populações mais urbanas apresentam maior facilidade para aceitar novos produtos. Dessa forma, busca-se cidades que tenham alto percentual de população urbana e que estejam próximas das capitais.

5. Por último, vale olhar para cases recentes de outros players, tal como o lançamento do Clash'd pela Heineken [4]. Os estados escolhidos pelo player concorrente devem ser levadas em consideração visto que provavelmente houve um extenso estudo antes da escolha.

Destaca-se que os dados das pesquisas não são recentes, no entanto os dados demográficos disponíveis também datam de 1991 e 2000, portanto há essa ressalva quanto a validade da análise desenvolvida.

## 2. EDA e Feature Engineering

Seleciona-se apenas as colunas de interesse conforme as considerações feitas na introdução. As colunas são renomeadas para facilitar o uso.

As features que serão utilizadas são:

1. Distância da capital
2. Taxa de fecundidade total em 2000
3. Renda per Capita
4. Intensidade de pobreza
5. % de População até 25 anos
6. População de até 25 anos em 2000
7. Taxa de crescimento da população de até 25 anos
8. % de População urbana
9. Estados em que o concorrente optou por lançar seu produto

Das quais as features 1 a 4 já estão prontas no dataset original e as features 5 a 9 serão obtidas.

In [2]:
cities_raw = pd.read_excel('data/raw_data.xls')

cities = cities_raw[[
    'Código',
    'Município',
    'UF',
    'Distância à capital (km)',
    'Taxa de fecundidade total, 2000',
    'Renda per Capita, 2000',
    'Intensidade da pobreza, 2000',
    'População de 25 anos ou mais de idade, 2000',
    'População de 25 anos ou mais de idade, 1991',
    'População total, 2000',
    'População total, 1991',
    'População urbana, 2000'
]]

cities.rename(columns={
    'Código': 'id',
    'Município': 'municipio',
    'UF': 'uf',
    'Distância à capital (km)': 'dist_cap_km',
    'Taxa de fecundidade total, 2000': 'taxa_fec',
    'Renda per Capita, 2000': 'renda_cap',
    'Intensidade da pobreza, 2000': 'pobreza',
    'População de 25 anos ou mais de idade, 2000': 'pop_25_mais_2000',
    'População de 25 anos ou mais de idade, 1991': 'pop_25_mais_1991',
    'População total, 2000': 'pop_total_2000',
    'População total, 1991': 'pop_total_1991',
    'População urbana, 2000': 'pop_urb_2000'
}, inplace=True)

cities.set_index(['id'], inplace=True)

Nota-se que não existem colunas com dados faltantes. Pelos boxplots percebe-se que existem outliers, mas isso é natual do dataset, existe a tendência de concentração de pessoas em grandes cidades, por exemplo. Dessa forma, não será necessário esforço para o tratamento dos dados.

In [3]:
cities.describe()

Unnamed: 0,dist_cap_km,taxa_fec,renda_cap,pobreza,pop_25_mais_2000,pop_25_mais_1991,pop_total_2000,pop_total_1991,pop_urb_2000
count,5507.0,5507.0,5507.0,5507.0,5507.0,5507.0,5507.0,5507.0,5507.0
mean,253.21262,2.864845,170.81416,47.08606,15516.93,12212.64,30833.33,26661.67,25050.66
std,163.210532,0.744454,96.425347,10.732511,103902.8,89237.83,186750.6,169000.4,180012.3
min,0.0,1.56,28.38,15.76,422.0,239.0,795.0,618.0,0.0
25%,121.858906,2.32,86.495,38.19,2502.0,2119.5,5152.5,4945.0,2402.5
50%,228.262939,2.67,159.1,46.23,4930.0,4084.0,10418.0,9748.0,5314.0
75%,358.072044,3.23,232.695,55.41,10040.0,8104.0,21356.5,18974.5,13240.5
max,1474.31459,7.79,954.65,83.03,5825893.0,5106165.0,10434250.0,9649519.0,9813187.0


In [4]:
# Comentado para facilitar a leitura do documento. Pode ser descomentado durante análises detalhadas.

# for column in cities.select_dtypes(exclude=['object']):
#     plt.figure()
#     cities.boxplot([column])

In [5]:
cities['pop_ate_25_2000'] = cities['pop_total_2000'] - cities['pop_25_mais_2000']
cities['pop_ate_25_1991'] = cities['pop_total_1991'] - cities['pop_25_mais_1991']

cities['perc_ate_25_2000'] = cities['pop_ate_25_2000'] / cities['pop_total_2000']
cities['var_pop_ate_25'] = cities['pop_ate_25_2000'] / cities['pop_ate_25_1991']

cities['perc_pop_urb'] = cities['pop_urb_2000'] / cities['pop_total_2000']

cities['player'] = np.where(cities['uf'].isin(['SP', 'RJ', 'MG', 'PR']), 1, 0)

cities = cities[[
    'dist_cap_km',
    'taxa_fec',
    'renda_cap',
    'pobreza',
    'pop_ate_25_2000',
    'perc_ate_25_2000',
    'var_pop_ate_25',
    'perc_pop_urb',
    'player'
]]

cities.to_csv('data/cities.csv', index=True)

## 3. Clustering

## Referências

[1. Pesquisa AFEBRAS - Idade](https://afrebras.org.br/noticias/pesquisa-revela-quem-consome-mais-refrigerante-no-pais/)

[2. Artigo UFPA - Idade](https://coesa.ufpa.br/arquivos/2018/expandido/pesquisa/epidemiologia/PES207.pdf)

[3. Pesquisa IBGE - Renda](https://www.uol.com.br/vivabem/noticias/redacao/2011/07/28/brasileiros-consomem-mais-de-15-milhoes-de-litros-de-refrigerante-por-dia-aponta-ibge.htm)

[4. Lançamento concorrente](https://www.heinekenbrasil.com.br/noticias/clash-d-grupo-heineken-inova-ao-lancar-primeiro-refrigerante-brewed-do-mercado-brasileiro/#)