# Todas as Hipóteses levantadas, com base na análise individual de cada base
Ao todo, foram formuladas cinco hipóteses iniciais com base na análise individual de cada base de dados, considerando a possibilidade de expansão estratégica de uma rede de laboratórios em regiões que:
1. Possuem a maior quantidade populacional, dentro da média de idade mais comuns em realizar exames mais lucrativos.
2. Os laboratórios possuem maior lucratividade, independente de quantos laboratórios já existem.
3. Mais ricas.
4. Se enquadram na faixa de renda e no preço do exame a ser pago.
5. Tendem a realizar exames em que a lucratividade (valor recebido - custo de realização) seja mais elevada.
6. Possuem o maior número de moradores, que pertencem a idade mais comum da realização dos exames que geram maior valor de receita.

# Hipótese Final
Após uma análise aprofundada e integrada de todas as bases de dados, chegou-se à seguinte hipótese final:

- Para uma expansão estratégica eficaz, a rede de laboratórios deve priorizar as três ZCTAs que apresentam o maior volume populacional, cujas faixas etárias estejam alinhadas com os grupos mais recorrentes na realização dos exames com maior geração de receita líquida.

Ou seja, a ideia é focar em três regiões específicas (ZCTAs) que tenham uma população grande e que esteja principalmente nas faixas de idade que mais costumam fazer os exames que geram mais lucro pro laboratório. Portanto, regiões populosas e com o perfil que traz retornos financeiros

Para tal conclusão, segue os passos abaixo:

#### Passo 1: Importação das duas bases de dados analíticas criadas
- A base "final_analytical_exams" contêm: código do exame, custo do laboratório para realizar o exame, valor pago pelo paciente, receita líquida do exame, total de vezes que o mesmo já foi feito, valor total da receita líquida (lucro*transações) e as 3 idades que mais fizeram aquele exame.
- A base "final_analytical_demographic contêm: o número identificado dar ZCTA, seu total populacional, as 3 faixas etárias selecionadas e suas respectivas % em comparação a população total

In [1]:
import pandas as pd
from collections import Counter

# Carregando as bases analíticas
df_exams = pd.read_csv('../data/final_analytical_exams.csv')
df_demographic = pd.read_csv('../data/final_analytical_demographic.csv')

# Confirmar leitura
display(df_exams.head(5))
display(df_demographic.head(5))

Unnamed: 0,CodItem,Exam_Cost,Patient_Price,Net_Revenue,Total_Transactions,Total_Net_Revenue,Top_3_Ages
0,70000498,33.89,314.0,280.11,4146,1161336.06,"32, 33, 34"
1,70000638,2.46,13.0,10.54,65946,695070.84,"37, 31, 36"
2,70000644,2.63,63.0,60.37,5635,340184.95,"36, 34, 35"
3,70000985,2.23,82.0,79.77,7959,634889.43,"34, 36, 31"
4,70001115,1.2,39.0,37.8,23651,894007.8,"56, 53, 54"


Unnamed: 0,ZCTA,TotalPopulation,Population_25to34Years,Population_55to59Years,Population_45to54Years,25to34Years (%),55to59Years (%),45to54Years (%)
0,ZCTA5 35004,12045,2088,886,1200,17.3,7.4,10.0
1,ZCTA5 35005,7344,788,612,968,10.7,8.3,13.2
2,ZCTA5 35006,2883,183,296,430,6.3,10.3,14.9
3,ZCTA5 35007,26332,3119,1665,3907,11.8,6.3,14.8
4,ZCTA5 35010,20613,2513,1512,2950,12.2,7.3,14.3


#### Passo 2: Encontrar os exames mais lucrativos

In [16]:
# Selecionar apenas as colunas desejadas
df_resumo = df_exams[['CodItem', 'Exam_Cost', 'Patient_Price', 'Total_Net_Revenue']]

# Ordenar pela maior receita líquida
df_resumo = df_resumo.sort_values(by='Total_Net_Revenue', ascending=False)

display(df_resumo.head(10))

Unnamed: 0,CodItem,Exam_Cost,Patient_Price,Total_Net_Revenue
21,70005588,94.43,567.0,1682821.77
18,70004461,3.81,94.0,1318397.42
0,70000498,33.89,314.0,1161336.06
27,70006555,1.08,49.0,979101.44
23,70006146,1.23,31.0,948561.51
12,70003846,3.29,36.0,904333.37
4,70001115,1.2,39.0,894007.8
1,70000638,2.46,13.0,695070.84
3,70000985,2.23,82.0,634889.43
10,70003300,131.35,405.0,531701.95


#### Passo 3: Analizar as 3 idades mais recorrentes dos exames lucrativos

In [32]:
df_idades = df_exams[['CodItem', 'Total_Net_Revenue', 'Top_3_Ages']]
display(df_idades.head(10))

Unnamed: 0,CodItem,Total_Net_Revenue,Top_3_Ages
0,70000498,1161336.06,"32, 33, 34"
1,70000638,695070.84,"37, 31, 36"
2,70000644,340184.95,"36, 34, 35"
3,70000985,634889.43,"34, 36, 31"
4,70001115,894007.8,"56, 53, 54"
5,70001276,382678.05,"56, 54, 57"
6,70001597,407145.87,"2, 3, 36"
7,70001706,265450.44,"56, 55, 41"
8,70001721,400823.88,"50, 60, 53"
9,70002086,475035.06,"56, 52, 57"


#### Passo 3: Visto que as idades mais recorrentes dos exames mais lucrativos estão dentro da faixa etária de 25-34, 55-59 e 45-54, vamos identificar as ZCTAs mais populosas e, que possuem essas faixas etárias dominantes. Dando prioridade as faixas 25-34 e 55-59

In [11]:
# Ordena pelas regiões mais populosas
df_resultado = df_demographic[['ZCTA', '25to34Years (%)', '55to59Years (%)', '45to54Years (%)', 'TotalPopulation']]
df_resultado = df_resultado.sort_values(by='TotalPopulation', ascending=False)

display(df_resultado.head(10))

Unnamed: 0,ZCTA,25to34Years (%),55to59Years (%),45to54Years (%),TotalPopulation
28338,ZCTA5 77449,14.9,4.7,13.6,128294
28375,ZCTA5 77494,10.3,4.3,15.3,118291
19135,ZCTA5 11368,18.1,4.6,12.0,112088
29291,ZCTA5 79936,15.1,6.4,12.9,111620
1885,ZCTA5 90011,16.2,4.1,12.2,111165
6960,ZCTA5 60629,15.6,5.0,11.9,110029
27375,ZCTA5 75034,11.1,5.2,16.2,108525
19146,ZCTA5 11385,18.2,6.1,13.8,107796
28236,ZCTA5 77084,15.3,5.2,13.1,107673
2091,ZCTA5 91331,16.5,6.3,12.7,105458


#### Passo 4: Seleção das 3 ZCTAs finais: 
1. **ZCTA5 77449** - Essa região tem a maior população dentre as filtradas, o que representa um grande potencial de demanda. Além disso, 14,9% da população está na faixa de 25 a 34 anos, que é a mais recorrente nos exames que geram maior receita líquida. Ou seja, tem volume e perfil demográfico alinhado com os exames mais lucrativos.
2. **ZCTA5 79936** - Com mais de 110 mil habitantes e 15,1% da população na faixa de 25 a 34 anos, essa região une alto volume populacional com uma forte presença da faixa etária que mais realiza os exames de maior rentabilidade. É uma região estratégica por ter um perfil populacional muito alinhado com o público-alvo dos exames mais lucrativos.
3. **ZCTA5 11385** - Apesar de ter uma população um pouco menor que as outras duas, se destaca por ter a maior concentração proporcional da faixa etária 25–34 anos. Como essa é a faixa que mais consome os exames com maior lucro, essa ZCTA é altamente qualificada em termos de público-alvo, representando um ótimo retorno em potencial.

In [None]:
# Lista de ZCTAs a mostrar
zctas_desejadas = ['ZCTA5 77449', 'ZCTA5 79936', 'ZCTA5 11385']

# Filtra apenas as linhas desejadas
df_filtrado = df_resultado[df_resultado['ZCTA'].isin(zctas_desejadas)]

display(df_filtrado)

Unnamed: 0,ZCTA,25to34Years (%),55to59Years (%),45to54Years (%),TotalPopulation
28338,ZCTA5 77449,14.9,4.7,13.6,128294
29291,ZCTA5 79936,15.1,6.4,12.9,111620
19146,ZCTA5 11385,18.2,6.1,13.8,107796
