# Análise Exploratória de Dados (EDA) - Expansão da Rede de Laboratórios

Este notebook tem o objetivo de realizar uma análise exploratória dos dados disponíveis para apoiar a estratégia de expansão da rede de laboratórios. São analisados os seguintes datasets:

- **transactional_data.csv:** Registros dos exames realizados (volume, receita, data, etc.).
- **exams_data.csv:** Informações técnicas e financeiras dos exames (ex.: custo, especificações).
- **df_geocode.csv:** Dados de localização dos laboratórios (endereço, latitude, longitude, ZCTA).
- **EconomicData_ZCTAs.csv:** Indicadores econômicos por ZCTA (ex.: renda média).
- **DemographicData_ZCTAs.csv:** Indicadores demográficos por ZCTA (ex.: população, densidade).

O fluxo deste notebook contempla:

1. Importação de bibliotecas e carregamento dos dados;
2. Verificação de consistência, missing values e estatísticas descritivas;
3. Visualizações exploratórias (distribuição de variáveis, análise de outliers, geolocalização e relações entre indicadores);
4. Integração dos dados para identificar relações entre performance dos laboratórios e indicadores econômicos/demográficos.


## 1. Importação das Bibliotecas e Carregamento dos Dados

In [None]:
# Importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Configurar matplotlib para exibir os gráficos inline
%matplotlib inline

# Carregar os datasets
transactional_data = pd.read_csv('transactional_data.csv')
exams_data = pd.read_csv('exams_data.csv')
geocode_data = pd.read_csv('df_geocode.csv')
economic_data = pd.read_csv('EconomicData_ZCTAs.csv')
demographic_data = pd.read_csv('DemographicData_ZCTAs.csv')

# Exibir as primeiras linhas de cada dataset
print('--- Transactional Data ---')
print(transactional_data.head())

print('\n--- Exams Data ---')
print(exams_data.head())

print('\n--- Geocode Data ---')
print(geocode_data.head())

print('\n--- Economic Data ---')
print(economic_data.head())

print('\n--- Demographic Data ---')
print(demographic_data.head())

## 2. Verificação de Consistência e Qualidade dos Dados

Nesta seção, realizaremos uma análise para identificar:

- Informações gerais dos datasets;
- Valores ausentes e possíveis inconsistências;
- Estatísticas descritivas para variáveis numéricas.

In [None]:
# Informações gerais e valores ausentes

print('--- Transactional Data Info ---')
print(transactional_data.info())
print('\nValores ausentes (Transactional Data):')
print(transactional_data.isnull().sum())

print('\n--- Exams Data Info ---')
print(exams_data.info())
print('\nValores ausentes (Exams Data):')
print(exams_data.isnull().sum())

print('\n--- Geocode Data Info ---')
print(geocode_data.info())
print('\nValores ausentes (Geocode Data):')
print(geocode_data.isnull().sum())

print('\n--- Economic Data Info ---')
print(economic_data.info())
print('\nValores ausentes (Economic Data):')
print(economic_data.isnull().sum())

print('\n--- Demographic Data Info ---')
print(demographic_data.info())
print('\nValores ausentes (Demographic Data):')
print(demographic_data.isnull().sum())

### Estatísticas Descritivas

In [None]:
print('--- Estatísticas Descritivas - Transactional Data ---')
print(transactional_data.describe())

print('\n--- Estatísticas Descritivas - Exams Data ---')
print(exams_data.describe())

print('\n--- Estatísticas Descritivas - Economic Data ---')
print(economic_data.describe())

print('\n--- Estatísticas Descritivas - Demographic Data ---')
print(demographic_data.describe())

## 3. Visualizações e Análise Exploratória

Nesta etapa, iremos explorar visualmente os dados para identificar distribuições, outliers e relações entre as variáveis.

### 3.1. Distribuição dos Volumes de Exames e Identificação de Outliers

In [None]:
# Histograma do volume de exames (substitua 'volume' pelo nome correto da coluna se necessário)
plt.figure(figsize=(10, 6))
plt.hist(transactional_data['volume'], bins=30, edgecolor='black')
plt.title('Distribuição do Volume de Exames')
plt.xlabel('Volume de Exames')
plt.ylabel('Frequência')
plt.show()

# Boxplot para identificar possíveis outliers no volume de exames
plt.figure(figsize=(10, 6))
plt.boxplot(transactional_data['volume'].dropna())
plt.title('Boxplot do Volume de Exames')
plt.ylabel('Volume de Exames')
plt.show()

### 3.2. Análise do Custo dos Exames

Se o dataset de exames (exams_data) possuir uma coluna com o custo de aplicação, visualizaremos sua distribuição.

In [None]:
# Histograma do custo dos exames (substitua 'custo' pelo nome correto da coluna)
plt.figure(figsize=(10, 6))
plt.hist(exams_data['custo'], bins=30, edgecolor='black')
plt.title('Distribuição do Custo dos Exames')
plt.xlabel('Custo')
plt.ylabel('Frequência')
plt.show()

### 3.3. Análise Geográfica dos Laboratórios

Visualizaremos a distribuição dos laboratórios com base nas coordenadas (latitude e longitude) disponíveis no dataset de geocode.

In [None]:
# Scatter plot da localização dos laboratórios
plt.figure(figsize=(10, 6))
plt.scatter(geocode_data['longitude'], geocode_data['latitude'], alpha=0.6)
plt.title('Localização dos Laboratórios')
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.show()

### 3.4. Análise dos Dados Econômicos e Demográficos por ZCTA

Exploraremos as distribuições de variáveis como renda média e população para identificar padrões por região.

In [None]:
# Histograma da renda média (substitua 'renda_media' pelo nome correto da coluna em economic_data)
plt.figure(figsize=(10, 6))
plt.hist(economic_data['renda_media'], bins=30, edgecolor='black')
plt.title('Distribuição da Renda Média por ZCTA')
plt.xlabel('Renda Média')
plt.ylabel('Frequência')
plt.show()

# Histograma da população (substitua 'populacao' pelo nome correto da coluna em demographic_data)
plt.figure(figsize=(10, 6))
plt.hist(demographic_data['populacao'], bins=30, edgecolor='black')
plt.title('Distribuição da População por ZCTA')
plt.xlabel('População')
plt.ylabel('Frequência')
plt.show()

### 3.5. Correlação entre Indicadores Econômicos e Demográficos

Realizaremos a junção dos datasets de indicadores econômicos e demográficos (usando o ZCTA como chave) e exibiremos a matriz de correlação.

In [None]:
# Supondo que ambos os datasets possuam a coluna 'ZCTA'
zcta_data = pd.merge(economic_data, demographic_data, on='ZCTA', how='inner')

# Cálculo da matriz de correlação
corr = zcta_data.corr()

# Visualização da matriz de correlação
plt.figure(figsize=(10, 8))
plt.matshow(corr, fignum=1)
plt.xticks(range(len(corr.columns)), corr.columns, rotation=90)
plt.yticks(range(len(corr.columns)), corr.columns)
plt.colorbar()
plt.title('Matriz de Correlação - Indicadores Econômicos e Demográficos', pad=20)
plt.show()

print('Matriz de Correlação:')
print(corr)

## 4. Integração dos Dados e Insights Combinados

Nesta etapa, combinamos os dados dos laboratórios com os indicadores por ZCTA para analisar como as variáveis operacionais se relacionam com as condições econômicas e demográficas das regiões.

In [None]:
# Agregação dos dados transacionais por ZCTA
# Certifique-se de que a coluna 'ZCTA' esteja presente em transactional_data
trans_zcta = transactional_data.groupby('ZCTA').agg({'volume': 'sum', 'receita': 'sum'}).reset_index()

# Merge dos dados agregados com informações de geocode, econômicos e demográficos
zcta_complete = pd.merge(trans_zcta, geocode_data[['ZCTA']], on='ZCTA', how='left')
zcta_complete = pd.merge(zcta_complete, economic_data, on='ZCTA', how='left')
zcta_complete = pd.merge(zcta_complete, demographic_data, on='ZCTA', how='left')

print('Dados combinados por ZCTA:')
print(zcta_complete.head())

### 4.1. Relação entre Performance dos Laboratórios e Indicadores Econômicos/Demográficos

In [None]:
# Scatter plot relacionando volume de exames e renda média
plt.figure(figsize=(10, 6))
plt.scatter(zcta_complete['renda_media'], zcta_complete['volume'], alpha=0.6)
plt.title('Relação entre Renda Média e Volume de Exames')
plt.xlabel('Renda Média')
plt.ylabel('Volume de Exames')
plt.show()

# Scatter plot relacionando receita e população
plt.figure(figsize=(10, 6))
plt.scatter(zcta_complete['populacao'], zcta_complete['receita'], alpha=0.6)
plt.title('Relação entre População e Receita')
plt.xlabel('População')
plt.ylabel('Receita')
plt.show()

## 5. Considerações Finais e Próximos Passos

**Insights Iniciais:**
- Identificação de outliers e distribuição dos volumes de exames.
- Relação entre custos, receitas e indicadores econômicos/demográficos.
- Padrões geográficos que podem embasar decisões estratégicas.

**Próximos Passos:**
- Refinar a análise com técnicas de modelagem e clustering para identificar ZCTAs com maior potencial de expansão.
- Desenvolver um pipeline automatizado que atualize os dados e reexecute a análise.
- Integrar os insights obtidos na estratégia de expansão e fidelização de clientes.

Este notebook serve como ponto de partida para aprofundar a compreensão dos dados e apoiar a tomada de decisão com base em evidências quantitativas.