
# Business Questions Analysis: Healthcare Data

This notebook answers key business questions related to healthcare using a dataset containing information on diseases in Brazil. The methods applied include regression models, clustering algorithms, and optimization techniques.



## 1. Previsão de Custo de Tratamento

**Pergunta:** Qual será o custo médio do tratamento para novos casos de doenças com base nos dados históricos?

**Aplicação:** Modelos de regressão linear ou árvores de regressão podem ser utilizados para prever o custo de tratamentos futuros com base nos fatores de doença, região e incidência.

### Passos:
1. Definir as variáveis preditoras e a variável alvo.
2. Dividir os dados em treino e teste.
3. Treinar um modelo de regressão linear para prever o custo de tratamento.


In [None]:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Defining features and target for cost prediction
X = df[['Incidência Anual (por 100k hab)', 'Número de Casos', 'Mortalidade (%)']]
y = df['Custo Médio do Tratamento (R$)']

# Splitting the data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Creating and training the linear regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Predictions and evaluation
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')



## 2. Segmentação de Pacientes para Tratamentos Específicos

**Pergunta:** Quais grupos de pacientes têm maior probabilidade de responder a determinados tipos de tratamento?

**Aplicação:** Algoritmos de agrupamento (clustering), como K-means, podem ser usados para identificar perfis de pacientes que respondem melhor a tipos específicos de tratamentos.

### Passos:
1. Aplicar K-means clustering com base nas características dos pacientes (faixa etária, doença, etc.).
2. Analisar os clusters formados.


In [None]:

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# Selecting features for clustering
X_clustering = df[['Incidência Anual (por 100k hab)', 'Mortalidade (%)', 'Número de Casos']]

# Applying KMeans
kmeans = KMeans(n_clusters=3, random_state=42)
df['Cluster'] = kmeans.fit_predict(X_clustering)

# Visualizing the clusters
plt.scatter(X_clustering.iloc[:, 0], X_clustering.iloc[:, 1], c=df['Cluster'], cmap='viridis')
plt.title('Patient Segmentation by Clusters')
plt.xlabel('Incidência Anual (por 100k hab)')
plt.ylabel('Mortalidade (%)')
plt.show()



## 3. Otimização de Alocação de Recursos

**Pergunta:** Como priorizar a alocação de recursos em regiões e doenças específicas para maximizar a eficiência dos tratamentos?

**Aplicação:** Técnicas de análise de decisão e modelos preditivos podem ajudar a alocar orçamentos e recursos médicos para áreas e doenças com maior demanda.

### Passos:
1. Identificar as regiões e doenças mais críticas.
2. Criar um modelo para otimizar a alocação de recursos nessas áreas.


In [None]:

# Grouping data by region and calculating total cases and costs
resource_allocation = df.groupby('Região mais Afetada').agg({
    'Número de Casos': 'sum',
    'Custo Médio do Tratamento (R$)': 'mean'
}).sort_values(by='Número de Casos', ascending=False)

# Displaying the regions with the highest need for resources
resource_allocation.head()



## 4. Análise da Eficácia de Tratamentos

**Pergunta:** Qual tratamento tem maior eficácia em termos de redução de casos e mortalidade?

**Aplicação:** Algoritmos de classificação e análise de sobrevivência podem ser usados para analisar os resultados de diferentes tipos de tratamentos.

### Passos:
1. Agrupar os dados pelo tipo de tratamento.
2. Comparar a eficácia em termos de mortalidade e incidência.


In [None]:

# Grouping data by treatment type and comparing efficacy
treatment_effectiveness = df.groupby('Tipo de Tratamento').agg({
    'Incidência Anual (por 100k hab)': 'mean',
    'Mortalidade (%)': 'mean'
}).sort_values(by='Mortalidade (%)')

# Displaying the effectiveness of treatments
treatment_effectiveness.head()
