import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from scipy import stats

# Clonar repositório e carregar dataset
!git clone https://github.com/gcerbaro/DSFinal_global_cancer_patients.git
%cd DSFinal_global_cancer_patients
df = pd.read_csv('./dataset/global_cancer_patients_2015_2024.csv')

# Filtrar outliers com Z-score (colunas numéricas)
df_num = df.select_dtypes(include=['float64', 'int64'])
z_scores = stats.zscore(df_num)
df = df[(abs(z_scores) < 3).all(axis=1)]

# Aplicar One Hot Encoding nas colunas categóricas
categorical_cols = ['Cancer_Type', 'Gender', 'Country_Region']
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

def print_and_plot_avg(df, df_encoded):
    import matplotlib.pyplot as plt
    import seaborn as sns

    def add_values_on_bars(ax, values):
        for i, v in enumerate(values):
            ax.text(i, v + v*0.02, f'{v:.2f}', ha='center', va='bottom', fontsize=9)

    # 1. Média de Sobrevivência por Tipo de Câncer (top 10)
    mean_survival = df.groupby('Cancer_Type')['Survival_Years'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_survival.index, y=mean_survival.values, color='green')
    add_values_on_bars(ax, mean_survival.values)
    plt.title('Top 10 Tipos de Câncer por Média de Sobrevivência')
    plt.xticks(rotation=45)
    plt.ylabel('Sobrevivência (anos)')
    plt.tight_layout()
    plt.show()

    # 2. Média do Custo do Tratamento por Tipo de Câncer (top 10)
    mean_cost = df.groupby('Cancer_Type')['Treatment_Cost_USD'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_cost.index, y=mean_cost.values, color='gray')
    add_values_on_bars(ax, mean_cost.values)
    plt.title('Top 10 Tipos de Câncer por Custo Médio de Tratamento')
    plt.xticks(rotation=45)
    plt.ylabel('Custo Médio (USD)')
    plt.tight_layout()
    plt.show()

    # 3. Média do Risco Genético por Tipo de Câncer (top 10)
    mean_risk = df.groupby('Cancer_Type')['Genetic_Risk'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_risk.index, y=mean_risk.values, color='orange')
    add_values_on_bars(ax, mean_risk.values)
    plt.title('Top 10 Tipos de Câncer por Risco Genético Médio')
    plt.xticks(rotation=45)
    plt.ylabel('Risco Genético')
    plt.tight_layout()
    plt.show()

    # 4. Média do Uso de Álcool por Tipo de Câncer (top 10)
    mean_alcohol = df.groupby('Cancer_Type')['Alcohol_Use'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_alcohol.index, y=mean_alcohol.values, color='red')
    add_values_on_bars(ax, mean_alcohol.values)
    plt.title('Top 10 Tipos de Câncer por Uso de Álcool')
    plt.xticks(rotation=45)
    plt.ylabel('Uso de Álcool')
    plt.tight_layout()
    plt.show()

    # 5. Média da Sobrevivência por Gênero
    mean_survival_gender = df.groupby('Gender')['Survival_Years'].mean()
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_survival_gender.index, y=mean_survival_gender.values, color='purple')
    add_values_on_bars(ax, mean_survival_gender.values)
    plt.title('Média de Sobrevivência por Gênero')
    plt.ylabel('Sobrevivência (anos)')
    plt.tight_layout()
    plt.show()

    # 6. Média do Custo de Tratamento por País (top 10)
    mean_cost_country = df.groupby('Country_Region')['Treatment_Cost_USD'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_cost_country.index, y=mean_cost_country.values, color='purple')
    add_values_on_bars(ax, mean_cost_country.values)
    plt.title('Top 10 Países por Custo Médio de Tratamento')
    plt.xticks(rotation=45)
    plt.ylabel('Custo Médio (USD)')
    plt.tight_layout()
    plt.show()

    # 7. Média da Idade por Estágio do Câncer
    mean_age_stage = df.groupby('Cancer_Stage')['Age'].mean()
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_age_stage.index, y=mean_age_stage.values, color='blue')
    add_values_on_bars(ax, mean_age_stage.values)
    plt.title('Média da Idade por Estágio do Câncer')
    plt.xlabel('Estágio')
    plt.ylabel('Idade Média')
    plt.tight_layout()
    plt.show()

    # Para os histogramas e scatter, mantive o tamanho padrão, mas posso aumentar se quiser.

    # 8. Distribuição da Idade (histograma)
    plt.figure(figsize=(10,6))
    sns.histplot(df['Age'], bins=15, color='lightgreen')
    plt.title('Distribuição da Idade dos Pacientes')
    plt.xlabel('Idade')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

    # 9. Distribuição do Custo de Tratamento (histograma)
    plt.figure(figsize=(10,6))
    sns.histplot(df['Treatment_Cost_USD'], bins=15, color='lightcoral')
    plt.title('Distribuição do Custo de Tratamento')
    plt.xlabel('Custo (USD)')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

    # 10. Sobrevivência x Custo do Tratamento (scatter plot)
    plt.figure(figsize=(10,6))
    plt.scatter(df['Treatment_Cost_USD'], df['Survival_Years'], alpha=0.5, color='purple')
    plt.title('Sobrevivência x Custo do Tratamento')
    plt.xlabel('Custo (USD)')
    plt.ylabel('Sobrevivência (anos)')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

    # 11. Distribuição por Sexo (pizza)
    plt.figure(figsize=(6,6))
    sex_counts = df['Gender'].value_counts()
    sex_counts.plot.pie(autopct='%1.1f%%', colors=['lightblue', 'pink'], startangle=90)
    plt.title('Distribuição por Sexo')
    plt.ylabel('')
    plt.tight_layout()
    plt.show()

    # 12. Mapa de Correlação (colunas numéricas)
    plt.figure(figsize=(12,8))
    corr = df_encoded.select_dtypes(include=['number']).corr()
    sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f', cbar_kws={"shrink": .8})
    plt.title('Mapa de Correlação (incluindo One Hot Encoding)')
    plt.tight_layout()
    plt.show()

    # 13. Exemplo: Média de Sobrevivência por categorias one-hot Gender
    gender_cols = [col for col in df_encoded.columns if col.startswith('Gender_')]
    for col in gender_cols:
        mean_surv = df_encoded.loc[df_encoded[col] == 1, 'Survival_Years'].mean()
        print(f'Média de Sobrevivência para {col}: {mean_surv:.2f} anos')

# Executar tudo
print_and_plot_avg(df, df_encoded)
