import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from scipy import stats



# Clonar reposit√≥rio e carregar dataset
!git clone https://github.com/gcerbaro/DSFinal_global_cancer_patients.git
%cd DSFinal_global_cancer_patients
df = pd.read_csv('./dataset/global_cancer_patients_2015_2024.csv')

# Filtrar outliers com Z-score (colunas num√©ricas)
df_num = df.select_dtypes(include=['float64', 'int64'])
z_scores = stats.zscore(df_num)
df = df[(abs(z_scores) < 3).all(axis=1)]

# Aplicar One Hot Encoding nas colunas categ√≥ricas
categorical_cols = ['Cancer_Type', 'Gender', 'Country_Region']
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

def print_and_plot_avg(df, df_encoded):
    import matplotlib.pyplot as plt
    import seaborn as sns

    def add_values_on_bars(ax, values):
        for i, v in enumerate(values):
            ax.text(i, v + v*0.02, f'{v:.2f}', ha='center', va='bottom', fontsize=9)

    # Gr√°fico 1 - Top 10 Tipos de C√¢ncer por M√©dia de Sobreviv√™ncia
    mean_survival = df.groupby('Cancer_Type')['Survival_Years'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_survival.index, y=mean_survival.values, color='green')
    add_values_on_bars(ax, mean_survival.values)
    plt.title('Gr√°fico 1 - Top 10 Tipos de C√¢ncer por M√©dia de Sobreviv√™ncia')
    plt.xticks(rotation=45)
    plt.ylabel('Sobreviv√™ncia (anos)')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 2 - Top 10 Tipos de C√¢ncer por Custo M√©dio de Tratamento
    mean_cost = df.groupby('Cancer_Type')['Treatment_Cost_USD'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_cost.index, y=mean_cost.values, color='gray')
    add_values_on_bars(ax, mean_cost.values)
    plt.title('Gr√°fico 2 - Top 10 Tipos de C√¢ncer por Custo M√©dio de Tratamento')
    plt.xticks(rotation=45)
    plt.ylabel('Custo M√©dio (USD)')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 3 - Top 10 Tipos de C√¢ncer por Risco Gen√©tico M√©dio
    mean_risk = df.groupby('Cancer_Type')['Genetic_Risk'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_risk.index, y=mean_risk.values, color='orange')
    add_values_on_bars(ax, mean_risk.values)
    plt.title('Gr√°fico 3 - Top 10 Tipos de C√¢ncer por Risco Gen√©tico M√©dio')
    plt.xticks(rotation=45)
    plt.ylabel('Risco Gen√©tico')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 4 - Top 10 Tipos de C√¢ncer por Uso de √Ålcool
    mean_alcohol = df.groupby('Cancer_Type')['Alcohol_Use'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_alcohol.index, y=mean_alcohol.values, color='red')
    add_values_on_bars(ax, mean_alcohol.values)
    plt.title('Gr√°fico 4 - Top 10 Tipos de C√¢ncer por Uso de √Ålcool')
    plt.xticks(rotation=45)
    plt.ylabel('Uso de √Ålcool')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 5 - M√©dia de Sobreviv√™ncia por G√™nero
    mean_survival_gender = df.groupby('Gender')['Survival_Years'].mean()
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_survival_gender.index, y=mean_survival_gender.values, color='purple')
    add_values_on_bars(ax, mean_survival_gender.values)
    plt.title('Gr√°fico 5 - M√©dia de Sobreviv√™ncia por G√™nero')
    plt.ylabel('Sobreviv√™ncia (anos)')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 6 - Top 10 Pa√≠ses por Custo M√©dio de Tratamento
    mean_cost_country = df.groupby('Country_Region')['Treatment_Cost_USD'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_cost_country.index, y=mean_cost_country.values, color='purple')
    add_values_on_bars(ax, mean_cost_country.values)
    plt.title('Gr√°fico 6 - Top 10 Pa√≠ses por Custo M√©dio de Tratamento')
    plt.xticks(rotation=45)
    plt.ylabel('Custo M√©dio (USD)')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 7 - M√©dia da Idade por Est√°gio do C√¢ncer
    mean_age_stage = df.groupby('Cancer_Stage')['Age'].mean()
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_age_stage.index, y=mean_age_stage.values, color='blue')
    add_values_on_bars(ax, mean_age_stage.values)
    plt.title('Gr√°fico 7 - M√©dia da Idade por Est√°gio do C√¢ncer')
    plt.xlabel('Est√°gio')
    plt.ylabel('Idade M√©dia')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 8 - Distribui√ß√£o da Idade dos Pacientes
    plt.figure(figsize=(10,6))
    sns.histplot(df['Age'], bins=15, color='lightgreen')
    plt.title('Gr√°fico 8 - Distribui√ß√£o da Idade dos Pacientes')
    plt.xlabel('Idade')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 9 - Distribui√ß√£o do Custo de Tratamento
    plt.figure(figsize=(10,6))
    sns.histplot(df['Treatment_Cost_USD'], bins=15, color='lightcoral')
    plt.title('Gr√°fico 9 - Distribui√ß√£o do Custo de Tratamento')
    plt.xlabel('Custo (USD)')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 10 - Sobreviv√™ncia x Custo do Tratamento
    plt.figure(figsize=(10,6))
    plt.scatter(df['Treatment_Cost_USD'], df['Survival_Years'], alpha=0.5, color='purple')
    plt.title('Gr√°fico 10 - Sobreviv√™ncia x Custo do Tratamento')
    plt.xlabel('Custo (USD)')
    plt.ylabel('Sobreviv√™ncia (anos)')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

    # Gr√°fico 11 - Distribui√ß√£o por Sexo (pizza)
    plt.figure(figsize=(6,6))
    sex_counts = df['Gender'].value_counts()
    sex_counts.plot.pie(autopct='%1.1f%%', colors=['lightblue', 'pink'], startangle=90)
    plt.title('Gr√°fico 11 - Distribui√ß√£o por Sexo')
    plt.ylabel('')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 12 - Mapa de Correla√ß√£o com Target_Severity_Score
    import numpy as np

    df_num = df_encoded.select_dtypes(include='number')
    corr_matrix = df_num.corr()

    if 'Target_Severity_Score' in corr_matrix.columns:
        corr_target = (
            corr_matrix['Target_Severity_Score']
            .drop('Target_Severity_Score')
            .dropna()
            .sort_values(key=abs, ascending=False)
        )

        colors = ['#d62728' if val > 0 else '#1f77b4' for val in corr_target.values]

        plt.figure(figsize=(10, 6))
        sns.set(style="whitegrid")

        ax = sns.barplot(x=corr_target.values, y=corr_target.index, palette=colors)

        for i, val in enumerate(corr_target.values):
            ax.text(val + 0.01 if val > 0 else val - 0.08, i, f"{val:.2f}", va='center', color='black', fontsize=9)

        plt.title("Gr√°fico 12 - Correla√ß√£o com Target_Severity_Score")
        plt.xlabel("Correla√ß√£o")
        plt.ylabel("Vari√°veis")
        plt.tight_layout()
        plt.show()

        print("\nüìä An√°lise das 5 vari√°veis mais correlacionadas com Target_Severity_Score:\n")
        for i, (col, val) in enumerate(corr_target.head(5).items(), start=1):
            direcao = "positiva" if val > 0 else "negativa"
            interpretacao = (
                f"{i}. A vari√°vel **{col}** tem correla√ß√£o **{direcao} ({val:.2f})** com a gravidade dos casos. "
                f"Isso indica que, conforme o valor de **{col}** {'aumenta' if val > 0 else 'diminui'}, "
                f"a severidade tende a {'aumentar' if val > 0 else 'diminuir'}."
            )
            print(interpretacao)
    else:
        print("‚ùå A coluna 'Target_Severity_Score' n√£o foi encontrada na matriz de correla√ß√£o.")

    # Gr√°fico 13 - M√©dia de Sobreviv√™ncia por categorias one-hot Gender
    gender_cols = [col for col in df_encoded.columns if col.startswith('Gender_')]
    for col in gender_cols:
        mean_surv = df_encoded.loc[df_encoded[col] == 1, 'Survival_Years'].mean()
        print(f'Gr√°fico 13 - M√©dia de Sobreviv√™ncia para {col}: {mean_surv:.2f} anos')

    # Gr√°ficos 14 a 19 - Scatter plots das vari√°veis mais correlacionadas ao Target_Severity_Score
    correl_vars = ['Smoking', 'Genetic_Risk', 'Alcohol_Use', 'Air_Pollution', 'Obesity_Level', 'Treatment_Cost_USD', 'Survival_Years']
    for i, var in enumerate(correl_vars, start=14):
        plt.figure(figsize=(8, 5))
        sns.regplot(x=df[var], y=df['Target_Severity_Score'], scatter_kws={'alpha':0.3}, line_kws={'color':'red'})
        plt.title(f'Gr√°fico {i} - {var} x Target_Severity_Score')
        plt.xlabel(var)
        plt.ylabel('Target_Severity_Score')
        plt.grid(True)
        plt.tight_layout()
        plt.show()

    # Gr√°fico 20 - Pairplot das principais vari√°veis correlacionadas com Target_Severity_Score
    pairplot_vars = ['Target_Severity_Score', 'Smoking', 'Genetic_Risk', 'Alcohol_Use', 'Survival_Years']
    sns.pairplot(df[pairplot_vars], corner=True, plot_kws={'alpha':0.5})
    plt.suptitle('Gr√°fico 20 - Pairplot - Vari√°veis mais correlacionadas com Target_Severity_Score', y=1.02)
    plt.show()

    # Gr√°ficos 21 e 22 - Boxplots comparando Target_Severity_Score por faixas de algumas vari√°veis
    def categorize(column, bins, labels):
        return pd.cut(df[column], bins=bins, labels=labels, include_lowest=True)

    # Faixas de tabagismo
    df['Smoking_Level'] = categorize('Smoking', bins=[-0.01, 2, 4, 6, 10], labels=['Muito Baixo', 'Baixo', 'Moderado', 'Alto'])
    plt.figure(figsize=(8,6))
    sns.boxplot(x='Smoking_Level', y='Target_Severity_Score', data=df, palette='Reds')
    plt.title('Gr√°fico 21 - Target_Severity_Score por N√≠vel de Tabagismo')
    plt.xlabel('N√≠vel de Tabagismo')
    plt.ylabel('Target_Severity_Score')
    plt.tight_layout()
    plt.show()

    # Faixas de risco gen√©tico
    df['Genetic_Risk_Level'] = categorize('Genetic_Risk', bins=[-0.01, 2, 4, 6, 10], labels=['Muito Baixo', 'Baixo', 'Moderado', 'Alto'])
    plt.figure(figsize=(8,6))
    sns.boxplot(x='Genetic_Risk_Level', y='Target_Severity_Score', data=df, palette='Blues')
    plt.title('Gr√°fico 22 - Target_Severity_Score por N√≠vel de Risco Gen√©tico')
    plt.xlabel('N√≠vel de Risco Gen√©tico')
    plt.ylabel('Target_Severity_Score')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 23 - Mapa de calor: severidade m√©dia por tipo de c√¢ncer e g√™nero
    pivot = df.pivot_table(index='Cancer_Type', columns='Gender', values='Target_Severity_Score', aggfunc='mean')
    plt.figure(figsize=(10, 8))
    sns.heatmap(pivot, annot=True, cmap='coolwarm', fmt=".1f", linewidths=0.5)
    plt.title('Gr√°fico 23 - Severidade M√©dia por Tipo de C√¢ncer e G√™nero')
    plt.ylabel('Tipo de C√¢ncer')
    plt.xlabel('G√™nero')
    plt.tight_layout()
    plt.show()

    # Gr√°fico 24 - Exemplo extra: Boxplot da Sobreviv√™ncia por Est√°gio de C√¢ncer (adicional)
    plt.figure(figsize=(10,6))
    sns.boxplot(x='Cancer_Stage', y='Survival_Years', data=df, palette='Pastel1')
    plt.title('Gr√°fico 24 - Sobreviv√™ncia por Est√°gio de C√¢ncer')
    plt.xlabel('Est√°gio do C√¢ncer')
    plt.ylabel('Sobreviv√™ncia (anos)')
    plt.tight_layout()
    plt.show()

# Executar tudo
print_and_plot_avg(df, df_encoded)