import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from scipy import stats



# Clonar repositório e carregar dataset
!git clone https://github.com/gcerbaro/DSFinal_global_cancer_patients.git
%cd DSFinal_global_cancer_patients
df = pd.read_csv('./dataset/global_cancer_patients_2015_2024.csv')

# Filtrar outliers com Z-score (colunas numéricas)
df_num = df.select_dtypes(include=['float64', 'int64'])
z_scores = stats.zscore(df_num)
df = df[(abs(z_scores) < 3).all(axis=1)]

# Aplicar One Hot Encoding nas colunas categóricas
categorical_cols = ['Cancer_Type', 'Gender', 'Country_Region']
df_encoded = pd.get_dummies(df, columns=categorical_cols, drop_first=True)

def print_and_plot_avg(df, df_encoded):
    import matplotlib.pyplot as plt
    import seaborn as sns

    def add_values_on_bars(ax, values):
        for i, v in enumerate(values):
            ax.text(i, v + v*0.02, f'{v:.2f}', ha='center', va='bottom', fontsize=9)

    # Gráfico 1 - Top 10 Tipos de Câncer por Média de Sobrevivência
    mean_survival = df.groupby('Cancer_Type')['Survival_Years'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_survival.index, y=mean_survival.values, color='green')
    add_values_on_bars(ax, mean_survival.values)
    plt.title('Gráfico 1 - Top 10 Tipos de Câncer por Média de Sobrevivência')
    plt.xticks(rotation=45)
    plt.ylabel('Sobrevivência (anos)')
    plt.tight_layout()
    plt.show()

    # Gráfico 2 - Top 10 Tipos de Câncer por Custo Médio de Tratamento
    mean_cost = df.groupby('Cancer_Type')['Treatment_Cost_USD'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_cost.index, y=mean_cost.values, color='gray')
    add_values_on_bars(ax, mean_cost.values)
    plt.title('Gráfico 2 - Top 10 Tipos de Câncer por Custo Médio de Tratamento')
    plt.xticks(rotation=45)
    plt.ylabel('Custo Médio (USD)')
    plt.tight_layout()
    plt.show()

    # Gráfico 3 - Top 10 Tipos de Câncer por Risco Genético Médio
    mean_risk = df.groupby('Cancer_Type')['Genetic_Risk'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_risk.index, y=mean_risk.values, color='orange')
    add_values_on_bars(ax, mean_risk.values)
    plt.title('Gráfico 3 - Top 10 Tipos de Câncer por Risco Genético Médio')
    plt.xticks(rotation=45)
    plt.ylabel('Risco Genético')
    plt.tight_layout()
    plt.show()

    # Gráfico 4 - Top 10 Tipos de Câncer por Uso de Álcool
    mean_alcohol = df.groupby('Cancer_Type')['Alcohol_Use'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_alcohol.index, y=mean_alcohol.values, color='red')
    add_values_on_bars(ax, mean_alcohol.values)
    plt.title('Gráfico 4 - Top 10 Tipos de Câncer por Uso de Álcool')
    plt.xticks(rotation=45)
    plt.ylabel('Uso de Álcool')
    plt.tight_layout()
    plt.show()

    # Gráfico 5 - Média de Sobrevivência por Gênero
    mean_survival_gender = df.groupby('Gender')['Survival_Years'].mean()
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_survival_gender.index, y=mean_survival_gender.values, color='purple')
    add_values_on_bars(ax, mean_survival_gender.values)
    plt.title('Gráfico 5 - Média de Sobrevivência por Gênero')
    plt.ylabel('Sobrevivência (anos)')
    plt.tight_layout()
    plt.show()

    # Gráfico 6 - Top 10 Países por Custo Médio de Tratamento
    mean_cost_country = df.groupby('Country_Region')['Treatment_Cost_USD'].mean().sort_values(ascending=False).head(10)
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_cost_country.index, y=mean_cost_country.values, color='purple')
    add_values_on_bars(ax, mean_cost_country.values)
    plt.title('Gráfico 6 - Top 10 Países por Custo Médio de Tratamento')
    plt.xticks(rotation=45)
    plt.ylabel('Custo Médio (USD)')
    plt.tight_layout()
    plt.show()

    # Gráfico 7 - Média da Idade por Estágio do Câncer
    mean_age_stage = df.groupby('Cancer_Stage')['Age'].mean()
    plt.figure(figsize=(10,6))
    ax = sns.barplot(x=mean_age_stage.index, y=mean_age_stage.values, color='blue')
    add_values_on_bars(ax, mean_age_stage.values)
    plt.title('Gráfico 7 - Média da Idade por Estágio do Câncer')
    plt.xlabel('Estágio')
    plt.ylabel('Idade Média')
    plt.tight_layout()
    plt.show()

    # Gráfico 8 - Distribuição da Idade dos Pacientes
    plt.figure(figsize=(10,6))
    sns.histplot(df['Age'], bins=15, color='lightgreen')
    plt.title('Gráfico 8 - Distribuição da Idade dos Pacientes')
    plt.xlabel('Idade')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

    # Gráfico 9 - Distribuição do Custo de Tratamento
    plt.figure(figsize=(10,6))
    sns.histplot(df['Treatment_Cost_USD'], bins=15, color='lightcoral')
    plt.title('Gráfico 9 - Distribuição do Custo de Tratamento')
    plt.xlabel('Custo (USD)')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.tight_layout()
    plt.show()

    # Gráfico 10 - Sobrevivência x Custo do Tratamento
    plt.figure(figsize=(10,6))
    plt.scatter(df['Treatment_Cost_USD'], df['Survival_Years'], alpha=0.5, color='purple')
    plt.title('Gráfico 10 - Sobrevivência x Custo do Tratamento')
    plt.xlabel('Custo (USD)')
    plt.ylabel('Sobrevivência (anos)')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

    # Gráfico 11 - Distribuição por Sexo (pizza)
    plt.figure(figsize=(6,6))
    sex_counts = df['Gender'].value_counts()
    sex_counts.plot.pie(autopct='%1.1f%%', colors=['lightblue', 'pink'], startangle=90)
    plt.title('Gráfico 11 - Distribuição por Sexo')
    plt.ylabel('')
    plt.tight_layout()
    plt.show()

    # Gráfico 12 - Mapa de Correlação com Target_Severity_Score
    import numpy as np

    df_num = df_encoded.select_dtypes(include='number')
    corr_matrix = df_num.corr()

    if 'Target_Severity_Score' in corr_matrix.columns:
        corr_target = (
            corr_matrix['Target_Severity_Score']
            .drop('Target_Severity_Score')
            .dropna()
            .sort_values(key=abs, ascending=False)
        )

        colors = ['#d62728' if val > 0 else '#1f77b4' for val in corr_target.values]

        plt.figure(figsize=(10, 6))
        sns.set(style="whitegrid")

        ax = sns.barplot(x=corr_target.values, y=corr_target.index, palette=colors)

        for i, val in enumerate(corr_target.values):
            ax.text(val + 0.01 if val > 0 else val - 0.08, i, f"{val:.2f}", va='center', color='black', fontsize=9)

        plt.title("Gráfico 12 - Correlação com Target_Severity_Score")
        plt.xlabel("Correlação")
        plt.ylabel("Variáveis")
        plt.tight_layout()
        plt.show()

        print("\n📊 Análise das 5 variáveis mais correlacionadas com Target_Severity_Score:\n")
        for i, (col, val) in enumerate(corr_target.head(5).items(), start=1):
            direcao = "positiva" if val > 0 else "negativa"
            interpretacao = (
                f"{i}. A variável **{col}** tem correlação **{direcao} ({val:.2f})** com a gravidade dos casos. "
                f"Isso indica que, conforme o valor de **{col}** {'aumenta' if val > 0 else 'diminui'}, "
                f"a severidade tende a {'aumentar' if val > 0 else 'diminuir'}."
            )
            print(interpretacao)
    else:
        print("❌ A coluna 'Target_Severity_Score' não foi encontrada na matriz de correlação.")

    # Gráfico 13 - Média de Sobrevivência por categorias one-hot Gender
    gender_cols = [col for col in df_encoded.columns if col.startswith('Gender_')]
    for col in gender_cols:
        mean_surv = df_encoded.loc[df_encoded[col] == 1, 'Survival_Years'].mean()
        print(f'Gráfico 13 - Média de Sobrevivência para {col}: {mean_surv:.2f} anos')

    # Gráficos 14 a 19 - Scatter plots das variáveis mais correlacionadas ao Target_Severity_Score
    correl_vars = ['Smoking', 'Genetic_Risk', 'Alcohol_Use', 'Air_Pollution', 'Obesity_Level', 'Treatment_Cost_USD', 'Survival_Years']
    for i, var in enumerate(correl_vars, start=14):
        plt.figure(figsize=(8, 5))
        sns.regplot(x=df[var], y=df['Target_Severity_Score'], scatter_kws={'alpha':0.3}, line_kws={'color':'red'})
        plt.title(f'Gráfico {i} - {var} x Target_Severity_Score')
        plt.xlabel(var)
        plt.ylabel('Target_Severity_Score')
        plt.grid(True)
        plt.tight_layout()
        plt.show()

    # Gráfico 20 - Pairplot das principais variáveis correlacionadas com Target_Severity_Score
    pairplot_vars = ['Target_Severity_Score', 'Smoking', 'Genetic_Risk', 'Alcohol_Use', 'Survival_Years']
    sns.pairplot(df[pairplot_vars], corner=True, plot_kws={'alpha':0.5})
    plt.suptitle('Gráfico 20 - Pairplot - Variáveis mais correlacionadas com Target_Severity_Score', y=1.02)
    plt.show()

    # Gráficos 21 e 22 - Boxplots comparando Target_Severity_Score por faixas de algumas variáveis
    def categorize(column, bins, labels):
        return pd.cut(df[column], bins=bins, labels=labels, include_lowest=True)

    # Faixas de tabagismo
    df['Smoking_Level'] = categorize('Smoking', bins=[-0.01, 2, 4, 6, 10], labels=['Muito Baixo', 'Baixo', 'Moderado', 'Alto'])
    plt.figure(figsize=(8,6))
    sns.boxplot(x='Smoking_Level', y='Target_Severity_Score', data=df, palette='Reds')
    plt.title('Gráfico 21 - Target_Severity_Score por Nível de Tabagismo')
    plt.xlabel('Nível de Tabagismo')
    plt.ylabel('Target_Severity_Score')
    plt.tight_layout()
    plt.show()

    # Faixas de risco genético
    df['Genetic_Risk_Level'] = categorize('Genetic_Risk', bins=[-0.01, 2, 4, 6, 10], labels=['Muito Baixo', 'Baixo', 'Moderado', 'Alto'])
    plt.figure(figsize=(8,6))
    sns.boxplot(x='Genetic_Risk_Level', y='Target_Severity_Score', data=df, palette='Blues')
    plt.title('Gráfico 22 - Target_Severity_Score por Nível de Risco Genético')
    plt.xlabel('Nível de Risco Genético')
    plt.ylabel('Target_Severity_Score')
    plt.tight_layout()
    plt.show()

    # Gráfico 23 - Mapa de calor: severidade média por tipo de câncer e gênero
    pivot = df.pivot_table(index='Cancer_Type', columns='Gender', values='Target_Severity_Score', aggfunc='mean')
    plt.figure(figsize=(10, 8))
    sns.heatmap(pivot, annot=True, cmap='coolwarm', fmt=".1f", linewidths=0.5)
    plt.title('Gráfico 23 - Severidade Média por Tipo de Câncer e Gênero')
    plt.ylabel('Tipo de Câncer')
    plt.xlabel('Gênero')
    plt.tight_layout()
    plt.show()

    # Gráfico 24 - Exemplo extra: Boxplot da Sobrevivência por Estágio de Câncer (adicional)
    plt.figure(figsize=(10,6))
    sns.boxplot(x='Cancer_Stage', y='Survival_Years', data=df, palette='Pastel1')
    plt.title('Gráfico 24 - Sobrevivência por Estágio de Câncer')
    plt.xlabel('Estágio do Câncer')
    plt.ylabel('Sobrevivência (anos)')
    plt.tight_layout()
    plt.show()

# Executar tudo
print_and_plot_avg(df, df_encoded)