import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Carregar o dataset
df = pd.read_csv('/content/drive/MyDrive/global_cancer_patients_2015_2024.csv')

def print_and_plot():
    # 1. Pacientes por Tipo de Câncer
    print("\n1. Pacientes por Tipo de Câncer:")
    counts = df['Cancer_Type'].value_counts()
    print(counts)
    counts.plot.bar(color='skyblue')
    plt.title('Pacientes por Tipo de Câncer')
    plt.xlabel('Tipo de Câncer')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.show()

    # 2. Média de Sobrevivência por Tipo de Câncer
    print("\n2. Média de Sobrevivência por Tipo de Câncer:")
    mean_survival = df.groupby('Cancer_Type')['Survival_Years'].mean().sort_values(ascending=False)
    print(mean_survival)
    mean_survival.plot.bar(color='darkgreen')
    plt.title('Média de Sobrevivência por Tipo de Câncer')
    plt.xlabel('Tipo de Câncer')
    plt.ylabel('Sobrevivência (anos)')
    plt.grid(axis='y')
    plt.show()

    # 3. Média do Custo do Tratamento por Tipo de Câncer
    print("\n3. Média do Custo do Tratamento por Tipo de Câncer:")
    mean_cost = df.groupby('Cancer_Type')['Treatment_Cost_USD'].mean().sort_values(ascending=False)
    print(mean_cost)
    mean_cost.plot.bar(color='darkgrey')
    plt.title('Média do Custo do Tratamento por Tipo de Câncer')
    plt.xlabel('Tipo de Câncer')
    plt.ylabel('Custo Médio (USD)')
    plt.grid(axis='y')
    plt.show()

    # 4. Estatísticas da Idade dos Pacientes
    print("\n4. Estatísticas da Idade dos Pacientes:")
    print(df['Age'].describe())
    plt.hist(df['Age'], bins=15, color='lightgreen')
    plt.title('Distribuição da Idade dos Pacientes')
    plt.xlabel('Idade')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.show()

    # 5. Estatísticas do Custo do Tratamento
    print("\n5. Estatísticas do Custo do Tratamento:")
    print(df['Treatment_Cost_USD'].describe())
    plt.hist(df['Treatment_Cost_USD'], bins=15, color='lightcoral')
    plt.title('Distribuição do Custo do Tratamento')
    plt.xlabel('Custo (USD)')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.show()

    # 6. Pacientes por País
    print("\n6. Pacientes por País:")
    counts_country = df['Country_Region'].value_counts()
    print(counts_country)
    counts_country.plot.bar(color='orchid')
    plt.title('Pacientes por País')
    plt.xlabel('País')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.show()

    # 7. Pacientes por Estágio do Câncer
    print("\n7. Pacientes por Estágio do Câncer:")
    counts_stage = df['Cancer_Stage'].value_counts()
    print(counts_stage)
    counts_stage.plot.bar(color='mediumslateblue')
    plt.title('Pacientes por Estágio do Câncer')
    plt.xlabel('Estágio')
    plt.ylabel('Quantidade')
    plt.grid(axis='y')
    plt.show()

    # 8. Média de Risco Genético por Tipo de Câncer
    print("\n8. Média de Risco Genético por Tipo de Câncer:")
    mean_risk = df.groupby('Cancer_Type')['Genetic_Risk'].mean().sort_values(ascending=False)
    print(mean_risk)
    mean_risk.plot.bar(color='goldenrod')
    plt.title('Média de Risco Genético por Tipo de Câncer')
    plt.xlabel('Tipo de Câncer')
    plt.ylabel('Risco Genético')
    plt.grid(axis='y')
    plt.show()

    # 9. Média de Sobrevivência por Gênero
    print("\n9. Média de Sobrevivência por Gênero:")
    mean_survival_gender = df.groupby('Gender')['Survival_Years'].mean()
    print(mean_survival_gender)
    mean_survival_gender.plot.bar(color='deepskyblue')
    plt.title('Média de Sobrevivência por Gênero')
    plt.xlabel('Gênero')
    plt.ylabel('Sobrevivência (anos)')
    plt.grid(axis='y')
    plt.show()

    # 10. Média de Uso de Álcool por Tipo de Câncer
    print("\n10. Média de Uso de Álcool por Tipo de Câncer:")
    mean_alcohol = df.groupby('Cancer_Type')['Alcohol_Use'].mean().sort_values(ascending=False)
    print(mean_alcohol)
    mean_alcohol.plot.bar(color='salmon')
    plt.title('Média de Uso de Álcool por Tipo de Câncer')
    plt.xlabel('Tipo de Câncer')
    plt.ylabel('Uso de Álcool')
    plt.grid(axis='y')
    plt.show()

    # 11. Distribuição por Sexo
    print("\n11. Distribuição por Sexo:")
    sex_counts = df['Gender'].value_counts()
    print(sex_counts)
    sex_counts.plot.pie(autopct='%1.1f%%', colors=['lightblue', 'pink'], startangle=90)
    plt.title('Distribuição de Pacientes por Sexo')
    plt.ylabel('')
    plt.show()

    # 12. Correlação entre variáveis numéricas
    print("\n12. Correlação entre variáveis numéricas:")
    corr = df.select_dtypes(include='number').corr()
    print(corr)
    plt.figure(figsize=(8,6))
    sns.heatmap(corr, annot=True, cmap='coolwarm')
    plt.title('Mapa de Correlação')
    plt.show()

    # 13. Sobrevivência x Custo do Tratamento (scatter plot)
    print("\n13. Sobrevivência x Custo do Tratamento:")
    plt.scatter(df['Treatment_Cost_USD'], df['Survival_Years'], alpha=0.6, color='purple')
    plt.title('Sobrevivência x Custo do Tratamento')
    plt.xlabel('Custo do Tratamento (USD)')
    plt.ylabel('Sobrevivência (anos)')
    plt.grid(True)
    plt.show()

   # 14. Distribuição do Uso de Tabaco corrigido:
    print("\n14. Uso de Tabaco (contagem de pacientes que usam e que não usam):")

    # Conta pacientes com valor > 0 (usam tabaco) e == 0 (não usam)
    usam_tabaco = (df['Smoking'] > 0).sum()
    nao_usam_tabaco = (df['Smoking'] == 0).sum()
    total = usam_tabaco + nao_usam_tabaco

    print(f"Pacientes que usam tabaco: {usam_tabaco}")
    print(f"Pacientes que não usam tabaco: {nao_usam_tabaco}")
    print(f"Total de pacientes: {total}")

    labels = ['Usam Tabaco', 'Não Usam Tabaco']
    sizes = [usam_tabaco, nao_usam_tabaco]

    plt.pie(sizes, labels=labels, autopct='%1.1f%%', colors=['#ff9999', '#66b3ff'])
    plt.title('Proporção de Uso de Tabaco')
    plt.show()


    # 15. Distribuição da Obesidade
    print("\n15. Distribuição da Obesidade (nível > 5 é considerado Obeso):")
    obese_count = (df['Obesity_Level'] > 5).sum()
    non_obese_count = total - obese_count
    print(f"Obesos: {obese_count}")
    print(f"Não obesos: {non_obese_count}")
    labels = ['Obesos', 'Não Obesos']
    plt.pie([obese_count, non_obese_count], labels=labels, autopct='%1.1f%%', colors=['#99ff99','#ffcc99'])
    plt.title('Proporção de Obesidade')
    plt.show()

# Executa tudo junto
print_and_plot()
