In [31]:
import pandas as pd
import numpy as np
import pandas as pd
import random
from pathlib import Path

In [32]:
import plotly.express as px

In [33]:
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [34]:
root_dir = Path("/content/drive/My Drive/Colab Notebooks/trabalho_final/dataset/")
train_labels = root_dir.joinpath("labels/train.csv")

df_train = pd.read_csv(train_labels)

In [35]:
# Número total de imagens:
print("Número total de imagens: ", df_train["image_id"].count())

# Vamos analisar os números com relação aos hospitais (site_id):
print("Número de diferentes hospitais: ", df_train["site_id"].nunique(), ", cujos códigos são: ", df_train["site_id"].unique())
print("Distribuição de imagens por hospital: ", df_train.groupby("site_id").agg(qtde=("image_id","count")).reset_index())

# Número de pacientes distintos (patient_id):
print("Número de pacientes distintos:" , df_train["patient_id"].nunique())


Número total de imagens:  43744
Número de diferentes hospitais:  2 , cujos códigos são:  [2 1]
Distribuição de imagens por hospital:     site_id   qtde
0        1  23709
1        2  20035
Número de pacientes distintos: 9530


In [36]:
# Distribuição de imagens com relação a lateralidade (laterality):
print("Número de imagens de seios esquerdos (L) e direitos (R):" , df_train.groupby("laterality").agg(qtde=("image_id","count")).reset_index())

fig = px.bar(df_train.groupby("laterality").agg(qtde=("image_id","count")).reset_index(),
             x='laterality',
             y='qtde',
             title="Quantidade de Imagens x Lateralidade",
             labels={'qtde':'Quantidade de Imagens', 'laterality':'Lateralidade'},
             height=600,
             width=400)
fig.show()

Número de imagens de seios esquerdos (L) e direitos (R):   laterality   qtde
0          L  21806
1          R  21938


In [37]:
# Distribuição de imagens com relação a sua orientação (view):
print("Número de imagens em cada orientação:" , df_train.groupby("view").agg(qtde=("image_id","count")).reset_index().sort_values(by="qtde", ascending=False))

fig = px.pie(df_train.groupby("view").agg(qtde=("image_id","count")).reset_index().sort_values(by="qtde", ascending=False),
             names='view',
             values='qtde',
             title="Orientação(%)",
             labels={'qtde':'Quantidade de Imagens', 'view':'Visão da Imagem'},
             height=400,
             width=400)

fig.show()

Número de imagens em cada orientação:   view   qtde
5  MLO  22302
1   CC  21413
0   AT     16
4   ML      7
2   LM      5
3  LMO      1


In [38]:
df_train[df_train.view.isin(["ML", "LM", "AT", "LMO"])].groupby(["cancer", "difficult_negative_case"]).agg(qtde=("image_id","count")).reset_index().sort_values(by="qtde", ascending=False)

Unnamed: 0,cancer,difficult_negative_case,qtde
0,0,False,22
1,0,True,5
2,1,False,2


In [39]:
df_train.loc[pd.isna(df_train["density"]), "density"] = "NA"


In [40]:
# Distribuição de imagens de acordo com a densidade do tecido mamário (density):
print("Distribuição de imagens de acordo com a densidade do tecido mamário: ", df_train.groupby("density").agg(qtde=("image_id","count")).reset_index())

Distribuição de imagens de acordo com a densidade do tecido mamário:    density   qtde
0       A   2501
1       B  10182
2       C   9757
3       D   1234
4      NA  20070


In [41]:
fig = px.pie(df_train.groupby("density").agg(qtde=("image_id","count")).sort_values(by='density',ascending=True).reset_index(),
             names='density',
             values='qtde',
             labels={'qtde':'Quantidade de Imagens', 'density':'Densidade do Tecido'},
             title="Densidade do Tecido no Conjunto(%)",
             height=600,
             width=600)
fig.show()

In [42]:
df_train.groupby("density").agg(qtde=("image_id","count")).sort_values(by='density',ascending=False).reset_index()

Unnamed: 0,density,qtde
0,,20070
1,D,1234
2,C,9757
3,B,10182
4,A,2501


In [43]:
print("Distribuição de imagens de acordo com a densidade do tecido mamário (cancer = 1): ", df_train[df_train["cancer"] == 1].groupby("density").agg(qtde=("image_id","count")).reset_index())
fig = px.pie(df_train[df_train["cancer"] == 1].groupby("density").agg(qtde=("image_id","count")).reset_index(),
             names='density',
             values='qtde',
             labels={'qtde':'Quantidade de Imagens', 'density':'Densidade do Tecido'},
              title="Densidade do Tecido no Conjunto(%) [Cancer = 1]",
             height=600,
             width=600)
fig.show()

Distribuição de imagens de acordo com a densidade do tecido mamário (cancer = 1):    density  qtde
0       A    42
1       B   264
2       C   227
3       D    16
4      NA   417


In [44]:
# Número de imagens classificadas como extraordinariamente dificeis (difficult_negative_case):
print("Número de imagens classificadas como extraordinariamente dificeis:" , df_train.groupby("difficult_negative_case").agg(qtde=("image_id","count")).reset_index())
fig = px.pie(df_train.groupby("difficult_negative_case").agg(qtde=("image_id","count")).reset_index(),
             names='difficult_negative_case',
             values='qtde',
             labels={'qtde':'Quantidade de Imagens', 'difficult_negative_case':'Caso Difícil'},
             title="Quantidade de casos difíceis no Conjunto",
             height=600,
             width=600)
fig.show()

Número de imagens classificadas como extraordinariamente dificeis:    difficult_negative_case   qtde
0                    False  37537
1                     True   6207


In [45]:
# Número de imagens classificadas como extraordinariamente dificeis (difficult_negative_case):
print("Número de imagens classificadas como extraordinariamente dificeis [cancer]:" , df_train.groupby("difficult_negative_case").agg(qtde=("image_id","count")).reset_index())
fig = px.pie(df_train[df_train["cancer"] == 1].groupby("difficult_negative_case").agg(qtde=("image_id","count")).reset_index(),
             names='difficult_negative_case',
             values='qtde',
             labels={'qtde':'Quantidade de Imagens', 'difficult_negative_case':'Caso Difícil'},
             title="Quantidade de casos difíceis no Conjunto [Câncer]",
             height=600,
             width=600)
fig.show()

Número de imagens classificadas como extraordinariamente dificeis [cancer]:    difficult_negative_case   qtde
0                    False  37537
1                     True   6207


In [46]:
age_df = df_train.groupby("patient_id").agg({"age": "mean", "cancer": "max"}).reset_index()

In [47]:
age_df

Unnamed: 0,patient_id,age,cancer
0,25,62.0,0
1,28,40.0,0
2,33,43.0,0
3,36,61.0,0
4,45,57.0,0
...,...,...,...
9525,65495,52.0,0
9526,65518,50.0,0
9527,65525,65.0,0
9528,65526,62.0,0


In [50]:
fig = px.histogram(age_df.groupby(["age", "cancer"]).agg(qtde=("patient_id","count")).reset_index(),
                   x="age",
                   y="qtde",
                   title="Distribuição de Idade no conjunto [Câncer (0/1)]",
                   color="cancer",
                   labels={'qtde':'Quantidade de Pacientes', 'age':'Idade', 'cancer':'Câncer'},
                   marginal="box")

fig.update_layout(
    font=dict(
        size=16,  # Set the font size here
    )
)

fig.show()

In [51]:
fig = px.histogram(age_df.groupby(["age", "cancer"]).agg(qtde=("patient_id","count")).reset_index(),
                   x="age",
                   y="qtde",
                   title="Distribuição de Idade no conjunto [Global]",
                   labels={'qtde':'Quantidade de Pacientes', 'age':'Idade', 'cancer':'Câncer'},
                   marginal="box")

fig.update_layout(
    font=dict(
        size=16,  # Set the font size here
    )
)

fig.show()

In [28]:
fig = px.parallel_categories(df_train, dimensions=['site_id', 'machine_id', 'cancer'],
                            color='cancer',
                            title='Categorias Paralelas - Condições Estruturais',
                            color_continuous_scale=[[0, 'lightsteelblue'], [1, 'mediumseagreen']],
                            labels={'site_id':'Local do Exame', 'machine_id':'Máquina', 'cancer':'Câncer'})
fig.show()


In [53]:
fig = px.parallel_categories(df_train, dimensions=['site_id', 'laterality', 'density', 'difficult_negative_case', 'cancer', 'biopsy'],
                            color='cancer',
                            title='Categorias Paralelas - Condições do Diagnóstico',
                            color_continuous_scale=[[0, 'lightsteelblue'], [1, 'mediumseagreen']],
                            labels={'site_id':'Local do Exame',
                                    'machine_id':'Máquina',
                                    'cancer':'Câncer',
                                    'laterality':'Lateralidade',
                                    'density':'Densidade',
                                    'difficult_negative_case': 'Caso Difícil',
                                    'biopsy': 'Biópsia'})

fig.update_layout(
    font=dict(
        size=18,  # Set the font size here
    )
)

fig.show()

In [72]:
fig = px.icicle(df_train.groupby("cancer").agg(qtde=("image_id","count")).reset_index(),
                path=[px.Constant("all"), 'cancer'],
                title="Proporção de Imagens das classes Câncer (0/1)",
                values='qtde', color='cancer',
                color_continuous_scale=[[0, 'lightsteelblue'], [1, 'mediumseagreen']],
                width=800,
                labels={'all': 'Total','site_id':'Local do Exame',
                                    'machine_id':'Máquina',
                                    'cancer':'Câncer',
                                    'laterality':'Lateralidade',
                                    'density':'Densidade',
                                    'difficult_negative_case': 'Caso Difícil',
                                    'biopsy': 'Biópsia'})
fig.update_layout(
    margin = dict(t=50, l=25, r=25, b=25),
    font=dict(
        size=20,  # Set the font size here
    ))
fig.show()

In [73]:
df_train.groupby(["cancer"]).agg(qtde=("patient_id",pd.Series.nunique)).reset_index()
fig = px.icicle(df_train.groupby(["cancer"]).agg(qtde=("patient_id",pd.Series.nunique)).reset_index(),
                path=[px.Constant("all"), 'cancer'],
                title="Proporção de Pacientes das classes Câncer (0/1)",
                values='qtde', color='cancer',
                color_continuous_scale=[[0, 'lightsteelblue'], [1, 'mediumseagreen']],
                width=800,
                labels={'all': 'Total','site_id':'Local do Exame',
                                    'machine_id':'Máquina',
                                    'cancer':'Câncer',
                                    'laterality':'Lateralidade',
                                    'density':'Densidade',
                                    'difficult_negative_case': 'Caso Difícil',
                                    'biopsy': 'Biópsia'})
fig.update_layout(
    margin = dict(t=50, l=25, r=25, b=25),
    font=dict(
        size=20,  # Set the font size here
    ))
fig.show()