# Gráficos para a análise do pangenoma bacteriano

## Importações

In [1]:
import pandas as pd
from pathlib import Path
import plotly.express as px
import matplotlib.pyplot as plt
import plotly.graph_objects as go

## Variáveis

In [2]:
PATH_GRAPHS = Path(f"{Path.cwd()}//..//graphs").resolve()
# PATH_GRAPHS = Path.cwd() / '..' / 'graphs'
df = pd.read_csv('genomes_info.csv', sep=',').fillna('')

## Metadados

### Distribuição por países

#### Mapa-mundi: Quais países tiveram mais amostras coletadas

O mapa interativo gerado identifica quais são os pontos de origem dos indivíduos. A temperatura da cor indica a proporcionalidade de amostras coletadas em cada país, sendo mais quente representando um maior número de coletas.
Foram utilizados os países como ponto de origem ao invés das coordenadas, pois somente 29 amostras continham este dado.

In [3]:
df_valid = df.copy()
df_valid['Biosample Country'] = df_valid['Biosample Geographic Location'].apply(lambda x: x.split(':')[0] if x not in ['', 'missing', 'not applicable', 'not provided'] else '')
df_valid = df_valid[df_valid['Biosample Country'] != ""]
display(df_valid)

Unnamed: 0,ID,GTDB species,GTDB Taxonomy,NCBI Strain Identifiers,CheckM2 Completeness (%),CheckM2 Contamination (%),Contig Count,N50 Contigs (bp),Genome Size (bp),Protein Count,...,Date,Genome Category,CDS Count,Seq Rel Date,Biosample Host,Biosample Geographic Location,Biosample Latitude and Longitude,Biosample Description,LPSN species validation,Biosample Country
0,GCF_027474845.2,Maribacter aestuarii,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,JCM18631,97.57,0.07,1,3864851,3864851,3616,...,2023-06-08,Isolate,3490.0,2023-06-08,tidal flat sediment,South Korea: Gwangyang Bay,,"Reference: Lo N, Jin HM, Jeon CO. Maribacter a...",Yes - Maribacter aestuarii,South Korea
1,GCF_003933245.1,Maribacter algicola,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,PoM-212,100.00,0.12,7,2184756,4114314,3589,...,2018-12-10,Isolate,3524.0,2018-12-10,,South Korea: Incheon,,,Yes - Maribacter algicola,South Korea
2,GCF_000621125.1,Maribacter antarcticus,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,DSM 21422,99.99,0.12,35,339358,4853010,4305,...,2014-04-08,Isolate,4165.0,2014-04-08,Pyramimonas gelidicola,Southern Ocean,,,Yes - Maribacter antarcticus,Southern Ocean
3,GCF_947490135.1,Maribacter aquivivus,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,2B2-70-G.fasta,100.00,0.08,32,520442,4510051,3894,...,2023-01-30,Isolate,3853.0,2023-01-30,,China,,,Yes - Maribacter aquivivus,China
5,GCF_947501435.1,Maribacter aquivivus,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,3-185-3Z.fasta,100.00,0.07,25,501921,4520649,3870,...,2023-01-30,Isolate,3836.0,2023-01-30,,China,,,Yes - Maribacter aquivivus,China
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
157,GCA_947500435.1,Maribacter_C sp947500435,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,2-612-J.fasta,99.98,0.04,43,746516,4924672,4354,...,2023-01-30,MAG,,2023-01-30,,China,,,No,China
158,GCA_947503005.1,Maribacter_C sp947503005,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,N2Y089-1.fasta,99.96,0.21,31,552514,4576141,3920,...,2023-01-30,MAG,,2023-01-30,,China,,,No,China
159,GCF_027474825.1,Maribacter_D halichondriae,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,Hal144,94.68,3.45,1,4529002,4529002,4524,...,2023-01-23,Isolate,4279.0,2023-01-23,Halichondria panicea,"Germany: Schilksee, Kiel Fjord, Baltic Sea; La...",,,No,Germany
160,GCA_019931105.1,Maribacter_D sp019931105,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,NBU2977,99.97,0.03,18,2036379,3819109,3439,...,2021-09-12,Isolate,,2021-09-12,,China:Ningbo city,,,No,China


In [6]:
country_counts = df_valid.groupby('Biosample Country').size().reset_index(name="Quantidade")

fig = px.choropleth(
    country_counts,
    locations="Biosample Country",
    locationmode="country names",  # permite usar nomes de países diretamente
    color="Quantidade",
    hover_name="Biosample Country",
    color_continuous_scale="Viridis"
    # title="Distribuição de espécies de Maribacter por país"
)

fig.show()

print("============= Dados Relevantes =============")
print(f"Amostras com país de origem conhecido: {len(df_valid)}")
print(f"Amostras de origem desconhecida: {len(df) - len(df_valid)}")
print(f"Espécies distintas: {df_valid['GTDB species'].nunique()}")
print(f"Total de países: {df_valid['Biosample Country'].nunique()}")
print("============================================")


The library used by the *country names* `locationmode` option is changing in an upcoming version. Country names in existing plots may not work in the new version. To ensure consistent behavior, consider setting `locationmode` to *ISO-3*.



Amostras com país de origem conhecido: 130
Amostras de origem desconhecida: 32
Espécies distintas: 55
Total de países: 19


In [7]:
# Salvar o gráfico em alta resolução
fig.write_image(PATH_GRAPHS / "distribuicao_maribacter_por_pais.png", 
                scale=3,  # Aumenta a resolução (3x)
                width=1600,  # Largura em pixels
                height=900,   # Altura em pixels
                engine="kaleido")  # Motor de renderização



Support for the 'engine' argument is deprecated and will be removed after September 2025.
Kaleido will be the only supported engine at that time.




#### Mapa-mundi: Países + oceanos

Este mapa é similar ao anterior, mas inclui as origes dos oceanos.

In [9]:
# Contagem de ocorrências por local
counts = df_valid.groupby("Biosample Country").size().reset_index(name="Quantidade")

# Dicionário de coordenadas aproximadas para oceanos/mares
ocean_coords = {
    "Atlantic Ocean": {"lat": 0, "lon": -30},
    "Indian Ocean": {"lat": -20, "lon": 80},
    "Arctic Ocean": {"lat": 75, "lon": 0},
    "Southern Ocean": {"lat": -65, "lon": 0},
    "North Sea": {"lat": 56, "lon": 3},
}

# Dicionário com nomes mais amigáveis
ocean_labels = {
    "Atlantic Ocean": "Atlântico",
    "Indian Ocean": "Índico",
    "Arctic Ocean": "Ártico",
    "Southern Ocean": "Antártico",
    "North Sea": "Mar do Norte"
}

# Separar países e mares/oceanos
country_data = counts[~counts["Biosample Country"].isin(ocean_coords.keys())]
ocean_data = counts[counts["Biosample Country"].isin(ocean_coords.keys())].copy()

# Adicionar lat/lon e rótulos customizados para oceanos
ocean_data["lat"] = ocean_data["Biosample Country"].map(lambda x: ocean_coords[x]["lat"])
ocean_data["lon"] = ocean_data["Biosample Country"].map(lambda x: ocean_coords[x]["lon"])
ocean_data["label"] = ocean_data["Biosample Country"].map(ocean_labels)

# Criar mapa coroplético para países
fig = px.choropleth(
    country_data,
    locations="Biosample Country",
    locationmode="country names",
    color="Quantidade",
    hover_name="Biosample Country",
    color_continuous_scale="Viridis"
    # title="Distribuição de espécies de Maribacter por local de coleta"
)

# Adicionar pontos para oceanos/mares
fig.add_trace(go.Scattergeo(
    lon=ocean_data["lon"],
    lat=ocean_data["lat"],
    text=ocean_data["label"],
    mode="markers+text",
    marker=dict(size=ocean_data["Quantidade"]*3, color="blue", opacity=0.7),
    textposition="top center",
    name="Oceanos/Mares"
))

fig.show()

# Informações complementares
print("============= Dados Relevantes =============")
print(f"Amostras com país de origem conhecido: {len(df_valid)}")
print(f"Amostras de origem desconhecida: {len(df) - len(df_valid)}")
print(f"Espécies distintas: {df_valid['GTDB species'].nunique()}")
print(f"Total de países: {df_valid['Biosample Country'].nunique()}")
print("============================================")


The library used by the *country names* `locationmode` option is changing in an upcoming version. Country names in existing plots may not work in the new version. To ensure consistent behavior, consider setting `locationmode` to *ISO-3*.



Amostras com país de origem conhecido: 130
Amostras de origem desconhecida: 32
Espécies distintas: 55
Total de países: 19


In [10]:
# Salvar o gráfico em alta resolução
fig.write_image(PATH_GRAPHS / "distribuicao_maribacter_por_pais_oceanos.png", 
                scale=3,  # Aumenta a resolução (3x)
                width=1600,  # Largura em pixels
                height=900,   # Altura em pixels
                engine="kaleido")  # Motor de renderização



Support for the 'engine' argument is deprecated and will be removed after September 2025.
Kaleido will be the only supported engine at that time.




#### Tabela: Principais locais de coleta

Essa tabela ajuda a visualizar quantas amostras foram coletadas de cada local. Também estão incluídos os dados de amostras cuja origem é desconhecida.

In [11]:
df_origin = pd.DataFrame(columns=['Origem', 'Total'])

In [12]:
# Contar o total de ocorrências por país
df_origin = df_valid.groupby("Biosample Country").size().reset_index(name="Quantidade")

df_origin.rename(columns={'Biosample Country': 'Origem'}, inplace=True)

# Ordenar do maior para o menor
df_origin = df_origin.sort_values(by="Quantidade", ascending=False).reset_index(drop=True)

display(df_origin)


Unnamed: 0,Origem,Quantidade
0,USA,49
1,China,45
2,South Korea,8
3,Arctic Ocean,4
4,Russia,4
5,Japan,3
6,Antarctica,3
7,Australia,2
8,New Zealand,2
9,Atlantic Ocean,1


In [13]:
# Versão simplificada do dataframe anterior
# Somente origens com, no mínimo, 10 amostras são exibidas
df_origin_simple = df_origin[df_origin['Quantidade'] >= 10]
df_others = df_origin[df_origin['Quantidade'] < 10]

# Adicionar os dados extras
df_origin_simple.loc[len(df_origin_simple)] = ['Outros', df_others['Quantidade'].sum()]
df_origin_simple.loc[len(df_origin_simple)] = ['Desconhecida', len(df) - len(df_valid)]

# Ordenar do maior para o menor
df_origin_simple = df_origin_simple.sort_values(by="Quantidade", ascending=False).reset_index(drop=True)


display(df_origin_simple)




A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,Origem,Quantidade
0,USA,49
1,China,45
2,Outros,36
3,Desconhecida,32


In [14]:
# Criar figura
fig, ax = plt.subplots(figsize=(8, 6))
ax.axis("off")  # Remove eixos

# Adicionar tabela
table = ax.table(
    cellText=df_origin_simple.values,
    colLabels=df_origin_simple.columns,
    cellLoc="center",
    loc="center"
)

# Ajustar estilo
table.auto_set_font_size(False)
table.set_fontsize(10)
table.scale(1.2, 1.2)

for (i, j), cell in table.get_celld().items():
    if i == 0:  # primeira linha = cabeçalho
        cell.set_text_props(weight='bold')

# Salvar como imagem
plt.savefig(f"{PATH_GRAPHS}/origin_simple.png", dpi=300, bbox_inches="tight")
plt.close()

print(f"Tabela salva em {PATH_GRAPHS}/origin_simple.png")

Tabela salva em C:\Users\Matheus\Documents\UFF\ic\repository\automation\all_maribacter_graphs\graphs/origin_simple.png


#### Observações

##### Falta de coordenadas

Apenas 29 dos 162 genomas possuíam informação a cerca das coordenadas da coleta. Portanto, foram preparados mapas considerando somente as localidades macro (países e oceanos).

In [None]:
df_missing = df[df['Biosample Latitude and Longitude'].apply(lambda x: x not in ['','missing','not applicable','not collected'])]
print(f"Há {len(df_missing)} genomas com coordenadas conhecidas.")

##### Informações complementares

In [None]:
print("============= Dados Relevantes =============")
print(f"Amostras com país de origem conhecido: {len(df_valid)}")
print(f"Amostras de origem desconhecida: {len(df) - len(df_valid)}")
print(f"Espécies distintas: {df_valid['GTDB species'].nunique()}")
print(f"Total de países: {df_valid['Biosample Country'].nunique()}")
print("============================================")

### Hospedeiros

#### Divisão por tipos específicos de hospedeiros

Dos 162 genomas coletados, 54 possuem hospedeiros conhecidos. Estes foram dividos em 7 tipos específicos.

In [15]:
df_host = df[df['Biosample Host'].apply(lambda x: x not in ['','missing','not applicable'])]
display(df_host)

Unnamed: 0,ID,GTDB species,GTDB Taxonomy,NCBI Strain Identifiers,CheckM2 Completeness (%),CheckM2 Contamination (%),Contig Count,N50 Contigs (bp),Genome Size (bp),Protein Count,...,Country,Date,Genome Category,CDS Count,Seq Rel Date,Biosample Host,Biosample Geographic Location,Biosample Latitude and Longitude,Biosample Description,LPSN species validation
0,GCF_027474845.2,Maribacter aestuarii,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,JCM18631,97.57,0.07,1,3864851,3864851,3616,...,South Korea: Gwangyang Bay,2023-06-08,Isolate,3490.0,2023-06-08,tidal flat sediment,South Korea: Gwangyang Bay,,"Reference: Lo N, Jin HM, Jeon CO. Maribacter a...",Yes - Maribacter aestuarii
2,GCF_000621125.1,Maribacter antarcticus,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,DSM 21422,99.99,0.12,35,339358,4853010,4305,...,Southern Ocean,2014-04-08,Isolate,4165.0,2014-04-08,Pyramimonas gelidicola,Southern Ocean,,,Yes - Maribacter antarcticus
18,GCF_039986215.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,LC.02.F.A2_479_55,99.96,2.43,260,31994,4640379,4146,...,,2024-05-31,MAG,4055.0,2024-05-31,Macrocystis pyrifera,"USA:California, Leo Carillo",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis
19,GCF_039986575.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,AQ.60.F.B1_47_010,99.88,0.69,199,89855,4362585,3916,...,,2024-05-31,MAG,3849.0,2024-05-31,Macrocystis pyrifera,"USA:California, Arroyo Quemado",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis
20,GCF_039987475.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,CB.05.F.D2_97_46,98.9,2.57,238,28855,4254096,3851,...,,2024-05-31,MAG,3771.0,2024-05-31,Macrocystis pyrifera,"USA:California, Camp Pendleton",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis
21,GCF_039969775.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,LC.109.F.C4_184_85,99.99,0.09,7,1478825,4352599,3737,...,,2024-05-30,MAG,3696.0,2024-05-30,Macrocystis pyrifera,"USA:California, Leo Carillo",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis
22,GCF_039967835.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,LC.118.F.C4_216_37,99.99,0.08,15,427385,4324902,3721,...,,2024-05-30,MAG,3679.0,2024-05-30,Macrocystis pyrifera,"USA:California, Leo Carillo",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis
23,GCF_039988175.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,AQ.32.F.A2_91_45,97.23,0.07,152,54543,4179101,3698,...,,2024-05-31,MAG,3637.0,2024-05-31,Macrocystis pyrifera,"USA:California, Arroyo Quemado",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis
24,GCF_039967245.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,CB.59.M.B5_223_4,91.59,0.2,636,8628,4072647,4009,...,,2024-05-30,MAG,3898.0,2024-05-30,Macrocystis pyrifera,"USA:California, Camp Pendleton",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis
25,GCF_039966915.1,Maribacter dokdonensis,d__Bacteria; p__Bacteroidota; c__Bacteroidia; ...,LC.04.F.D4_227_67,99.99,0.07,5,1481973,4329922,3713,...,,2024-05-30,MAG,3672.0,2024-05-30,Macrocystis pyrifera,"USA:California, Leo Carillo",not collected,Keywords: GSC:MIxS;MIMAG:6.0,Yes - Maribacter dokdonensis


In [16]:
# Dicionário para categorizar tipos de hospedeiro
host_type = {
    'Ectocarpus subulatus': 'Alga marrom',
    'Halichondria panicea': 'Espongiário',
    'Macrocystis pyrifera': 'Alga marrom',
    'Protoceratium reticulatum': 'Dinoflagelado',
    'Pyramimonas gelidicola': 'Alga verde',
    'Pyropia haitanensis': 'Alga vermelha',
    'Thalassiosira minima': 'Diatomácea',
    'Ulva': 'Alga verde',
    'Valvulineria inflata': 'Animal marinho',
    'red algae': 'Alga vermelha',
    'tidal flat sediment': 'Ambiente/sedimento'
}

df_host['Host Type'] = df_host['Biosample Host'].map(host_type)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [21]:
# Contar quantas amostras existem por tipo de hospedeiro
host_counts = df_host['Host Type'].value_counts().reset_index()
host_counts.columns = ['Host Type', 'Quantidade']

# Gráfico de pizza
fig = px.pie(
    host_counts,
    names='Host Type',
    values='Quantidade',
    color='Host Type',  # opcional, adiciona cores diferentes para cada tipo
    # title='Distribuição de amostras por tipo de hospedeiro',
    hole=0.0  # se quiser donut, coloque valor > 0, ex: 0.3
)

fig.show()

# Salvar gráfico como imagem (PNG)
fig.write_image(f"{PATH_GRAPHS}//specific_host_type.png", scale=2, width=800, height=600)

#### Divisão por tipos genéricos

In [18]:
# Dicionário para categorizar tipos de hospedeiro (generalização)
host_type_generic = {
    'Ectocarpus subulatus': 'Alga',
    'Halichondria panicea': 'Animal',
    'Macrocystis pyrifera': 'Alga',
    'Protoceratium reticulatum': 'Dinoflagelado',
    'Pyramimonas gelidicola': 'Alga',
    'Pyropia haitanensis': 'Alga',
    'Thalassiosira minima': 'Diatomácea',
    'Ulva': 'Alga',
    'Valvulineria inflata': 'Animal',
    'red algae': 'Alga',
    'tidal flat sediment': 'Ambiente/sedimento'
}

df_host['Host Type Generic'] = df_host['Biosample Host'].map(host_type_generic)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [23]:
# Contar quantas amostras existem por tipo de hospedeiro
host_counts = df_host['Host Type Generic'].value_counts().reset_index()
host_counts.columns = ['Host Type Generic', 'Quantidade']

# Gráfico de pizza
fig = px.pie(
    host_counts,
    names='Host Type Generic',
    values='Quantidade',
    color='Host Type Generic',  # opcional, adiciona cores diferentes para cada tipo
    # title='Distribuição de amostras por tipo de hospedeiro',
    hole=0.0  # se quiser donut, coloque valor > 0, ex: 0.3
)

fig.show()

# Salvar gráfico como imagem (PNG)
fig.write_image(f"{PATH_GRAPHS}//generic_host_type.png", scale=2, width=800, height=600)

#### Observações

##### Informações complementares

In [20]:
print("============= Dados Relevantes =============")
print(f"Amostras sem hospedeiros conhecidos: {len(df) - len(df_host)}")
print(f"Amostras com hospedeiros conhecidos: {len(df_host)}")
print(f"Tipos específicos de hospedeiros: {df_host['Host Type'].nunique()}")
print(f"Tipos genéricos de hospedeiros: {df_host['Host Type Generic'].nunique()}")
print(f"Total de hospedeiros: {df_host['Biosample Host'].nunique()}")
print("============================================")

Amostras sem hospedeiros conhecidos: 108
Amostras com hospedeiros conhecidos: 54
Tipos específicos de hospedeiros: 8
Tipos genéricos de hospedeiros: 5
Total de hospedeiros: 11


### Validação do LPSN

In [27]:
# Criar DataFrame de validados
df_lpsn = df[df['LPSN species validation'] != 'No']

# Contagem de genomas validados e não validados
lpsn_counts = pd.DataFrame({
    'Status': ['Validado pelo LPSN', 'Não validado'],
    'Quantidade': [len(df_lpsn), len(df) - len(df_lpsn)]
})

# Gráfico de pizza
fig = px.pie(
    lpsn_counts,
    names='Status',
    values='Quantidade',
    color='Status',
    color_discrete_map={
        'Validado pelo LPSN': 'green',   # verde para validados
        'Não validado': 'red'            # vermelho para não validados
    },
    # title='Proporção de genomas validados pelo LPSN',
    hole=0.0  # para pizza normal; use 0.3 se quiser estilo donut
)

# Salvar como imagem
fig.write_image(f"{PATH_GRAPHS}//lpsn_validation_pie.png", scale=2, width=400, height=300)

fig.show()

### Média do tamanho do genoma

In [28]:
# Usar somente espécies validadas facilita agrupar por nome
# Agrupar pelo nome da espécie e calcular a média do tamanho do genoma
genome_size_avg = df_lpsn.groupby('GTDB species')['Genome Size (bp)'].mean().reset_index()

# Arredondar para 1 casa decimal
genome_size_avg['Genome Size (bp)'] = genome_size_avg['Genome Size (bp)'].round(1)

# Ordenar de forma decrescente
genome_size_avg = genome_size_avg.sort_values(by="Genome Size (bp)", ascending=False).reset_index(drop=True)

# Renomear a coluna para ficar mais claro
genome_size_avg.rename(columns={'GTDB species': 'Nome da Espécie', 'Genome Size (bp)': 'Tamanho Médio do Genoma (bp)'}, inplace=True)

# Mostrar resultado
display(genome_size_avg)

Unnamed: 0,Nome da Espécie,Tamanho Médio do Genoma (bp)
0,Maribacter antarcticus,4853010.0
1,Maribacter stanieri,4627620.8
2,Maribacter cobaltidurans,4604312.0
3,Maribacter aquivivus,4535739.0
4,Maribacter forsetii,4514366.0
5,Maribacter ulvicola,4511475.0
6,Maribacter litoralis,4464416.3
7,Maribacter spongiicola,4455565.0
8,Maribacter dokdonensis,4341691.1
9,Maribacter sedimenticola,4308203.0


In [None]:
# Criar figura
fig, ax = plt.subplots(figsize=(8, 6))
ax.axis("off")  # Remove eixos

# Adicionar tabela
table = ax.table(
    cellText=genome_size_avg.values,
    colLabels=genome_size_avg.columns,
    cellLoc="center",
    loc="center"
)

# Ajustar estilo
table.auto_set_font_size(False)
table.set_fontsize(10)
table.scale(1.2, 1.2)

for (i, j), cell in table.get_celld().items():
    if i == 0:  # primeira linha = cabeçalho
        cell.set_text_props(weight='bold')
        
# Salvar como imagem
plt.savefig(f"{PATH_GRAPHS}//genome_size_avg.png", dpi=300, bbox_inches="tight")
plt.close()

print(f"Tabela salva em {PATH_GRAPHS}//genome_size_avg.png")

Tabela salva em genome_size_avg.png


### Nível de agrupamento

In [None]:
# Agrupar por nível de montagem e contar
df_assembly = df.copy()
df_assembly['Assembly Level'].replace({"Chromosome": "Complete Genome"}, inplace=True)
df_assembly['Assembly Level'].replace({"Complete Genome": "Genoma Completo"}, inplace=True)
df_assembly = df_assembly.groupby('Assembly Level')['Assembly Level'].count().reset_index(name='Quantidade')

# Exibir o dataframe resultando
display(df_assembly)

# Gráfico de pizza
fig = px.pie(
    df_assembly,
    names='Assembly Level',
    values='Quantidade',
    # title='Distribuição dos genomas por nível de montagem',
    color='Assembly Level'
)

fig.show()

# Salvar como imagem
fig.write_image(f"{PATH_GRAPHS}//assembly_level_pie.png", scale=2, width=800, height=600)


A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.





Unnamed: 0,Assembly Level,Quantidade
0,Contig,118
1,Genoma Completo,10
2,Scaffold,34


## Rascunho

In [None]:
path_output = "c:/Users/Matheus/Documents/UFF/ic/repository/automation/all_maribacter/output/all_maribacter_strict_mafft/"
df = pd.read_csv(f"{path_output}gene_presence_absence.csv")
display(df)

In [None]:
df['Gene'].nunique()