In [1]:
'''IMPORTS'''
import seaborn as sns
import pandas as pd
import statistics as st
import math


In [2]:
'''FUNÇÕES'''

def grafico_barras(X, Y, titulo, X_Y, LEGENDAS_COLORS = [], LEGENDAS = [], COLORS = '#804a81', LG = False):
    from bokeh.plotting import figure, show
    from bokeh.io import output_notebook
    from bokeh.models import LabelSet
    from bokeh.models import Legend, LegendItem
    from bokeh.layouts import row
    from bokeh.models.annotations import LegendItem as BokehLegendItem
    from bokeh.models.ranges import FactorRange
    
    output_notebook()

    # Criar figura
    p = figure(x_range=X, title=titulo, x_axis_label=X_Y[0], y_axis_label=X_Y[1])
    
    if LG:
        # Criar a legenda
        legend = Legend(items=[])

        # Adicionar cada item da legenda com retângulo de cor
        for legend_label, color in zip(LEGENDAS, LEGENDAS_COLORS):
            # Criar o retângulo de cor
            rect = p.rect(x=0, y=0, fill_color=color, line_color=None)
            # Criar o item da legenda com o retângulo de cor e o rótulo
            legend_item = BokehLegendItem(label=legend_label, renderers=[rect])
            # Adicionar o LegendItem à legenda
            legend.items.append(legend_item)

        # Adicionar a legenda ao gráfico
        p.add_layout(legend, 'center')

    # Adicionar o gráfico de barras
    p.vbar(x=X, top=Y, width=0.5, color=COLORS)
    
    p.xaxis.major_label_orientation = 0.8  # Rotacionar os rótulos em um ângulo específico (em radianos)

    # Exibir o gráfico
    show(p)
    
    return

def contar_datas_por_ano(lista_datas, i):
    
    ano = []
    
    # Extrai o ano da data
    for data in lista_datas:
        ano.append(int(data.split('-')[i]))  
    
    return ano

def contar_itens(lista, ordenar = False):
    # Inicializar as listas que serão usadas
    contagem = []
    repeticoes = []
    Xs = []

    # Percorrer a lista e contar os caracteres
    for item in lista:
        if item not in contagem:
            contagem.append(item)

    if ordenar:
        contagem = sorted(contagem)


    for item in contagem:
        a = 0
        for valor in lista:
            if valor == item:
                a = a + 1
        repeticoes.append(a)
    
    # Tranforma os valores númericos em char
    for item in contagem:
        Xs.append(str(item))
        
    return Xs, repeticoes

def Relacoes_estatisticas(coluna):

    n = len(coluna)

    coluna_correta = []

    for i in range (0, n):
        if  math.isnan(coluna[i]) == False:
            coluna_correta.append(coluna[i])

    media = st.mean(coluna_correta)
    mediana = st.median(coluna_correta)
    moda = st.mode(coluna_correta)
    desvio_padrao = st.pstdev(coluna_correta)
    variancia = st.variance(coluna_correta)

    dados = print(f"Média de {media}, mediana de {mediana}, moda de {moda}, variancia de {variancia}, desvio padrão de {desvio_padrao}")

    return dados



In [3]:
'''Classes'''
class Medias:
    def __init__(self):
        self.Contador = 0
        self.Soma = 0
        self.Media = 0

In [4]:
'''Dataset a serem usados'''
Pe = 'penguins'
Pl = 'planets'
Si = 'seaice'

'''Carregando os datasets'''
penguins = sns.load_dataset(Pe)
planetas = sns.load_dataset(Pl)
geleiras = sns.load_dataset(Si)


<h2>Penguins</h2>

Este conjunto de dados contém informações sobre três espécies diferentes de pinguins coletadas durante um estudo nas Ilhas Torgersen, Dream e Biscoe, na Antártida, incluindo medidas físicas como comprimento do bico, profundidade do bico, entre outros. É frequentemente usado para criar visualizações que exploram diferenças entre espécies.

`1.` **species:** A espécie de pinguim, que pode ser "Adelie", "Chinstrap" ou "Gentoo".

`2.` **island:** A ilha onde o pinguim foi observado, que pode ser "Torgersen", "Biscoe" ou "Dream".

`3.` **bill_length_mm:** O comprimento do bico do pinguim em milímetros.

`4.` **bill_depth_mm:** A profundidade do bico do pinguim em milímetros.

`5.` **flipper_length_mm:** O comprimento da nadadeira do pinguim em milímetros.

`6.` **body_mass_g:** A massa corporal do pinguim em gramas.

`7.` **sex:** O sexo do pinguim, que pode ser "Male", "Female" ou "NaN" para dados faltantes.

In [5]:
'''Tabela'''

# Criar um DataFrame pandas com os dados
df = pd.DataFrame(penguins)

# Exibir a tabela
print(df)

    species     island  bill_length_mm  bill_depth_mm  flipper_length_mm  \
0    Adelie  Torgersen            39.1           18.7              181.0   
1    Adelie  Torgersen            39.5           17.4              186.0   
2    Adelie  Torgersen            40.3           18.0              195.0   
3    Adelie  Torgersen             NaN            NaN                NaN   
4    Adelie  Torgersen            36.7           19.3              193.0   
..      ...        ...             ...            ...                ...   
339  Gentoo     Biscoe             NaN            NaN                NaN   
340  Gentoo     Biscoe            46.8           14.3              215.0   
341  Gentoo     Biscoe            50.4           15.7              222.0   
342  Gentoo     Biscoe            45.2           14.8              212.0   
343  Gentoo     Biscoe            49.9           16.1              213.0   

     body_mass_g     sex  
0         3750.0    Male  
1         3800.0  Female  
2     

Vamos separar alguns dos dados e contar suas repetições para termos uma ideia geral desses dados

In [6]:
Especies, repeticoes = contar_itens(penguins['species'])

grafico_barras(Especies, repeticoes, 'Especies', ['Especie', 'Quantidade'])

In [7]:
Ilhas, repeticoes = contar_itens(penguins['island'])

grafico_barras(Ilhas, repeticoes, 'Ilhas', ['Ilhas', 'Quantidade'])


In [8]:
Sexo, repeticoes = contar_itens(penguins['sex'])

grafico_barras(Sexo, repeticoes, 'Sexo', ['Sexo', 'Quantidade'])

Feitas as contagens vamos fazer algumas relações entre colunas da nossa tabela

In [9]:
'''Relação entre sexo e massa corporal media'''

Ma = Medias()
Fe = Medias()


n = len(penguins['sex'])

for i in range(0, n):
    if penguins['sex'][i] == 'Male':
        x = penguins['body_mass_g'][i]
        Ma.Contador += 1
        Ma.Soma += x
    elif penguins['sex'][i] == 'Female':
        x = penguins['body_mass_g'][i]
        Fe.Contador += 1
        Fe.Soma += x
    


Ma.Media = Ma.Soma / Ma.Contador
Fe.Media = Fe.Soma / Fe.Contador

Eixo_x = ['Male', 'Female',]
linha = [Fe.Media, Ma.Media]

grafico_barras(Eixo_x, linha, 'Relação entre sexo e massa corporal', ['Sexo', 'Massa (g)'])

In [10]:
'''Relação entre especie e ilha'''

Ba = Medias()
Da = Medias()
Ta = Medias()
Bc = Medias()
Dc = Medias()
Tc = Medias()
Bg = Medias()
Dg = Medias()
Tg = Medias()



for i in range(0, n):
    if penguins['island'][i] == 'Biscoe' and penguins['species'][i] == 'Adelie' :
        Ba.Contador += 1
    elif penguins['island'][i] == 'Dream' and penguins['species'][i] == 'Adelie' :
        Da.Contador += 1
    elif penguins['island'][i] == 'Torgersen' and penguins['species'][i] == 'Adelie' :
        Ta.Contador += 1
    elif penguins['island'][i] == 'Biscoe' and penguins['species'][i] == 'Chinstrap' :
        Bc.Contador += 1
    elif penguins['island'][i] == 'Dream' and penguins['species'][i] == 'Chinstrap' :
        Dc.Contador += 1
    elif penguins['island'][i] == 'Torgersen' and penguins['species'][i] == 'Chinstrap' :
        Tc.Contador += 1
    elif penguins['island'][i] == 'Biscoe' and penguins['species'][i] == 'Gentoo' :
        Bg.Contador += 1
    elif penguins['island'][i] == 'Dream' and penguins['species'][i] == 'Gentoo' :
        Dg.Contador += 1
    elif penguins['island'][i] == 'Torgersen' and penguins['species'][i] == 'Gentoo' :
        Tg.Contador += 1
    


Eixo_x = ['Biscoe e Adelie', 'Dream e Adelie', 'Torgersen e Adelie', 'Biscoe e Chinstrap', 'Dream e Chinstrap', 'Torgersen e Chinstrap', 'Biscoe e Gentoo', 'Dream e Gentoo', 'Torgersen e Gentoo']
linha = [Ba.Contador, Da.Contador, Ta.Contador, Bc.Contador, Dc.Contador, Tc.Contador, Bg.Contador, Dg.Contador, Tg.Contador ]

grafico_barras(Eixo_x, linha, 'Relação entre Especie e ilha', ['Especie e ilha', 'Quantidade'])

Agora vamos fazer alguns calculos estatisticos simples

In [11]:
'''Altura do bico'''

Relacoes_estatisticas(penguins['bill_depth_mm'])

Média de 17.151169590643274, mediana de 17.3, moda de 17.0, variancia de 3.8998080122103893, desvio padrão de 1.9719039187562526


In [12]:
'''Comprimento da nadadira'''

Relacoes_estatisticas(penguins["flipper_length_mm"])

Média de 200.91520467836258, mediana de 197.0, moda de 190.0, variancia de 197.73179160021266, desvio padrão de 14.041140568589102


In [13]:
'''Comprimento do bico'''

Relacoes_estatisticas(penguins['bill_length_mm'])

Média de 43.9219298245614, mediana de 44.45, moda de 41.1, variancia de 29.807054329371816, desvio padrão de 5.4515960231618195


In [14]:
'''Massa corporal'''

Relacoes_estatisticas(penguins['body_mass_g'])

Média de 4201.754385964912, mediana de 4050.0, moda de 3800.0, variancia de 643131.0773267479, desvio padrão de 800.781229238452


<h2>Planetas</h2>

Contém informações sobre planetas fora do nosso sistema solar (exoplanetas), incluindo dados sobre a massa, tamanho e outros parâmetros. Pode ser usado para criar visualizações relacionadas à descoberta de exoplanetas.

`1.` method: O método pelo qual o exoplaneta foi descoberto. Pode incluir métodos como "Radial Velocity", "Transit", "Imaging" e assim por diante.

`2.` number: Número de planetas no sistema planetário, contando o planeta em questão.

`3.` orbital_period: O período orbital do planeta, ou seja, quanto tempo leva para completar uma órbita em torno de sua estrela, geralmente em dias.

`4.` mass: A massa do planeta, frequentemente em múltiplos da massa da Terra.

`5.` distance: A distância média entre o planeta e sua estrela hospedeira, frequentemente em unidades astronômicas (UA) ou parsecs (pc).

`6.` year: O ano de descoberta do exoplaneta.

`7.` eccentricity: A excentricidade orbital do planeta, que descreve a forma da órbita.

`8.` semi_major_axis: O semi-eixo maior da órbita, em unidades astronômicas (UA).

`9.` insolation: Insolação, que é a quantidade de energia recebida pelo planeta por unidade de área e tempo, em unidades terrestres.

`10.` detection_type: O tipo de método de detecção usado para encontrar o exoplaneta.

`11.` mass_detection_type: O tipo de método de detecção usado para medir a massa do exoplaneta.

In [15]:
'''Tabela'''

# Criar um DataFrame pandas com os dados
df = pd.DataFrame(planetas)

# Exibir a tabela
print(df)

               method  number  orbital_period   mass  distance  year
0     Radial Velocity       1      269.300000   7.10     77.40  2006
1     Radial Velocity       1      874.774000   2.21     56.95  2008
2     Radial Velocity       1      763.000000   2.60     19.84  2011
3     Radial Velocity       1      326.030000  19.40    110.62  2007
4     Radial Velocity       1      516.220000  10.50    119.47  2009
...               ...     ...             ...    ...       ...   ...
1030          Transit       1        3.941507    NaN    172.00  2006
1031          Transit       1        2.615864    NaN    148.00  2007
1032          Transit       1        3.191524    NaN    174.00  2007
1033          Transit       1        4.125083    NaN    293.00  2008
1034          Transit       1        4.187757    NaN    260.00  2008

[1035 rows x 6 columns]


Mais uma vez vamos separar os dados para termos uma ideia geral

In [16]:
Metodo, repeticoes = contar_itens(planetas['method'])

grafico_barras(Metodo, repeticoes, 'Metodo', ['Metódo', 'Quantidade'])

In [17]:
Ano, repeticoes = contar_itens(planetas['year'], ordenar=True)

grafico_barras(Ano, repeticoes, 'Ano', ['Ano', 'Quantidade'])

Ápos separamos alguns dados vamos fazer algumas relações

In [18]:
n = len(planetas['mass'])

In [19]:
'''Relação o meódo de detecção e a distancia'''

Mrv = Medias()
Mi = Medias()
Metv = Medias()
Mt = Medias()
Ma = Medias()
Tc = Medias()
Bg = Medias()
Dg = Medias()
Tg = Medias()




for i in range(0,n):
    if planetas['method'][i] == 'Radial Velocity' and math.isnan(planetas['distance'][i]) == False :
        Mrv.Contador += 1
        x = planetas['distance'][i]
        Mrv.Soma += x
    elif planetas['method'][i] == 'Imaging' and math.isnan(planetas['distance'][i]) == False:
        Mi.Contador += 1
        x = planetas['distance'][i]
        Mi.Soma += x
    elif planetas['method'][i] == 'Eclipse Timing Variations' and math.isnan(planetas['distance'][i]) == False:
        Metv.Contador += 1
        x = planetas['distance'][i]
        Metv.Soma += x
    elif planetas['method'][i] == 'Transit' and math.isnan(planetas['distance'][i]) == False:
        Mt.Contador += 1
        x = planetas['distance'][i]
        Mt.Soma += x
    elif planetas['method'][i] == 'Astrometry' and math.isnan(planetas['distance'][i]) == False:
        Ma.Contador += 1
        x = planetas['distance'][i]
        Ma.Soma += x
    elif planetas['method'][i] == 'Transit Timing Variations' and math.isnan(planetas['distance'][i]) == False:
        Tc.Contador += 1
        x = planetas['distance'][i]
        Tc.Soma += x
    elif planetas['method'][i] == 'Orbital Brightness Modulation' and math.isnan(planetas['distance'][i]) == False:
        Bg.Contador += 1
        x = planetas['distance'][i]
        Bg.Soma += x
    elif planetas['method'][i] == 'Microlensing' and math.isnan(planetas['distance'][i]) == False:
        Dg.Contador += 1
        x = planetas['distance'][i]
        Dg.Soma += x
    elif planetas['method'][i] == 'Pulsar Timing' and math.isnan(planetas['distance'][i]) == False:
        Tg.Contador += 1
        x = planetas['distance'][i]
        Tg.Soma += x
    
Mrv.Media = Mrv.Soma / Mrv.Contador
Mi.Media = Mi.Soma / Mi.Contador
Metv.Media = Metv.Soma / Metv.Contador
Mt.Media = Mt.Soma / Mt.Contador
Ma.Media = Ma.Soma / Ma.Contador
Tc.Media = Tc.Soma / Tc.Contador
Bg.Media = Bg.Soma / Bg.Contador
Dg.Media = Dg.Soma / Dg.Contador
Tg.Media = Tg.Soma / Tg.Contador

Eixo_x = ['Radial Velocity', 'Imaging', 'Eclipse Timing Variations', 'Transit', 'Astrometry', 'Transit Timing Variations', 'Orbital Brightness Modulation', 'Microlensing', 'Pulsar Timing']
linha = [Mrv.Media, Mi.Media, Metv.Media, Mt.Media, Ma.Media, Tc.Media, Bg.Media, Dg.Media, Tg.Media ]

grafico_barras(Eixo_x, linha, 'Relação entre o meódo de detecção e a distancia', ['Metódo', 'Distancia média'])

Como a massa e o periodo variam muito vamos trabalhar com vaixas de valores para isso vamos pegar o maximo e o minimo valores das massas depois vamos tirar a diferença entre eles e dividir em por 6, assim teremos 5 faixas de valores com iguais tamanhos 

In [20]:
# Organizando os faixas 
Maxi = max(planetas['mass'])
Mini = min(planetas['mass'])

Diferenca = Maxi - Mini

Faixa = Diferenca / 6

Inicial = Mini
Faixas = []

for i in range(0, 6):
    Faixas.append(Inicial)
    Inicial += Faixa


In [21]:
'''Relação entre a massa e o periodo orbital'''

Orbitais = [None] * 6

for i in range(0,6):
    Orbitais[i] = Medias()


for j in range(0,5):
    for i in range(0,n):
        if planetas['mass'][i] > Faixas[j] and planetas['mass'][i] < Faixas[j+1] and math.isnan(planetas['mass'][i]) == False and math.isnan(planetas['distance'][i]) == False:
            Orbitais[j].Contador += 1
            x = planetas['distance'][i]
            Orbitais[j].Soma += x
    
    Orbitais[j].Media = Orbitais[j].Soma / Orbitais[j].Contador


Eixo_x = []
linha = []

for i in range(0,5):
    Eixo_x.append(f"{Faixas[i]} - {Faixas[i+1]}")
    linha.append(Orbitais[i].Media)



grafico_barras(Eixo_x, linha, 'Relação entre a massa e o periodo orbital', ['Massa', 'Periodo Orbital'])

Agora vamos fazer alguns calculos estatisticos simples

In [22]:
'''Massa dos planetas'''

Relacoes_estatisticas(planetas['mass'])

Média de 2.6381605847953216, mediana de 1.26, moda de 1.8, variancia de 14.58183312700122, desvio padrão de 3.8148929868375943


In [23]:
'''Distância dos planetas'''

Relacoes_estatisticas(planetas['distance'])

Média de 264.0692821782178, mediana de 55.25, moda de 780.0, variancia de 537459.7922212933, desvio padrão de 732.6626912919195


In [24]:
'''Periodo orbital dos planetas'''

Relacoes_estatisticas(planetas['orbital_period'])

Média de 2002.917596094758, mediana de 39.9795, moda de 883.0, variancia de 676766088.7341911, desvio padrão de 26001.612735644278


In [25]:
'''Ano em que os planetas foram registrados'''

Relacoes_estatisticas(planetas['year'])

Média de 2009, mediana de 2010, moda de 2011, variancia de 15, desvio padrão de 3.872983346207417


<h2>Geleiras</h2>

In [26]:
'''Seaice'''

# Criar um DataFrame pandas com os dados
df = pd.DataFrame(geleiras)

# Exibir a tabela
print(df)

            Date  Extent
0     1980-01-01  14.200
1     1980-01-03  14.302
2     1980-01-05  14.414
3     1980-01-07  14.518
4     1980-01-09  14.594
...          ...     ...
13170 2019-12-27  12.721
13171 2019-12-28  12.712
13172 2019-12-29  12.780
13173 2019-12-30  12.858
13174 2019-12-31  12.889

[13175 rows x 2 columns]


Como os valores são muito variados, tanto para Data, quanto para extenssão da geleira fazer fazer por faixas de ano, mas para anilisarmos somente por ano precisamos fazer algumas coisas antes

In [27]:
Conversao = [] # Cria uma lista fazia

# Converte a variavel Tiemstamp para tipo string
for item in geleiras['Date']:
        Conversao.append(str(item))

Datas_por_ano = contar_datas_por_ano(Conversao, 0)

Datas_por_mes = contar_datas_por_ano(Conversao, 1)

Feitas essas conversões podemos então plotar os gráficos

In [28]:
Ano, repeticoes = contar_itens(Datas_por_ano, ordenar=True)

grafico_barras(Ano, repeticoes, 'Ano', ['Ano', 'Quantidade'])

Agora vamos fazer uma media do tamanho das geleiras, por ano, depois faremos por mês

In [29]:
'''Relação entre o tamanho das geleiras e os anos'''

N_de_Anos = len(Ano)
n = len(geleiras['Date'])

Anos = [None] * N_de_Anos

for i in range(0,N_de_Anos):
    Anos[i] = Medias()


for j in range(0,N_de_Anos):
    for i in range(0,n):
        if Datas_por_ano[i] == int(Ano[j]):
            Anos[j].Contador += 1
            x = geleiras['Extent'][i]
            Anos[j].Soma += x
    
    Anos[j].Media = Anos[j].Soma / Anos[j].Contador

linha = []

for i in range(0,N_de_Anos):
    linha.append(Anos[i].Media)



grafico_barras(Ano, linha, 'Relação entre o tamanho medio e o ano', ['Ano', 'Tamanho medio'])

In [30]:
'''Relação entre o tamanho das geleiras e os Meses'''

Mes, repeticoes = contar_itens(Datas_por_mes, ordenar=True)

N_de_Meses = len(Mes)
n = len(geleiras['Date'])

Meses = [None] * N_de_Meses

for i in range(0,N_de_Meses):
    Meses[i] = Medias()


for j in range(0,N_de_Meses):
    for i in range(0,n):
        if Datas_por_mes[i] == int(Mes[j]):
            Meses[j].Contador += 1
            x = geleiras['Extent'][i]
            Meses[j].Soma += x
    
    Meses[j].Media = Meses[j].Soma / Meses[j].Contador

linha = []

for i in range(0,N_de_Meses):
    linha.append(Meses[i].Media)



grafico_barras(Mes, linha, 'Relação entre o tamanho medio e o mês', ['Mês', 'Tamanho medio'])

Com isso vamos agora fazer só as relações estatisticas

In [31]:
'''Tamanho das geleiras'''

Relacoes_estatisticas(geleiras['Extent'])

Média de 11.28950815939279, mediana de 11.982, moda de 14.404, variancia de 10.790572419832463, desvio padrão de 3.2847760047000114


In [32]:
'''Tamanho das geleiras por mês'''

Relacoes_estatisticas(linha)

Média de 11.326137457354793, mediana de 12.036333500386156, moda de 14.160091485507252, variancia de 10.88187661530185, desvio padrão de 3.1583308192820296


<h4>Bom, aqui termina o relatorio da missão desses jovens magos<h4>