<a href="https://colab.research.google.com/github/leoguilherme1/analise_dados_API_Nasa/blob/main/nb_an%C3%A1lise_explorat%C3%B3ria.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise Estatística
****

Nesse momento será feita uma analise inicial com base em estatísticas descritivas.

In [None]:
df.describe().round(2)

Foi observado uma disparidade entre o terceiro quartil (75%) com a máxima de 'Distância_Max' e 'Velocidade_rltv', são diferenças de valores que merecem uma análise mais detalhada.

Para isso será apresentado um histograma de cada um.

## Análise - 'Distância_Max'

In [None]:
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

In [None]:
data_melted = df[['Distancia',	'Distância_Min','Distância_Max']].melt(var_name="Categoria", value_name="Valor")


In [None]:
fig = px.violin(
    data_melted,
    x="Valor",
    y="Categoria",
    orientation="h",
    box=True,
    points="all",
    color="Categoria",
    color_discrete_sequence=["#636EFA", "#EF553B", "#00CC96"]
)

fig.update_layout(
    title="Violin Plot para Distancia, Distância_Min, and Distância_Max",
    xaxis_title="Valor",
    yaxis_title="Categoria",
    width=900,
    height=400,
    template="plotly_white"
)

fig.show()



Acima está um gráfico de violino, onde  mostra a distribuição dos dados e sua densidade. Nele é possível enxergar como os valores de "Distância_Max" fogem do padrão em relação aos outros valores de distância, necessitando de uma análise mais detalhada dessa variável.

In [None]:


fig = go.Figure(go.Histogram(
    x=df['Distância_Max'],
    nbinsx=15,
    marker=dict(line=dict(width=1, color='black'))
))
fig.update_layout(
    title="Histograma da Distância Max",
    xaxis_title="Distância Max",
    yaxis_title="Frequência",
    width=900,
    height=400,
    template="plotly_white",
    xaxis=dict(showgrid=False),
    yaxis=dict(showgrid=False)
)

fig.show()

O histograma da coluna "Distância_Max" mostra uma distribuição fortemente concentrada nos valores mais baixos, com uma cauda longa que se estende até valores mais altos. Esse tipo de distribuição pode indicar que a maioria dos valores está próxima de zero, mas há alguns valores muito maiores que aumentam a faixa da escala.

As informações contidas nesse histograma podem ser interpretada em box plot. O Box plot é uma ferramenta gráfica utilizada para representar e ilustrar um conjunto de dados distribuídos em diferentes medidas, que possibilitam diversos tipos de observações em uma única análise, são elas:

- Posição central que é dada pela mediana;
- Medida de disperção entre o quarto superior e inferior;
- Assimetria pela posição relativa dos quartis;
- Identificação de outliers e valores atípicos.

In [None]:
q1_Distância_Max=df.Distância_Max.quantile(.25)
q3_Distância_Max=df.Distância_Max.quantile(.75)
IQR_Distância_Max = q3_Distância_Max-q1_Distância_Max


sup_Distância_Max= q3_Distância_Max + 1.5*IQR_Distância_Max
inf_Distância_Max= q1_Distância_Max - 1.5*IQR_Distância_Max
print('IQR da variável Distância_Max:', IQR_Distância_Max)
print('Limite superior:', sup_Distância_Max)
print('Limite inferior:', inf_Distância_Max)


## Plotando o diagrama - 'Distância_Max'

In [None]:
fig = px.box(df, x="Distância_Max", title="Dataset Original - Distância_Max", orientation='h')

fig.show()

print(f'O Dataset possui {df.shape[0]} linhas')
print(f'{len(df[df.Distância_Max > sup_Distância_Max])} Entradas acima de {sup_Distância_Max}')
print(f'Representam {((len(df[df.Distância_Max > sup_Distância_Max]) / df.shape[0]) * 100):.2f}% do dataset')

No caso dessa variável, temos valores fora do limite superior e inferior. Já que trata-se de valores máximos da distância dos asteróides, não seria ideal considerarmos como outiliers mas sim valores exteriores.

*Outiliers é dado por um erro de observação ou arredondamento.*


In [None]:
entradas_acima_limite_superior = df[df.Distância_Max > sup_Distância_Max]

display(entradas_acima_limite_superior)


Após pesquisas, podemos concluir que esses valores discrepantes são naturais, visto que esses cometas foram observados em distâncias muito distantes em relação a terra do que outros. Isso pode ser explicado devido à alguns fatores, como:

- Características dos asteroides (órbitas elípticas):

A órbita de alguns asteroides pode ser altamente excêntrica (alongada), o que significa que em certos momentos de sua órbita, eles podem estar muito mais distantes da Terra do que em outros. Isso resulta em distâncias máximas muito mais altas.


Já que se tratam de valores reais não é necessária a limpeza desses dados, pois são importantes para a análise.

##Análise - 'Velocidade_rltv'


In [None]:
fig = px.histogram(df, x="Velocidade_rltv", nbins=15, title="Histograma da Velocidade Relativa")

fig.update_layout(
    xaxis_title="Velocidade Relativa",
    yaxis_title="Frequência",
    showlegend=False
)

fig.show()


Pelo Histograma conseguimos visualizar que há valores atípicos em nossos dados. Após o cálculo do IQR e dos limites extremos, vamos plotar nosso box plot.

In [None]:
q1_Velocidade_rltv=df.Velocidade_rltv.quantile(.25)
q3_Velocidade_rltv=df.Velocidade_rltv.quantile(.75)
IQR_Velocidade_rltv = q3_Velocidade_rltv-q1_Velocidade_rltv


sup_Velocidade_rltv= q3_Velocidade_rltv + 1.5*IQR_Velocidade_rltv
inf_Velocidade_rltv= q1_Velocidade_rltv - 1.5*IQR_Velocidade_rltv
print('IQR da variável Distância_Max:', IQR_Velocidade_rltv)
print('Limite superior:', sup_Velocidade_rltv)
print('Limite inferior:', inf_Velocidade_rltv)

In [None]:
fig = px.box(df, x="Velocidade_rltv", title="Dataset Original - Velocidade_rltv", orientation='h')

fig.show()

print(f'O Dataset possui {df.shape[0]} linhas')
print(f'{len(df[df.Velocidade_rltv > sup_Velocidade_rltv])} Entradas acima de {sup_Velocidade_rltv}')
print(f'Representam {((len(df[df.Velocidade_rltv > sup_Velocidade_rltv]) / df.shape[0]) * 100):.2f}% do dataset')

In [None]:
df[df.Velocidade_rltv > sup_Velocidade_rltv]['']

In [None]:
# Filtrar entradas que estão acima do limite superior
entradas_acima_limite = df[df.Velocidade_rltv > sup_Velocidade_rltv]

display(entradas_acima_limite)

Após análise, também podemos concluir que esses valores discrepantes são naturais, as velocidades dos asteróides que estão acima do padrão podem ser influenciadas por diversos fatores, entre eles:

- Influência de planetas;
- Pertubações dinâmicas;
- Algum evento astrômico recente;
- Origem do asteróide.

Já que se tratam de valores reais não é necessária a limpeza desses dados, pois também serão importantes para a análise.

# Análise Exploratória
****

## Frequência de aproximações

Criado um gráfico para visualizar a frequência das aproximações ao longo do tempo. Isso ajuda a identificar a concentração de aproximações em determinados períodos, nesse caso observa-se que após os anos 2000 a quantidade de aproximações aumentou significadamente.

In [None]:

fig = px.histogram(df, x='Hora_Aprox', nbins=30, title='Distribuição Temporal das Aproximações')

fig.update_layout(
    xaxis_title='Data e Hora',
    yaxis_title='Número de Aproximações',
    template='plotly'
)

fig.show()


Realizado uma filtragem mais detalhada para a análise, percebendo que 2021, 2022 e 2023 foram os anos com maiores números de aproximações até o momento.

In [None]:
df['ano'] = df['Hora_Aprox'].dt.year
df_filtrado = df[(df['ano'] >= 1980) & (df['ano'] <= 2024)]


aprox_por_ano = df_filtrado.groupby('ano').size().reset_index(name='Numero_Aproximacoes')


fig = px.bar(aprox_por_ano, x='ano', y='Numero_Aproximacoes',
             title='Número de Aproximações por Ano (até 2024)',
             labels={'ano': 'Ano', 'Numero_Aproximacoes': 'Número de Aproximações'})

fig.show()


Estou importando uma função da pasta 'plots_utils' onde ela irá adicionar rótulos dentro das barras de um gráfico de barras, para detalhar ainda mais os dados.

In [None]:
from plots_utils import add_labels

## Número de aproximações (por magnitude e por distância)

Após isso, analisamos diferentes insights relacionados ao período de maior número de aproximações,de 2017 a 2024.
Dessa forma categorizamos a quantidade de aproximações relacionadas a magnitude de cada asteróide e percebe-se uma quantidade maior de asteróides com a magnitude 'Moderada', ou seja, objetos com sua luminosidade moderada.

Abaixo uma exemplificação de como funciona a classificação de luminosidade.

![Escala de Magnitude](magnitude.png)

In [None]:
# Feito categorização da magnitude e classificado a luminosidade do asteróide
bins_mag = [0, 10, 20, 30, 40, 50]
labels_mag = ['Muito Brilhante', 'Brilhante', 'Moderado', 'Escuro', 'Muito Escuro']
df['Categoria_Magnitude'] = pd.cut(df['Magnitude_Absolt'], bins=bins_mag, labels=labels_mag)

# Remover as categorias 'Muito Brilhante' e 'Muito Escuro'
df_filtrado = df[(df['Categoria_Magnitude'] != 'Muito Brilhante') & (df['Categoria_Magnitude'] != 'Muito Escuro')]

# Filtrar os dados para incluir apenas os anos entre 2017 e 2024
df_filtrado = df_filtrado[(df_filtrado['ano'] >= 2017) & (df_filtrado['ano'] <= 2024)]

# Contar o número de aproximações por categoria de magnitude
aprox_por_categoria_mag = df_filtrado.groupby(['ano', 'Categoria_Magnitude']).size().unstack(fill_value=0)

# Ajustar os labels de magnitude para refletir as categorias restantes
labels_mag_filtrado = ['Brilhante', 'Moderado', 'Escuro']

# Criar os subplots, um para cada categoria de magnitude (agora sem 'Muito Brilhante' e 'Muito Escuro')
fig = make_subplots(rows=3, cols=1, shared_xaxes=True, vertical_spacing=0.05,
                    subplot_titles=labels_mag_filtrado)

# Adicionar as barras para cada categoria de magnitude nos subplots
for i, label in enumerate(labels_mag_filtrado):
    categoria_data = aprox_por_categoria_mag[label]  # Dados para a categoria específica
    fig.add_trace(
        go.Bar(x=categoria_data.index, y=categoria_data.values, name=label),
        row=i+1, col=1
    )

# Atualizar o layout para o gráfico
fig.update_layout(
    height=900,  # Altura total para os subgráficos
    title_text="Número de Aproximações por Categoria de Magnitude (2017-2024)",
    showlegend=True,
    xaxis_title="Ano",
    yaxis_title="Número de Aproximações"
)

# Ajustar as configurações dos eixos X para mostrar os anos de forma legível abaixo de cada gráfico
fig.update_xaxes(tickmode='array', tickvals=aprox_por_categoria_mag.index, ticktext=[str(year) for year in aprox_por_categoria_mag.index])

# Adicionar os valores numéricos nas barras
for i, label in enumerate(labels_mag_filtrado):
    categoria_data = aprox_por_categoria_mag[label]
    for x, y in zip(categoria_data.index, categoria_data.values):
        fig.add_annotation(
            x=x, y=y,
            text=str(y),
            showarrow=False,
            font=dict(size=10),
            align="center",
            row=i+1, col=1
        )

# Mostrar o gráfico
fig.show()


Também foi relacionada o número de aproximações nesse período com as distâncias de aproximação em relação a Terra. Observa-se que a quantidade de aproximações de asteróides que passam 'Próximo' e 'Moderado' em relação a Terra não são distantes.

Abaixo um exemplo de como funciona a classificação de distância, no caso do nosso projeto a referência é o planeta Terra, mas quanto mais próximo a distância está de 0 significa que mais próximo está o asteróide em relação a Terra.

![Escala de Magnitude](unidade-astronomica.png)

In [None]:
# Ajustar as categorias para distâncias em UA, classificando sua aproximação
bins = [0, 0.02, 0.05]  # Ajustando os bins para incluir apenas "Próximo" e "Moderado"
labels = ['Próximo', 'Moderado']  # Apenas as categorias "Próximo" e "Moderado"
df['Categoria_Distancia'] = pd.cut(df['Distancia'], bins=bins, labels=labels)

# Realizada filtragem dos dados para incluir apenas os anos entre 2017 e 2024
df_filtrado = df[(df['ano'] >= 2017) & (df['ano'] <= 2024)]

# Contar o número de aproximações por categoria de distância
aprox_por_categoria = df_filtrado.groupby(['ano', 'Categoria_Distancia']).size().unstack(fill_value=0)

# Criar subplots
fig = make_subplots(rows=1, cols=2, subplot_titles=labels,
                    shared_xaxes=True, shared_yaxes=True,
                    vertical_spacing=0.1, horizontal_spacing=0.1)

# Adicionar gráficos para cada categoria de distância
for i, categoria in enumerate(labels):
    row = 1
    col = i + 1

    trace = go.Bar(
        x=aprox_por_categoria.index,
        y=aprox_por_categoria[categoria],
        name=categoria,
        marker=dict(color='rgba(0, 0, 255, 0.7)' if categoria == 'Próximo' else
                    'rgba(0, 255, 0, 0.7)'),
        text=aprox_por_categoria[categoria],
        textposition='inside'
    )

    fig.add_trace(trace, row=row, col=col)

# Atualizar layout do gráfico
fig.update_layout(
    title='Número de Aproximações por Categoria de Distância (2017-2024)',
    xaxis_title='Ano',
    yaxis_title='Número de Aproximações',
    barmode='stack',
    showlegend=False,
    height=700,
    width=900
)

# Exibir gráfico
fig.show()


## Número de registros por cometa

Irei agrupar os dados pelo ID_Cometa e contar o número de registros já feito, após isso ordenar os registros em ordem decrescente, podendo visualizar os 5 cometas mais registrados pelo monitoramento de aproximações.

In [None]:
cometas_registros = df.groupby('ID_Cometa').size().reset_index(name='Contagem')

cometas_registros = cometas_registros.sort_values(by='Contagem', ascending=False)
display(cometas_registros.head())

##Conclusão

O estudo da aproximação de asteroides e cometas com a Terra, com base nos dados fornecidos pela NASA, revela a complexidade e a importância do monitoramento contínuo desses corpos celestes. Através da análise dos dados, foi possível observar que, embora muitos desses objetos passem a uma distância segura, existe uma variedade de fatores que determinam a frequência e a proximidade de suas passagens. A limpeza e a organização dos dados, incluindo a análise de variáveis como Distância, Velocidadee Magnitude, mostraram a presença de outliers naturais que não comprometem a qualidade da análise, mas que, ao contrário, oferecem insights valiosos sobre a dinâmica dos asteroides e cometas próximos à Terra.

Além disso, a frequência de aproximações aumentou significativamente a partir dos anos 2000, o que pode estar relacionado a melhorias na tecnologia de monitoramento e à maior sensibilidade dos telescópios e satélites utilizados para registrar esses eventos. A análise por Magnitudee Distânciatambém trouxe à tona padrões interessantes, como o fato de que a maioria das aproximações ocorre com asteroides de luminosidade moderada e em distâncias que variam de moderadas a próximas.

O comportamento observado nos dados também evidencia que cometas com órbitas mais curtas ou mais excêntricas tendem a ser mais registrados, dada a sua frequência de aproximações, assim como cometas que são regularmente monitorados. Este acompanhamento detalhado é essencial não só para a compreensão da dinâmica do Sistema Solar, mas também para a identificação de possíveis riscos para o planeta, possibilitando a elaboração de estratégias de defesa planetária.

Em suma, a análise dos dados da NASA não só contribui para o avanço do conhecimento sobre os asteroides e cometas, mas também serve como uma ferramenta vital para a prevenção de possíveis impactos, destacando a importância da ciência e da tecnologia no monitoramento constante do céu além de gerar informações valiosas e permitir uma avaliação precisa dos riscos e comportamentos desses objetos celestes.