# Pouso de meteoritos no planeta terra

- Iara Araujo
- Beatriz Barreto 
- Paloma Duarte

## Introdução

### Motivação e objetivo


## Dados utilizados

### Dataset meteorite_landings
- Dados coletados pela [meteorical society](https://meteoritical.org/), incluindo localizações, massas,composições e ano de queda 
para mais de 45.000 meteoritos que caíram no planeta terra.
- Variáveis desse dataset:
    - **name**: nome do meteorito(geralmente relacionado com a localização onde atingiu a terra).
    - **id** : identificador único para o meteorito no dataset.
    - **nametype**: classificação do meteorito em **relict** ou **valid**
    - **mass** : a massa do meteorito dada em gramas.
    - **fell**: classificação do meteorito em:
        - _Fall_: se foi identificado durante sua queda.
        - _Fell_: se foi identificado após sua queda.
    - **year**: ano em que o meteorito foi identificado.
    - **reclat**: latitude da posição em que o meteoro foi encontrado.
    - **reclong**: longitude da posição em que o meteoro foi encontrado.
    - **GeoLocation**: junção da latitude e da longitude em uma variável, separadas por vírgula.    
- Observações adicionais
    - as variáveis 'reclat' e 'reclong' são "valores recomendados", isto é levemente alterados do valor inicialmente dado, isso se deve a uma reclassificação do meteorito ou alteração dos dados originais de sua coleta.
    - alguns dados estão incorretos ou com difícil visualização, por isso faremos a limpeza na fase de pré processamento.


---
### Dataset meteorite_landings_on_earth
- Dados coletados e disponibilizados pela [NASA](https://data.nasa.gov/), incluindo registros de 45.000 meteoritos com dados de detalhamento extras, como nome do país/oceano encontrado.
- Variáveis do dataset:
    - **id** : identificador único para o meteorito dentro do dataset.
    - **meteorite_name**: nome do meteorito.
    - **nametype**: classificação do meteorito em **relict** ou **valid**
    - **recclass**: é o processo de passagem de uma classe, classificação ou categoria para outra.
    - **fall**: classificação do meteorito em:
        - _Fall_: se foi identificado durante sua queda.
        - _Fell_: se foi identificado após sua queda.
    - **year**: ano em que o meteorito foi identificado.
    - **mass** : a massa do meteorito dada em gramas.
    - **location**: nome do país ou oceano em que o meteorito foi encontrado.
    - **location_code**: código de identificação do país ou oceano em que o meteorito foi encontrado.
    - **location_type**: tipo de localização do local em que o meteoro foi encontrado, classificado em:
        - _Land_: se foi identificado na terra.
        - _Ocean_: se foi identificado no oceano.
        - _Unknown_: se foi identificado em um local que pode ter mudado de classificação de terra para oceano, ou visse-versa, desde sua queda.
    - **distance**: deslocamento do meteorito desde sua queda.
    - **latitude**: latitude da posição em que o meteorito foi encontrado.
    - **longitude**: longitude da posição em que o meteorito foi encontrado.
    - **lat_lng**: junção da latitude e da longitude em uma variável, separadas por vírgula.

In [2]:
import pandas as pd
import numpy as np
import math
from math import log
import statistics
import seaborn as sns
from scipy.stats import linregress
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

In [3]:
df1 = pd.read_csv('datasets/meteorite_landings.csv', on_bad_lines='warn')
df2 = pd.read_csv('datasets/meteorite_landings_on_earth.csv', on_bad_lines='warn')   #lendo os datasets
df3 = pd.read_csv('datasets/cneos_fireball_data.csv', on_bad_lines='warn')

## Pré-processamento dos dados

### Dataset meteorite_landings

#### Corrigindo dados na variável 'year'

- Aqui faremos uma verificação do ano em que o meteorito foi descoberto, pois existem algumas incoerências. 
  
  Faremos essa verificação utilizando como base o site [The Meteoritical Society](https://www.lpi.usra.edu/meteor/metbull.php).
  

In [4]:

years_bug = [i for i in df1['year'] if i >= 2016 or i <= 860 ] # pega os anos incoerentes

index_bug = [i for i in df1.index if df1.loc[i, 'year'] in years_bug] # pega os índices dos elementos problemáticos 

name_years_bug = [df1['name'].loc[i] for i in df1.index if df1.loc[i, 'year'] in years_bug] # pega o nome dos elementos para a verificação no site

print(name_years_bug)
index_bug


['Nogata', 'Havana', 'Northwest Africa 7701', 'Ur', 'Wietrzno-Bobrka']


[703, 16356, 30679, 38188, 38301]

- Agora vamos corrigir as informações no dataframe:

In [5]:
years_bug = [i for i in df1['year'] if i >= 2016 or i <= 860 ] # pega os anos incoerentes

index_bug = [i for i in df1.index if df1.loc[i, 'year'] in years_bug] # pega os índices dos elementos problemáticos 



df1 = df1.drop(index_bug) #removendo os rows em que os anos são problemáticos


#### Corrigindo dados das variáveis 'reclat' e 'reclong'

In [6]:
df1['reclong'] = df1['reclong'].map(lambda x : 61.074319 if (x > 180 or x < - 180) else x) #correção de incoerências das colunas 'reclat' e 'reclong'
df1['reclat'] = df1['reclat'].map(lambda x : -39.122580 if (x == 0) else x)