# Projeto Sprint 5 - EDA database de carros a venda

O objetivo desse notebook é realizar uma EDA rapida do database de exo-planetas descobertos pela nasa, disponivel no link:
"https://exoplanetarchive.ipac.caltech.edu/cgi-bin/TblView/nph-tblView?app=ExoTbls&config=PS"

Como o projeto é mais focado na implementação de um aplicativo web, vou buscar trabalhar brevemente os dados, de forma a tirar um histograma e um grafico de disperção interessantes para o aplicativo web.

In [18]:
# importando pandas e plotly para transformação de dados e construção dos graficos
import pandas as pd
import plotly.express as px

In [19]:
# precisamos remover as primeiras 292 linhas pois elas contem uma relacao entre o nome abreviado e inteiro das colunas
df_exo = pd.read_csv('..\\PS_2025.11.03_09.12.00.csv', skiprows=292, index_col='rowid')

# Olhada inicial nos dados
df_exo.info()
print()
print(df_exo.head())
print()
print(df_exo.sample(5))


Columns (4,5) have mixed types. Specify dtype option on import or set low_memory=False.



<class 'pandas.core.frame.DataFrame'>
Index: 39029 entries, 1 to 39029
Columns: 288 entries, pl_name to pl_ndispec
dtypes: float64(235), int64(25), object(28)
memory usage: 86.1+ MB

        pl_name hostname pl_letter    hd_name   hip_name         tic_id  \
rowid                                                                     
1      11 Com b   11 Com         b  HD 107383  HIP 60202   TIC 72437047   
2      11 Com b   11 Com         b  HD 107383  HIP 60202   TIC 72437047   
3      11 Com b   11 Com         b  HD 107383  HIP 60202   TIC 72437047   
4      11 UMi b   11 UMi         b  HD 136726  HIP 74793  TIC 230061010   
5      11 UMi b   11 UMi         b  HD 136726  HIP 74793  TIC 230061010   

                        gaia_dr2_id                   gaia_dr3_id  \
rowid                                                               
1      Gaia DR2 3946945413106333696  Gaia DR3 3946945413106333696   
2      Gaia DR2 3946945413106333696  Gaia DR3 3946945413106333696   
3      Gaia DR2

Como podemos ver o database contem muita informacao, e nem toda util. Para a análise que pretendo fazer vamos precisar de um meio de identificar o tamanho dos exo-planetas descobertos. Vamos buscar pelo Raio deles para ver se temos informações suficientes.

In [20]:
cols = []
for col in df_exo.columns:
    if 'pl_rad' in col:
        cols.append(col)

print(df_exo[cols].sample(5))
df_exo[cols].info()

       pl_rade  pl_radeerr1  pl_radeerr2  pl_radelim   pl_radj  pl_radjerr1  \
rowid                                                                         
32256     1.92         0.93        -0.16         0.0  0.171291     0.082969   
27380      NaN          NaN          NaN         NaN       NaN          NaN   
19167     1.72         0.54        -0.18         0.0  0.153448     0.048176   
6917      1.50         0.21        -0.15         0.0  0.133821     0.018735   
29387     1.02         0.44        -0.09         0.0  0.090998     0.039254   

       pl_radjerr2  pl_radjlim  
rowid                           
32256    -0.014274         0.0  
27380          NaN         NaN  
19167    -0.016059         0.0  
6917     -0.013382         0.0  
29387    -0.008029         0.0  
<class 'pandas.core.frame.DataFrame'>
Index: 39029 entries, 1 to 39029
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   pl_rade      26970 non-

Temos bastante informação sobre o tamanho dos planetas, +/- a mesma quantidade de entradas para cada identificador de raio. Normalmente o raio é guardado relativo a Terra ou Jupiter. Escolhi seguir com raio relativo a Terra para formar os gráficos.

O tamanho dos planetas descobertos será nosso dado principal, com ele já podemos fazer um histograma simples. Para melhorar nossos graficos e gerar os graficos de dispersão iremos comparar o raio dos planetas com o ano de descoberta 'disc_year', o telescopio que os descobriu 'disc_telescope', e o periodo orbital 'pl_orbper'. Vamos dar uma olhada nesses dados

In [21]:
cols = ['disc_telescope', 'disc_year', 'pl_orbper']
print(df_exo[cols].head())
df_exo[cols].info()

                      disc_telescope  disc_year  pl_orbper
rowid                                                     
1                   2.16 m Telescope       2007     323.21
2                   2.16 m Telescope       2007        NaN
3                   2.16 m Telescope       2007     326.03
4      2.0 m Alfred Jensch Telescope       2009        NaN
5      2.0 m Alfred Jensch Telescope       2009     516.22
<class 'pandas.core.frame.DataFrame'>
Index: 39029 entries, 1 to 39029
Data columns (total 3 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   disc_telescope  39029 non-null  object 
 1   disc_year       39029 non-null  int64  
 2   pl_orbper       35782 non-null  float64
dtypes: float64(1), int64(1), object(1)
memory usage: 1.2+ MB


Por fim vamos gerar um dataframe apenas com os dados que nos interessam

nome do planeta, raio, ano de descoberta, telescopio de descoberta e periodo orbital

Também vamos remover duplicatas e valores nulos.

In [None]:
cols = ['pl_name','pl_rade','disc_year','disc_telescope','pl_orbper']

df_exopl = df_exo[cols][(~df_exo['pl_rade'].isna())&(~df_exo['pl_orbper'].isna())]
df_exopl.drop_duplicates(inplace=True)
df_exopl.reset_index(inplace=True)

df_exopl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18992 entries, 0 to 18991
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   rowid           18992 non-null  int64  
 1   pl_name         18992 non-null  object 
 2   pl_rade         18992 non-null  float64
 3   disc_year       18992 non-null  int64  
 4   disc_telescope  18992 non-null  object 
 5   pl_orbper       18992 non-null  float64
dtypes: float64(2), int64(2), object(2)
memory usage: 890.4+ KB


In [27]:
df_exopl.to_csv('..//Treated_exoplanets_dataset.csv', index=False)

Os procedimentos anteriores foram realizados na minha maquina pessoal, e o dataset original não será enviado ao github devido ao seu tamanho. 
Exportei o dataset já separado e limpo para armazenar junto ao github, e facilitar a construção do aplicativo

In [28]:
df_exopl = pd.read_csv('..//Treated_exoplanets_dataset.csv')
df_exopl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18992 entries, 0 to 18991
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   rowid           18992 non-null  int64  
 1   pl_name         18992 non-null  object 
 2   pl_rade         18992 non-null  float64
 3   disc_year       18992 non-null  int64  
 4   disc_telescope  18992 non-null  object 
 5   pl_orbper       18992 non-null  float64
dtypes: float64(2), int64(2), object(2)
memory usage: 890.4+ KB


Agora estamos prontos para gerar alguns graficos

In [23]:
# histograma simples do raio planetario
title ='Numero de exoplanetas descobertos'
labels = {
    'pl_rade':'Raio do exoplaneta (Raios Terra)'
}
fig = px.histogram(df_exopl[df_exopl['pl_rade'] < 25], 
                    x='pl_rade',
                    title=title,
                    labels=labels,)
fig.update_layout(yaxis_title = 'Exoplanetas')
fig.show()

In [24]:
# histograma separado pelo telescopio que descobriu o planeta
title ='Numero de exoplanetas descobertos'
labels = {
    'pl_rade':'Raio do exoplaneta (Raios Terra)',
    'disc_telescope':'Telescópio'
}
fig = px.histogram(df_exopl[df_exopl['pl_rade'] < 25], 
                    x='pl_rade', 
                    color='disc_telescope',
                    title=title,
                    labels=labels,)
fig.update_layout(yaxis_title = 'Exoplanetas')
fig.show()

In [25]:
# histograma separado por ano de descoberta
title ='Numero de exoplanetas descobertos'
labels = {
    'pl_rade':'Raio do exoplaneta (Raios Terra)',
    'disc_year':'Ano de descoberta'
}
fig = px.histogram(df_exopl[df_exopl['pl_rade'] < 25], 
                    x='pl_rade', 
                    color='disc_year',
                    title=title,
                    labels=labels,)
fig.update_layout(yaxis_title = 'Exoplanetas')
fig.show()

In [26]:
# relação entre tamanho no planeta e periodo orbital
title ='Exoplanetas: Raio por periodo orbital'
labels = {
    'pl_rade':'Raio do exoplaneta (Raios Terra)',
    'pl_orbper':'Período orbital (Dias)'
}
fig = px.scatter(df_exopl[(df_exopl['pl_rade'] < 25)&(df_exopl['pl_orbper'] < 800)], 
                 x='pl_rade',
                 y='pl_orbper',
                 labels = labels,
                 title = title)
fig.show()