# Description des colonnes (Explication par : Gemini 2.0 Flash)

**Identifiants et références croisées :**

*   **Catalog:** Désignation de l'étoile dans un catalogue stellaire spécifique.
*   **HIP:** Numéro de catalogue Hipparcos (identifiant unique pour chaque étoile du catalogue Hipparcos).
*   **Proxy:** Indique une possible entrée en double dans le catalogue.
*   **HD, BD, CoD, CPD:** Références croisées à d'autres catalogues d'étoiles (Henry Draper, Bonner Durchmusterung, Cordoba Durchmusterung, Cape Photographic Durchmusterung).
*   **CCDM:** Identifiant du Catalogue des composantes d'étoiles doubles et multiples.
*   **Nsys:** Nombre de systèmes dont cette étoile fait partie.
*   **Ncomp:** Nombre de composantes dans le système.

**Données astrométriques :**

*   **RAhms, DEdms:** Ascension droite et déclinaison en heures, minutes, secondes et degrés, minutes d'arc, secondes d'arc.
*   **RAdeg, DEdeg:** Ascension droite et déclinaison en degrés décimaux.
*   **Plx:** Parallaxe (en millièmes de seconde d'arc), une mesure de la distance de l'étoile.
*   **pmRA, pmDE:** Mouvement propre en ascension droite et déclinaison (mas/an), indiquant le mouvement de l'étoile dans le ciel.
*   **e\_RAdeg, e\_DEdeg, e\_Plx, e\_pmRA, e\_pmDE:** Erreurs standard pour RA, Dec, Parallaxe et mouvements propres.
*   **DE:RA, Plx:RA, Plx:DE, pmRA:RA, pmRA:DE, pmRA:Plx, pmDE:RA, pmDE:DE, pmDE:Plx, pmDE:pmRA:** Coefficients de corrélation entre les paramètres astrométriques.
*   **AstroRef:** Référence pour les données astrométriques.

**Données photométriques (Luminosité/Magnitude) :**

*   **Vmag:** Magnitude visuelle (luminosité dans le spectre visible).
*   **BTmag, VTmag:** Magnitudes B et V du catalogue Tycho.
*   **Hpmag:** Magnitude Hipparcos (luminosité mesurée par le satellite Hipparcos).
*   **B-V, V-I:** Indices de couleur (différences de magnitude entre différents filtres, liées à la température de l'étoile).
*   **e\_BTmag, e\_VTmag, e\_Hpmag, e\_B-V, e\_V-I:** Erreurs standard pour les magnitudes et les indices de couleur.
*   **r\_Vmag, r\_B-V, r\_V-I:** Indicateurs signalant la fiabilité/qualité des mesures de magnitude et d'indice de couleur.
*   **CombMag:** Magnitude combinée.

**Informations sur la variabilité :**

*   **VarFlag:** Indicateur signalant la variabilité de la luminosité de l'étoile.
*   **Hpscat:** Dispersion de la magnitude Hipparcos.
*   **o\_Hpmag:** Nombre d'observations pour Hpmag.
*   **Hpmax, HPmin:** Magnitude Hipparcos maximale et minimale.
*   **Period:** Période de variabilité (si l'étoile est variable).
*   **HvarType:** Type de variabilité (par exemple, Céphéide, Binaire à éclipses).
*   **moreVar, morePhoto:** Indicateurs signalant des données de variabilité ou photométriques supplémentaires.

**Autres indicateurs et informations :**

*   **MultFlag:** Indicateur signalant si l'étoile est un système d'étoiles multiples.
*   **Source:** Source des données.
*   **Qual:** Indicateur de qualité pour les données.
*   **m\_HIP, m\_BTmag, m\_Hpmag:** Indicateurs signalant la source des données.
*   **theta, rho, e\_rho:** Angle de position et séparation pour les étoiles doubles/multiples.
*   **dHp, e\_dHp:** Différence entre Hpmag et la magnitude prédite.
*   **Survey, Chart, Notes:** Références à des relevés, cartes et notes.
*   **SpType:** Type spectral (classification de l'étoile basée sur son spectre).
*   **(V-I)red:** Indice de couleur sans rougissement.
*   **r\_SpType:** Indicateur signalant la fiabilité/qualité du type spectral.
*   **F1, F2, ---:** Colonnes inconnues.


In [15]:
import pandas as pd

data = pd.read_csv('hipparcos-voidmain.csv')

data.head()

Unnamed: 0,Catalog,HIP,Proxy,RAhms,DEdms,Vmag,VarFlag,r_Vmag,RAdeg,DEdeg,...,Survey,Chart,Notes,HD,BD,CoD,CPD,(V-I)red,SpType,r_SpType
0,H,1,,00 00 00.22,+01 05 20.4,9.1,,H,0.000912,1.089013,...,S,,,224700.0,B+00 5077,,,0.66,F5,S
1,H,2,,00 00 00.91,-19 29 55.8,9.27,,G,0.003797,-19.498837,...,,,,224690.0,B-20 6688,,,1.04,K3V,4
2,H,3,,00 00 01.20,+38 51 33.4,6.61,,G,0.005008,38.859286,...,S,,,224699.0,B+38 5108,,,0.0,B9,S
3,H,4,,00 00 02.01,-51 53 36.8,8.06,,H,0.008382,-51.893546,...,S,,,224707.0,,,P-52 12237,0.43,F0V,2
4,H,5,,00 00 02.39,-40 35 28.4,8.55,,H,0.009965,-40.591224,...,,,,224705.0,,C-41 15372,P-41 9991,0.95,G8III,2


In [16]:
data.columns

Index(['Catalog', 'HIP', 'Proxy', 'RAhms', 'DEdms', 'Vmag', 'VarFlag',
       'r_Vmag', 'RAdeg', 'DEdeg', 'AstroRef', 'Plx', 'pmRA', 'pmDE',
       'e_RAdeg', 'e_DEdeg', 'e_Plx', 'e_pmRA', 'e_pmDE', 'DE:RA', 'Plx:RA',
       'Plx:DE', 'pmRA:RA', 'pmRA:DE', 'pmRA:Plx', 'pmDE:RA', 'pmDE:DE',
       'pmDE:Plx', 'pmDE:pmRA', 'F1', 'F2', '---', 'BTmag', 'e_BTmag', 'VTmag',
       'e_VTmag', 'm_BTmag', 'B-V', 'e_B-V', 'r_B-V', 'V-I', 'e_V-I', 'r_V-I',
       'CombMag', 'Hpmag', 'e_Hpmag', 'Hpscat', 'o_Hpmag', 'm_Hpmag', 'Hpmax',
       'HPmin', 'Period', 'HvarType', 'moreVar', 'morePhoto', 'CCDM', 'n_CCDM',
       'Nsys', 'Ncomp', 'MultFlag', 'Source', 'Qual', 'm_HIP', 'theta', 'rho',
       'e_rho', 'dHp', 'e_dHp', 'Survey', 'Chart', 'Notes', 'HD', 'BD', 'CoD',
       'CPD', '(V-I)red', 'SpType', 'r_SpType'],
      dtype='object')

In [17]:
# Supprimer les colonnes non pertinentes
columns_to_drop = ['Catalog', 'HIP', 'HD', 'BD', 'CoD', 'CPD', 'CCDM', 'Proxy', 'RAhms', 'DEdms', 'Notes', 'Survey', 'Chart', 'F1', 'F2', '---', 'AstroRef', 'Source']  # Ajoute d'autres colonnes à supprimer ici
data = data.drop(columns=columns_to_drop, errors='ignore') # errors='ignore' pour ne pas planter si une colonne n'existe pas
data.head()

Unnamed: 0,Vmag,VarFlag,r_Vmag,RAdeg,DEdeg,Plx,pmRA,pmDE,e_RAdeg,e_DEdeg,...,Qual,m_HIP,theta,rho,e_rho,dHp,e_dHp,(V-I)red,SpType,r_SpType
0,9.1,,H,0.000912,1.089013,3.54,-5.2,-1.88,1.32,0.74,...,,,,,,,,0.66,F5,S
1,9.27,,G,0.003797,-19.498837,21.9,181.21,-0.93,1.28,0.7,...,,,,,,,,1.04,K3V,4
2,6.61,,G,0.005008,38.859286,2.81,5.24,-2.91,0.53,0.4,...,,,,,,,,0.0,B9,S
3,8.06,,H,0.008382,-51.893546,7.75,62.85,0.16,0.53,0.59,...,,,,,,,,0.43,F0V,2
4,8.55,,H,0.009965,-40.591224,2.87,2.53,9.07,0.64,0.61,...,,,,,,,,0.95,G8III,2


In [26]:
print(data.shape)
(data.isna().sum() / len(data))*100  # Pourcentage de valeurs manquantes par colonne

(118218, 60)


Vmag          0.000846
VarFlag      90.219763
r_Vmag        0.000846
RAdeg         0.222470
DEdeg         0.222470
Plx           0.222470
pmRA          0.222470
pmDE          0.222470
e_RAdeg       0.222470
e_DEdeg       0.222470
e_Plx         0.222470
e_pmRA        0.222470
e_pmDE        0.222470
DE:RA         0.222470
Plx:RA        0.222470
Plx:DE        0.222470
pmRA:RA       0.222470
pmRA:DE       0.222470
pmRA:Plx      0.222470
pmDE:RA       0.222470
pmDE:DE       0.222470
pmDE:Plx      0.222470
pmDE:pmRA     0.222470
BTmag         2.874351
e_BTmag       2.874351
VTmag         2.824443
e_VTmag       2.824443
m_BTmag      89.175929
B-V           1.083591
e_B-V         1.083591
r_B-V         1.083591
V-I           1.078516
e_V-I         1.078516
r_V-I         0.000000
CombMag      90.878716
Hpmag         0.011843
e_Hpmag       0.011843
Hpscat        0.821364
o_Hpmag       0.821364
m_Hpmag      88.824883
Hpmax         0.821364
HPmin         0.821364
Period       97.850581
HvarType   

## Nettoyage et Exploration des données

### Identifier et gérer les valeurs manquantes. Explorer plusieurs statégies

In [8]:
numeric_cols = data.select_dtypes(include=['number']).columns.tolist()
data[numeric_cols] = data[numeric_cols].fillna(data[numeric_cols].mean())

Unnamed: 0,HIP,Vmag,VarFlag,RAdeg,DEdeg,Plx,pmRA,pmDE,e_RAdeg,e_DEdeg,...,moreVar,Nsys,Ncomp,theta,rho,e_rho,dHp,e_dHp,HD,(V-I)red
HIP,1.0,0.003751,0.007067,0.998464,-0.003514,-0.002865,-0.032295,-0.012349,0.005583,0.005061,...,5.379877e-05,0.001012,0.002322944,-0.002330693,0.00622934,0.001422542,-0.0004452007,0.0006623117,0.790409,0.021012
Vmag,0.003751,1.0,0.183388,0.002818,-0.007355,-0.054733,-0.001161,-0.051198,0.185403,0.187205,...,-0.04422647,0.074569,-0.03956501,-0.003048412,0.005690921,0.07717865,-0.03580249,0.05130002,0.087603,0.095455
VarFlag,0.007067,0.183388,1.0,0.006954,0.006558,-0.034341,0.003197,0.000975,0.02832,0.027064,...,-0.1372698,0.007902,-0.00103493,-0.004038265,-0.01161204,0.0009054318,-0.02546218,0.009112531,0.02129,0.169704
RAdeg,0.998464,0.002818,0.006954,1.0,-0.00361,-0.003073,-0.032885,-0.012239,0.004837,0.004202,...,8.346031e-06,-0.000116,0.002483488,-0.002366706,0.006222295,0.001456786,-0.0004451881,0.0006867897,0.790847,0.020839
DEdeg,-0.003514,-0.007355,0.006558,-0.00361,1.0,0.001103,0.001581,-0.013896,-0.006926,-0.010726,...,-0.002777372,0.018342,-6.28773e-05,0.005217043,-0.006450732,-0.004693618,0.002310873,0.001718562,0.047128,-0.003634
Plx,-0.002865,-0.054733,-0.034341,-0.003073,0.001103,1.0,0.00891,-0.209806,0.078872,0.074768,...,0.003270947,0.03898,0.01942555,0.008779834,0.00660213,-0.004004344,-0.01351952,-0.01325991,-0.009973,0.076468
pmRA,-0.032295,-0.001161,0.003197,-0.032885,0.001581,0.00891,1.0,-0.053399,0.002897,0.001812,...,0.003556659,-0.016302,0.001626344,-0.003253572,-0.00116287,-0.0007945585,0.001547416,-0.002697571,-0.003387,0.006838
pmDE,-0.012349,-0.051198,0.000975,-0.012239,-0.013896,-0.209806,-0.053399,1.0,-0.002128,0.003748,...,-0.004170145,0.003561,0.006567628,0.0001375243,-0.003110545,-0.004815267,0.006943851,0.0004168483,-0.023408,-0.058375
e_RAdeg,0.005583,0.185403,0.02832,0.004837,-0.006926,0.078872,0.002897,-0.002128,1.0,0.956064,...,-0.004854053,0.288212,0.05439235,-0.0007317457,-0.00883497,0.02097957,-0.03424916,0.006578696,0.012782,0.015892
e_DEdeg,0.005061,0.187205,0.027064,0.004202,-0.010726,0.074768,0.001812,0.003748,0.956064,1.0,...,-0.003871827,0.291215,0.05692697,-0.0007779919,-0.009152622,0.02084956,-0.03303968,0.007993628,0.008988,0.013034


### Rechercher et traiter les valeurs aberrantes (outliers) dans certaines colonnes (par exemple, en utilisant des boxplots ou des méthodes statistiques).

### Convertir les types de données si nécessaire (par exemple, s'assurer que les colonnes d'identifiants sont bien des chaînes de caractères).


## Analyse descriptive :

### Calculer des statistiques descriptives pour différentes colonnes (moyenne, médiane, écart-type, minimum, maximum, quartiles) sur l'ensemble des données ou des sous-ensembles de colonnes.

### Créer des histogrammes et des diagrammes de dispersion pour visualiser la distribution des données et les relations entre les variables.

### Calculer la matrice de corrélation et l'interpréter. Quelles variables sont fortement corrélées ?

## Visualisation

### Utiliser des bibliothèques comme Matplotlib ou Seaborn pour créer des visualisations plus avancées.

### Représenter la position des étoiles sur une carte du ciel (en utilisant RA et Dec).

### Explorer les relations entre la magnitude, la couleur et la distance des étoiles.

## Feature Engineering

### Créer de nouvelles colonnes à partir des colonnes existantes. Par exemple, calculer la distance des étoiles à partir de la parallaxe (distance = 1 / parallaxe). Attention aux unités !

### Créer des catégories d'étoiles en fonction de leur type spectral ou de leur variabilité.

## Machine Learning

### Prédire le type spectral d'une étoile à partir de ses autres caractéristiques.

### Regrouper les étoiles en clusters en fonction de leurs propriétés (clustering).

### Détecter les étoiles variables.