# Objectif

Regrouper les étoiles en fonction de plusieurs caractéristiques pour ensuite affecter n’importe quelle nouvelle étoile à l’un de ces groupes.

# Mise en situation

Dans l'étude des étoiles de notre galaxie, je connais la masse, le diamètre, et la distance depuis la terre de plusieurs dizaines étoiles. Je souhaite les regrouper sans connaître les caractéristiques de regroupement. Définissons 4 groupes différents.



# Travail attendu

Pour réaliser cette étude, vous devez sélectionner le modèle et le mode d'entraînement le plus adapté.

Votre jeu de données de départ est un fichier qui va nécessiter du nettoyage.

Vous constatez notamment qu’une partie des données, la 2ème moitié du fichier, a été décalée d’une colonne, et donc la colonne distance contient en réalité la donnée nom de l’étoile, la masse la distance, etc.

# Caractéristiques

Pour la construction du modèle, nous souhaitons considérer uniquement les caractéristiques suivantes :

* Masse
* Distance depuis la Terre
* Rayon


# Résultat

Grâce à votre modèle, vous devez être en mesure de nous indiquer à quel groupe appartient cette étoile, et surtout combien d'étoiles appartiennent déjà à ce groupe.

```
31,Alnair,0101,4.0,3.4,260
```

# Barème de notation


| Critère notation| Barème | Bonus |
| ----------- | ----------- | ----------- |
| Nettoyage de données exclusivement avec Pandas|5|1
| Netoyage de données en partie manuel, en partie avec Pandas|3|0
| Normalisation du jeu de données (avec MinMax, MaxAbsolu)|2|1
| Jeu de données contenant uniquement les 3 caractéristiques utiles|3|0
| Utilisation de matplotlib pour afficher les étoiles dans un graphique|3|0
| Choix de l'estimateur scikit-learn le plus adapté|3|0
| Entrainement du modèle|3|0
| Affichage des différents groupes dans le graphique avec matplotlib|5|0
||20|7


# Aide complémentaire

Quelques informations utiles pour la transformation de données depuis Pandas vous sont indiquées pour mener à bien la préparation de données.


In [1]:
import pandas as pd

In [22]:
import pandas as pd

# Chargement du fichier CSV pour voir les noms des colonnes
data = pd.read_csv('total_stars.csv')
print(data.columns)


Index(['Unnamed: 0.1', 'Star_name', 'Distance', 'Mass', 'Radius', 'Luminosity',
       'Unnamed: 6', 'Unnamed: 0', 'Star_name.1', 'Distance.1', 'Mass.1',
       'Radius.1'],
      dtype='object')


In [2]:
# Créer un nouveau dataframe vierge
df = pd.DataFrame()

In [3]:
# Créer une nouvelle colonne dans un dataframe
df['new_col'] = [f'{x}' for x in range(1,100)]

In [4]:
# Renommer une colonne
df_renamed = df.rename(columns={'new_col': 'renamed'})

In [28]:
import re

# Exemple de chaîne contenant des nombres avec différentes formats
string = "Voici quelques nombres : 123, 45.6, 7.89, 10, 11.22.33, 44-55"

# Regex pour sélectionner uniquement les nombres décimaux
numbers_only = re.findall(r'\b\d+,\d+|\b\d+\.\d+|\b\d+\b', string)
print(numbers_only)


['123', '45.6', '7.89', '10', '11.22', '33', '44', '55']


In [51]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
import re


data = pd.read_csv('total_stars.csv', usecols=['Star_name', 'Distance', 'Mass', 'Radius', 'Luminosity'])

data.columns = ['Nom', 'Distance', 'Masse', 'Rayon', 'Luminosité']

data = data.dropna()

def clean_radius(value):
    cleaned_value = re.sub(r'[^0-9.-]', '', value)
    return float(cleaned_value)

data['Rayon'] = data['Rayon'].apply(clean_radius)

features = data[['Masse', 'Distance', 'Rayon']]

scaler = MinMaxScaler()
scaled_features = scaler.fit_transform(features)

kmeans = KMeans(n_clusters=4)
kmeans.fit(scaled_features)

predicted_labels = kmeans.predict(scaled_features)
data['Groupe'] = predicted_labels

plt.scatter(data['Masse'], data['Distance'], c=data['Groupe'], cmap='viridis')
plt.xlabel('Masse')
plt.ylabel('Distance')
plt.title('Groupes d\'étoiles')
plt.show()

new_star = scaler.transform([[4.0, 3.4, 260]])
predicted_group = kmeans.predict(new_star)
print(f"L'étoile appartient au groupe : {predicted_group}")


ValueError: ignored

In [None]:
#Pour vous aider, voici une fonction python qui test de convertir une chaine de caractère en nombre à virgule
def check_float(str):
    try:
        float(str)
        return True
    except:
        return False

print(check_float('12.2'))
print(check_float('a12'))

In [None]:
# Pour appliquer une fonction à tous les enregistrements d’une colonne
def duplicate(x):
    return x + x
df['new_col'].apply(duplicate)

In [None]:
# Pour convertir un dataframe pandas en matrice numpy
df.to_numpy()

In [None]:
# Fusionner 2 dataframes
df_1 = pd.DataFrame()
df_1['col1'] = [x for x in range(1,10)]
df_1['col2'] = [x for x in range(1,10)]
df_2 = pd.DataFrame()
df_2['col2'] = [x for x in range(1,10)]
df_concat = pd.concat([df_1, df_2])
df_concat.info()

## Normalisation MinMax

 $$MinMax(x) = \frac{x - min()}{max() - min()}$$

## Normalisation MaxAbs

 $$MaxAbs(x) = \frac{x}{|x|}$$