In [17]:
import numpy as np

# Charger les données en utilisant genfromtxt avec np.float32
wine_data_with_header = np.genfromtxt("winequality-red.csv", delimiter=';', dtype=np.float32)

wine_data = wine_data_with_header[1:]


print( wine_data_with_header.nbytes)



# Afficher les 2e, 7e et 12e lignes sous forme de tableau 2D (en excluant les NaN si présents)
rows = wine_data[[1, 6, 11], :]
rows = rows[~np.isnan(rows).any(axis=1)]
print("Lignes sélectionnées :\n", rows)

# Vérifier s'il existe un vin avec un pourcentage d'alcool supérieur à 20%
alcohol_column = wine_data[:, -2]
contains_high_alcohol = np.any(alcohol_column > 20)
print("Y a-t-il un vin avec plus de 20% d'alcool ?", contains_high_alcohol)

# Calculer le pourcentage moyen d'alcool (en excluant NaN)
alcohol_mean = np.nanmean(alcohol_column)
print("Moyenne d'alcool :", alcohol_mean)

# Calculer les statistiques pour le pH
ph_column = wine_data[:, 8]  # La colonne pH
ph_stats = {
    "min": np.nanmin(ph_column),
    "max": np.nanmax(ph_column),
    "25th": np.nanpercentile(ph_column, 25),
    "50th (median)": np.nanpercentile(ph_column, 50),
    "75th": np.nanpercentile(ph_column, 75),
    "mean": np.nanmean(ph_column)
}
print("Statistiques du pH :", ph_stats)

# Trouver la moyenne de la qualité des vins avec les 20% les plus faibles en sulfates
sulphates_column = wine_data[:, 9]
sulphates_20th_percentile = np.nanpercentile(sulphates_column, 20)
low_sulphates_mask = sulphates_column < sulphates_20th_percentile
quality_column = wine_data[:, -1]  # Dernière colonne contient la qualité
target_quality = quality_column[low_sulphates_mask]
quality_mean = np.nanmean(target_quality)
print("Moyenne de la qualité des vins avec faible teneur en sulfates :", quality_mean)

# Moyenne des variables pour les meilleurs et pires vins
quality_max = np.nanmax(quality_column)
quality_min = np.nanmin(quality_column)

best_wines_mask = quality_column == quality_max
worst_wines_mask = quality_column == quality_min

best_wines_mean = np.nanmean(wine_data[best_wines_mask], axis=0)
worst_wines_mean = np.nanmean(wine_data[worst_wines_mask], axis=0)

print("Moyenne des variables pour les meilleurs vins :", best_wines_mean)
print("Moyenne des variables pour les pires vins :", worst_wines_mean)


76800
Nombre de NaN : 0
Type des données : float32
Lignes sélectionnées :
 [[7.800e+00 8.800e-01 0.000e+00 2.600e+00 9.800e-02 2.500e+01 6.700e+01
  9.968e-01 3.200e+00 6.800e-01 9.800e+00 5.000e+00]
 [7.900e+00 6.000e-01 6.000e-02 1.600e+00 6.900e-02 1.500e+01 5.900e+01
  9.964e-01 3.300e+00 4.600e-01 9.400e+00 5.000e+00]
 [7.500e+00 5.000e-01 3.600e-01 6.100e+00 7.100e-02 1.700e+01 1.020e+02
  9.978e-01 3.350e+00 8.000e-01 1.050e+01 5.000e+00]]
Y a-t-il un vin avec plus de 20% d'alcool ? False
Moyenne d'alcool : 10.422984
Statistiques du pH : {'min': np.float32(2.74), 'max': np.float32(4.01), '25th': np.float32(3.21), '50th (median)': np.float32(3.31), '75th': np.float32(3.4), 'mean': np.float32(3.3111134)}
Moyenne de la qualité des vins avec faible teneur en sulfates : 5.1854305
Moyenne des variables pour les meilleurs vins : [ 8.566666    0.4233333   0.39111114  2.5777776   0.06844445 13.277778
 33.444443    0.99521226  3.2672222   0.76777774 12.094444    8.        ]
Moyenne des va