# Botanica Iris : Analyse Exploratoire en R

Ce notebook a pour objectif d’explorer le dataset **Iris** à l’aide de **R**, de produire des visualisations, d’identifier des tendances, et de fournir une synthèse statistique claire.

In [None]:
# Installer les packages manquants si besoin
packages <- c("GGally", "ggplot2", "dplyr", "tidyr", "corrplot", "kableExtra")
install_if_missing <- function(p) {
  if (!requireNamespace(p, quietly = TRUE)) install.packages(p)
}
invisible(lapply(packages, install_if_missing))


In [None]:
#  Chargement des packages
library(tidyverse)
library(ggplot2)
library(GGally)
library(corrplot)
library(kableExtra)

## Étape 1 : Exploration des Données

In [None]:
# Chargement du dataset
data("iris")
head(iris)

# Aperçu structurel
str(iris)

# Aperçu visuel (fonction View seulement dans RStudio)
# View(iris)

# Noms des colonnes
names(iris)

# Espèces présentes
unique(iris$Species)

# Dimensions
dim(iris)

# Résumé statistique
summary(iris)

# Valeurs manquantes
colSums(is.na(iris))

###  Analyse du dataset et interpretation des statistiques descriptives
#### analyse du dataset
 Le jeu de données Iris contient 150 observations réparties équitablement en 3 espèces :
- setosa
- versicolor
- virginica
 Chaque fleur est décrite par 4 variables numériques :
 - Longueur et largeur du sépale (`Sepal.Length`, `Sepal.Width`)
 - Longueur et largeur du pétale (`Petal.Length`, `Petal.Width`)
### Analyse du résumé statistique :
Chaque variable s'etend entre des valeurs min et max:
- Sepal.Length : entre 4.3 et 7.9 cm, moyenne ≈ 5.84 cm
- Sepal.Width  : entre 2.0 et 4.4 cm, moyenne ≈ 3.06 cm
- Petal.Length : entre 1.0 et 6.9 cm, moyenne ≈ 3.76 cm
- Petal.Width  : entre 0.1 et 2.5 cm, moyenne ≈ 1.20 cm
Obeservations:
- Les pétales présentent des écarts beaucoup plus larges que les sépales,
  en particulier sur Petal.Length (écart : 5.9 cm).
- Cela indique une **plus grande variabilité** dans les dimensions des pétales,
   ce qui pourrait être utile pour distinguer les espèces.


## Étape 2 : Statistiques Descriptives & Corrélations

In [None]:
## Statistiques descriptives par espèce

# Setosa
setosa <- iris[iris$Species == "setosa", ]
summary(setosa)

# Versicolor
versicolor <- iris[iris$Species == "versicolor", ]
summary(versicolor)

# Virginica
virginica <- iris[iris$Species == "virginica", ]
summary(virginica)

##  Interprétation des variables par espèce

 Sepal.Length
  - Setosa : entre 4.3 et 5.8 cm, moyenne ≈ 5.01
  - Versicolor : entre 4.9 et 7.0 cm, moyenne ≈ 5.94
  - Virginica : entre 4.9 et 7.9 cm, moyenne ≈ 6.59
Interprétation :
 La longueur des sépales augmente en moyenne d'une espèce à l'autre.
 Elle peut être utilisée pour distinguer Virginica des autres,
 mais Setosa et Versicolor présentent un léger recouvrement.

 Sepal.Width
 - Setosa : entre 2.3 et 4.4 cm, moyenne ≈ 3.43
 - Versicolor : entre 2.0 et 3.4 cm, moyenne ≈ 2.77
 - Virginica : entre 2.2 et 3.8 cm, moyenne ≈ 2.97
 Interprétation :
 Setosa a des sépales plus larges en moyenne que les autres espèces.  
 Bien qu'il y ait un recouvrement, cette variable peut aider à distinguer Setosa.

 Petal.Length
 - Setosa : entre 1.0 et 1.9 cm, moyenne ≈ 1.46
 - Versicolor : entre 3.0 et 5.1 cm, moyenne ≈ 4.26
 - Virginica : entre 4.5 et 6.9 cm, moyenne ≈ 5.55
 Interprétation :
 Les longueurs des pétales sont **très bien séparées** selon les espèces.
 Setosa est clairement isolée (aucune valeur au-dessus de 1.9),
 ce qui rend cette variable extrêmement utile pour la classification.

 Petal.Width
 - Setosa : entre 0.1 et 0.6 cm, moyenne ≈ 0.25
 - Versicolor : entre 1.0 et 1.8 cm, moyenne ≈ 1.33
 - Virginica : entre 1.4 et 2.5 cm, moyenne ≈ 2.03
Interprétation :
 Aucune valeur de `Petal.Width` de Setosa ne se recoupe avec celles de Versicolor et Virginica.
 C’est **la variable la plus discriminante** pour séparer Setosa des deux autres espèces.

 Conclusion générale :  
➤ Les deux variables les plus discriminantes sont `Petal.Length` et `Petal.Width`.  
➤ Elles permettent une séparation quasi-parfaite des trois espèces.  
➤ `Sepal.Length` et `Sepal.Width` sont utiles mais présentent davantage de recouvrement.  


In [None]:
# Matrice de corrélation
cor_matrix <- cor(iris[,1:4])
corrplot(cor_matrix, method = "color", type = "upper", addCoef.col = "black")

## Interprétation – Corrélation entre variables (Pearson)

 ➤ Corrélation très forte : 
   - `Petal.Length` et `Petal.Width` : **r = 0.96**
     Cela indique une relation linéaire presque parfaite :
     les fleurs ayant de longs pétales ont aussi des pétales larges.

 ➤ Corrélations fortes :
   - `Sepal.Length` et `Petal.Length` : **r = 0.87**
   - `Sepal.Length` et `Petal.Width` : **r = 0.82**
     Ces relations suggèrent que la taille du sépale est globalement liée à la taille du pétale.
     Cela peut être exploité dans des modèles prédictifs.

➤ Corrélations faibles ou négatives :
   - `Sepal.Width` et les autres variables :
   - `Sepal.Width` vs `Sepal.Length` : **r = -0.12**
   - `Sepal.Width` vs `Petal.Length` : **r = -0.43**
   - `Sepal.Width` vs `Petal.Width`  : **r = -0.37**
 Cela signifie que les fleurs ayant de larges sépales n’ont pas nécessairement de grands pétales.

### Conclusion :
 Les variables `Petal.Length` et `Petal.Width` sont non seulement fortement corrélées entre elles,
 mais aussi très utiles pour discriminer les espèces.  
 `Sepal.Width`, en revanche, est moins informatif.


## Étape 3 : Visualisations

In [None]:
# Scatter plot sepal Length vs Width
plot(iris$Sepal.Length, iris$Sepal.Width,
     col = iris$Species,
     main = "Sepal Length vs Width")

In [None]:
# Scatter plot : Petal.Length vs Petal.Width
ggplot(iris, aes(x = Petal.Length, y = Petal.Width, color = Species)) +
  geom_point(size = 3, alpha = 0.7) +
  theme_minimal() +
  labs(title = "Séparation des espèces par pétales")

### Comparaison des visualisations : sépales vs pétales

 Graphe 1 : Sepal.Length vs Sepal.Width
 - Seule l'espèce Setosa (points foncés) forme un groupe identifiable (courts sépales larges).
 - Versicolor et Virginica se chevauchent fortement.
  Conclusion : les dimensions des sépales **ne permettent pas** de séparer clairement les trois espèces.

 Graphe 2 : Petal.Length vs Petal.Width
 - Setosa est nettement isolée en bas à gauche du graphique.
 - Versicolor et Virginica forment deux groupes bien séparés malgré une zone de transition.
  Conclusion : les dimensions des pétales permettent une **classification quasi-parfaite**.

### conclusion

 ➤ Les variables liées aux **pétales** (longueur et largeur) sont bien plus discriminantes
     que celles des sépales pour différencier les trois espèces de fleurs.

 ➤ Cette analyse visuelle confirme les résultats de la **corrélation** et des **statistiques descriptives** :
     `Petal.Length` et `Petal.Width` sont les meilleurs candidats pour identifier les differentes especes.




In [None]:
# Histogrammes globaux pour chaque variable numérique
par(mfrow = c(2, 2))  # Affiche 4 graphiques (2 lignes x 2 colonnes)

hist(iris$Petal.Length, breaks = 10, col = "lightblue", main = "Petal.Length")
hist(iris$Sepal.Length, breaks = 10, col = "lightcoral", main = "Sepal.Length")
hist(iris$Sepal.Width,  breaks = 10, col = "lightgreen", main = "Sepal.Width")
hist(iris$Petal.Width,  breaks = 10, col = "lightgoldenrod", main = "Petal.Width")

par(mfrow = c(1, 1))  # Réinitialise l'affichage graphique


In [None]:
# Histogrammes empilés par espèce pour chaque variable 
iris %>%
  pivot_longer(cols = -Species, names_to = "Variable", values_to = "Value") %>%
  ggplot(aes(x = Value, fill = Species)) +
  geom_histogram(position = "identity", alpha = 0.6, bins = 30) +
  facet_wrap(~ Variable, scales = "free") +
  theme_minimal()

### Comparaison des histogrammes globaux et empilés

#### Histogrammes globaux :
 ➤ Ils montrent la **répartition générale** de chaque variable pour l'ensemble du jeu de données.  
 ➤ Petal.Length a une distribution clairement multimodale, suggérant plusieurs groupes.  
 ➤ Sepal.Length est plus symétrique, mais légèrement étalé.  
 ➤ Petal.Width a une grande concentration autour de faibles valeurs (≤ 0.5), signe d'une espèce très différente.  
 ➤ Sepal.Width est plus centré autour de 3.0, sans pic extrême.  

 Limite : ces graphiques **ne montrent pas les différences entre espèces**, car les données sont toutes mélangées.  



#### Histogrammes empilés par espèce:
 ➤ Ils permettent de visualiser la **répartition des valeurs pour chaque variable, selon l’espèce** :  
    - `Setosa` (rose) → très regroupée et souvent isolée  
    - `Versicolor` (vert) → distributions modérées  
    - `Virginica` (bleu) → valeurs plus étalées vers le haut  

 ➤ Petal.Length et Petal.Width :  
    - Très forte séparation des espèces  
    - Aucune superposition entre Setosa et les deux autres → **très discriminantes**  

 ➤ Sepal.Length :  
    - Les distributions de Versicolor et Virginica se chevauchent  
    - Setosa est plus concentrée dans les petites longueurs  

 ➤ Sepal.Width :  
    - Moins discriminante, car les 3 espèces présentent des valeurs qui se recoupent  



### Conclusion  

 ➤ Les histogrammes globaux sont utiles pour une **vue d’ensemble** de la distribution,
     mais **ne permettent pas de distinguer les espèces**.  

 ➤ Les histogrammes empilés par espèce révèlent que :  
      `Petal.Length` et `Petal.Width` sont **parfaitement adaptées à la classification**.  
      `Sepal.Length` et surtout `Sepal.Width` sont **moins discriminantes**.  
      
Ces observations renforcent les conclusions déjà faites sur la **pertinence des variables des pétales**  



In [None]:
par(mfrow = c(1, 2), mar = c(5, 4, 4, 2))  # marges élargies : bas, gauche, haut, droite

boxplot(Sepal.Length ~ Species, data = iris,
        main = "Longueur des sépales selon l'espèce",
        las = 1, cex.axis = 0.9)

boxplot(Petal.Length ~ Species, data = iris,
        main = "Longueur des pétales selon l'espèce",
        las = 1, cex.axis = 0.9)

par(mfrow = c(1, 1))  # reset


In [None]:
# Boxplots
iris %>%
  pivot_longer(cols = -Species, names_to = "Variable", values_to = "Value") %>%
  ggplot(aes(x = Species, y = Value, fill = Species)) +
  geom_boxplot() +
  facet_wrap(~ Variable, scales = "free") +
  theme_minimal()

#### Interprétation des boxplots 

 Boxplots simples  

 ➤ Sepal.Length :  
     - Moyenne croissante : setosa < versicolor < virginica  
     - Mais recouvrement important entre versicolor et virginica  
     - Quelques valeurs atypiques (outliers) observées  

 ➤ Petal.Length :  
     - Setosa a des longueurs très faibles et très concentrées (~1.4 cm).  
     - Virginica : les plus longues (~5.5 à 6.9 cm).  
     - Versicolor : au milieu.   
     - Très peu de recouvrement  (variable très discriminante  ).    


 Boxplots groupés pour les 4 variables  

 ➤ Petal.Width :  
     - Séparation parfaite entre les espèces, surtout Setosa vs les autres  
     - Virginica domine largement en largeur de pétales  

 ➤ Sepal.Width :  
     - Grande variabilité dans chaque groupe, recouvrement entre espèces  
     - Variable **moins discriminante**  

 ➤ Globalement :  
     - `Petal.Length` et `Petal.Width` montrent une séparation nette entre les 3 espèces  
     - `Sepal.Length` est modérément discriminant  
     - `Sepal.Width` est le moins utile pour différencier les espèces  


#### Conclusion  

 ➤ Les boxplots confirment :  
      `Petal.Length` et `Petal.Width` sont des variables **fortement discriminantes**.  
      `Sepal.Width` apporte peu d’information discriminante.  
 ➤ Ces visualisations renforcent l'idée que les dimensions des **pétales** sont  
     les plus pertinentes pour une classification.  


In [None]:
# Créer une nouvelle variable : ratio Petal.Length / Petal.Width
iris$Ratio <- iris$Petal.Length / iris$Petal.Width
head(iris)
#  distribution du ratio par espèce
boxplot(Ratio ~ Species, data = iris,
        main = "Ratio Petal.Length / Petal.Width selon l'espèce")
# statistiques du ratio

aggregate(Ratio ~ Species, data = iris, summary)


### Interprétation du ratio Petal.Length / Petal.Width par espèce

 ➤ Setosa :
     - Ratio très élevé (souvent entre 6 et 8, jusqu’à 15 pour des cas extrêmes)
     - Très faible largeur de pétales combinée à une longueur non négligeable
     - Distribution concentrée et bien distincte → indicateur fort

 ➤ Versicolor :
     - Ratio centré autour de 3.2
     - Variabilité modérée
     - Légère superposition avec Virginica mais distinct de Setosa

 ➤ Virginica :
     - Ratio légèrement inférieur à Versicolor (~2.8 à 4)
     - Distribution légèrement plus étalée


####  Conclusion

 Le ratio `Petal.Length / Petal.Width` est un excellent indicateur pour identifier l’espèce :
  - Il permet une **séparation très nette entre Setosa** et les deux autres
  - Il améliore la lisibilité des différences de proportion pétale long / large
  - Ce ratio peut être utilisé comme **variable dérivée (feature engineering)** dans un modèle de classification



## Étape 4 : Synthèse et Rapport

### Comment identifier les valeurs aberrantes dans le dataset ?
Les boxplots réalisés pour chaque variable (Sepal.Length, Sepal.Width, Petal.Length, Petal.Width) permettent de visualiser les valeurs aberrantes :

Quelques outliers isolés ont été repérés, notamment :

Pour Sepal.Length chez Virginica

Pour Petal.Length chez Setosa (valeur extrême ≈ 1.0)

Le ratio Petal.Length / Petal.Width a révélé des extrêmes élevés (jusqu'à 15) dans Setosa, confirmés visuellement dans son boxplot.

 Conclusion : Les boxplots et le calcul de statistiques comme les min/max ou les quantiles permettent d’identifier efficacement les outliers.

### Quelles sont les relations entre les variables ?
 La matrice de corrélation met en évidence des liens forts :

Petal.Length ↔ Petal.Width : corrélation très forte (r = 0.96)

Sepal.Length est modérément corrélé à Petal.Length et Petal.Width

Sepal.Width est faiblement ou négativement corrélée aux autres variables

 Les scatter plots confirment :

Des liens linéaires marqués entre Petal.Length et Petal.Width

Une séparation naturelle des espèces dans l’espace des pétales

Des recouvrements plus importants pour les sépales

#### Conclusion :  
Les pétales (longueur et largeur) montrent des relations linéaires fortes et une meilleure capacité de discrimination entre espèces.

### Peut-on prédire l’espèce d’une fleur à partir de ses mesures ?
Les analyses visuelles (scatter plots, boxplots, histogrammes empilés) montrent une séparation quasi parfaite entre les espèces selon :

Petal.Length et Petal.Width (très discriminants)

Le ratio Petal.Length / Petal.Width, nouvel indicateur puissant

Les variables des sépales (notamment Sepal.Width) sont moins informatives pour différencier versicolor et virginica.

L’utilisation conjointe des bonnes variables (et du ratio) pourrait permettre d'entraîner un modèle supervisé performant (classification).

 #### Conclusion :  
 Oui, les espèces peuvent être prédites avec précision en utilisant les variables des pétales, en particulier Petal.Length, Petal.Width et leur ratio.

## Exportation de données et de graphiques

In [None]:
# Exporter une table CSV
write.csv(iris, "iris_export.csv", row.names = FALSE)

In [None]:
# Sauvegarder un graphique en PNG
png("scatterplot.png")
plot(iris$Sepal.Length, iris$Sepal.Width, col = iris$Species)
dev.off()