# Logistic Regression

## Satellite Image Classification 

Le but de ce projet est de **classifier des images satellites** en 4 catégorie possibles: "cloudy", "desert", "green area" ou "water".

Pour plus de précision sur les data, voir le lien suivant:<br>
https://www.kaggle.com/datasets/mahmoudreda55/satellite-image-classification

## Exercice


### Load Data
1. Loadez les data en utilisant le code qui vous est donné. Les data sont loadées dans un dictionnaire de la forme suivante:
   ```
   data_d = {"cloudy" : ([...], [...]), 
             "desert" : ([...], [...]), 
             "green_area" : ([...], [...]), 
             "water" : ([...], [...])}
   ```
   où pour chaque tuple `([...], [...])`, le premièr élément est une liste de numpy arrays (3D) qui repésentent les images en RGB, et le deuxième élément est une liste de labels associés à ces images.<br>
   Examinez ces data et comprenez leur format.


### Data Analysis
2. Comptez combien il y a d'images de chaque label, pour voir si le dataset est équilibré.


### Create Datasets
3. Créez une liste `X` qui contient les **images** (liste de numpy 3D-arrays) et une liste `y` qui contient les **labels** de ces images.


4. Remarquez qu'il y a des images de dimension `(256, 256, 3)` et d'autres de dimension `(64, 64, 3)`.<br>
   En utilisant la fonction `cv2.resize(...)`, redimensionnez toutes les images à la dimension `(64, 64, 3)`.<br>
   Vos image seront alors représentées par une liste `X` de numpy arrays de dimension `(64, 64, 3)`.
   

5. En utilisant la fonction `np.flatten(...)`, aplatissez chaque images de dimension `(64, 64, 3)` en un vecteur de taille `64 * 64 * 3 = 12288`. Vous devez obtenir une liste `X` d'images aplaties (i.e., une liste de 1D-arrays, dont chacun est de taille `12288`).


6. En utilisant la fonction `np.stack(...)`, convertissez votre liste d'images aplaties `X` en un numpy array de dimension 2, également appelé `X`.


7. En utilisant la fonction `train_test_split(...)`, splittez vos data `X` et `y` en un **train set** et un **test set** de tailles 80% wet 20%, respectivement.


### Model
9. Fittez une **régression logistique** sur vos data.<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression<br>
    Calculer le **rapport de classification (classification report)** relatif à vos prédictions.<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report<br>
    L'entrâinement peut prendre du temps... Essayez de "tuner" les hyperparamètres pour résussir à entraîner le modèle.


10. Fittez un **support vector machine classifier (SVC)** sur vos data:<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC<br>
    Calculer le **rapport de classification (classification report)** relatif à vos prédictions.<br>
    L'entrâinement peut également prendre du temps...
    

11. Fittez un **réseau de neurones convolutionnel (CNN)** sur vos data:<br>
    https://keras.io/api/layers/convolution_layers/<br>
    Calculer le **rapport de classification (classification report)** relatif à vos prédictions.<br>
    L'entrâinement peut également prendre du temps...

## Librairies

In [137]:
# !pip install opencv-python
# !pip install imutils
import os
import cv2
from imutils import paths

import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import classification_report

import matplotlib.pyplot as plt

## Load and Prepare Data

In [2]:
os.getcwd()

'/Users/jeremie.cabessau-paris2.fr/Desktop/MAIN/Courses/BUT/R4.04_MethOptim/TP'

In [3]:
cloudy_img = list(paths.list_files("./Data/SatelliteData/cloudy/"))
desert_img = list(paths.list_files("./Data/SatelliteData/desert/"))
green_area_img = list(paths.list_files("./Data/SatelliteData/green_area/"))
water_img = list(paths.list_files("./Data/SatelliteData/water/"))

In [4]:
data_l = [cloudy_img, desert_img, green_area_img, water_img]
data_d = {"cloudy" : ([], []), 
          "desert" : ([], []), 
          "green_area" : ([], []), 
          "water" : ([], [])}
labels = ["cloudy", "desert", "green_area", "water"]

for key, data in zip(labels, data_l):

    for img in data:
    
        img = cv2.imread(img)
        data_d[key][0].append(img)
        data_d[key][1].append(key)

## Data Analysis

## Create Datasets

## Models

### Logistic Regression (LR)

### Support Vector Machine Classifier (SVC) 