# Setup & Configuration

**Objectif :** V√©rifier que l'environnement Spark est correctement configur√©

---

## 1. V√©rification des imports

In [4]:
# Imports de base
import sys
import os

print(f"Python version: {sys.version}")
print(f"Working directory: {os.getcwd()}")

Python version: 3.11.14 (main, Feb  4 2026, 20:30:53) [GCC 14.2.0]
Working directory: /app


## 2. Test Pandas & NumPy

In [5]:
import pandas as pd
import numpy as np

print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

Pandas version: 2.1.4
NumPy version: 1.26.2


## 3. Test lecture Excel (openpyxl)

In [6]:
# V√©rification du support Excel
import openpyxl

print(f"OpenPyXL version: {openpyxl.__version__}")
print("‚úÖ Support Excel disponible pour pd.read_excel()")

OpenPyXL version: 3.1.2
‚úÖ Support Excel disponible pour pd.read_excel()


## 4. Test simple avec Pandas DataFrame

In [7]:
# Test avec donn√©es de d√©monstration
data = {
    "ville": ["Paris", "Nanterre", "Bobigny", "Cr√©teil"],
    "departement": [75, 92, 93, 94],
    "population": [2161000, 96016, 54364, 92265]
}

df = pd.DataFrame(data)

print("\nüìä Test Pandas DataFrame:")
print(df)

print("\nüìà Statistiques:")
print(df.describe())


üìä Test Pandas DataFrame:
      ville  departement  population
0     Paris           75     2161000
1  Nanterre           92       96016
2   Bobigny           93       54364
3   Cr√©teil           94       92265

üìà Statistiques:
       departement    population
count     4.000000  4.000000e+00
mean     88.500000  6.009112e+05
std       9.036961  1.040229e+06
min      75.000000  5.436400e+04
25%      87.750000  8.278975e+04
50%      92.500000  9.414050e+04
75%      93.250000  6.122620e+05
max      94.000000  2.161000e+06


## 5. V√©rification des biblioth√®ques ML

In [8]:
# Machine Learning
import sklearn
print(f"Scikit-learn version: {sklearn.__version__}")

# Visualisation
import matplotlib
import seaborn as sns
import plotly

print(f"Matplotlib version: {matplotlib.__version__}")
print(f"Seaborn version: {sns.__version__}")
print(f"Plotly version: {plotly.__version__}")

print("\n‚úÖ Toutes les biblioth√®ques sont install√©es correctement")

Scikit-learn version: 1.3.2
Matplotlib version: 3.8.2
Seaborn version: 0.13.0
Plotly version: 5.18.0

‚úÖ Toutes les biblioth√®ques sont install√©es correctement


## 6. Structure des dossiers

In [9]:
# V√©rification de la structure
directories = [
    'data/raw',
    'data/processed',
    'data/output',
    'outputs/figures'
]

print("üìÅ Structure des dossiers:")
for dir in directories:
    path = f"/app/{dir}"
    exists = "‚úÖ" if os.path.exists(path) else "‚ùå"
    print(f"{exists} {dir}")

üìÅ Structure des dossiers:
‚úÖ data/raw
‚úÖ data/processed
‚úÖ data/output
‚úÖ outputs/figures


## 7. Test m√©moire

V√©rification que pandas peut g√©rer nos datasets

In [10]:
# V√©rifier l'utilisation m√©moire
import psutil

mem = psutil.virtual_memory()
print(f"M√©moire disponible: {mem.available / (1024**3):.2f} GB")
print(f"M√©moire totale: {mem.total / (1024**3):.2f} GB")
print(f"Utilisation: {mem.percent}%")

if mem.available > 2 * (1024**3):
    print("‚úÖ M√©moire suffisante pour nos datasets (<10GB)")
else:
    print("‚ö†Ô∏è M√©moire limit√©e - traiter les donn√©es par chunks si n√©cessaire")

M√©moire disponible: 6.91 GB
M√©moire totale: 7.81 GB
Utilisation: 11.4%
‚úÖ M√©moire suffisante pour nos datasets (<10GB)


---

## ‚úÖ Environnement pr√™t !

Si toutes les cellules s'ex√©cutent sans erreur, vous pouvez passer au notebook suivant : **01_data_download.ipynb**