## TP :Tools for data science 

### Introduction

## Langages de la Science des Données

- **Python**: Langage de programmation polyvalent largement utilisé pour l'analyse de données, l'apprentissage automatique, la visualisation, etc. Populaire pour ses bibliothèques telles que Pandas, NumPy, Matplotlib et scikit-learn.
  
- **R**: Un langage spécialisé dans la statistique et la visualisation de données, souvent utilisé dans la recherche en sciences sociales et en biostatistique.

- **SQL**: Langage de requête structuré utilisé pour interagir avec les bases de données relationnelles. Il est crucial pour l'extraction et la manipulation de données dans de nombreux projets de science des données.

- **Julia**: Un langage de programmation scientifique haute performance, de plus en plus utilisé pour le calcul numérique et l'analyse de données en raison de sa vitesse d'exécution et de sa facilité d'utilisation.

- **Scala**: Souvent utilisé avec Apache Spark pour le traitement de données distribuées à grande échelle.

- **MATLAB**: Bien que moins courant dans les cercles de la science des données, MATLAB est souvent utilisé dans les domaines de l'ingénierie et des sciences mathématiques pour l'analyse de données et la modélisation.

- **Java**: Utilisé pour des projets de science des données à grande échelle et dans des environnements d'entreprise, notamment avec des frameworks comme Hadoop et Spark.

- **JavaScript**: Avec l'avènement des bibliothèques comme D3.js et TensorFlow.js, JavaScript est de plus en plus utilisé pour la visualisation de données et le développement de modèles d'apprentissage automatique dans les environnements web.

- **C/C++**: Utilisés pour des tâches intensives en calcul, en particulier lorsqu'il est nécessaire d'optimiser les performances.

- **Perl**: Bien que moins courant dans les nouveaux projets, Perl a été historiquement utilisé dans la bioinformatique et l'analyse de séquences génétiques.


## Bibliothèques de Science des Données

### Manipulation de Données et Analyse

- **Pandas**: Bibliothèque Python pour la manipulation et l'analyse des données, offrant des structures de données flexibles et performantes.

- **NumPy**: Bibliothèque fondamentale pour les calculs numériques en Python, offrant des tableaux multidimensionnels et des fonctions mathématiques de haut niveau.

### Visualisation

- **Matplotlib**: Bibliothèque de visualisation de données de base en Python, offrant une grande flexibilité pour la création de graphiques statiques.

- **Seaborn**: Basé sur Matplotlib, Seaborn fournit une interface de haut niveau pour créer des graphiques statistiques attrayants et informatifs.

- **Plotly**: Bibliothèque de visualisation interactive offrant des graphiques dynamiques et interactifs.

### Apprentissage Automatique

- **scikit-learn**: Bibliothèque incontournable pour l'apprentissage automatique en Python, offrant des outils simples et efficaces pour la classification, la régression, le clustering, etc.

- **TensorFlow**: Bibliothèque open source d'apprentissage automatique développée par Google, principalement utilisée pour la création de modèles d'apprentissage profond.

- **Keras**: Interface de haut niveau pour TensorFlow (et d'autres frameworks d'apprentissage profond), facilitant la création rapide de modèles d'apprentissage profond.

### Traitement de Texte et NLP

- **NLTK (Natural Language Toolkit)**: Bibliothèque Python pour le traitement du langage naturel, offrant des fonctionnalités telles que la tokenization, la lemmatization, la classification de texte, etc.

- **spaCy**: Bibliothèque Python pour le traitement avancé du langage naturel, mettant l'accent sur la rapidité et la production.

### Traitement d'Images

- **OpenCV**: Bibliothèque open source de vision par ordinateur et de traitement d'images offrant des outils pour le traitement d'images, la détection d'objets, la reconnaissance de formes, etc.

- **Pillow (PIL)**: Bibliothèque Python pour le traitement d'images de base, offrant des fonctionnalités telles que la manipulation d'images, le redimensionnement, la conversion de formats, etc.

### Autres

- **Statsmodels**: Bibliothèque Python pour l'estimation de modèles statistiques, la réalisation de tests statistiques et l'exploration de données.

- **PyTorch**: Bibliothèque open source d'apprentissage automatique développée par Facebook, utilisée pour la création de modèles d'apprentissage profond.

- **Dask**: Bibliothèque pour le calcul parallèle en Python, offrant des structures de données et des opérations similaires à celles de Pandas et NumPy, mais conçues pour l'évolutivité.


## Outils de Science des Données

| Outil              | Description                                                                                                   |
|--------------------|---------------------------------------------------------------------------------------------------------------|
| Jupyter Notebook   | Environnement interactif pour l'analyse de données, le prototypage de code, la visualisation et la narration. |
| RStudio            | Environnement de développement intégré (IDE) pour le langage R, offrant des fonctionnalités avancées.        |
| Spyder             | IDE Python conçu pour la science des données, offrant un éditeur de code, une console IPython et plus encore.|
| Visual Studio Code | Un éditeur de code open source avec des extensions pour la science des données, le langage Python, etc.      |
| Anaconda           | Distribution Python populaire pour la science des données, incluant de nombreuses bibliothèques préinstallées.|
| Tableau            | Outil de visualisation de données et de business intelligence permettant de créer des tableaux de bord interactifs.|
| Apache Spark       | Moteur de traitement de données distribué, adapté au traitement de grands ensembles de données en parallèle.|
| Databricks         | Plateforme cloud basée sur Apache Spark pour l'analyse de données et le machine learning.                    |
| KNIME              | Plateforme open source pour l'analyse de données et la création de workflows visuels.                         |
| RapidMiner         | Plateforme open source pour l'analyse prédictive et l'analyse de données, basée sur des workflows.            |


## Exemples d'Expressions Arithmétiques

1. Addition: 
   - $2 + 3 = 5$
   - $10 + (-5) = 5$

2. Soustraction:
   - $7 - 4 = 3$
   - $100 - 20 = 80$

3. Multiplication:
   - $4 \times 6 = 24$
   - $-3 \times 9 = -27$

4. Division:
   - $\frac{10}{2} = 5$
   - $\frac{15}{3} = 5$

5. Exponentiation:
   - $2^3 = 8$
   - $5^2 = 25$

6. Racine carrée:
   - $\sqrt{9} = 3$
   - $\sqrt{25} = 5$

7. Parenthèses pour la priorité:
   - $2 \times (3 + 4) = 14$
   - $(6 + 2) \div 2 = 4$


In [1]:
# Multiplication
a = 5
b = 3
result_mult = a * b
print("Résultat de la multiplication :", result_mult)

# Addition
x = 10
y = 7
result_add = x + y
print("Résultat de l'addition :", result_add)


Résultat de la multiplication : 15
Résultat de l'addition : 17


# Nombre de minutes à convertir en heures
minutes = 135

# Conversion en heures et minutes
heures = minutes // 60
minutes_restantes = minutes % 60

# Affichage du résultat
print(minutes, "minutes équivalent à", heures, "heures et", minutes_restantes, "minutes.")



## Objectifs

1. Terminer l'analyse exploratoire des données.
2. Entraîner un modèle de prédiction utilisant un algorithme d'apprentissage automatique.
3. Créer des visualisations des résultats du modèle.
4. Écrire un rapport sur les conclusions de l'analyse.
5. Présenter les résultats lors de la réunion d'équipe.


## Auteur

John Doe
