----
# Applied data analysis -summary
---


## Handling data

![image.png](attachment:image.png)

- # Part 1 : Data models

#### **Modèle Plat (Flat Model)**
- **Description :** Un seul type d'entité, mêmes attributs. 
- **Exemples :** CSV, fichiers de log.
- **Avantages :** Simple, facile à manipuler.
- **Inconvénients :** Limité pour les structures complexes.

#### **Modèle Relationnel (Relational Model)**
- **Description :** Plusieurs entités connectées par des relations. Données en tables (colonnes et lignes).
- **Exemples :** MySQL, PostgreSQL, Oracle.
- **Avantages :** Flexible, bon pour les données complexes, support SQL.
- **Inconvénients :** Complexe pour des structures très imbriquées.

#### **Modèle Document (Document Model)**
- **Description :** Hiérarchie d'entités, données sous forme de documents (JSON, XML).
- **Exemples :** MongoDB, fichiers JSON/XML.
- **Avantages :** Flexible, bon pour les données non structurées.
- **Inconvénients :** Moins efficace pour les jointures, redondance possible.

#### **Modèle Réseau (Network Model)**
- **Description :** Réseau complexe d'entités, modèle de graphe.
- **Exemples :** Neo4j, RDF.
- **Avantages :** Excellente pour les données hautement interconnectées.
- **Inconvénients :** Complexe à modéliser et interroger.

#### **Choix du Modèle**
- Dépend du type de données, complexité et opérations. 
- Modèle réseau pour interconnexions, document pour hiérarchie, relationnel pour structure classique.
  
#### **SQL vs Pandas**
- **SQL :** Utilisé pour interroger et gérer les données dans des modèles relationnels avec des commandes comme SELECT, UPDATE, DELETE, et JOIN.
- **Pandas (bibliothèque Python) :** Similaire à SQL mais avec des capacités supplémentaires de programmation fonctionnelle. Pandas est rapide, s’intègre bien avec Python et les bibliothèques de visualisation, mais nécessite que toutes les données tiennent en mémoire.

- # Part 2 : Data sources

### **Sources de Données**
- **Données Structurées :** Schéma défini (ex : bases SQL).
- **Données Semi-structurées :** Structure flexible (ex : CSV, JSON).
- **Données Non Structurées :** Pas de structure (ex : texte, images).

### **Exemples de Sources**
- **Web Companies :** Bases d’applications, logs serveurs (Facebook, API logs).
- **Wikipedia :** 
  - **API REST :** Pour interagir avec les données de Wikipedia.
  - **Dumps XML/SQL :** https://dumps.wikimedia.org/
  - **Wikidata :** https://www.wikidata.org/ pour données structurées (JSON, RDF).
- **Web Crawling :** 
  - **Common Crawl :** https://commoncrawl.org/ (1.82 milliards de pages web).
  - **Scrapy :** https://scrapy.org/ (framework pour crawlers).
  - **Beautiful Soup :** https://www.crummy.com/software/BeautifulSoup/ (API pour HTML).
  - **Requests :** http://docs.python-requests.org/en/master/ (librairie HTTP pour Python).

### **Méthodes d’Accès**
- **APIs :** Accès structuré via web services REST (ex : JSON, XML).
- **Web Scraping :** Extraction directe, souvent avec Scrapy, Beautiful Soup, wget.


- # Part 3 : Data Wrangling (Nettoyage des Données)
- **Définition :** Préparation des données brutes pour l'analyse : nettoyage, transformation, standardisation.
- **Problèmes courants :** Données manquantes, incorrectes, incohérences, doublons.
- **Importance :** Représente 50-80 % du temps en data science.

### **Types de Problèmes de Données**
- **Données Manquantes :** Valeurs absentes, traitement avec interpolation ou suppression.
- **Données Incorrectes :** Erreurs de mesure ou de traitement.
- **Incohérences :** Représentations différentes du même type de données.

### **Stratégies de Nettoyage**
- **Automatisation + Visualisation Interactive :** Aide à détecter et corriger les anomalies.
- **Visualisation pour Diagnostic :** Identifie les problèmes (ex : outliers, valeurs nulles).

### **Exemples de Problèmes de Données**
- **Histoires d’horreur :** Lettres incorrectes, erreurs d’attribution (ex : hommes « enceintes »).
- **Graphes et Matrices :** Utilisation pour visualiser les connexions et incohérences.

### **Conseils Pratiques**
- **Avant Analyse :** Vérifier les données manquantes, corrompues, et les transformer au bon format.
- **Documentation et Provenance :** Toujours chercher les sources et la documentation des données.
- **Ne pas Sur-nettoyer :** Éviter de perdre des informations importantes en corrigeant trop.
