<a href="https://colab.research.google.com/github/MaximeCornaton/CPE_IA-DeepLearning/blob/master/DEPOs_TP1_TP2/TP1/TP1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Installation des librairies

In [2]:
!pip install numpy scikit-learn matplotlib spacy tabulate




[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: C:\Users\adrie\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


# **TP1**

## Exercice 1.1

### Extraction et analyse des mots (nombre d'occurrences), des liens (liens d'ancrage, interne et externe) et des images (taille).

In [16]:
import requests
from bs4 import BeautifulSoup
from collections import Counter
from tabulate import tabulate

# Télécharger la page web
url = "https://fr.wikipedia.org/wiki/Paris"
response = requests.get(url)
html_content = response.content

# Parser le HTML
soup = BeautifulSoup(html_content, "html.parser")

# 1. Nombre de mots
words = soup.get_text().split()
word_count = len(words)

# 2. Liens
links = soup.find_all("a")
anchor_links = [link.get("href") for link in links if link.get("href") and link.get("href").startswith("#")]
internal_links = [link.get("href") for link in links if link.get("href") and not link.get("href").startswith("#") and "wikipedia.org" in link.get("href")]
external_links = [link.get("href") for link in links if link.get("href") and not link.get("href").startswith("#") and "wikipedia.org" not in link.get("href") and link.get("href").startswith(('http://', 'https://'))]

# 3. Taille des images
images = soup.find_all("img")
image_sizes = [img.get("width") + "x" + img.get("height") for img in images if img.get("width") and img.get("height")]

# 4. Nb d'occurences des mots
word_occurrences = Counter(words)

# Afficher resultats
print("Word count:", word_count)
print("Anchor links:", anchor_links)
print("Internal links:", internal_links)
print("External links:", external_links)
print("Image sizes:", image_sizes)

word_occurrences_table = [[word, count] for word, count in word_occurrences.items()]
print(tabulate(word_occurrences_table, headers=["Word", "Occurrences"], tablefmt="fancy_grid"))


Word count: 54678
Anchor links: ['#bodyContent', '#p-lang-btn', '#', '#Géographie', '#Localisation', '#Topographie', '#Hydrographie', '#Relief', '#Géologie', '#Climat', '#Environnement', "#Qualité_de_l'air", '#2019', '#2020', '#Transports', '#Urbanisme', '#Morphologie_urbaine', '#Voirie_parisienne', '#Mobilier_urbain', '#Paris_et_ses_alentours', '#Logement', '#Données_générales', '#Logement_social', '#Mal-logement', '#Prix_des_logements', '#Personnes_sans-abris', '#Sociologie_urbaine', '#Toponymie', '#Histoire', '#Préhistoire_et_Antiquité', '#Moyen_Âge', '#De_la_Renaissance_au_XVIIIe_siècle', "#La_Révolution_française_et_l'Empire", '#De_la_Restauration_à_la_Commune_de_Paris', '#De_la_Belle_Époque_à_la_Seconde_Guerre_mondiale', '#Le_Paris_contemporain', '#Politique_et_administration', '#Statut_et_organisation_administrative', '#Historique', '#Intercommunalité', '#Liste_des_maires', '#Représentation_politique', '#Récapitulatif_de_résultats_électoraux_récents', '#Budget_et_fiscalité', '#I

### Extraction et identification des chiffres, des dates, des coordonnées géographiques, des noms propres (noms de personnes et de lieux).

In [18]:
import spacy

text = soup.get_text()

# Augmenter la limite de longueur de texte
nlp.max_length = len(text)

# Analyser le texte avec spaCy
doc = nlp(text)

# Extraire les chiffres
numbers = [token.text for token in doc if token.like_num]

# Extraire les dates
dates = [ent.text for ent in doc.ents if ent.label_ == 'DATE']

# Extraire les coordonnées géographiques
coordinates = [ent.text for ent in doc.ents if ent.label_ == 'LOC']

# Extraire les noms propres (noms de personnes et de lieux)
proper_nouns = [ent.text for ent in doc.ents if ent.label_ in ['PERSON', 'LOC']]

# Afficher les résultats
print("Chiffres:", numbers)
print("Dates:", dates)
print("Coordonnées géographiques:", coordinates)
print("Noms propres:", proper_nouns)

Chiffres: ['un', 'un', 'un', '1.7.1.12019', '1.7.1.22020', 'Seconde', 'premier', 'neuvième', '271', 'un', 'un', '48', '2', 'Un', 'vingt', '75001', '75020', '75116', '75056', '75101', '75120', '2', '145', '906', '2020', '20', '360', '10', '856', '407', '2020', '48', '2', '35', '26', '131', '105,40', 'vingt', 'une', '310', 'une', 'une', 'un', 'une', 'une', 'un', 'premier', 'Second', 'première', 'deuxième', 'un', '1970', 'une', '105', '2', '145', '906', '18', '941', '1', '929', '13', '064', '617', '2018', '2020', '10', '856', '407', 'une', 'une', 'un', 'dix', 'treize', 'un', 'six', '1900', '1924', '2024', 'un', 'une', 'deux', 'deux', 'une', 'deux', '1844', '1860', 'une', '35', 'deux', '1853', '1870', '1929', '846', '995', '54,74', '1864', '231', '1', '105,40', '34,98', 'une', '84,45', '2', '853,5', '2', '10', '858', '852', '3', '411', 'une', 'un', 'trente', 'Neuf', 'deux', '4,5', '1825', '108', '6,6', '1821', 'un', '583', '842', '1206', '1280', '1325', '1407', '1499', '1616', '1658', '166

### Identifier et extraire les données structurées, y compris les tableaux.

In [19]:
from tabulate import tabulate

# Trouver les tables
tables = soup.find_all('table')

print("Tables count:", len(tables))

Tables count: 41


### Différencier les sections et les paragraphes

In [20]:
sections = soup.find_all(["h1", "h2", "h3", "h4", "h5", "h6"])
paragraphs = soup.find_all("p")

# Afficher les résultats
print("Sections count:", len(sections))
print("Paragraphs count:", len(paragraphs))

Sections count: 135
Paragraphs count: 518


## Exercice 1.2

## Exercice 1.3

In [8]:
import numpy as np

class Perceptron:

    def __init__(self, num_inputs, activation_function, learning_rate, num_epochs):
        self.__num_inputs = num_inputs
        # Créer un tableau de longueur num_inputs contenant les poids (entre 0 et 1) associés aux entrées
        self.__weights = np.random.rand(num_inputs)
        # Choix d'un biais random (entre 0 et 1)
        self.__bias = np.random.rand()
        self.__activation_function = activation_function
        self.__learning_rate = learning_rate
        self.__num_epochs = num_epochs

    def train(self, X, y):
        for epoch in range(self.__num_epochs):
            for i in range(len(X)):
                input_data = X[i]
                prediction = self.predict(input_data)
                error = y[i] - prediction
                self.__weights += self.__learning_rate * error * input_data
                self.__bias += self.__learning_rate * error
        
    def predict(self, X):
        linear_combination = self.__bias
        for i in range(len(X)):
            linear_combination += X[i] * self.__weights[i]
        return self.activate(linear_combination)

    def activate(self, x):
        if self.__activation_function == 'sigmoid':
            return 1 / (1 + np.exp(-x))
        elif self.__activation_function == 'tanh':
            return np.tanh(x)
        elif self.__activation_function == 'relu':
            return np.maximum(0, x)
        elif self.__activation_function == 'gaussian':
            return np.exp(-x ** 2)
        else:
            # Renvoyer la fonction d'activation identité par défaut
            return x




if __name__ == "__main__":
    # Exemple de test avec une fonction SIGMOID
    # L'objectif est de démontrer la capacité du perceptron à apprendre la logique OR
    X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
    y = np.array([0, 1, 1, 1])

    perceptron = Perceptron(num_inputs=2, activation_function='sigmoid', learning_rate=0.5, num_epochs=1000)
    perceptron.train(X, y)

    # Test des prédictions
    test_data = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
    for data in test_data:
        prediction = perceptron.predict(data)
        print(f"Prévision pour {data}: {prediction}")

Prévision pour [0 0]: 0.010100417713376587
Prévision pour [0 1]: 0.9959886991590658
Prévision pour [1 0]: 0.9959727343343068
Prévision pour [1 1]: 0.9999998338341493
