In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt

# URL de la page
url = "https://www.institutdesactuaires.com/se-documenter/memoires/memoires-d-actuariat-4651"

# Envoi de la requête HTTP
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)

# Création de l'objet BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# Trouver le tableau
table = soup.find('table')

# Listes pour stocker les données
auteurs = []
societes = []
annees = []
titres = []

# Extraction des données du tableau
rows = table.find_all('tr')[1:]  # Skip header row
for row in rows:
    cols = row.find_all('td')
    if len(cols) >= 4:
        auteurs.append(cols[0].text.strip())
        societes.append(cols[1].text.strip())
        annees.append(cols[2].text.strip())
        titres.append(cols[3].text.strip())

# Création d'un DataFrame
df = pd.DataFrame({
    'Auteur': auteurs,
    'Société': societes,
    'Année': annees,
    'Titre': titres
})

# Sauvegarde dans un fichier txt
with open('memoires_actuariat.txt', 'w', encoding='utf-8') as f:
    df.to_string(f, index=False)

print("Les données ont été extraites et sauvegardées dans 'memoires_actuariat.txt'")

Les données ont été extraites et sauvegardées dans 'memoires_actuariat.txt'


In [4]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Configuration du style
plt.style.use('seaborn')
sns.set_palette("husl")

# Création d'une figure avec plusieurs sous-graphiques
fig = plt.figure(figsize=(20, 25))

# 1. Nombre d'entreprises par année
plt.subplot(4, 2, 1)
sns.countplot(data=df, x='annee_publication')
plt.title('Nombre d'entreprises par année')
plt.xticks(rotation=45)

# 2. Evolution par décennie
df['decennie'] = (df['annee_publication'] // 10) * 10
plt.subplot(4, 2, 2)
sns.countplot(data=df, x='decennie')
plt.title('Evolution par décennie')
plt.xticks(rotation=45)

# 3. Répartition par propension à publier
plt.subplot(4, 2, 3)
sns.countplot(data=df, x='statut_publication')
plt.title('Répartition par propension à publier')
plt.xticks(rotation=45)

# 4. Répartition par propension à publier/an
plt.subplot(4, 2, 4)
sns.boxplot(data=df, x='annee_publication', y='nombre_publications')
plt.title('Répartition des publications par an')
plt.xticks(rotation=45)

# 5. Evolution du taux de publication par an
plt.subplot(4, 2, 5)
sns.lineplot(data=df, x='annee_publication', y='taux_publication')
plt.title('Evolution du taux de publication par an')
plt.xticks(rotation=45)

# 6. Taux moyen de publication par an
plt.subplot(4, 2, 6)
sns.barplot(data=df, x='annee_publication', y='taux_publication', estimator=np.mean)
plt.title('Taux moyen de publication par an')
plt.xticks(rotation=45)

# 7. Top 5 entreprises moins publiées
plt.subplot(4, 2, 7)
top_moins = df.groupby('entreprise')['nombre_publications'].sum().nsmallest(5)
sns.barplot(x=top_moins.index, y=top_moins.values)
plt.title('Top 5 entreprises ayant le moins publié')
plt.xticks(rotation=45)

# 8. Top 5 entreprises plus publiées
plt.subplot(4, 2, 8)
top_plus = df.groupby('entreprise')['nombre_publications'].sum().nlargest(5)
sns.barplot(x=top_plus.index, y=top_plus.values)
plt.title('Top 5 entreprises ayant le plus publié')
plt.xticks(rotation=45)

# Ajuster la mise en page
plt.tight_layout()
plt.show()

SyntaxError: unterminated string literal (detected at line 16) (948802420.py, line 16)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Configuration du style
plt.style.use('seaborn')
sns.set_palette("husl")

# Création d'une figure avec plusieurs sous-graphiques
fig = plt.figure(figsize=(20, 25))

# 1. Nombre d'entreprises par année
plt.subplot(4, 2, 1)
sns.countplot(data=df, x='annee_publication')
plt.title('Nombre d'entreprises par année')
plt.xticks(rotation=45)

# 2. Evolution par décennie
df['decennie'] = (df['annee_publication'] // 10) * 10
plt.subplot(4, 2, 2)
sns.countplot(data=df, x='decennie')
plt.title('Evolution par décennie')
plt.xticks(rotation=45)

# 3. Répartition par propension à publier
plt.subplot(4, 2, 3)
sns.countplot(data=df, x='statut_publication')
plt.title('Répartition par propension à publier')
plt.xticks(rotation=45)

# 4. Répartition par propension à publier/an
plt.subplot(4, 2, 4)
sns.boxplot(data=df, x='annee_publication', y='nombre_publications')
plt.title('Répartition des publications par an')
plt.xticks(rotation=45)

# 5. Evolution du taux de publication par an
plt.subplot(4, 2, 5)
sns.lineplot(data=df, x='annee_publication', y='taux_publication')
plt.title('Evolution du taux de publication par an')
plt.xticks(rotation=45)

# 6. Taux moyen de publication par an
plt.subplot(4, 2, 6)
sns.barplot(data=df, x='annee_publication', y='taux_publication', estimator=np.mean)
plt.title('Taux moyen de publication par an')
plt.xticks(rotation=45)

# 7. Top 5 entreprises moins publiées
plt.subplot(4, 2, 7)
top_moins = df.groupby('entreprise')['nombre_publications'].sum().nsmallest(5)
sns.barplot(x=top_moins.index, y=top_moins.values)
plt.title('Top 5 entreprises ayant le moins publié')
plt.xticks(rotation=45)

# 8. Top 5 entreprises plus publiées
plt.subplot(4, 2, 8)
top_plus = df.groupby('entreprise')['nombre_publications'].sum().nlargest(5)
sns.barplot(x=top_plus.index, y=top_plus.values)
plt.title('Top 5 entreprises ayant le plus publié')
plt.xticks(rotation=45)

# Ajuster la mise en page
plt.tight_layout()
plt.show()


Ce code utilise les bibliothèques suivantes :
- Seaborn : pour les visualisations statistiques
- Matplotlib : pour la personnalisation des graphiques
- Pandas : pour la manipulation des données
- Numpy : pour les calculs statistiques

Quelques points importants à noter :
1. Assurez-vous que votre DataFrame contient les colonnes appropriées
2. Ajustez les noms des colonnes selon votre DataFrame
3. Vous pouvez personnaliser davantage les graphiques en :
   - Modifiant les couleurs
   - Ajustant la taille des graphiques
   - Changeant les styles de graphiques
   - Ajoutant des étiquettes d'axes
   - Modifiant les formats de dates

Pour améliorer la lisibilité, vous pouvez également :
- Ajouter des annotations
- Utiliser des palettes de couleurs différentes
- Ajouter des grilles
- Modifier les échelles des axes

# User
Cell In[5], line 16
    plt.title('Nombre d'entreprises par année')
                                             ^
SyntaxError: unterminated string literal (detected at line 16)

# Assistant
Je vais corriger le problème des apostrophes dans les titres. Voici le code corrigé :


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Configuration du style
plt.style.use('seaborn')
sns.set_palette("husl")

# Création d'une figure avec plusieurs sous-graphiques
fig = plt.figure(figsize=(20, 25))

# 1. Nombre d'entreprises par année
plt.subplot(4, 2, 1)
sns.countplot(data=df, x='annee_publication')
plt.title("Nombre d'entreprises par année")
plt.xticks(rotation=45)

# 2. Evolution par décennie
df['decennie'] = (df['annee_publication'] // 10) * 10
plt.subplot(4, 2, 2)
sns.countplot(data=df, x='decennie')
plt.title("Evolution par décennie")
plt.xticks(rotation=45)

# 3. Répartition par propension à publier
plt.subplot(4, 2, 3)
sns.countplot(data=df, x='statut_publication')
plt.title("Répartition par propension à publier")
plt.xticks(rotation=45)

# 4. Répartition par propension à publier/an
plt.subplot(4, 2, 4)
sns.boxplot(data=df, x='annee_publication', y='nombre_publications')
plt.title("Répartition des publications par an")
plt.xticks(rotation=45)

# 5. Evolution du taux de publication par an
plt.subplot(4, 2, 5)
sns.lineplot(data=df, x='annee_publication', y='taux_publication')
plt.title("Evolution du taux de publication par an")
plt.xticks(rotation=45)

# 6. Taux moyen de publication par an
plt.subplot(4, 2, 6)
sns.barplot(data=df, x='annee_publication', y='taux_publication', estimator=np.mean)
plt.title("Taux moyen de publication par an")
plt.xticks(rotation=45)

# 7. Top 5 entreprises moins publiées
plt.subplot(4, 2, 7)
top_moins = df.groupby('entreprise')['nombre_publications'].sum().nsmallest(5)
sns.barplot(x=top_moins.index, y=top_moins.values)
plt.title("Top 5 entreprises ayant le moins publié")
plt.xticks(rotation=45)

# 8. Top 5 entreprises plus publiées
plt.subplot(4, 2, 8)
top_plus = df.groupby('entreprise')['nombre_publications'].sum().nlargest(5)
sns.barplot(x=top_plus.index, y=top_plus.values)
plt.title("Top 5 entreprises ayant le plus publié")
plt.xticks(rotation=45)

# Ajuster la mise en page
plt.tight_layout()
plt.show()


J'ai remplacé toutes les apostrophes simples (') dans les titres par des guillemets doubles ("). Cela devrait résoudre l'erreur de syntaxe. Les guillemets doubles permettent d'inclure des apostrophes dans le texte sans provoquer d'erreur.


Ce code utilise les bibliothèques suivantes :
- Seaborn : pour les visualisations statistiques
- Matplotlib : pour la personnalisation des graphiques
- Pandas : pour la manipulation des données
- Numpy : pour les calculs statistiques

Quelques points importants à noter :
1. Assurez-vous que votre DataFrame contient les colonnes appropriées
2. Ajustez les noms des colonnes selon votre DataFrame
3. Vous pouvez personnaliser davantage les graphiques en :
   - Modifiant les couleurs
   - Ajustant la taille des graphiques
   - Changeant les styles de graphiques
   - Ajoutant des étiquettes d'axes
   - Modifiant les formats de dates

Pour améliorer la lisibilité, vous pouvez également :
- Ajouter des annotations
- Utiliser des palettes de couleurs différentes
- Ajouter des grilles
- Modifier les échelles des axes

# User
Avec Seaborn, donne moi les graphes pour ceci par rapport aux données du dataframe: Nombre d'entreprises recensées
Evolution du nombre d'entreprises / année de publication
Evolution du nombre d'entreprises / décennie
Répartition des entreprises par propension à publier (première publication,à déjà publié...)
Répartition des entreprises par propension à publier/an
Evolution du taux de publication par an
Taux moyen de publication / an
Taux moyen de publication / entreprise
Top 5 des entreprises le moins publié
Top 5 des entreprises le plus publié

# Assistant
Je vais vous aider à créer ces visualisations avec Seaborn. Je vais supposer que vous avez déjà un DataFrame avec les colonnes nécessaires.


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Configuration du style
plt.style.use('seaborn')
sns.set_palette("husl")

# Création d'une figure avec plusieurs sous-graphiques
fig = plt.figure(figsize=(20, 25))

# 1. Nombre d'entreprises par année
plt.subplot(4, 2, 1)
sns.countplot(data=df, x='annee_publication')
plt.title('Nombre d'entreprises par année')
plt.xticks(rotation=45)

# 2. Evolution par décennie
df['decennie'] = (df['annee_publication'] // 10) * 10
plt.subplot(4, 2, 2)
sns.countplot(data=df, x='decennie')
plt.title('Evolution par décennie')
plt.xticks(rotation=45)

# 3. Répartition par propension à publier
plt.subplot(4, 2, 3)
sns.countplot(data=df, x='statut_publication')
plt.title('Répartition par propension à publier')
plt.xticks(rotation=45)

# 4. Répartition par propension à publier/an
plt.subplot(4, 2, 4)
sns.boxplot(data=df, x='annee_publication', y='nombre_publications')
plt.title('Répartition des publications par an')
plt.xticks(rotation=45)

# 5. Evolution du taux de publication par an
plt.subplot(4, 2, 5)
sns.lineplot(data=df, x='annee_publication', y='taux_publication')
plt.title('Evolution du taux de publication par an')
plt.xticks(rotation=45)

# 6. Taux moyen de publication par an
plt.subplot(4, 2, 6)
sns.barplot(data=df, x='annee_publication', y='taux_publication', estimator=np.mean)
plt.title('Taux moyen de publication par an')
plt.xticks(rotation=45)

# 7. Top 5 entreprises moins publiées
plt.subplot(4, 2, 7)
top_moins = df.groupby('entreprise')['nombre_publications'].sum().nsmallest(5)
sns.barplot(x=top_moins.index, y=top_moins.values)
plt.title('Top 5 entreprises ayant le moins publié')
plt.xticks(rotation=45)

# 8. Top 5 entreprises plus publiées
plt.subplot(4, 2, 8)
top_plus = df.groupby('entreprise')['nombre_publications'].sum().nlargest(5)
sns.barplot(x=top_plus.index, y=top_plus.values)
plt.title('Top 5 entreprises ayant le plus publié')
plt.xticks(rotation=45)

# Ajuster la mise en page
plt.tight_layout()
plt.show()


Ce code utilise les bibliothèques suivantes :
- Seaborn : pour les visualisations statistiques
- Matplotlib : pour la personnalisation des graphiques
- Pandas : pour la manipulation des données
- Numpy : pour les calculs statistiques

Quelques points importants à noter :
1. Assurez-vous que votre DataFrame contient les colonnes appropriées
2. Ajustez les noms des colonnes selon votre DataFrame
3. Vous pouvez personnaliser davantage les graphiques en :
   - Modifiant les couleurs
   - Ajustant la taille des graphiques
   - Changeant les styles de graphiques
   - Ajoutant des étiquettes d'axes
   - Modifiant les formats de dates

Pour améliorer la lisibilité, vous pouvez également :
- Ajouter des annotations
- Utiliser des palettes de couleurs différentes
- Ajouter des grilles
- Modifier les échelles des axes

# User
Cell In[5], line 16
    plt.title('Nombre d'entreprises par année')
                                             ^
SyntaxError: unterminated string literal (detected at line 16)

# Assistant
Je vais corriger le problème des apostrophes dans les titres. Voici le code corrigé :


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Configuration du style
plt.style.use('seaborn')
sns.set_palette("husl")

# Création d'une figure avec plusieurs sous-graphiques
fig = plt.figure(figsize=(20, 25))

# 1. Nombre d'entreprises par année
plt.subplot(4, 2, 1)
sns.countplot(data=df, x='annee_publication')
plt.title("Nombre d'entreprises par année")
plt.xticks(rotation=45)

# 2. Evolution par décennie
df['decennie'] = (df['annee_publication'] // 10) * 10
plt.subplot(4, 2, 2)
sns.countplot(data=df, x='decennie')
plt.title("Evolution par décennie")
plt.xticks(rotation=45)

# 3. Répartition par propension à publier
plt.subplot(4, 2, 3)
sns.countplot(data=df, x='statut_publication')
plt.title("Répartition par propension à publier")
plt.xticks(rotation=45)

# 4. Répartition par propension à publier/an
plt.subplot(4, 2, 4)
sns.boxplot(data=df, x='annee_publication', y='nombre_publications')
plt.title("Répartition des publications par an")
plt.xticks(rotation=45)

# 5. Evolution du taux de publication par an
plt.subplot(4, 2, 5)
sns.lineplot(data=df, x='annee_publication', y='taux_publication')
plt.title("Evolution du taux de publication par an")
plt.xticks(rotation=45)

# 6. Taux moyen de publication par an
plt.subplot(4, 2, 6)
sns.barplot(data=df, x='annee_publication', y='taux_publication', estimator=np.mean)
plt.title("Taux moyen de publication par an")
plt.xticks(rotation=45)

# 7. Top 5 entreprises moins publiées
plt.subplot(4, 2, 7)
top_moins = df.groupby('entreprise')['nombre_publications'].sum().nsmallest(5)
sns.barplot(x=top_moins.index, y=top_moins.values)
plt.title("Top 5 entreprises ayant le moins publié")
plt.xticks(rotation=45)

# 8. Top 5 entreprises plus publiées
plt.subplot(4, 2, 8)
top_plus = df.groupby('entreprise')['nombre_publications'].sum().nlargest(5)
sns.barplot(x=top_plus.index, y=top_plus.values)
plt.title("Top 5 entreprises ayant le plus publié")
plt.xticks(rotation=45)

# Ajuster la mise en page
plt.tight_layout()
plt.show()


J'ai remplacé toutes les apostrophes simples (') dans les titres par des guillemets doubles ("). Cela devrait résoudre l'erreur de syntaxe. Les guillemets doubles permettent d'inclure des apostrophes dans le texte sans provoquer d'erreur.

# User
FileNotFoundError                         Traceback (most recent call last)
File [~/anaconda3/lib/python3.12/site-packages/matplotlib/style/core.py:137](http://localhost:41101/home/demians/anaconda3/lib/python3.12/site-packages/matplotlib/style/core.py#line=136), in use(style)
    136 try:
--> 137     style = _rc_params_in_file(style)
    138 except OSError as err:

File [~/anaconda3/lib/python3.12/site-packages/matplotlib/__init__.py:870](http://localhost:41101/home/demians/anaconda3/lib/python3.12/site-packages/matplotlib/__init__.py#line=869), in _rc_params_in_file(fname, transform, fail_on_error)
    869 rc_temp = {}
--> 870 with _open_file_or_url(fname) as fd:
    871     try:

File [~/anaconda3/lib/python3.12/contextlib.py:137](http://localhost:41101/home/demians/anaconda3/lib/python3.12/contextlib.py#line=136), in _GeneratorContextManager.__enter__(self)
    136 try:
--> 137     return next(self.gen)
    138 except StopIteration:

File [~/anaconda3/lib/python3.12/site-packages/matplotlib/__init__.py:847](http://localhost:41101/home/demians/anaconda3/lib/python3.12/site-packages/matplotlib/__init__.py#line=846), in _open_file_or_url(fname)
    846 fname = os.path.expanduser(fname)
--> 847 with open(fname, encoding='utf-8') as f:
    848     yield f

FileNotFoundError: [Errno 2] No such file or directory: 'seaborn'

The above exception was the direct cause of the following exception:

OSError                                   Traceback (most recent call last)
Cell In[15], line 7
      4 import numpy as np
      6 # Configuration du style
----> 7 plt.style.use('seaborn')
      8 sns.set_palette("husl")
     10 # Création d'une figure avec plusieurs sous-graphiques

File [~/anaconda3/lib/python3.12/site-packages/matplotlib/style/core.py:139](http://localhost:41101/home/demians/anaconda3/lib/python3.12/site-packages/matplotlib/style/core.py#line=138), in use(style)
    137         style = _rc_params_in_file(style)
    138     except OSError as err:
--> 139         raise OSError(
    140             f"{style!r} is not a valid package style, path of style "
    141             f"file, URL of style file, or library style name (library "
    142             f"styles are listed in `style.available`)") from err
    143 filtered = {}
    144 for k in style:  # don't trigger RcParams.__getitem__('backend')

OSError: 'seaborn' is not a valid package style, path of style file, URL of style file, or library style name (library styles are listed in `style.available`

# Assistant
Je vais corriger l'erreur liée au style. Utilisons un style Matplotlib standard et configurons Seaborn différemment :


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Configuration du style
sns.set_theme(style="whitegrid")  # Configuration du style via Seaborn
plt.rcParams['figure.figsize'] = (20, 25)  # Taille de la figure

# 1. Nombre d'entreprises par année
plt.subplot(4, 2, 1)
sns.countplot(data=df, x='annee_publication')
plt.title("Nombre d'entreprises par année")
plt.xticks(rotation=45)

# 2. Evolution par décennie
df['decennie'] = (df['annee_publication'] // 10) * 10
plt.subplot(4, 2, 2)
sns.countplot(data=df, x='decennie')
plt.title("Evolution par décennie")
plt.xticks(rotation=45)

# 3. Répartition par propension à publier
plt.subplot(4, 2, 3)
sns.countplot(data=df, x='statut_publication')
plt.title("Répartition par propension à publier")
plt.xticks(rotation=45)

# 4. Répartition par propension à publier/an
plt.subplot(4, 2, 4)
sns.boxplot(data=df, x='annee_publication', y='nombre_publications')
plt.title("Répartition des publications par an")
plt.xticks(rotation=45)

# 5. Evolution du taux de publication par an
plt.subplot(4, 2, 5)
sns.lineplot(data=df, x='annee_publication', y='taux_publication')
plt.title("Evolution du taux de publication par an")
plt.xticks(rotation=45)

# 6. Taux moyen de publication par an
plt.subplot(4, 2, 6)
sns.barplot(data=df, x='annee_publication', y='taux_publication', estimator=np.mean)
plt.title("Taux moyen de publication par an")
plt.xticks(rotation=45)

# 7. Top 5 entreprises moins publiées
plt.subplot(4, 2, 7)
top_moins = df.groupby('entreprise')['nombre_publications'].sum().nsmallest(5)
sns.barplot(x=top_moins.index, y=top_moins.values)
plt.title("Top 5 entreprises ayant le moins publié")
plt.xticks(rotation=45)

# 8. Top 5 entreprises plus publiées
plt.subplot(4, 2, 8)
top_plus = df.groupby('entreprise')['nombre_publications'].sum().nlargest(5)
sns.barplot(x=top_plus.index, y=top_plus.values)
plt.title("Top 5 entreprises ayant le plus publié")
plt.xticks(rotation=45)

# Ajuster la mise en page
plt.tight_layout()
plt.show()


Les changements principaux sont :
1. Remplacement de `plt.style.use('seaborn')` par `sns.set_theme(style="whitegrid")`
2. Configuration de la taille de la figure avec `plt.rcParams`
3. Maintien du reste du code identique

Cette version devrait fonctionner sans erreur de style. Le style "whitegrid" de Seaborn donnera un aspect propre et professionnel à vos graphiques.

# Assistant
Here's a list of useful graphs for text/categorical data, sorted by utility:

1. Bar Plot: Count of publications per `Année` (Year) to show temporal distribution

In [None]:

df['Année'].value_counts().sort_index().plot(kind='bar')
plt.title('Publications per Year')


2. Pie Chart: Distribution of publications by `Société` (Publisher/Company)

In [None]:
df['Société'].value_counts().plot(kind='pie', figsize=(10,10))
plt.title('Distribution by Publisher')


3. Horizontal Bar Chart: Top 10 most frequent `Auteur`s (Authors)

In [None]:
df['Auteur'].value_counts().head(10).plot(kind='barh')
plt.title('Top 10 Authors')


4. Stacked Bar: Authors vs Years (requires data transformation)

In [None]:
pd.crosstab(df['Auteur'], df['Année']).plot(kind='bar', stacked=True)
plt.title('Authors Publication Timeline')


5. TreeMap (using plotly): Hierarchical view of Société -> Auteur

In [None]:
import plotly.express as px
fig = px.treemap(df, path=['Société', 'Auteur'])
fig.show()