In [2]:
import pandas as pd
import re
import xml.etree.ElementTree as ET



```markdown
# Olympic Athletes
```

In [3]:
def clean_text(text):
    if isinstance(text, str):
        clean_text = re.sub(r'[\n\u00a0\u2026\u2019\u201d]', '', text)
        clean_text = clean_text.replace(';', '')  
        clean_text = re.sub(r'\s{2,}', ' ', clean_text)  
        return clean_text
    
    else:
        return text
    
# Charger le JSON depuis un fichier ou une URL
json_data = pd.read_json("olympic_athletes.json")

# Remplacer les valeurs null par des chaînes vides
json_data.fillna("", inplace=True)

# Appliquer la fonction de nettoyage à toutes les colonnes du DataFrame
json_data = json_data.applymap(clean_text)

# Ajouter la colonne _id
json_data['_id'] = range(len(json_data))

columns = ['_id'] + [col for col in json_data.columns if col != '_id']
json_data = json_data[columns]

json_data.to_csv("olympic_athletes.csv", index=False)

```markdown
# Olympic Hosts
```


In [8]:
# Parse le fichier XML
tree = ET.parse('olympic_hosts.xml')
root = tree.getroot()


In [9]:
# Initialise une liste pour stocker les données
data = []

# Parcourt chaque élément "row" dans le XML et extrait les données
for row in root.findall('row'):
    index = row.find('index').text
    game_slug = row.find('game_slug').text
    game_end_date = row.find('game_end_date').text
    game_start_date = row.find('game_start_date').text
    game_location = row.find('game_location').text
    game_name = row.find('game_name').text
    game_season = row.find('game_season').text
    game_year = row.find('game_year').text
    
    data.append({'index': index,
                 'game_slug': game_slug,
                 'game_end_date': game_end_date,
                 'game_start_date': game_start_date,
                 'game_location': game_location,
                 'game_name': game_name,
                 'game_season': game_season,
                 'game_year': game_year})


In [10]:
# Convertit la liste de dictionnaires en DataFrame Pandas
df = pd.DataFrame(data)

# Exporte les données au format CSV
df.to_csv('olympic_hosts.csv', index=False)

```markdown
# Olympic Medals
```

In [12]:
# Charger le fichier Excel
df = pd.read_excel('olympic_medals.xlsx')

In [13]:
# Exporter les données au format CSV
df.to_csv('olympic_medals.csv', index=False)

```markdown
# Olympic Results
```


In [3]:
tables = pd.read_html("olympic_results.html")

In [4]:
tables[0].to_csv('olympic_results.csv', index=False)