In [1]:
# Importer les bibliothèques nécessaires
import pandas as pd
import numpy as np
import os

# Fonction pour générer un DataFrame fictif
def generate_sample_dataframe():
    np.random.seed(42)  # Pour des résultats reproductibles
    data = {
        "Feature1": np.random.normal(loc=50, scale=10, size=100),  # Données aléatoires normales
        "Feature2": np.random.normal(loc=30, scale=5, size=100),
        "Feature3": np.random.normal(loc=100, scale=20, size=100),
        "Feature4": np.random.normal(loc=70, scale=15, size=100),
    }
    return pd.DataFrame(data)

# Générer les données
df = generate_sample_dataframe()

# Sauvegarder les fichiers
output_dir = "test_files"
os.makedirs(output_dir, exist_ok=True)  # Créer le répertoire s'il n'existe pas

csv_path = os.path.join(output_dir, "test_data.csv")
excel_path = os.path.join(output_dir, "test_data.xlsx")

df.to_csv(csv_path, index=False)
df.to_excel(excel_path, index=False, engine="openpyxl")

print(f"Fichiers générés :\n- {csv_path}\n- {excel_path}")

# Charger les fichiers pour vérifier
print("\nVérification des fichiers générés :")
csv_data = pd.read_csv(csv_path)
excel_data = pd.read_excel(excel_path)

print("\nContenu du fichier CSV :")
print(csv_data.head())

print("\nContenu du fichier Excel :")
print(excel_data.head())

Fichiers générés :
- test_files/test_data.csv
- test_files/test_data.xlsx

Vérification des fichiers générés :

Contenu du fichier CSV :
    Feature1   Feature2    Feature3   Feature4
0  54.967142  22.923146  107.155747  57.565075
1  48.617357  27.896773  111.215691  61.597284
2  56.476885  28.286427  121.661025  81.209404
3  65.230299  25.988614  121.076041  79.155554
4  47.658466  29.193571   72.446613  69.686476

Contenu du fichier Excel :
    Feature1   Feature2    Feature3   Feature4
0  54.967142  22.923146  107.155747  57.565075
1  48.617357  27.896773  111.215691  61.597284
2  56.476885  28.286427  121.661025  81.209404
3  65.230299  25.988614  121.076041  79.155554
4  47.658466  29.193571   72.446613  69.686476


In [2]:
import pandas as pd
file_path = "test_files/test_data.csv"
df = pd.read_csv(file_path)
print(df.head())

    Feature1   Feature2    Feature3   Feature4
0  54.967142  22.923146  107.155747  57.565075
1  48.617357  27.896773  111.215691  61.597284
2  56.476885  28.286427  121.661025  81.209404
3  65.230299  25.988614  121.076041  79.155554
4  47.658466  29.193571   72.446613  69.686476


In [3]:
import pandas as pd
from scipy.stats import pearsonr

# Charger le fichier
file_path = "test_files/test_data.csv"
df = pd.read_csv(file_path)

# Exemple d'analyse de corrélation
col1, col2 = "Feature1", "Feature2"
if col1 in df.columns and col2 in df.columns:
    correlation, _ = pearsonr(df[col1], df[col2])
    print(f"Corrélation entre {col1} et {col2} : {correlation}")
else:
    print(f"Colonnes {col1} ou {col2} non trouvées.")

Corrélation entre Feature1 et Feature2 : -0.13642221217000253


In [4]:
import pandas as pd
import numpy as np

# Generate sample data
data = {
    "Column1": np.random.randint(1, 100, size=50),
    "Column2": np.random.uniform(10.5, 50.5, size=50),
    "Column3": np.random.choice(["A", "B", "C", "D"], size=50),
    "Column4": pd.date_range("2023-01-01", periods=50),
    "Column5": np.random.randn(50),
}

# Create a DataFrame
df = pd.DataFrame(data)

# Specify the directory for saving test files
output_dir = "test_files/"

# Save as CSV
csv_file_path = output_dir + "test_data.csv"
df.to_csv(csv_file_path, index=False)

# Save as Excel
excel_file_path = output_dir + "test_data.xlsx"
df.to_excel(excel_file_path, index=False, engine="openpyxl")

# Confirmation message
print(f"Test files generated:\n- {csv_file_path}\n- {excel_file_path}")


Test files generated:
- test_files/test_data.csv
- test_files/test_data.xlsx


In [7]:
import pandas as pd
import os

# Chemin du fichier source et du fichier de sortie
input_file = "test_files/test_data.xlsx"
output_file = "test_files/results.csv"

# Vérification si le fichier source existe
if not os.path.exists(input_file):
    raise FileNotFoundError(f"Le fichier source {input_file} est introuvable.")

# Chargement du fichier Excel
data = pd.read_excel(input_file)

# Vérification si le DataFrame est vide
if data.empty:
    raise ValueError("Le fichier source est vide.")

# Calcul des statistiques descriptives
stats = {
    "Column": [],
    "Mean": [],
    "Median": [],
    "Mode": [],
    "Variance": [],
    "StdDev": [],
    "Range": []
}

for column in data.select_dtypes(include=['number']).columns:
    stats["Column"].append(column)
    stats["Mean"].append(data[column].mean())
    stats["Median"].append(data[column].median())
    stats["Mode"].append(data[column].mode().iloc[0] if not data[column].mode().empty else None)
    stats["Variance"].append(data[column].var())
    stats["StdDev"].append(data[column].std())
    stats["Range"].append(data[column].max() - data[column].min())

# Création d'un DataFrame pour les statistiques
stats_df = pd.DataFrame(stats)

# Exportation des statistiques dans un fichier CSV
stats_df.to_csv(output_file, index=False)

print(f"Les statistiques descriptives ont été enregistrées dans {output_file}.")


Les statistiques descriptives ont été enregistrées dans test_files/results.csv.
