In [1]:
import pandas as pd
import glob
import os

# Define the path to the datasets directory
dataset_path = 'datasets'

# Get a list of all CSV files in the directory
csv_files = glob.glob(os.path.join(dataset_path, '*.csv'))

# Load all CSV files into a list of DataFrames
dfs = []
for filename in csv_files:
    df = pd.read_csv(filename)
    dfs.append(df)

# Concatenate all DataFrames into a single DataFrame
if dfs:
    full_df = pd.concat(dfs, ignore_index=True)
    
    # Remove the filename column if it exists
    if 'filename' in full_df.columns:
        full_df = full_df.drop(columns=['filename'])
    
    # Export the unified dataframe to a CSV file
    full_df.to_csv('unified_dataset.csv', index=False)
    print("Unified dataset exported to 'unified_dataset.csv'.")
    
    print("Dataset loaded successfully.")
    print(f"Total rows: {len(full_df)}")
    display(full_df.head())
else:
    print("No CSV files found in the datasets directory.")

Unified dataset exported to 'unified_dataset.csv'.
Dataset loaded successfully.
Total rows: 4200


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Unnamed: 0,person,audio,noise,snr,provider,text,status,transcription_time
0,p7,1,cafe,0dB,custom,Genera una cotización para el cliente con fáci...,success,1.65
1,p7,1,cafe,5dB,custom,Genera una cotización para el cliente con PUC ...,success,1.56
2,p7,1,cafe,10dB,custom,Genera una cotización para el cliente con Puff...,success,1.59
3,p7,1,clean,,custom,Genera una cotización para el cliente con FooF...,success,1.66
4,p7,1,traffic,0dB,custom,"genera una cotización para el cliente fácil, c...",success,1.53


In [2]:
mean_time_by_provider = full_df.groupby('provider')['transcription_time'].mean()
print("Mean Transcription Time by Provider:")
print(mean_time_by_provider)

Mean Transcription Time by Provider:
provider
amazon    14.626790
azure      2.370657
custom     1.404410
google     1.028714
Name: transcription_time, dtype: float64


In [10]:
import sys
import os

# Add the tools directory to the system path
sys.path.append(os.path.abspath('tools'))

from normalize import normalize_text

# Apply normalization to the text column
if 'text' in full_df.columns:
    full_df['text_normalized'] = full_df['text'].apply(normalize_text)
    print("Text column normalized successfully.")
    display(full_df.head(20))
else:
    print("Text column not found in the dataframe.")

Text column normalized successfully.


Unnamed: 0,filename,person,audio,noise,snr,provider,text,status,transcription_time,text_normalized
0,p7_1_cafe_0dB.wav,p7,1,cafe,0dB,custom,Genera una cotización para el cliente con fáci...,success,1.65,genera una cotización para el cliente con fáci...
1,p7_1_cafe_5dB.wav,p7,1,cafe,5dB,custom,Genera una cotización para el cliente con PUC ...,success,1.56,genera una cotización para el cliente con puc ...
2,p7_1_cafe_10dB.wav,p7,1,cafe,10dB,custom,Genera una cotización para el cliente con Puff...,success,1.59,genera una cotización para el cliente con puff...
3,p7_1_clean.wav,p7,1,clean,,custom,Genera una cotización para el cliente con FooF...,success,1.66,genera una cotización para el cliente con foof...
4,p7_1_traffic_0dB.wav,p7,1,traffic,0dB,custom,"genera una cotización para el cliente fácil, c...",success,1.53,genera una cotización para el cliente fácil co...
5,p7_1_traffic_5dB.wav,p7,1,traffic,5dB,custom,Genera una cotización para el cliente con Q-Fa...,success,1.64,genera una cotización para el cliente con q fa...
6,p7_1_traffic_10dB.wav,p7,1,traffic,10dB,custom,Genera una cotización para el cliente con Pufá...,success,1.52,genera una cotización para el cliente con pufá...
7,p7_1_warehouse_0dB.wav,p7,1,warehouse,0dB,custom,El negro da una aportación para el cliente que...,success,1.54,el negro da una aportación para el cliente que...
8,p7_1_warehouse_5dB.wav,p7,1,warehouse,5dB,custom,Genera una cotización para el cliente con FUFA...,success,1.65,genera una cotización para el cliente con fufa...
9,p7_1_warehouse_10dB.wav,p7,1,warehouse,10dB,custom,Genera una cotización para el cliente con FUFA...,success,1.54,genera una cotización para el cliente con fufa...
