##### Importación de librerías

In [12]:
#Se importan las librerias a utilizar

import pandas as pd
import os

----

##### Lectura de los datasets

In [13]:
urbansound8k_path = "../../data/raw/UrbanSound8K/"

# Primer dataset - Carpeta con los audios
urbansound8k_audio_path = "audio/"

# Segundo dataset - Archivo CSV con metadatos sobre los audios
urbansound8k_metadata_path_file = "metadata/UrbanSound8K.csv"


In [14]:
dataset_urbansound8k_df = pd.read_csv(urbansound8k_path + urbansound8k_metadata_path_file, sep=",")
dataset_urbansound8k_df.head(2)

Unnamed: 0,slice_file_name,fsID,start,end,salience,fold,classID,class
0,100032-3-0-0.wav,100032,0.0,0.317551,1,5,3,dog_bark
1,100263-2-0-117.wav,100263,58.5,62.5,1,5,2,children_playing


---
#### Verificación de calidad de datos

**Análisis a realizar**

1. Evaluación de valores nulos (filas y columnas)
2. Evaluación de formato válido
3. Valores ajustados en rangos (ver anexos)
4. Claves únicas
5. Integridad referencial
6. Cumplimiento de reglas en valores

In [15]:
# Valores globales
cantidad_filas_urbansound8k = dataset_urbansound8k_df.shape[0]

## Dimensión: completitud

### (1a) Filas

In [16]:
nulos_x_columna_c = dataset_urbansound8k_df.isna().sum()
print(f"Cantidad de filas que tienen valores nulos por atributo:\n{nulos_x_columna_c}\n")

Cantidad de filas que tienen valores nulos por atributo:
slice_file_name    0
fsID               0
start              0
end                0
salience           0
fold               0
classID            0
class              0
dtype: int64



### (1b) Dataset

In [17]:
cantidad_nulos = dataset_urbansound8k_df.isnull().any(axis=1).sum()

print(f"Filas que presentan nulos en el dataset [completitud_d] - urbansound8k - :")
print(f"{cantidad_nulos} ({round((cantidad_nulos  / cantidad_filas_urbansound8k) * 100, 2)})%\n")


Filas que presentan nulos en el dataset [completitud_d] - urbansound8k - :
0 (0.0)%



----

## Dimensión: exactitud

### (2) Formato válido

Atributo: **slice_file_name**
Los archivos tienen como extensión ".wav"

In [18]:
formato_invalidos_slice_file_name_df = dataset_urbansound8k_df[~dataset_urbansound8k_df['slice_file_name'].str.endswith('.wav')]
cantidad_invalidos = formato_invalidos_slice_file_name_df.shape[0]

print(f"Filas que tienen formato invalido en el campo 'slice_file_name' ")
print(f"{cantidad_invalidos} ({round((cantidad_invalidos  / cantidad_filas_urbansound8k) * 100, 2)})%\n")


Filas que tienen formato invalido en el campo 'slice_file_name' 
0 (0.0)%



### (3) Valores ajustados

In [19]:
def validar_cantidad_nulos_por_campo(df, nombre_campo):
    cantidad_nulos =  len(df[nombre_campo]) - df[nombre_campo].count()
    if cantidad_nulos > 0:
        print(f"Cantidad de nulos en el atributo '{nombre_campo}': {cantidad_nulos}") # Impresión de la cantidad de nulos
    else:
        print(f"No existen filas con valores nulos para el atributo '{nombre_campo}'.")

Atributo: **salience**

In [20]:
#Verificar que los valores de cada atributo se encuentren dentro de los listados anexos
print("***" * 20)
valores = dataset_urbansound8k_df['salience'].value_counts() #Conteo de ocurrencias por valor (not-null)
print(f"Distribución inicial del atributo: \n{valores}\n")
print("***" * 20)

validar_cantidad_nulos_por_campo(dataset_urbansound8k_df, 'salience')
print("***" * 20)

# Se identifica y cuenta a los valores que no cumplen la condición definida
fuera_rango_df = dataset_urbansound8k_df[(dataset_urbansound8k_df['salience'] < 1) | (dataset_urbansound8k_df['salience'] > 2)]
print("\nSe visualizan las filas con errores de rango (salience < 1 o salience > 2): ")
display(fuera_rango_df.head(3)) # Para visualizar las tuplas con valores nulos o erróneos
print(f"Cantidad detectada: {fuera_rango_df.shape[0]}")

************************************************************
Distribución inicial del atributo: 
salience
1    5702
2    3030
Name: count, dtype: int64

************************************************************
No existen filas con valores nulos para el atributo 'salience'.
************************************************************

Se visualizan las filas con errores de rango (salience < 1 o salience > 2): 


Unnamed: 0,slice_file_name,fsID,start,end,salience,fold,classID,class


Cantidad detectada: 0


Atributo: **classID**

In [21]:
#Verificar que los valores de cada atributo se encuentren dentro de los listados anexos
print("***" * 20)
valores = dataset_urbansound8k_df['classID'].value_counts() #Conteo de ocurrencias por valor (not-null)
print(f"Distribución inicial del atributo: \n{valores}\n")
print("***" * 20)

validar_cantidad_nulos_por_campo(dataset_urbansound8k_df, 'classID')
print("***" * 20)

# Se identifica y cuenta a los valores que no cumplen la condición definida
fuera_rango_df = dataset_urbansound8k_df[(dataset_urbansound8k_df['classID'] < 0) | (dataset_urbansound8k_df['classID'] > 9)]
print("\nSe visualizan las filas con errores de rango (classID < 0 o classID > 9): ")
display(fuera_rango_df) # Para visualizar las tuplas con valores nulos o erróneos
print(f"Cantidad detectada: {fuera_rango_df.shape[0]}")

************************************************************
Distribución inicial del atributo: 
classID
3    1000
2    1000
0    1000
9    1000
5    1000
7    1000
4    1000
8     929
1     429
6     374
Name: count, dtype: int64

************************************************************
No existen filas con valores nulos para el atributo 'classID'.
************************************************************

Se visualizan las filas con errores de rango (classID < 0 o classID > 9): 


Unnamed: 0,slice_file_name,fsID,start,end,salience,fold,classID,class


Cantidad detectada: 0


Atributo: **fold**

In [22]:
#Verificar que los valores de cada atributo se encuentren dentro de los listados anexos
print("***" * 20)
valores = dataset_urbansound8k_df['fold'].value_counts() #Conteo de ocurrencias por valor (not-null)
print(f"Distribución inicial del atributo: \n{valores}\n")
print("***" * 20)

validar_cantidad_nulos_por_campo(dataset_urbansound8k_df, 'fold')
print("***" * 20)

# Se identifica y cuenta a los valores que no cumplen la condición definida
fuera_rango_df = dataset_urbansound8k_df[(dataset_urbansound8k_df['fold'] < 1) | (dataset_urbansound8k_df['fold'] > 10)]
print("\nSe visualizan las filas con errores de rango (fold < 1 o fold > 10): ")
display(fuera_rango_df) # Para visualizar las tuplas con valores nulos o erróneos
print(f"Cantidad detectada: {fuera_rango_df.shape[0]}")


************************************************************
Distribución inicial del atributo: 
fold
4     990
5     936
3     925
2     888
1     873
7     838
10    837
6     823
9     816
8     806
Name: count, dtype: int64

************************************************************
No existen filas con valores nulos para el atributo 'fold'.
************************************************************

Se visualizan las filas con errores de rango (fold < 1 o fold > 10): 


Unnamed: 0,slice_file_name,fsID,start,end,salience,fold,classID,class


Cantidad detectada: 0


---

## Dimensión: consistencia

### (4) Claves únicas

In [23]:
#Se obtiene el valor de la cantidad de filas actual
cant_antes = dataset_urbansound8k_df.shape[0] 

# Se ordena el dataset según el atributo que se desee evaluar (requerido para el paso siguiente)
dataset_urbansound8k_df.sort_values("slice_file_name", inplace=True)

# Se detectan y eliminan los duplicados en un atributo dejando la última ocurrencia
dataset_urbansound8k_df.drop_duplicates(subset ="slice_file_name", keep = 'last', inplace = True)

# Se obtiene el valor posterior a la operación
cant_despues = dataset_urbansound8k_df.shape[0]

# Se imprimen ambos valores
print('Dataset: dataset_urbansound8k_df')
print(f"Antes del análisis de duplicados: {cant_antes} - Despues del filtrado de duplicados: {cant_despues}")
if cant_antes > cant_despues:
    diferencia = cant_antes - cant_despues
    pct_diferencia = ((cant_antes - cant_despues) / cant_antes) * 100
    print(f"Se detectaron claves duplicadas en {diferencia} fila(s) un {round(pct_diferencia, 2)}%.")
else:
    print("No se detectaron claves duplicadas")

Dataset: dataset_urbansound8k_df
Antes del análisis de duplicados: 8732 - Despues del filtrado de duplicados: 8732
No se detectaron claves duplicadas


### (5) Integridad referencial

In [24]:
audio_path_list = []
muestras_encontradas_contador = 0
for index, row in dataset_urbansound8k_df.iterrows():
    path_total_file = f"{urbansound8k_path}/audio/fold{row['fold']}/{row['slice_file_name']}"
    audio_path_list.append(path_total_file)
    if os.path.isfile(path_total_file):
        muestras_encontradas_contador += 1

print("Validación de archivos existente")  
print(f"Cantidad de archivos encontrados : {muestras_encontradas_contador}")
print(f"Cantidad de archivos perdidos : {cantidad_filas_urbansound8k - muestras_encontradas_contador}")

Validación de archivos existente
Cantidad de archivos encontrados : 8732
Cantidad de archivos perdidos : 0


In [26]:
def calcular_integridad_referencial():
    cant_problemas = cantidad_filas_urbansound8k - dataset_urbansound8k_df.shape[0] # Se calcula sobre el inicio (foco)
    print(f"Casos de problemas de integridad referencial: {cant_problemas}")

    indicador = (cant_problemas / cantidad_filas_urbansound8k)
    print(f"Porcentaje de filas con problemas de integridad referencial: {round(indicador * 100, 2)} %")
        
calcular_integridad_referencial()

Casos de problemas de integridad referencial: 0
Porcentaje de filas con problemas de integridad referencial: 0.0 %
