# Birdsongs .- 04 Obteniendo Datos - Verificando Integridad


Verifica que la información que tenemos en el dataset concuerda con la información que tenemos descargada respecto a los audios descargados. Es importante verificar la integridad de los audios descargados, ya que el dataset y los audios se realizan en dos procesos distintos:

* Dataset: **Birdsongs_02_Obteniendo_Datos_Seleccionando_Especies**
* Audios: **Birdsongs_03_Obteniendo_Datos_Descargando_ Audios**

El resultado del notebook es verificar la integridad y realizar las correcciones oportunas si procede.


## Librerías

Carga las librerías a utilizar en el notebook

In [1]:
import pandas as pd
import os


## Carga el dataset

Carga el dataset con las grabaciones contenidas en él

In [6]:
# carga el dataset 
df_path = 'Birdsongs_My_Birdsongs_Europe_20181230103204.csv'
df_birdsongs = pd.read_csv(df_path)

# número de registros
number_rows_df = df_birdsongs.shape[0]
print("Registros:", number_rows_df)

# muestra los primeros
df_birdsongs.head()


Registros: 17370


Unnamed: 0,Common,Scientific,Length,Recordist,Date,Country,Location,Type,ID,Class,Seconds,Name,NameCat,nType
0,Mallard,Anas platyrhynchos,0:20,Jordi Calvet,2018-10-26 00:00:00,Spain,"Estany d'Ivars-Vilasana, El Pla d'Urgell, Cata...","alarm call, call, flight call",XC440476,0,20,Anas platyrhynchos,34,icall
1,Mallard,Anas platyrhynchos,0:08,Andres Angulo,2018-10-07 00:00:00,Germany,"Hannover, Niedersachsen",female,XC437788,0,8,Anas platyrhynchos,34,others
2,Mallard,Anas platyrhynchos,0:04,Andres Angulo,2018-10-07 00:00:00,Germany,"Hannover, Niedersachsen",female,XC437787,0,4,Anas platyrhynchos,34,others
3,Mallard,Anas platyrhynchos,0:14,Jorge Leitão,2018-09-15 00:00:00,Netherlands,"Genneper Parken, Eindhoven, Noord-Brabant","call, female, male",XC436407,0,14,Anas platyrhynchos,34,icall
4,Mallard,Anas platyrhynchos,0:06,Jorge Leitão,2018-09-14 00:00:00,Netherlands,"Genneper Parken, Eindhoven, Noord-Brabant","call, female",XC436331,0,6,Anas platyrhynchos,34,icall


## Chequea Dataset vs Repositorio descargas

Verifica que todos los audios que tenemos en el dataset se han descargado y se encuentran en el repositorio.

In [7]:
# repositorio audios
local_path = './audio/' 

# itera sobre el dataset y verifica que existe el audio
print(">>> Chequeando dataset vs repositorio descargas...")        
number_audios = 0

for index, row in df_birdsongs.iterrows():
    # Identificador y Nombre
    ID = row["ID"]
    name = row["Name"]

    # nombre del fichero de audio        
    file = ID + '.mp3'
    filepath = os.path.join(local_path, name, file)    
                
    # verifica si existe
    if not os.path.isfile(filepath):
        print("Fichero audio no encontrado:", ID + '-' + name)
    else:
        number_audios += 1

# resultado
print(">>> Proceso completado!!!")        
print(">>> registros en dataset", number_rows_df)
print(">>> registros en repositorio", number_audios)

if number_rows_df != number_audios:
    print(">>> Integridad KO!!!")        
else:
    print(">>> Integridad OK!!!")                
        

>>> Chequeando dataset vs repositorio descargas...
>>> Proceso completado!!!
>>> registros en dataset 17370
>>> registros en repositorio 17370
>>> Integridad OK!!!


## Chequea Repositorio descargas vs Dataset

Verifica que todos los audios que tenemos en el repositorio son los que tenemos en el dataset y que no sobra ninguno.

In [8]:
# repositorio con los audios
audiopath = './audio'    

# recupera la lista de especies (directorios) a tratar
specie_names = os.listdir(audiopath)
number_species = len(specie_names)

# registros en el dataset
records = list(df_birdsongs['ID'].values)
  
# itera sobre cada directorio y verifica si está en el dataset
print(">>> Chequeando repositorio descargas vs dataset...")      

number_audios = 0

for idx, specie_name in enumerate(specie_names):
    # recupera los ficheros de audio existentes para esta especie
    specie_dir = os.path.join(audiopath, specie_name)
    specie_files = os.listdir(specie_dir)
        
    for idx2, infilename in enumerate(specie_files):
        # fichero audio origen
        file = infilename[:infilename.find(".")]
            
        if file not in records:
            print("Esta grabación no está en el dataset:", file)
        else:
            number_audios += 1
                
# resultado
print(">>> Proceso completado!!!")        
print(">>> registros en dataset", number_rows_df)
print(">>> registros en repositorio", number_audios)

if number_rows_df != number_audios:
    print(">>> Integridad KO!!!")        
else:
    print(">>> Integridad OK!!!")                  


>>> Chequeando repositorio descargas vs dataset...
>>> Proceso completado!!!
>>> registros en dataset 17370
>>> registros en repositorio 17370
>>> Integridad OK!!!


## Normaliza dataset

En el dataset original existe una grabación XC126844 cuyo audio ya no está en la web, por lo que procedemos a eliminarlo y actualizamos el dataset.

In [None]:
df_birdsongs.drop(df_birdsongs.loc[df_birdsongs['ID'] == 'XC126844'].index, axis = 0, inplace=True)

## Actualiza dataset

Actualiza el dataset si procede

In [9]:
# Actualiza el dataset
df_birdsongs.to_csv(df_path, index=False)