# Validaciones al formato CSV
<hr>
<br>

### Validación de la estructura. 
Se verifica si el archivo CSV tiene la cantidad correcta de columnas y el formato esperado en cada columna.

In [1]:
import pandas as pd
import chardet          # Para validar UTF-8

In [4]:
def validarCSV(archivo, columnas, columna):
    
    print("")
    try:
        df = pd.read_csv(archivo)
    except FileNotFoundError:
        print(f"Algun archivo no se pudo encontrar.")
    
    # Se verifican las columnas que deberían ser correctas
    if columnas == list(df.columns):
        print("Las columnas coinciden.")
    else:
        print("Las columnas NO coinciden.")
        #return False
    
    # Validar que la columna 'released_year' contenga solo enteros
    if df[columna].apply(lambda x: isinstance(x, int)).all():
        print(f"La columna \"{columna}\" contiene solo enteros")
    else:
        print(f"La columna \"{columna}\" NO contiene solo enteros")
        #return False

    # Comprobar duplicados en todas las columnas
    if df.duplicated().any():
        print("Advertencia: Existen filas duplicadas en el CSV.")
        #return False
    else:
        print("NO Existen filas duplicadas en el CSV.")
        
    # Comprobar valores nulos
    if df.isnull().values.any():
        print("Advertencia: Existen valores nulos en el dataset.")
        #return False
    else:
        print("NO Existen valores nulos en el dataset.")

    import chardet

    # Leer el archivo CSV para detectar la codificación
    with open(archivo, 'rb') as file:
        result = chardet.detect(file.read())

    if result['encoding'] == 'utf-8':
        print("El archivo está en UTF-8.")
    else:
        print("Advertencia: El archivo NO está en UTF-8.")


In [5]:
archivo1 = 'Spotify.csv'
columnas1 = [
    "track_name",
    "artist(s)_name",
    "artist_count",
    "released_year",
    "released_month",
    "released_day",
    "in_spotify_playlists",
    "in_spotify_charts",
    "streams",
    "in_apple_playlists",
    "in_apple_charts",
    "in_deezer_playlists",
    "in_deezer_charts",
    "in_shazam_charts",
    "bpm",
    "key",
    "mode",
    "danceability_%",
    "valence_%",
    "energy_%",
    "acousticness_%",
    "instrumentalness_%",
    "liveness_%",
    "speechiness_%",
    "cover_url"
    ]
columna1 = "released_year"

archivo2 = 'MBA.csv'
columnas2 = [
    "application_id",
    "gender",
    "international",
    "gpa",
    "major",
    "race",
    "gmat",
    "work_exp",
    "work_industry",
    "admission"
]
columna2 = "work_exp"


# Validar Spotify
validarCSV(archivo1, columnas1, columna1)

# Validar MBA
validarCSV(archivo2, columnas2, columna2)




Las columnas coinciden.
La columna "released_year" contiene solo enteros
NO Existen filas duplicadas en el CSV.
Advertencia: Existen valores nulos en el dataset.
El archivo está en UTF-8.

Las columnas coinciden.
La columna "work_exp" NO contiene solo enteros
NO Existen filas duplicadas en el CSV.
Advertencia: Existen valores nulos en el dataset.
Advertencia: El archivo NO está en UTF-8.
