# Validaciones al formato CSV
<hr>
<br>

### Validación de la estructura. 
Se verifica si el archivo CSV tiene la cantidad correcta de columnas y el formato esperado en cada columna.

In [5]:
import pandas as pd

In [6]:
# Leemos el archivo CSV
archivo = 'Spotify.csv'

try: 
    df = pd.read_csv(archivo)
except FileNotFoundError:
    print(f"El archivo '{archivo}' no se encuentra en el directorio actual.")

# Se verifican las columnas que deberían ser correctas
columnas = [
    "track_name",
    "artist(s)_name",
    "artist_count",
    "released_year",
    "released_month",
    "released_day",
    "in_spotify_playlists",
    "in_spotify_charts",
    "streams",
    "in_apple_playlists",
    "in_apple_charts",
    "in_deezer_playlists",
    "in_deezer_charts",
    "in_shazam_charts",
    "bpm",
    "key",
    "mode",
    "danceability_%",
    "valence_%",
    "energy_%",
    "acousticness_%",
    "instrumentalness_%",
    "liveness_%",
    "speechiness_%",
    "cover_url"
]

if columnas == list(df.columns):
    print("Las columnas coinciden.")
else:
    print("Las columnas NO coinciden.")


Las columnas coinciden.


<hr><br>

### Validación de Tipos de Datos
Asegurarse de que cada columna contenga el tipo de datos esperado, por ejemplo, enteros, cadenas o fechas.

In [7]:
# Validar que la columna 'released_year' contenga solo enteros
if df['released_year'].apply(lambda x: isinstance(x, int)).all():
    print("La columna \"released_year\" contiene solo enteros")

La columna "released_year" contiene solo enteros


<hr><br>

### Validación de Datos Duplicados
Verificar si existen filas duplicadas en el dataset, ya que la duplicación podría indicar un problema de integridad.

In [9]:
# Comprobar duplicados en todas las columnas
if df.duplicated().any():
    print("Advertencia: Existen filas duplicadas en el CSV.")
else:
    print("NO Existen filas duplicadas en el CSV.")


NO Existen filas duplicadas en el CSV.


<hr><br>

### Validación de Valores Nulos
Asegurarse de que no existan valores nulos en las columnas críticas o en todo el dataset.

In [10]:
# Comprobar valores nulos
if df.isnull().values.any():
    print("Advertencia: Existen valores nulos en el dataset.")
else:
    print("NO Existen valores nulos en el dataset.")



Advertencia: Existen valores nulos en el dataset.


<hr><br>

### Validación de Protocolos de Texto
Verificar que el archivo CSV se haya guardado con la codificación correcta (como UTF-8) para evitar errores en caracteres especiales.

In [18]:
import chardet

# Leer el archivo CSV para detectar la codificación
with open(archivo, 'rb') as file:
    result = chardet.detect(file.read())

if result['encoding'] == 'utf-8':
    print("El archivo está en UTF-8.")
else:
    print("Advertencia: El archivo NO está en UTF-8.")


El archivo está en UTF-8.
