# Validaciones al formato CSV
<hr>
<br>

### Validación de la estructura. 
Se verifica si el archivo CSV tiene la cantidad correcta de columnas y el formato esperado en cada columna.

In [1]:
import pandas as pd

In [None]:
# Leemos el archivo CSV
archivo = ''

try: 
    df = pd.read_csv(archivo)
except FileNotFoundError:
    print(f"El archivo '{archivo}' no se encuentra en el directorio actual.")

# Se verifican las columnas que deberían ser correctas
columnas = []
if columnas == list(df.columns):
    print("Las columnas coinciden.")
else:
    print("Las columnas NO coinciden.")


<hr><br>

### Validación de Tipos de Datos
Asegurarse de que cada columna contenga el tipo de datos esperado, por ejemplo, enteros, cadenas o fechas.

In [None]:
# Validar que la columna 'released_year' contenga solo enteros
if df['released_year'].apply(lambda x: isinstance(x, int)).all():
    print("La columna \"released_year\" contiene solo enteros")

<hr><br>

### Validación de Datos Duplicados
Verificar si existen filas duplicadas en el dataset, ya que la duplicación podría indicar un problema de integridad.

In [None]:
# Comprobar duplicados en todas las columnas
if df.duplicated().any():
    print("Advertencia: Existen filas duplicadas en el CSV.")

<hr><br>

### Validación de Valores Nulos
Asegurarse de que no existan valores nulos en las columnas críticas o en todo el dataset.

In [None]:
# Comprobar valores nulos
if df.isnull().values.any():
    print("Advertencia: Existen valores nulos en el dataset.")


<hr><br>

### Validación de Protocolos de Texto
Verificar que el archivo CSV se haya guardado con la codificación correcta (como UTF-8) para evitar errores en caracteres especiales.

In [None]:
import chardet

# Leer el archivo CSV para detectar la codificación
with open(archivo) as file:
    result = chardet.detect(file.read())
assert result['encoding'] == 'utf-8', "El archivo no está en UTF-8."


ModuleNotFoundError: No module named 'chardet'