In [1]:
import pandas as pd
import numpy as np
import os

# Solicitar el directorio del archivo CSV al usuario
input_directory = input("Directorio donde se encuentra el archivo CSV dataset_columnas_eliminadas_pandas, terminado en /: ")

# Asegurarse de que el directorio ingresado termine con una barra diagonal
if not input_directory.endswith('/'):
    input_directory += '/'

# Definir el path del archivo CSV
csv_file_name = 'dataset_columnas_eliminadas_pandas.csv'
csvsincol_path = os.path.join(input_directory, csv_file_name)


# Carga el dataset
df2 = pd.read_csv(csvsincol_path, encoding='utf-8', sep='\t', low_memory=False)

# Inicializa un diccionario para almacenar los resultados
results = {}

# Función para detectar valores fuera de rango en columnas numéricas
def detect_outliers_numeric(column):
    q1 = column.quantile(0.25)
    q3 = column.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    outliers = ((column < lower_bound) | (column > upper_bound))
    return outliers.mean() * 100

# Función para detectar valores no estandarizados en columnas categóricas
def detect_non_standard_categorical(column):
    freq = column.value_counts(normalize=True)
    threshold = 0.01  # Umbral para considerar un valor como raro
    rare_values = freq[freq < threshold]
    non_standard = column.isin(rare_values.index)
    return non_standard.mean() * 100

# Analiza cada columna del DataFrame
for column in df2.columns:
    if pd.api.types.is_numeric_dtype(df2[column]):
        # Columnas numéricas
        percentage_outliers = detect_outliers_numeric(df2[column])
        results[column] = percentage_outliers
    elif pd.api.types.is_string_dtype(df2[column]):
        # Columnas categóricas
        percentage_non_standard = detect_non_standard_categorical(df2[column])
        results[column] = percentage_non_standard
    else:
        results[column] = None  # Otros tipos de datos no analizados

# Crea un DataFrame con los resultados
results_df2 = pd.DataFrame.from_dict(results, orient='index', columns=['% Valores no estandarizados'])

# Muestra los resultados
print(results_df2)

# Guarda los resultados en un archivo CSV en mismo directorio del Notebook para analizarlos
results_df2.to_csv('resultados_analisis.csv', sep='\t', encoding='utf-8')


Directorio donde se encuentra el archivo CSV dataset_columnas_eliminadas_pandas, terminado en /:  C:/TFM_OPF/


                  % Valores no estandarizados
code                                 0.940671
created_datetime                   100.000000
product_name                              NaN
generic_name                              NaN
quantity                                  NaN
...                                       ...
inositol_100g                        0.000247
carnitine_100g                       0.000247
sulphate_100g                        0.000402
nitrate_100g                         0.000494
acidity_100g                         0.000031

[162 rows x 1 columns]


In [2]:
import pandas as pd

# Solicitar el directorio del archivo CSV de entrada al usuario
input_directory = input("Directorio donde se encuentra el archivo CSV dataset_columnas_eliminadas_pandas, terminado en /: ")

# Asegurarse de que el directorio ingresado termine con una barra diagonal
if not input_directory.endswith('/'):
    input_directory += '/'

# Solicitar el directorio del archivo CSV de salida al usuario
output_directory = input("Directorio donde guardar el archivo CSV de salida tras limpieza de nulos, terminado en /:  : ")

# Asegurarse de que el directorio ingresado termine con una barra diagonal
if not output_directory.endswith('/'):
    output_directory += '/'

# Definir los nombres de los archivos CSV
input_csv_file_name = 'dataset_columnas_eliminadas_pandas.csv'
output_csv_file_name = 'dataset_columnas_eliminadas_pandas_NaN.csv'

# Construir las rutas completas de los archivos CSV
csv_path = os.path.join(input_directory, input_csv_file_name)
output_csv_path = os.path.join(output_directory, output_csv_file_name)

# Carga el dataset
df3 = pd.read_csv(csv_path, encoding='utf-8', sep='\t', low_memory=False)

# Reemplazar cadenas vacías y otros valores nulos o específicos con NaN
df3.replace(['', 'NULL', 'NA', 'unknown'], pd.NA, inplace=True)

# Guardar el DataFrame resultante en un archivo CSV
df3.to_csv(output_csv_path, sep='\t', encoding='utf-8', index=False)

print(f"Archivo CSV con campos nulos convertidos a NaN guardado en: {output_csv_path}")


Directorio donde se encuentra el archivo CSV dataset_columnas_eliminadas_pandas, terminado en /:  C:/TFM_OPF/
Directorio donde guardar el archivo CSV de salida tras limpieza de nulos, terminado en /:  :  C:/TFM_OPF/


Archivo CSV con campos nulos convertidos a NaN guardado en: C:/TFM_OPF/dataset_columnas_eliminadas_pandas_NaN.csv


In [3]:
import pandas as pd
import numpy as np

# Solicitar el directorio del archivo CSV al usuario
input_directory = input("Directorio donde se encuentra el archivo CSV dataset_columnas_eliminadas_pandas_NaN, terminado en /: ")

# Asegurarse de que el directorio ingresado termine con una barra diagonal
if not input_directory.endswith('/'):
    input_directory += '/'

# Definir el nombre del archivo CSV
csv_file_name = 'dataset_columnas_eliminadas_pandas_NaN.csv'

# Construir la ruta completa del archivo CSV
csvsincol_path = os.path.join(input_directory, csv_file_name)

# Carga el dataset
df5 = pd.read_csv(csvsincol_path, encoding='utf-8', sep='\t', low_memory=False)

# Inicializa un diccionario para almacenar los resultados
results = {}

# Función para detectar valores fuera de rango en columnas numéricas
def detect_outliers_numeric(column):
    q1 = column.quantile(0.25)
    q3 = column.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    outliers = ((column < lower_bound) | (column > upper_bound))
    return outliers

# Función para detectar valores no estandarizados en columnas categóricas
def detect_non_standard_categorical(column):
    freq = column.value_counts(normalize=True)
    threshold = 0.01  # Umbral para considerar un valor como raro
    rare_values = freq[freq < threshold]
    non_standard = column.isin(rare_values.index)
    return non_standard

# Analiza cada columna del DataFrame y almacena los resultados
for column in df5.columns:
    if pd.api.types.is_numeric_dtype(df5[column]):
        # Columnas numéricas
        outliers = detect_outliers_numeric(df5[column])
        results[column] = outliers
    elif pd.api.types.is_string_dtype(df5[column]):
        # Columnas categóricas
        non_standard = detect_non_standard_categorical(df5[column])
        results[column] = non_standard
    else:
        results[column] = None  # Otros tipos de datos no analizados

# Lista de columnas a excluir del proceso de eliminación
exclude_columns = ['code', 'created_datetime']

# Eliminar valores no estandarizados en las columnas restantes
for column, mask in results.items():
    if column not in exclude_columns and mask is not None:
        df5.loc[mask, column] = pd.NA

# Solicitar el directorio del archivo CSV de salida al usuario
output_directory = input("Directorio donde guardar el archivo CSV de salida tras limpieza de valores no estandarizados, terminado en /: ")

# Asegurarse de que el directorio ingresado termine con una barra diagonal
if not output_directory.endswith('/'):
    output_directory += '/'

# Definir el nombre del archivo CSV de salida
output_csv_file_name = 'dataset_columnas_limpias.csv'

# Construir la ruta completa del archivo CSV de salida
output_csv_path = os.path.join(output_directory, output_csv_file_name)
# Guardar el DataFrame resultante en un archivo CSV
df5.to_csv(output_csv_path, sep='\t', encoding='utf-8', index=False)

print(f"Dataset limpio de valores no estandarizados guardado en: {output_csv_path}")


Directorio donde se encuentra el archivo CSV dataset_columnas_eliminadas_pandas_NaN, terminado en /:  C:/TFM_OPF/
Directorio donde guardar el archivo CSV de salida tras limpieza de valores no estandarizados, terminado en /:  C:/TFM_OPF/


Dataset limpio de valores no estandarizados guardado en: C:/TFM_OPF/dataset_columnas_limpias.csv


In [4]:
import pandas as pd
import numpy as np

# Solicitar el directorio del archivo CSV limpio al usuario
output_directory = input("Directorio donde se encuentra el archivo CSV limpio, terminado en /: ")

# Asegurarse de que el directorio ingresado termine con una barra diagonal
if not output_directory.endswith('/'):
    output_directory += '/'

# Definir el nombre del archivo CSV limpio
output_csv_file_name = 'dataset_columnas_limpias.csv'

# Construir la ruta completa del archivo CSV limpio
output_csv_path = os.path.join(output_directory, output_csv_file_name)

# Carga el dataset limpio
df_clean = pd.read_csv(output_csv_path, encoding='utf-8', sep='\t', low_memory=False)

# Obtener el número de filas y columnas
num_rows, num_columns = df_clean.shape
print(f"El dataset limpio tiene {num_rows} filas y {num_columns} columnas.")

# Inicializa un diccionario para almacenar los resultados
results_clean = {}

# Función para detectar valores fuera de rango en columnas numéricas
def detect_outliers_numeric(column):
    q1 = column.quantile(0.25)
    q3 = column.quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    outliers = ((column < lower_bound) | (column > upper_bound))
    return outliers.mean() * 100

# Función para detectar valores no estandarizados en columnas categóricas
def detect_non_standard_categorical(column):
    freq = column.value_counts(normalize=True)
    threshold = 0.01  # Umbral para considerar un valor como raro
    rare_values = freq[freq < threshold]
    non_standard = column.isin(rare_values.index)
    return non_standard.mean() * 100

# Analiza cada columna del DataFrame limpio
for column in df_clean.columns:
    if pd.api.types.is_numeric_dtype(df_clean[column]):
        # Columnas numéricas
        percentage_outliers = detect_outliers_numeric(df_clean[column])
        results_clean[column] = percentage_outliers
    elif pd.api.types.is_string_dtype(df_clean[column]):
        # Columnas categóricas
        percentage_non_standard = detect_non_standard_categorical(df_clean[column])
        results_clean[column] = percentage_non_standard
    else:
        results_clean[column] = None  # Otros tipos de datos no analizados

# Crea un DataFrame con los resultados
results_clean_df = pd.DataFrame.from_dict(results_clean, orient='index', columns=['% Valores no estandarizados'])

# Muestra los resultados
print(results_clean_df)

# Guarda los resultados en un archivo CSV el el mismo directorio del Notebook para analizarlos
results_clean_df.to_csv('resultados_analisis_limpio.csv', sep='\t', encoding='utf-8')

print(f"Resultados del análisis guardados en: resultados_analisis_limpio.csv")


Directorio donde se encuentra el archivo CSV archivo CSV limpio, terminado en /:  C:/TFM_OPF/


El dataset limpio tiene 3236626 filas y 162 columnas.
                  % Valores no estandarizados
code                                 0.940671
created_datetime                   100.000000
product_name                              NaN
generic_name                              NaN
quantity                                  NaN
...                                       ...
inositol_100g                        0.000124
carnitine_100g                       0.000000
sulphate_100g                        0.000494
nitrate_100g                         0.000278
acidity_100g                         0.000000

[162 rows x 1 columns]
Resultados del análisis guardados en: resultados_analisis_limpio.csv
