In [6]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns
import chardet

# Ruta donde se encuentran los archivos descomprimidos
raw_data_folder = '../data/raw_data'

# Verificar si la carpeta existe
if not os.path.exists(raw_data_folder):
    raise FileNotFoundError(f"La carpeta '{raw_data_folder}' no existe. Verifica la ruta.")

# Listar los archivos en la carpeta raw_data
file_names = [f for f in os.listdir(raw_data_folder) if f.endswith('.txt')]

if not file_names:
    raise FileNotFoundError("No se encontraron archivos .txt en la carpeta 'raw_data'.")

print("Archivos encontrados:", file_names)

# Función para detectar la codificación del archivo
def detect_coding(file_path):
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read(100000))  # Leer una parte del archivo
    return result['encoding']

# Cargar los archivos .txt en DataFrames
dfs = {}
for file_name in file_names:
    file_path = os.path.join(raw_data_folder, file_name)
    
    # Detectar codificación
    encoding_detectado = detect_coding(file_path)
    print(f"Codificación detectada para {file_name}: {encoding_detectado}")

    # Intentar leer con diferentes delimitadores y la codificación detectada
    for sep in ['\t', ',']:
        try:
            df = pd.read_csv(file_path, sep=sep, encoding=encoding_detectado, low_memory=False)
            if df.shape[1] > 1:  # Asegurar que el archivo se cargó correctamente
                dfs[file_name] = df
                print(f"{file_name} cargado correctamente con delimitador '{sep}' y codificación '{encoding_detectado}'.")
                break
        except Exception as e:
            print(f"Intento fallido con delimitador '{sep}' en {file_name}: {e}")

    # Si no se pudo cargar, intentar con una codificación más tolerante
    if file_name not in dfs:
        try:
            df = pd.read_csv(file_path, sep='\t', encoding='ISO-8859-1', low_memory=False)
            dfs[file_name] = df
            print(f"{file_name} cargado correctamente con ISO-8859-1.")
        except Exception as e:
            print(f"Error al cargar {file_name}. Formato desconocido: {e}")

# Visualización general de los DataFrames
for file_name, df in dfs.items():
    print(f"\nPrimeras filas de {file_name}:")
    display(df.head())

# Verificar los tipos de datos y valores nulos en cada conjunto de datos
for file_name, df in dfs.items():
    print(f"\nTipos de datos y valores nulos en {file_name}:")
    print(df.info())
    print(df.isnull().sum())

# Verificar duplicados en cada DataFrame
for file_name, df in dfs.items():
    duplicated_count = df.duplicated().sum()
    print(f"\nNúmero de duplicados en {file_name}: {duplicated_count}")

Archivos encontrados: ['PAKDD2010_Leaderboard_Data.txt', 'PAKDD2010_Leaderboard_Submission_Example.txt', 'PAKDD2010_Modeling_Data.txt', 'PAKDD2010_Prediction_Data.txt']
Codificación detectada para PAKDD2010_Leaderboard_Data.txt: ascii
PAKDD2010_Leaderboard_Data.txt cargado correctamente con delimitador '	' y codificación 'ascii'.
Codificación detectada para PAKDD2010_Leaderboard_Submission_Example.txt: ascii
PAKDD2010_Leaderboard_Submission_Example.txt cargado correctamente con delimitador '	' y codificación 'ascii'.
Codificación detectada para PAKDD2010_Modeling_Data.txt: ascii
Intento fallido con delimitador '	' en PAKDD2010_Modeling_Data.txt: 'ascii' codec can't decode byte 0xac in position 40946: ordinal not in range(128)
Intento fallido con delimitador ',' en PAKDD2010_Modeling_Data.txt: 'ascii' codec can't decode byte 0xac in position 40946: ordinal not in range(128)
PAKDD2010_Modeling_Data.txt cargado correctamente con ISO-8859-1.
Codificación detectada para PAKDD2010_Prediction

Unnamed: 0,50001,C,1,Web,0,1.1,F,1.2,0.1,4,...,NULL.3,0.13,0.14,0.15,0.16,1.6,Y.3,48,618,618.1
0,50002,C,20,Web,0,1,F,1,0,4,...,,0,0,0,0,1,N,29,358,358
1,50003,C,25,Web,0,1,M,1,0,2,...,,0,0,0,0,1,N,53,670,670
2,50004,C,10,Web,0,1,F,7,0,3,...,,0,0,0,0,1,N,38,591,591
3,50005,C,25,Web,0,1,F,1,0,4,...,,0,0,0,0,2,N,19,844,844
4,50006,C,10,Web,0,1,M,1,0,2,...,,0,0,0,0,1,N,24,684,684



Primeras filas de PAKDD2010_Leaderboard_Submission_Example.txt:


Unnamed: 0,50001,0.772877805
0,50002,0.177754
1,50003,0.930523
2,50004,0.875054
3,50005,0.117273
4,50006,0.953318



Primeras filas de PAKDD2010_Modeling_Data.txt:


Unnamed: 0,1,C,5,Web,0,1.1,F,6,1.2,0.1,...,0.11,0.12,0.13,0.14,1.8,N.3,32,595,595.1,1.9
0,2,C,15,Carga,0,1,F,2,0,0,...,0,0,0,0,1,N,34,230,230,1
1,3,C,5,Web,0,1,F,2,0,0,...,0,0,0,0,1,N,27,591,591,0
2,4,C,20,Web,0,1,F,2,0,0,...,0,0,0,0,1,N,61,545,545,0
3,5,C,10,Web,0,1,M,2,0,0,...,0,0,0,0,1,N,48,235,235,1
4,6,C,10,0,0,1,M,2,0,0,...,0,0,0,0,2,N,40,371,371,1



Primeras filas de PAKDD2010_Prediction_Data.txt:


Unnamed: 0,70001,C,10,Web,NULL,1,F,1.1,0,5,...,NULL.2,0.9,0.10,0.11,0.12,2.1,N.1,29.1,318,318.1
0,70002,C,10,Web,,1,F,1,0,3,...,2.0,0,0,0,0,2,N,41,173,173
1,70003,C,25,Web,,1,F,2,0,4,...,,0,0,0,0,1,N,38,716,716
2,70004,C,5,Web,,1,F,1,0,3,...,,0,0,0,0,1,N,45,869,869
3,70005,C,20,Web,,1,F,1,0,4,...,,0,0,0,0,1,N,49,289,289
4,70006,C,10,Web,,1,F,2,0,4,...,,0,0,0,0,1,Y,33,728,728



Tipos de datos y valores nulos en PAKDD2010_Leaderboard_Data.txt:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19999 entries, 0 to 19998
Data columns (total 53 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   50001              19999 non-null  int64  
 1   C                  19999 non-null  object 
 2   1                  19999 non-null  int64  
 3   Web                19999 non-null  object 
 4   0                  19999 non-null  int64  
 5   1.1                19999 non-null  int64  
 6   F                  19999 non-null  object 
 7   1.2                19999 non-null  int64  
 8   0.1                19999 non-null  int64  
 9   4                  19999 non-null  int64  
 10  SP                 19999 non-null  object 
 11  Osasco             19989 non-null  object 
 12  1.3                19999 non-null  int64  
 13  SP.1               19998 non-null  object 
 14  Osasco.1           19998 non-null  object 
 15  Cid