In [None]:
import os
if os.access('/opt/app-root/src/files/dataset.csv', os.R_OK):
    print("El archivo tiene permisos de lectura.")
else:
    print("No se puede leer el archivo.")

In [None]:
import time
time.sleep(3)  # Espera un par de segundos antes de intentar cargar el archivo

In [None]:
!pip install seaborn

In [None]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder

# Cargar el dataset
df = pd.read_csv('/opt/app-root/src/files/dataset.csv')

# Inspección del dataset
print(df.head())
print(df.describe())
print(df.info())

# Limpieza de datos
df = df.dropna()  # Eliminar valores nulos
df = df.drop_duplicates()  # Eliminar duplicados

# Análisis de distribuciones
plt.figure(figsize=(10,6))
sns.histplot(df['superficie'], kde=True)
plt.title('Distribución de Superficies')
plt.show()

# Transformaciones de datos
le = LabelEncoder()
df['ubicacion'] = le.fit_transform(df['ubicacion'])

scaler = StandardScaler()
df[['superficie', 'habitaciones', 'edad']] = scaler.fit_transform(df[['superficie', 'habitaciones', 'edad']])

# División en conjuntos de entrenamiento y prueba
X = df.drop('precio', axis=1)
y = df['precio']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Guardar los datasets procesados
X_train.to_csv('/opt/app-root/src/files/X_train.csv', index=False)
X_test.to_csv('/opt/app-root/src/files/X_test.csv', index=False)
y_train.to_csv('/opt/app-root/src/files/y_train.csv', index=False)
y_test.to_csv('/opt/app-root/src/files/y_test.csv', index=False)
