In [None]:
# Instalar las librerías necesarias
!pip install pyreadr

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pyreadr  # Para leer archivos RData

from google.colab import files

In [None]:
# 1. Subir y cargar un archivo
def cargar_datos():
    """
    Cambios o acciones necesarias:
    - Asegúrate de subir un archivo compatible (.csv o .Rdata) cuando se te solicite.
    - Si usas un formato distinto, deberás implementar un método adicional para cargarlo.
    """
    print("Sube tu archivo (formato .csv o .Rdata):")
    uploaded = files.upload()  # Subir archivo en la sesión de Google Colab

    for filename in uploaded.keys():
        if filename.endswith('.csv'):
            print(f"Cargando archivo {filename} como DataFrame...")
            df = pd.read_csv(filename)  # Si es un CSV, se carga aquí
            print("Archivo CSV cargado correctamente.")
            return df
        elif filename.endswith('.Rdata'):
            print(f"Cargando archivo {filename} como DataFrame...")
            result = pyreadr.read_r(filename)  # Lee el archivo .Rdata
            df = next(iter(result.values()))  # Extrae el primer DataFrame
            print("Archivo RData cargado correctamente.")
            return df
        else:
            print(f"El archivo {filename} no es compatible. Usa un archivo .csv o .Rdata.")
            return None

# 2. Ver una muestra de los datos
def ver_muestra_datos(df, n=5):
    """
    Cambios o acciones necesarias:
    - Cambia el valor de 'n' si deseas mostrar más o menos filas del dataset.
    """
    print("Muestra de los datos:")
    print(df.head(n))

# 3. Ver los tipos de datos en cada columna
def ver_tipos_datos(df):
    """
    Cambios o acciones necesarias:
    - No necesitas realizar cambios aquí, solo verifica la salida y si hay
      columnas con tipos inesperados (por ejemplo, categóricas tratadas como strings).
    """
    print("\nTipos de datos por columna:")
    print(df.dtypes)

# 4. Ver la cantidad de columnas y filas
def dimensiones_datos(df):
    """
    Cambios o acciones necesarias:
    - No necesitas cambios aquí; solo verifica las dimensiones para entender el tamaño del dataset.
    """
    print("\nDimensiones del dataset:")
    print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

# 5. Eliminar filas o quedarse con las primeras N filas
def filtrar_filas(df, n=None):
    """
    Cambios o acciones necesarias:
    - Cambia el valor de 'n' al número de filas que quieras mantener.
    - Si no necesitas filtrar, pasa 'n=None' en la llamada a esta función.
    """
    if n:
        df_filtrado = df.iloc[:n]
        print(f"\nPrimeras {n} filas seleccionadas.")
        return df_filtrado
    else:
        print("\nNo se filtraron filas.")
        return df

# 6. Transformar una columna categórica a numérica
def transformar_columna_categorica(df, columna):
    """
    Cambios o acciones necesarias:
    - Reemplaza 'columna' por el nombre exacto de la columna categórica que quieras transformar.
    - Si hay más de una columna categórica, repite este paso para cada una.
    """
    if columna in df.columns:
        df[columna] = df[columna].astype('category').cat.codes
        print(f"\nColumna '{columna}' transformada a numérica (0, 1, ...).")
    else:
        print(f"\nLa columna '{columna}' no existe en el dataset.")
    return df

# 7. Ver una matriz de correlación entre las variables
def matriz_correlacion(df):
    """
    Cambios o acciones necesarias:
    - Asegúrate de que las columnas numéricas sean apropiadas para calcular correlaciones.
    - Si hay columnas categóricas no convertidas, podrían generar errores.
    """
    print("\nMatriz de correlación:")
    corr = df.corr()
    print(corr)
    plt.figure(figsize=(10, 8))
    sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
    plt.title("Matriz de Correlación")
    plt.show()

# 8. Función principal para usar las utilidades
def analisis_preliminar(df, columna_categorica=None, n_filas=None):
    """
    Cambios o acciones necesarias:
    - Reemplaza 'columna_categorica' con el nombre de la columna que quieras transformar.
    - Cambia 'n_filas' al número de filas que desees mantener.
    """
    ver_muestra_datos(df)
    ver_tipos_datos(df)
    dimensiones_datos(df)
    df = filtrar_filas(df, n=n_filas)
    if columna_categorica:
        df = transformar_columna_categorica(df, columna_categorica)
    matriz_correlacion(df)
    return df

# Ejemplo de uso
# Ejecuta esto para cargar y analizar datos:
df = cargar_datos()  # Sube y carga tu dataset (modifica si es necesario)
if df is not None:
    """
    Cambios o acciones necesarias:
    - Reemplaza 'columna_a_transformar' por el nombre exacto de la columna categórica.
    - Ajusta 'n_filas' si quieres trabajar solo con una parte del dataset.
    """
    df = analisis_preliminar(df, columna_categorica='columna_a_transformar', n_filas=100)
