In [6]:
import pandas as pd
import os

# Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Ruta del archivo en Drive (ajusta la ruta según corresponda)
file_path = '/content/drive/My Drive/miaad-nyc-r-s.csv'

# Verificar si el archivo existe antes de intentar cargarlo
if not os.path.exists(file_path):
    print(f"Error: El archivo no se encuentra en la ruta especificada: {file_path}")
    print("Verifica la ruta y asegúrate de que el archivo esté presente en tu Google Drive.")
else:
    # Práctica 13: Carga de Datos
    print("\nPráctica 13: Carga de Datos")
    # Cargar el archivo CSV omitiendo la última fila
    df = pd.read_csv(file_path, skipfooter=1, engine='python')

    # Mostrar las primeras filas para inspeccionar
    print(df.head())

    # Mostrar las últimas 3 filas para verificar que la última línea no se cargó
    print(df.tail(3))

    # Imprimir la cantidad de filas y columnas
    print("Filas y columnas:", df.shape)

    # Práctica 14: Agregar una columna
    print("\nPráctica 14: Agregar una columna")
    # Imprimir los nombres de las columnas
    print("Columnas antes de la corrección:", df.columns.tolist())

    # Asegurar el nombre de la primera columna
    df.rename(columns={df.columns[0]: 'INDEX MIIAD'}, inplace=True, errors='ignore')
    print("Columnas después de la corrección:", df.columns.tolist())

    # Práctica 15: Normalización de los nombres de las columnas
    print("\nPráctica 15: Normalización de los nombres de las columnas")
    # Convertir nombres a minúsculas y reemplazar espacios con guion bajo
    df.columns = df.columns.str.lower().str.replace(' ', '_', regex=True)
    print("Columnas normalizadas:")
    for col in df.columns:
        print("-", col)

    # Práctica 16: Errores en los Tipos de Datos
    print("\nPráctica 16: Errores en los Tipos de Datos")
    # Imprimir tipos de datos antes de la conversión
    print("Tipos de datos antes de la conversión:")
    print(df.dtypes)

    # Convertir columnas a tipo float si existen en el DataFrame
    columnas_a_convertir = ['sale_price', 'land_square_feet', 'gross_square_feet']
    for col in columnas_a_convertir:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce')

    # Imprimir tipos de datos después de la conversión
    print("Tipos de datos después de la conversión:")
    print(df.dtypes)

    # Validar cuántos valores NaN se generaron tras la conversión
    print("Valores faltantes tras la conversión:")
    print(df[columnas_a_convertir].isna().sum())

    # Práctica 17: Generar el diccionario de datos
    print("\nPráctica 17: Generar el diccionario de datos")
    data_dict = {col: str(df[col].dtype) for col in df.columns}
    print("Diccionario de datos del dataframe preprocesado:")
    print(data_dict)


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).

Práctica 13: Carga de Datos
   Unnamed: 0  BOROUGH   NEIGHBORHOOD  \
0           4        1  ALPHABET CITY   
1           5        1  ALPHABET CITY   
2           6        1  ALPHABET CITY   
3           7        1  ALPHABET CITY   
4           8        1  ALPHABET CITY   

                       BUILDING CLASS CATEGORY TAX CLASS AT PRESENT  BLOCK  \
0  07 RENTALS - WALKUP APARTMENTS                                2A    392   
1  07 RENTALS - WALKUP APARTMENTS                                 2    399   
2  07 RENTALS - WALKUP APARTMENTS                                 2    399   
3  07 RENTALS - WALKUP APARTMENTS                                2B    402   
4  07 RENTALS - WALKUP APARTMENTS                                2A    404   

   LOT EASE-MENT BUILDING CLASS AT PRESENT                 ADDRESS  ...  \
0    6                                  C2         