In [16]:
import pandas as pd

# Ruta del archivo de clima
ruta_clima = r"C:\Users\valdi\Downloads\weather_data_nyc_centralpark_2016-2017 - weather_data_nyc_centralpark_2016.csv"
# Ruta del archivo de ventas de NYC
ruta_ventas = r"C:\Users\valdi\Downloads\nyc-rolling-sales-cured.csv"
# Ruta de salida
ruta_salida = r"C:\Users\valdi\Downloads\\"
nombre_archivo_combinado = "datos_combinados.csv"

# 1. Carga y preparación del archivo de clima
try:
    df_clima = pd.read_csv(ruta_clima)
    df_clima['date'] = pd.to_datetime(df_clima['date'], format='%d/%m/%Y')
    df_clima['standard_date'] = df_clima['date'].dt.strftime('%d-%m-%Y')
    df_clima = df_clima.drop(columns=['date'])
    print("--- DataFrame de clima preparado ---")
    print(df_clima.head())
except FileNotFoundError:
    print(f"Error: No se encontró el archivo en la ruta: {ruta_clima}")
    exit()

# 2. Carga y preparación del archivo de ventas de NYC
try:
    df_ventas = pd.read_csv(ruta_ventas)
    df_ventas['SALE DATE'] = pd.to_datetime(df_ventas['SALE DATE'], format='mixed')
    df_ventas['standard_date'] = df_ventas['SALE DATE'].dt.strftime('%d-%m-%Y')
    # Conservamos la columna original 'SALE DATE' para la verificación
    print("--- DataFrame de ventas preparado ---")
    print(df_ventas[['SALE DATE', 'standard_date']].head())
except FileNotFoundError:
    print(f"Error: No se encontró el archivo en la ruta: {ruta_ventas}")
    exit()

# 3. Combinación de los DataFrames
df_combinado = pd.merge(df_ventas, df_clima, on='standard_date', how='left')

print("\n--- DataFrame combinado (primeras filas) ---")
print(df_combinado.head())
print("\n--- Información del DataFrame combinado ---")
print(df_combinado.info())

# 4. Verificación de la combinación basada en fechas originales (primeros 20 resultados)
print("\n--- Verificación de la combinación (primeros 20 resultados) ---")
print(df_combinado[['SALE DATE', 'standard_date', 'max_temp_celsius', 'season']].head(20))

# 5. Eliminación de la columna 'standard_date' (ya usada para la combinación)
df_combinado = df_combinado.drop(columns=['standard_date'])

# 6. Guardar el DataFrame combinado
ruta_archivo_salida = ruta_salida + nombre_archivo_combinado
try:
    df_combinado.to_csv(ruta_archivo_salida, index=False)
    print(f"\nArchivo combinado guardado exitosamente en: {ruta_archivo_salida}")
except Exception as e:
    print(f"Error al guardar el archivo combinado: {e}")

--- DataFrame de clima preparado ---
  max_temp_celsius min_temp_celsius avg_temp_celsius  season standard_date
0             5,56             1,11             3,33  winter    01-01-2016
1             4,44             0,00             2,22  winter    02-01-2016
2             7,22             1,67             4,44  winter    03-01-2016
3             2,22           -10,00            -3,89  winter    04-01-2016
4            -1,67           -11,67            -6,67  winter    05-01-2016


  df_ventas = pd.read_csv(ruta_ventas)


--- DataFrame de ventas preparado ---
   SALE DATE standard_date
0 2017-03-10    10-03-2017
1 2017-02-03    03-02-2017
2 2016-12-13    13-12-2016
3 2017-03-21    21-03-2017
4 2017-06-16    16-06-2017

--- DataFrame combinado (primeras filas) ---
   Unnamed: 0  BOROUGH    NEIGHBORHOOD  BUILDING CLASS CATEGORY  \
0        6569        4     FLORAL PARK  01 ONE FAMILY DWELLINGS   
1       19250        4  QUEENS VILLAGE  01 ONE FAMILY DWELLINGS   
2       12250        4        GLENDALE  01 ONE FAMILY DWELLINGS   
3        7067        4  FLUSHING-NORTH  01 ONE FAMILY DWELLINGS   
4        1692        4         BAYSIDE  01 ONE FAMILY DWELLINGS   

  TAX CLASS AT PRESENT  BLOCK  LOT  EASE-MENT BUILDING CLASS AT PRESENT  \
0                    1   8805   71        NaN                        A0   
1                    1   7955  333        NaN                        A0   
2                    1   3683   39        NaN                        A0   
3                    1   5490   20        NaN      