# Explore here

In [8]:
import os
import pandas as pd

# Ver dónde estamos exactamente
print("📍 Directorio actual:", os.getcwd())

# Ver qué hay en el directorio actual
print("\n📁 Contenido del directorio actual:")
for item in os.listdir('.'):
    print(f" - {item}")

# Crear la estructura de carpetas desde cero
os.makedirs('/workspaces/machine-learning-python-template/data/raw', exist_ok=True)
os.makedirs('/workspaces/machine-learning-python-template/data/processed', exist_ok=True)

print("\n✅ Carpetas creadas en la ruta correcta")

# Descargar el archivo directamente
print("\n📥 Descargando datos...")
url = "https://breathecode.herokuapp.com/asset/internal-link?id=927&path=AB_NYC_2019.csv"
df = pd.read_csv(url)

# Guardar en la ruta correcta
file_path = '/workspaces/machine-learning-python-template/data/raw/AB_NYC_2019.csv'
df.to_csv(file_path, index=False)

print(f"✅ Archivo guardado en: {file_path}")
print(f"📊 Dimensiones del dataset: {df.shape}")
print(f"📝 Columnas: {list(df.columns)}")

# Mostrar primeras filas
print("\n🔍 Primeras 5 filas:")
df.head()

📍 Directorio actual: /workspaces/machine-learning-python-template/src

📁 Contenido del directorio actual:
 - utils.py
 - explore.ipynb
 - app.py

✅ Carpetas creadas en la ruta correcta

📥 Descargando datos...
✅ Archivo guardado en: /workspaces/machine-learning-python-template/data/raw/AB_NYC_2019.csv
📊 Dimensiones del dataset: (48895, 16)
📝 Columnas: ['id', 'name', 'host_id', 'host_name', 'neighbourhood_group', 'neighbourhood', 'latitude', 'longitude', 'room_type', 'price', 'minimum_nights', 'number_of_reviews', 'last_review', 'reviews_per_month', 'calculated_host_listings_count', 'availability_365']

🔍 Primeras 5 filas:


Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.64749,-73.97237,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Usar la ruta absoluta que mencionaste
file_path = '/workspaces/machine-learning-python-template/data/raw/AB_NYC_2019.csv'

# Verificar si el archivo existe
if os.path.exists(file_path):
    print(f"✅ Archivo encontrado en: {file_path}")
    
    # Cargar datos
    df = pd.read_csv(file_path)
    
    print("=== ANÁLISIS INICIAL AIRBNB NYC ===")
    print(f"📊 Dimensiones: {df.shape}")
    print(f"📝 Número de columnas: {len(df.columns)}")
    
    print("\n=== INFORMACIÓN DEL DATASET ===")
    df.info()
    
    print("\n🔍 Primeras 5 filas:")
    df.head()
    
else:
    print(f"❌ Archivo NO encontrado en: {file_path}")
    print("\n📁 Buscando archivos en el proyecto...")
    
    # Buscar recursivamente el archivo
    for root, dirs, files in os.walk('/workspaces/machine-learning-python-template'):
        for file in files:
            if 'AB_NYC' in file or 'airbnb' in file.lower():
                print(f"📄 Encontrado: {os.path.join(root, file)}")

✅ Archivo encontrado en: /workspaces/machine-learning-python-template/data/raw/AB_NYC_2019.csv
=== ANÁLISIS INICIAL AIRBNB NYC ===
📊 Dimensiones: (48895, 16)
📝 Número de columnas: 16

=== INFORMACIÓN DEL DATASET ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48895 entries, 0 to 48894
Data columns (total 16 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              48895 non-null  int64  
 1   name                            48879 non-null  object 
 2   host_id                         48895 non-null  int64  
 3   host_name                       48874 non-null  object 
 4   neighbourhood_group             48895 non-null  object 
 5   neighbourhood                   48895 non-null  object 
 6   latitude                        48895 non-null  float64
 7   longitude                       48895 non-null  float64
 8   room_type                       48895 non-null  object 
 9  

In [11]:
print("=== ANÁLISIS DESCRIPTIVO ===")
print(df.describe())

print("\n=== VALORES NULOS ===")
print(df.isnull().sum().sort_values(ascending=False))

print("\n=== TIPOS DE HABITACIÓN ===")
print(df['room_type'].value_counts())

print("\n=== DISTRIBUCIÓN POR BARRIOS ===")
print(df['neighbourhood_group'].value_counts())

=== ANÁLISIS DESCRIPTIVO ===
                 id       host_id      latitude     longitude         price  \
count  4.889500e+04  4.889500e+04  48895.000000  48895.000000  48895.000000   
mean   1.901714e+07  6.762001e+07     40.728949    -73.952170    152.720687   
std    1.098311e+07  7.861097e+07      0.054530      0.046157    240.154170   
min    2.539000e+03  2.438000e+03     40.499790    -74.244420      0.000000   
25%    9.471945e+06  7.822033e+06     40.690100    -73.983070     69.000000   
50%    1.967728e+07  3.079382e+07     40.723070    -73.955680    106.000000   
75%    2.915218e+07  1.074344e+08     40.763115    -73.936275    175.000000   
max    3.648724e+07  2.743213e+08     40.913060    -73.712990  10000.000000   

       minimum_nights  number_of_reviews  reviews_per_month  \
count    48895.000000       48895.000000       38843.000000   
mean         7.029962          23.274466           1.373221   
std         20.510550          44.550582           1.680442   
min    