## Cargar Datos

Cargar el archivo CSV proporcionado en un DataFrame de pandas. Este paso es crucial para comenzar cualquier análisis, ya que nos permite acceder y manipular los datos.


In [3]:
import pandas as pd

df = pd.read_csv('/content/datos_inmobiliarios_simplificado.csv')

print("DataFrame cargado exitosamente. Primeras 5 filas:")
print(df.head())

FileNotFoundError: [Errno 2] No such file or directory: '/content/datos_inmobiliarios_simplificado.csv'

## Inspección Inicial de Datos

### Subtask:
Realizar una inspección inicial de los datos para comprender su estructura, tipos de datos, cantidad de valores no nulos y las primeras filas.


In [2]:
print("\nPrimeras 5 filas del DataFrame:")
print(df.head())

print("\nForma del DataFrame (filas, columnas):")
print(df.shape)

print("\nInformación concisa del DataFrame:")
df.info()


Primeras 5 filas del DataFrame:


NameError: name 'df' is not defined

## Estadísticas Descriptivas

### Subtask:
Calcular estadísticas descriptivas (media, mediana, desviación estándar, etc.) para las columnas numéricas. Esto nos ayuda a entender la distribución central, la dispersión y la forma de los datos, identificando posibles problemas o características importantes.


In [None]:
print("\nEstadísticas descriptivas para columnas numéricas:")
print(df.describe())


Estadísticas descriptivas para columnas numéricas:
              Precio   Tamaño_m2  Habitaciones       Baños  Antigüedad  \
count     200.000000  200.000000    200.000000  200.000000  190.000000   
mean   203844.420000   93.437500      2.635000    1.560000   25.731579   
std     66612.826886   26.611758      0.857585    0.639095   13.635332   
min     69013.000000    9.000000      1.000000    1.000000    0.000000   
25%    164743.250000   75.000000      2.000000    1.000000   15.000000   
50%    201780.000000   92.400000      3.000000    1.000000   25.000000   
75%    227681.750000  109.100000      3.000000    2.000000   38.000000   
max    614949.000000  192.200000      4.000000    3.000000   49.000000   

       DistanciaCentro_km     Precio_m2  
count          200.000000    200.000000  
mean             5.013000   2360.701650  
std              2.622713   1289.045167  
min              0.000000    912.910000  
25%              2.975000   1694.252500  
50%              5.000000   2

## Manejo de Valores Faltantes

### Subtask:
Identificar y visualizar la cantidad y el porcentaje de valores faltantes en cada columna.


In [None]:
print("\nValores faltantes por columna:")
missing_values = df.isnull().sum()
missing_percentage = (df.isnull().sum() / len(df)) * 100

missing_info = pd.DataFrame({
    'Valores Faltantes': missing_values,
    '% Faltantes': missing_percentage
})

missing_info = missing_info[missing_info['Valores Faltantes'] > 0].sort_values(by='% Faltantes', ascending=False)

print(missing_info)



Valores faltantes por columna:
            Valores Faltantes  % Faltantes
Antigüedad                 10          5.0
Garaje                     10          5.0
Ascensor                   10          5.0


## Análisis de Outliers

### Subtask:
Detectar y visualizar posibles valores atípicos (outliers) en las columnas numéricas mediante gráficos como box plots. Los outliers pueden distorsionar los resultados del análisis y la interpretación de los datos.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

numerical_cols = df.select_dtypes(include=['number']).columns

num_plots = len(numerical_cols)
fig, axes = plt.subplots(nrows=num_plots, ncols=1, figsize=(10, 5 * num_plots))

if num_plots == 1:
    axes = [axes]

for i, col in enumerate(numerical_cols):
    sns.boxplot(y=df[col], ax=axes[i])
    axes[i].set_title(f'Box plot de {col}')
    axes[i].set_ylabel(col)

plt.tight_layout()
plt.show()


## Análisis Univariado

Estudiar la distribución de variables individuales, utilizando histogramas y gráficos de densidad para variables numéricas, y gráficos de barras para variables categóricas.


In [None]:
numerical_cols = df.select_dtypes(include=['number']).columns
categorical_cols = df.select_dtypes(include=['object', 'category']).columns

print(f"Columnas Numéricas: {list(numerical_cols)}")
print(f"Columnas Categóricas: {list(categorical_cols)}")

Columnas Numéricas: ['Precio', 'Tamaño_m2', 'Habitaciones', 'Baños', 'Antigüedad', 'DistanciaCentro_km', 'Precio_m2']
Columnas Categóricas: ['Zona', 'Garaje', 'Ascensor']


In [None]:
for col in numerical_cols:
    plt.figure(figsize=(8, 5))
    sns.histplot(df[col], kde=True)
    plt.title(f'Distribución de {col}')
    plt.xlabel(col)
    plt.ylabel('Frecuencia / Densidad')
    plt.show()

In [None]:
for col in categorical_cols:
    plt.figure(figsize=(8, 5))
    sns.countplot(data=df, x=col, palette='viridis')
    plt.title(f'Distribución de {col}')
    plt.xlabel(col)
    plt.ylabel('Frecuencia')
    plt.xticks(rotation=45)
    plt.show()

In [None]:
for col in categorical_cols:
    plt.figure(figsize=(8, 5))
    sns.countplot(data=df, x=col, hue=col, palette='viridis', legend=False)
    plt.title(f'Distribución de {col}')
    plt.xlabel(col)
    plt.ylabel('Frecuencia')
    plt.xticks(rotation=45)
    plt.show()

## Análisis Bivariado

### Subtask:
Explorar las relaciones entre pares de variables, utilizando gráficos de dispersión para correlaciones entre variables numéricas y gráficos de barras agrupadas o box plots para analizar la relación entre una variable numérica y una categórica.


In [None]:
print("\nAnálisis Bivariado: Scatter Plots (Precio vs. Variables Numéricas)")
for col in numerical_cols:
    if col != 'Precio':
        plt.figure(figsize=(8, 6))
        sns.scatterplot(data=df, x=col, y='Precio')
        plt.title(f'Precio vs. {col}')
        plt.xlabel(col)
        plt.ylabel('Precio')
        plt.grid(True, linestyle='--', alpha=0.7)
        plt.show()

In [None]:
print("\nAnálisis Bivariado: Box Plots (Precio vs. Variables Categóricas)")
for col in categorical_cols:
    plt.figure(figsize=(8, 6))
    sns.boxplot(data=df, x=col, y='Precio', palette='viridis')
    plt.title(f'Precio por {col}')
    plt.xlabel(col)
    plt.ylabel('Precio')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()

In [None]:
print("\nAnálisis Bivariado: Box Plots (Precio vs. Variables Categóricas)")
for col in categorical_cols:
    plt.figure(figsize=(8, 6))
    sns.boxplot(data=df, x=col, y='Precio', hue=col, palette='viridis', legend=False)
    plt.title(f'Precio por {col}')
    plt.xlabel(col)
    plt.ylabel('Precio')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()

## Visualización de Correlaciones

Crear una matriz de correlación y visualizarla mediante un mapa de calor para identificar qué variables numéricas están fuertemente relacionadas entre sí.


In [None]:
print("\nVisualización de Correlaciones: Heatmap")

correlation_matrix = df[numerical_cols].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Matriz de Correlación de Variables Numéricas')
plt.show()

## Generación de Visualizaciones Clave


Crear gráficos y visualizaciones específicas que resalten los hallazgos más importantes para la propuesta inmobiliaria, como la distribución de precios, las características más influyentes en el precio, o la distribución geográfica de las propiedades.


### Distribución del Precio

Para visualizar la distribución del 'Precio', crearé un histograma con una Estimación de Densidad del Kernel (KDE). Además, añadiré líneas verticales para la media y la mediana del precio para resaltar las tendencias centrales. Esto aborda la primera instrucción de la subtarea para visualizar la distribución de precios.

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df['Precio'], kde=True, color='skyblue', bins=30)

mean_price = df['Precio'].mean()
median_price = df['Precio'].median()

plt.axvline(mean_price, color='red', linestyle='--', label=f'Media: {mean_price:.2f}')
plt.axvline(median_price, color='green', linestyle='-', label=f'Mediana: {median_price:.2f}')

plt.title('Distribución del Precio de las Propiedades')
plt.xlabel('Precio')
plt.ylabel('Frecuencia / Densidad')
plt.legend()
plt.grid(axis='y', alpha=0.75)
plt.show()

### Precio vs. Tamaño en m2

**Reasoning**:
Para la segunda visualización clave, crearé un diagrama de dispersión que muestre la relación entre el 'Precio' y el 'Tamaño_m2'. Se incluirá una línea de regresión para indicar la tendencia general, lo que ayudará a identificar si existe una correlación lineal y la dirección de la misma. Esta visualización aborda la segunda instrucción de la subtarea.

**Reasoning**:
To visualize the relationship between 'Precio' and 'Tamaño_m2', I will create a scatter plot with a regression line using `seaborn.regplot`, as specified in the second instruction of the subtask.



In [None]:
plt.figure(figsize=(10, 6))
sns.regplot(data=df, x='Tamaño_m2', y='Precio', scatter_kws={'alpha':0.6}, line_kws={'color':'red'})
plt.title('Relación entre Precio y Tamaño en m2')
plt.xlabel('Tamaño (m2)')
plt.ylabel('Precio')
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

### Precio por Zona

Para la tercera visualización clave, crearé diagramas de caja (box plots) que muestren cómo varía el 'Precio' según las diferentes categorías de 'Zona'. Esto nos permitirá observar la distribución de precios en cada zona y posibles diferencias significativas, abordando así la tercera instrucción de la subtarea.

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x='Zona', y='Precio', palette='viridis', hue='Zona', legend=False)
plt.title('Distribución del Precio por Zona')
plt.xlabel('Zona')
plt.ylabel('Precio')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

### Precio por Garaje y Ascensor


Para la cuarta visualización clave, crearé diagramas de caja (box plots) para comparar el 'Precio' en función de la presencia de 'Garaje' y 'Ascensor'. Se generarán gráficos separados para cada una de estas características, siguiendo la cuarta instrucción de la subtarea, para analizar cómo influyen en el precio de las propiedades.

In [None]:
for col in ['Garaje', 'Ascensor']:
    plt.figure(figsize=(8, 6))
    sns.boxplot(data=df, x=col, y='Precio', hue=col, palette='viridis', legend=False)
    plt.title(f'Distribución del Precio por {col}')
    plt.xlabel(col)
    plt.ylabel('Precio')
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()

## Resumen:

### Hallazgos Clave del Análisis de Datos

*   **Visión General de los Datos:** El conjunto de datos contiene 200 registros de propiedades con 10 características, incluyendo `Precio`, `Tamaño_m2` (tamaño en m²), `Habitaciones`, `Baños`, `Antigüedad`, `DistanciaCentro_km` (distancia al centro), `Zona`, `Garaje`, `Ascensor` y `Precio_m2` (precio por m²).
*   **Valores Faltantes:** Las columnas `Antigüedad`, `Garaje` y `Ascensor` tienen cada una 10 valores faltantes, lo que representa el 5.0% del total de entradas para estas características específicas.
*   **Distribución del Precio:** El precio promedio de las propiedades es de aproximadamente €203,844, con una mediana de alrededor de €180,000, lo que indica una distribución asimétrica a la derecha donde la mayoría de las propiedades tienen precios más bajos y menos son muy caras. Existe una variación significativa en los precios, con una desviación estándar de €66,612.83.
*   **Factores Clave del Precio (Correlaciones):**
    *   `Tamaño_m2` muestra una correlación positiva muy fuerte con `Precio` (~0.84), lo que indica que las propiedades más grandes son significativamente más caras.
    *   `Habitaciones` (~0.75) y `Baños` (~0.72) también tienen fuertes correlaciones positivas con `Precio`.
    *   `Antigüedad` muestra una correlación negativa moderada con `Precio_m2` (~-0.54) y `Tamaño_m2` (~-0.45), lo que sugiere que las propiedades más nuevas y más grandes tienden a tener un precio por metro cuadrado más alto.
*   **Impacto de las Amenidades:** Las propiedades con `Garaje` y `Ascensor` generalmente muestran distribuciones de precios más altas en comparación con aquellas sin estas comodidades, confirmando su influencia positiva en el valor de la propiedad.
*   **Variación de Precios por Zona:** Los precios de las propiedades varían significativamente entre las diferentes categorías de `Zona`, con algunas zonas que alcanzan precios más altos que otras.
*   **Posibles Valores Atípicos:** Varias columnas numéricas, incluidas `Precio`, `Tamaño_m2`, `DistanciaCentro_km` y especialmente `Precio_m2`, muestran posibles valores atípicos. En particular, `Tamaño_m2` tiene un valor mínimo de 9 m², lo que podría ser una anomalía.

### Conclusiones o Próximos Pasos

*   **Conclusión:** El valor de la propiedad está impulsado principalmente por su tamaño, número de habitaciones y baños, y la presencia de comodidades como garaje y ascensor. La ubicación (zona) también juega un papel importante en la diferenciación de precios.
*   **Próximos Pasos:**
    *   Investigar y manejar el 5% de los valores faltantes en `Antigüedad`, `Garaje` y `Ascensor` mediante imputación o eliminación, y abordar los valores atípicos identificados (por ejemplo, el `Tamaño_m2` mínimo de 9 m²) para asegurar la calidad de los datos para un modelado más robusto.
    *   Analizar más a fondo la distribución de precios por `Zona` para identificar áreas de alto valor y áreas emergentes para inversiones inmobiliarias o propuestas de desarrollo específicas.