# Entregable 2: Houses in London

En el siguiente entregable se trabajará con datos de vivienda en la ciudad de Londres. El dataset incluye variables características de las viviendas como también el precio.
El dataset consta de las siguientes variables:

Columna  | Descripción
:----------:|:----------------------------------------------------------------
|Address | The address of the house
|Neighborhood | The neighborhood or district where the house is located.
|Bedrooms:| The number of bedrooms in the house.
|Bathrooms:| The number of bathrooms in the house.
|Square Meters:| The total size of the house in square meters.
|Building Age:| The age of the building, indicating how long ago it was constructed.
|Garden:| Indicates whether the house has a garden ("Yes" or "No").
|Garage:| Indicates whether the house has a garage ("Yes" or "No").
|Floors:| The total number of floors in the house.
|Property Type:| The type of property, such as "Apartment" or "House."
|Heating Type:| The type of heating system used in the house (e.g., "Central Heating," "Gas").
|Balcony:| Indicates whether the house has a balcony ("Yes" or "No").
|Interior Style:| The interior design style of the house (e.g., "Modern," "Contemporary").
|View:| The type of view from the house (e.g., "City View," "Sea View").
|Materials:| The materials used in the construction of the house (e.g., "Brick," "Wood").
|Building Status:| The current condition of the building (e.g., "New," "Renovated," "Old").
|Price (£):| The sale price of the house, in British pounds (£).


El objetivo es poder entender el dataset pensando siempre que nuestro principal interés es a futuro poder realizar un modelo para poder predecir el valor de la vivienda, por lo tanto, considere esta información al momento de realizar el análisis.


Se solicita lo siguiente:
1) Cargar el dataset
2) Verificar la estructura del dataset y resumen estadístico.
3) Modifique el nombre de las columnas. Se recomienda eliminar espacios y caracteres especiales (i.e £).
4) Graficar la variable de interés Price para revisar su distribución.
5) Genere dos dataset, el primero con las variables categóricas, y el segundo con las variables numéricas. A efectos de análisis, conserve la variable Price en ambos.
6) Grafique todas las variables numéricas.
7) Cuente la cantidad de registros por cada variable categórica.
8) Selecione dos variables categóricas y grafíquelas.
9) Genere un nuevo dataset con información resumida. Debe calcular al menos 3 métricas, considerando también al menos 1 agrupación de datos.
10) Genere gráficos de dispersión entre la variable Square Meters y nuestra variable de interés Price. Añada la linea de regresión.
11) Genere gráficos para la variable Price considerando otras variables.
12) Con toda la información obtenida, ¿qué variables consideraría que aportarían mas a un posible modelo predictivo sobre le precio de la vivienda?

Desde el punto 2) al 11) se espera un análisis e interpretación de lo obtenido.


In [21]:
# Librerías necesarias
library(ggplot2)      # Gráficos
library(dplyr)        # Manipulación de datos

# Configuración de tema para gráficos
theme_set(theme_minimal() + 
          theme(plot.title = element_text(face = "bold", size = 14),
                axis.title = element_text(size = 11)))


In [16]:
# 1. Carga del dataset
london_houses <- read.csv("C:/Users/cmoli/OneDrive/Escritorio/london_houses.csv")
head(london_houses)


Unnamed: 0_level_0,Address,Neighborhood,Bedrooms,Bathrooms,Square.Meters,Building.Age,Garden,Garage,Floors,Property.Type,Heating.Type,Balcony,Interior.Style,View,Materials,Building.Status,Price....
Unnamed: 0_level_1,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>,<chr>,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>
1,78 Regent Street,Notting Hill,2,3,179,72,No,No,3,Semi-Detached,Electric Heating,High-level Balcony,Industrial,Garden,Marble,Renovated,2291200
2,198 Oxford Street,Westminster,2,1,123,34,Yes,No,1,Apartment,Central Heating,High-level Balcony,Industrial,City,Laminate Flooring,Old,1476000
3,18 Regent Street,Soho,5,3,168,38,No,Yes,3,Semi-Detached,Central Heating,No Balcony,Industrial,Street,Wood,Renovated,1881600
4,39 Piccadilly Circus,Islington,5,1,237,53,Yes,Yes,1,Apartment,Underfloor Heating,No Balcony,Classic,Park,Granite,Renovated,1896000
5,116 Fleet Street,Marylebone,4,1,127,23,No,Yes,2,Semi-Detached,Central Heating,No Balcony,Modern,Park,Wood,Old,1524000
6,32 Bond Street,Notting Hill,5,2,69,69,Yes,Yes,2,Apartment,Central Heating,Low-level Balcony,Minimalist,Park,Marble,Renovated,736000


In [7]:
# 2.Verificar la estructura del dataset y resumen estadístico
str(london_houses)
summary(london_houses)

'data.frame':	1000 obs. of  17 variables:
 $ Address        : chr  "78 Regent Street" "198 Oxford Street" "18 Regent Street" "39 Piccadilly Circus" ...
 $ Neighborhood   : chr  "Notting Hill" "Westminster" "Soho" "Islington" ...
 $ Bedrooms       : int  2 2 5 5 4 5 3 5 5 4 ...
 $ Bathrooms      : int  3 1 3 1 1 2 3 2 1 2 ...
 $ Square.Meters  : int  179 123 168 237 127 69 128 130 76 59 ...
 $ Building.Age   : int  72 34 38 53 23 69 24 88 2 79 ...
 $ Garden         : chr  "No" "Yes" "No" "Yes" ...
 $ Garage         : chr  "No" "No" "Yes" "Yes" ...
 $ Floors         : int  3 1 3 1 2 2 2 1 3 3 ...
 $ Property.Type  : chr  "Semi-Detached" "Apartment" "Semi-Detached" "Apartment" ...
 $ Heating.Type   : chr  "Electric Heating" "Central Heating" "Central Heating" "Underfloor Heating" ...
 $ Balcony        : chr  "High-level Balcony" "High-level Balcony" "No Balcony" "No Balcony" ...
 $ Interior.Style : chr  "Industrial" "Industrial" "Industrial" "Classic" ...
 $ View           : chr  "Garden"

   Address          Neighborhood          Bedrooms       Bathrooms    
 Length:1000        Length:1000        Min.   :1.000   Min.   :1.000  
 Class :character   Class :character   1st Qu.:2.000   1st Qu.:1.000  
 Mode  :character   Mode  :character   Median :3.000   Median :2.000  
                                       Mean   :3.013   Mean   :2.003  
                                       3rd Qu.:4.000   3rd Qu.:3.000  
                                       Max.   :5.000   Max.   :3.000  
 Square.Meters    Building.Age      Garden             Garage         
 Min.   : 50.0   Min.   : 1.00   Length:1000        Length:1000       
 1st Qu.: 99.0   1st Qu.:24.00   Class :character   Class :character  
 Median :148.0   Median :50.00   Mode  :character   Mode  :character  
 Mean   :149.6   Mean   :49.97                                        
 3rd Qu.:201.0   3rd Qu.:76.00                                        
 Max.   :249.0   Max.   :99.00                                        
     F