# Proyecto de datos

En esta formatión es de nuestro interés garantizar una primera experienca práctica con Python

## Contexto 

Hay un grupo de emprendedores que van a proponer una nueva firma inmobiliaria en Seattle, WA (USA). Como parte de su estudio de mercado, se hace necesario conocer ciertas dinámicas del mercado inmobiliario local. Para tal propósito, reunen información de un año de dinámica inmobiliaria en tal región (Mayo del 2014 a mayo del 2015). 
Tal grupo de emprendedores entra en contacto con nosotros para poder responder algunas preguntas que podrían dinamizar su toma de decisiones respecto al valor de marca. 

## Datos. 
Los datos están disponibles [aquí](https://www.kaggle.com/datasets/harlfoxem/housesalesprediction)

## Preguntas

1. ¿Cuántas casas hay disponibles para comprar?
2. ¿Cuántos atributos tienen las casas?
3. ¿Cuáles son los atributos de las casas?
4. ¿Cuál es la casa más cara (casa con mayor valor de venta)?
5. ¿Qué casa tiene más cuartos?
6. ¿Cuántas casas tienen 2 baños?
7. ¿Cuál es el precio promedio de todas las casas en el conjunto de datos?
8. ¿Cuál es el precio medio de las viviendas de 2 baños?
9. ¿Cuál es el precio mínimo para viviendas de 3 dormitorios?
10. ¿Cuántas casas tienen más de 300 metros cuadrados en la sala?
11. ¿Cuántas casas tienen más de 2 plantas?
12. ¿Cuántas casas tienen vista al mar?
13. De las casas con vistas al mar, ¿cuántas tienen 3 habitaciones?
14. De las casas con más de 300 metros cuadrados de salón, ¿cuántas tienen más de 2 baños?

## Definición de variables

- id - Identificación única para cada casa vendida
- date - Fecha de la venta de la casa
- price - Precio de cada vivienda vendida
- bedrooms - Número de dormitorios
- bathrooms - Número de baños, donde .5 representa una habitación con inodoro pero sin ducha
- sqft_living- Pies cuadrados del espacio habitable interior de los apartamentos
- sqft_lot - Pies cuadrados del espacio del terreno
- floors - Número de plantas
- waterfront - una variable ficticia para determinar si el apartamento tenía vistas al paseo marítimo o no.
- view - Un índice de 0 a 4 de qué tan buena fue la vista de la propiedad
- condition- Un índice del 1 al 5 sobre el estado del apartamento,
- grade- un índice de 1 a 13, donde 1-3 no alcanza la construcción y el diseño de edificios, 7 tiene un nivel medio de construcción y diseño, y 11-13 tiene un nivel de construcción y diseño de alta calidad.
- sqft_above - los pies cuadrados del espacio interior de la vivienda que está por encima del nivel del suelo
- sqft_basement - los pies cuadrados del espacio interior de la vivienda que está por debajo del nivel del suelo el año en que se construyó inicialmente la casa
- yr_build - El año de la construcción
- yr_renovated - El año de la última renovación de la casa
- zipcode - En qué área de código postal se encuentra la casa
- lat- latitud
- long- Longitud
- sqft_living15 - Los pies cuadrados de espacio habitable de vivienda interior para los 15 vecinos más cercanos
- sqft_lot15 - Los pies cuadrados de los lotes de terreno de los 15 vecinos más cercanos





## Preparación

In [1]:
import pandas as pd 

In [15]:
df = pd.read_csv('./data/kc_house_data.csv')

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

# 1. ¿Cuántas casas hay disponibles para comprar?


In [24]:
print(f'Hay {df.shape[0]} de casas disponibles para la compra')

Hay 21613 de casas disponibles para la compra


# 2. ¿Cuántos atributos tienen las propiedades?

In [28]:
print(f'Hay {df.shape[1]} atributos de las casas disponibles para la compra')

Hay 21 atributos de las casas disponibles para la compra


# 3. ¿Cuáles son los atributos de las casas?

In [66]:
atributos1 = list(df.columns)
atributos2 = ', '.join(atributos1)
print(f'Los atributos son: {atributos2}')

Los atributos son: id, date, price, bedrooms, bathrooms, sqft_living, sqft_lot, floors, waterfront, view, condition, grade, sqft_above, sqft_basement, yr_built, yr_renovated, zipcode, lat, long, sqft_living15, sqft_lot15


# 4. ¿Cuál es la casa más cara (casa con mayor valor de venta)?

In [98]:
indice = df[df['price'] == df['price'].max()].index[0]

In [99]:
print(f'La propiedad en la línea {indice} es la más costosa')

La propiedad en la línea 7252 es la más costosa


In [105]:
df.loc[indice,:]

id                    6762700020
date             20141013T000000
price                  7700000.0
bedrooms                       6
bathrooms                    8.0
sqft_living                12050
sqft_lot                   27600
floors                       2.5
waterfront                     0
view                           3
condition                      4
grade                         13
sqft_above                  8570
sqft_basement               3480
yr_built                    1910
yr_renovated                1987
zipcode                    98102
lat                      47.6298
long                    -122.323
sqft_living15               3940
sqft_lot15                  8800
Name: 7252, dtype: object

# 5. ¿Qué casa tiene más cuartos?

In [127]:
df[df['bedrooms'] == df['bedrooms'].max()]

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
15870,2402100895,20140625T000000,640000.0,33,1.75,1620,6000,1.0,0,0,...,7,1040,580,1947,0,98103,47.6878,-122.331,1330,4700


In [116]:
set(df['bedrooms'])

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 33}

# 6. ¿Cuántas casas tienen 2 baños?

In [134]:
banhos = df[df['bathrooms'] == 2].shape[0]
print(f'Hay en total, {banhos} de propiedades con dos baños')

Hay en total, 1930 de propiedades con dos baños


# 7. ¿Cuál es el precio promedio de todas las casas en el conjunto de datos?

In [149]:
media = int(df['price'].mean())
print(f'El precio promedio de todas las propiedades es de {media}')

El precio promedio de todas las propiedades es de 540088


# 8. ¿Cuál es el precio medio de las viviendas de 2 baños?

In [157]:
prom_dos_banhos = int(df.loc[df['bathrooms'] == 2,'price'].mean())
print(f'El precio promedio de las propiedades con dos baños es de {prom_dos_banhos}')

El precio promedio de las propiedades con dos baños es de 457889


# 9. ¿Cuál es el precio mínimo para viviendas de 3 dormitorios?

In [164]:
min_tres_banhos = int(df.loc[df['bedrooms'] == 3, 'price'].min())
print(f'El precio mínimo de propiedades de tres habitaciones es {min_tres_banhos}')

El precio mínimo de propiedades de tres habitaciones es 82000


# 10. ¿Cuántas casas tienen más de 300 metros cuadrados en la sala?

In [184]:
mts300 = df[df['sqft_living']>= 3230].shape[0]
print(f'Hay {mts300} propiedades con 300 metros, o más, de área')

Hay 2258 propiedades con 300 metros, o más, de área


# 11. ¿Cuántas casas tienen más de 2 plantas?

In [190]:
dos_plantas = df[df['floors']>=2].shape[0]
print(f'Hay {dos_plantas} propiedades con dos o más plantas')

Hay 9023 propiedades con dos o más plantas


# 12 . ¿Cuántas casas tienen vista al mar?

In [197]:
agua = df[df['waterfront'] == 1].shape[0]
print(f'Hay {agua} propiedades con vista al mar')

Hay 163 propiedades con vista al mar


# 13. De las casas con vistas al mar, ¿cuántas tienen 3 habitaciones?

In [None]:
tablas de verdad 
V y V -> V
F y V -> F
V y F -> F
F y F -> F

0        False
1        False
2        False
3        False
4        False
         ...  
21608    False
21609    False
21610    False
21611    False
21612    False
Name: waterfront, Length: 21613, dtype: bool

0         True
1         True
2        False
3        False
4         True
         ...  
21608     True
21609    False
21610    False
21611     True
21612    False
Name: bedrooms, Length: 21613, dtype: bool

In [215]:
agua_tres = df[(df['waterfront'] == 1 )&(df['bedrooms'] == 3)].shape[0]
print(f'Hay {agua_tres} propiedades con vista al agua *Y* tres habitaciones')

Hay 64 propiedades con vista al agua *Y* tres habitaciones


# 14. De las casas con más de 300 metros cuadrados de salón, ¿cuántas tienen más de 2 baños?

In [226]:
dos_banhos_300mts = df[(df['sqft_living']>3230) & (df['bathrooms'] >2)].shape[0]
print(f'Hay {dos_banhos_300mts} propiedaes con más de 300 mts cuadrados *Y* más de dos baños')

Hay 2165 propiedaes con más de 300 mts cuadrados *Y* más de dos baños
