# Análise exploratória dos dados 

A  House Rocket  é uma empresa do mercado imobiliário, atuando na compra e revenda de imóveis usados. Nesse contexto, o CEO da empresa busca realizar suas tomadas de decisões por meio de insights retirados de uma base de dados externa que contém informações acerca dos imóveis da região, como preço, número de quartos, banheiros e etc. 

Para isso O CEO da empresa realizou uma série de perguntar e necessita que elas sejam enviada por e-mail em um txt, junto com dois anexos (um mapa e um .csv com os dados)

### Importando as bibliotecas

In [35]:
import pandas as pd
import numpy as np
import plotly.express as plotly

#Formatando os valores float - Notificação científica
np.set_printoptions(suppress=True)
pd.set_option('display.float_format', '{:.2f}'.format)

### Carregando o dataset

In [4]:
df = pd.read_csv(r'C:\Users\henry\repositorios_ds\Curso_python_ds\dataset\kc_house_data.csv')

In [5]:
#Imprimindo os 5 primeiros caracteres
df.head(n=5)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.51,-122.26,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.72,-122.32,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.74,-122.23,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.52,-122.39,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.62,-122.05,1800,7503


In [6]:
#Transformando a colunda date no formato de data
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')

### Respondendo as perguntas acerca do dataset

#### 1. Crie uma nova coluna chamada: “house_age” :
- Se o valor da  coluna “date” for maior  que 2014-01-01 =>  ‘new_house’
- Se o valor da coluna “date” for menorque 2014-01-01 => ‘old_house?

In [7]:
# Criando a coluna new_house
df['house_age'] = ''
df.loc[df['date'] > "2014-01-01" , 'house_age' ] = 'new_house'
df.loc[df['date'] < "2014-01-01" , 'house_age' ] = 'old_house'

#### 2. Crie uma nova coluna chamada:“dormitory_type”
- Se o valor da coluna “bedrooms” for menor ou igual à 1 => ‘studio’
- Se o valor da coluna “bedrooms” for igual a 2 => ‘apartament’
- Se o valor da coluna “bedrooms” for maior que 2 => ‘house'


In [8]:
#Criando a coluna dormitory_type
df['dormitory_type'] = ''
#Criando a classificação
df.loc[df['bedrooms'] <= 1 , 'dormitory_type'] = 'studio'
df.loc[df['bedrooms'] == 2 , 'dormitory_type'] = 'apartament'
df.loc[df['bedrooms'] > 2 , 'dormitory_type'] = 'house'

#### 3. Crie uma nova coluna chamada:“condition_type”
- Se o valor da coluna “condition” for menor ou igual à 2 => ‘bad’
- Se o valor da coluna “condition” for igual à 3 ou 4 => ‘regular’
- Se o valor da coluna “condition” for igual à 5 => ‘good’


In [9]:
#Criando a coluna dormitory_type
df['condition_type'] = ''

In [10]:
df['condition_type']  = df['condition'].apply(lambda x :"bad"  if  (x <= 2)  else "regular" if (x == 3) | (x == 4)  else 'good')

#### 4. Modifique o TIPO aColuna “condition” para STRING


In [11]:
# Alterando o tipo dos dados
df['condition'] = df['condition'].astype(str )

#### 5. Delete as colunas: “sqft_living15” e “sqft_lot15

In [12]:
#Utilizando o comando DROP
df.drop('sqft_living15' , axis = 'columns' , inplace = True )

In [13]:
#Deletando com o comando DEL built-in do python 
del df['sqft_lot15']

In [14]:
df.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'house_age', 'dormitory_type', 'condition_type'],
      dtype='object')

#### 6. Modifique o TIPO a Coluna “yr_build” para DATE

In [15]:
df['yr_built']  = pd.to_datetime(df['yr_built'] , format = '%Y' )

#### 7. Modifique o TIPO a Coluna “yr_renovated” para DATE

In [16]:
df['yr_renovated'] = df['yr_renovated'].apply( lambda x : pd.to_datetime(x , format = '%Y' )  if (x > 0)  else  pd.to_datetime('1970' , format = '%Y' ))

#### 8. Qual a data mais antiga de construção de um imóvel?

In [17]:
date_min = df['yr_built'].min().year
print(f" A casa mais antiga foi construída no ano {date_min}.")

 A casa mais antiga foi construída no ano 1900.



#### 9. Qual a data mais antiga de renovação de um imóvel?

In [18]:
#Encontrando a data mínima
date_min_renovated = df['yr_renovated'].min()
print(f" A casa mais antiga foi construída no ano {date_min_renovated}.")

 A casa mais antiga foi construída no ano 1934-01-01 00:00:00.


#### 10. Quantos imóveis tem 2 andares?

In [19]:
print(  f' Existem {df[df["floors"] == 2 ].shape[0]}  imoveis com 2 andares')

 Existem 8241  imoveis com 2 andares


#### 11. Quantos imóveis estão com a condição igual a “regular” ?

In [20]:
print(  f' Existem {df[df["condition_type"] == "regular" ].shape[0]} imóveis regulares')

 Existem 19710 imóveis regulares



#### 12. Quantos imóveis estão com a condição igual a “bad”e possuem“vista para água” ?

In [21]:

print(  f' Existem {df[(df["condition_type"] == "bad") & (df["waterfront"] == 1)].shape[0]} imóveis com condição "bad" e com vista para o mar')

 Existem 2 imóveis com condição "bad" e com vista para o mar


#### 13. Quantos imóveis estão com a condição igual a “good” e são “new_house”?

In [22]:

print(  f' Existem {df[(df["condition_type"] == "good") & (df["house_age"] == "new_house")].shape[0]} imóveis com condição "bad" e com vista para o mar')

 Existem 1701 imóveis com condição "bad" e com vista para o mar


#### 14. Qual o valor do imóvel mais caro do tipo “studio” ?

In [23]:
house_studio_max = df.loc[df['dormitory_type'] == 'studio' ]["price"].max()

In [24]:
print(f'O imóvel mais caro do tipo "Studio" é ${house_studio_max}')

O imóvel mais caro do tipo "Studio" é $1295650.0


#### 15. Quantos imóveis do tipo “apartment” foram reformados em 2015 ?


In [25]:
house_refor_2015 = df[(df['dormitory_type'] == "apartment") & (df['yr_renovated'] == 2015)].shape[0]

print(f'O número de apartmente reformados em 2015 é {house_refor_2015}')

O número de apartmente reformados em 2015 é 0


#### 16. Qual o maior número de quartos que um imóveis do tipo “house” possui ?

In [26]:
bedrooms_max = df.loc[df['dormitory_type'] == "house" , 'bedrooms'].max()
print(f'O número máximo de quartos em imóveis do tipo house é {bedrooms_max}')

O número máximo de quartos em imóveis do tipo house é 33


#### 17. Quantos imóveis “new_house” foram reformados no ano de 2014?

In [27]:
renovated_2014 = df.query(" house_age == 'new_house' and yr_renovated == 2014").shape[0]
print(f'O número de imóveis new_house reformados em 2014 é {renovated_2014}')

O número de imóveis new_house reformados em 2014 é 91


#### 18. Selecione as colunas: “id”, “date”, “price”, “floors”, “zipcode” pelo método:
-- Direto pelo nome das colunas

-- Pelos índices

-- Pelos índices das linhas e o nome das colunas


In [28]:
df.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'house_age', 'dormitory_type', 'condition_type'],
      dtype='object')

In [29]:
#Direto pelo nome 
df[['id', 'date', 'price', 'floors', 'zipcode']].head(5)

Unnamed: 0,id,date,price,floors,zipcode
0,7129300520,2014-10-13,221900.0,1.0,98178
1,6414100192,2014-12-09,538000.0,2.0,98125
2,5631500400,2015-02-25,180000.0,1.0,98028
3,2487200875,2014-12-09,604000.0,1.0,98136
4,1954400510,2015-02-18,510000.0,1.0,98074


In [30]:
#Pelo índices
df.iloc[:5, [0,1,2,7, 16]]

Unnamed: 0,id,date,price,floors,zipcode
0,7129300520,2014-10-13,221900.0,1.0,98178
1,6414100192,2014-12-09,538000.0,2.0,98125
2,5631500400,2015-02-25,180000.0,1.0,98028
3,2487200875,2014-12-09,604000.0,1.0,98136
4,1954400510,2015-02-18,510000.0,1.0,98074


In [31]:
#Pelos índices das linhas e o nome das colunas
df.loc[:5, ['id', 'date', 'price', 'floors', 'zipcode']]

Unnamed: 0,id,date,price,floors,zipcode
0,7129300520,2014-10-13,221900.0,1.0,98178
1,6414100192,2014-12-09,538000.0,2.0,98125
2,5631500400,2015-02-25,180000.0,1.0,98028
3,2487200875,2014-12-09,604000.0,1.0,98136
4,1954400510,2015-02-18,510000.0,1.0,98074
5,7237550310,2014-05-12,1225000.0,1.0,98053


#### 19. Salve um arquivo .csv com somente as colunas do item 10 ao 17.

In [32]:
df.to_csv( 'exercicio_aula02.csv' , columns = ['house_age', 'dormitory_type', 'condition_type'] , index = False)

#### 20. Modifique a cor dos pontos no mapa de “pink” para “verde-escuro”

In [33]:
#Definindo o dataframe que será utilizado para constração do mapa 
df_map = df[['id','price', 'lat', 'long']]

In [36]:
plotly.offline.plot(mapa, filename='file.html')

AttributeError: module 'plotly.express' has no attribute 'offline'

In [None]:
mapa = px.scatter_mapbox( data_frame= df_map , lat = 'lat', 
                  lon = 'long' , zoom = 3  , hover_data= ['price'] , hover_name= 'id' ,
                  height= 300 , color_discrete_sequence= ['green']) 
mapa.update_layout(mapbox_style = 'open-street-map')
mapa.update_layout(height = 600 , margin = {'r' : 0 , 't':0 , 'l':0 , 'b':0})
mapa.show()