** Essa seção foi inspirada em um excelente curso oferecido por [Minerando Dados](https://minerandodados.com.br/) na semana data science 2020**

Aqui vamos, brevemente, conhecer o trabalho de um cientista de dados. Bem, na verdade, não o trabalho inteiro. Uma parte muito importante e geralmente a mais dificil é coletar e organizar os dados. Aqui, no vamos usar um conjunto de dados já prontos. 

Outro ponto é que, ao longo desse projeto vamos utilizar algumas ferramentas que para as conhecer melhor temos que se aprofundar no assunto, que não é o objetivo desse curso. Aí, os interessados podem participar em um curso de ciencia de dados. Espero que vamos oferecer esse curso como um curso de extensão na FAT. 

O projeto é sobre analise de dados sobre o mercado imobiliaro do estado California nos EUA. Esse conjunto de dados tem informações de casas vendidas na cidade tais como, o numero de quartos, a metragem, a tranquilidade da região e o preço da casa. Tendo essas informações, vamos conhecer melhor a relação entre as caracteristicas das casas e o preço. Depois montamos um modelo para determinar o preço de uma casa qualquer na cidade, baseado nos dados disponiveis. No final, fazemos Deploy do modelo em um website. 

Falando isso tudo, vamos começar a nossa jornada. Primeiro vamos instalar os pacotes que vamos precisar ao longo do projeto.
- scikit-learn
- plotly
- pandas
- pandas-profiling
- streamlit

# Analise Exploratória de Dados

Primeiro vamos importar os pacotes e depois carregamos os dados

In [4]:
import pandas as pd 
import plotly.graph_objects as go 
from sklearn.datasets import fetch_california_housing

Verifiquem a versão do scikit-learn > 0.23

In [5]:
california = fetch_california_housing(as_frame = True) #as_frame=True é para ter o resultado como um Dataframe

In [9]:
print(california.DESCR)

.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

    :Number of Instances: 20640

    :Number of Attributes: 8 numeric, predictive attributes and the target

    :Attribute Information:
        - MedInc        median income in block
        - HouseAge      median house age in block
        - AveRooms      average number of rooms
        - AveBedrms     average number of bedrooms
        - Population    block population
        - AveOccup      average house occupancy
        - Latitude      house block latitude
        - Longitude     house block longitude

    :Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
http://lib.stat.cmu.edu/datasets/

The target variable is the median house value for California districts.

This dataset was derived from the 1990 U.S. census, using one row per census
block group. A block group is the smallest geographical unit for which the U.S.
Census Bur

In [11]:
df = california.data
df.head(10)

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
5,4.0368,52.0,4.761658,1.103627,413.0,2.139896,37.85,-122.25
6,3.6591,52.0,4.931907,0.951362,1094.0,2.128405,37.84,-122.25
7,3.12,52.0,4.797527,1.061824,1157.0,1.788253,37.84,-122.25
8,2.0804,42.0,4.294118,1.117647,1206.0,2.026891,37.84,-122.26
9,3.6912,52.0,4.970588,0.990196,1551.0,2.172269,37.84,-122.25


In [13]:
df_price = california.target
df_price.head(10)

0    4.526
1    3.585
2    3.521
3    3.413
4    3.422
5    2.697
6    2.992
7    2.414
8    2.267
9    2.611
Name: MedHouseVal, dtype: float64

Agora vamos ver algumas informações estatisticas sobre o dataset

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   MedInc      20640 non-null  float64
 1   HouseAge    20640 non-null  float64
 2   AveRooms    20640 non-null  float64
 3   AveBedrms   20640 non-null  float64
 4   Population  20640 non-null  float64
 5   AveOccup    20640 non-null  float64
 6   Latitude    20640 non-null  float64
 7   Longitude   20640 non-null  float64
dtypes: float64(8)
memory usage: 1.3 MB


In [16]:
df.describe()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704
std,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532
min,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35
25%,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8
50%,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49
75%,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01
max,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31


In [30]:
fig = go.Figure()
fig.add_scattergeo(lat = df.Latitude , lon = df.Longitude)
fig.update_layout(geo_scope = 'usa')

Dá para ver que todas as casas, como é esperado, ficam no estado California. 

Agora vamos adicionar a coluna de preço no dataset e salvar.

In [31]:
df['price'] = df_price

In [32]:
df.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,price
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422


Para conhecer melhor o dataset e a relação entre os features vamos usar um pacote muito bom que se chama *pandas_profiling*

In [34]:
pip install pandas_profiling

Collecting pandas_profiling
  Downloading pandas_profiling-2.8.0-py2.py3-none-any.whl (259 kB)
[K     |████████████████████████████████| 259 kB 1.2 MB/s 
[?25hCollecting phik>=0.9.10
  Downloading phik-0.10.0-py3-none-any.whl (599 kB)
[K     |████████████████████████████████| 599 kB 2.9 MB/s 
Processing /home/vahid/.cache/pip/wheels/18/e0/b3/79594ba4a96afaf41d39916ed83ce7d5ec031874c66a76eabb/confuse-1.1.0-py3-none-any.whl
Collecting matplotlib>=3.2.0
  Downloading matplotlib-3.2.1-cp37-cp37m-manylinux1_x86_64.whl (12.4 MB)
[K     |████████████████████████████████| 12.4 MB 3.6 MB/s 
Collecting astropy>=4.0
  Using cached astropy-4.0.1.post1-cp37-cp37m-manylinux1_x86_64.whl (6.5 MB)
Processing /home/vahid/.cache/pip/wheels/70/e1/52/5b14d250ba868768823940c3229e9950d201a26d0bd3ee8655/htmlmin-0.1.12-py3-none-any.whl
Collecting visions[type_image_path]==0.4.4
  Downloading visions-0.4.4-py3-none-any.whl (59 kB)
[K     |████████████████████████████████| 59 kB 5.0 MB/s 
Collecting missing

In [35]:
from pandas_profiling import ProfileReport

In [36]:
profile = ProfileReport(df, title='Relatório - Pandas Profiling', html={'style':{'full_width':True}})

In [37]:
profile

Summarize dataset: 100%|██████████| 23/23 [00:26<00:00,  1.13s/it, Completed]
Generate report structure: 100%|██████████| 1/1 [00:05<00:00,  5.26s/it]
Render HTML: 100%|██████████| 1/1 [00:03<00:00,  3.92s/it]


