# Estatistica Descritiva

Este notebook tem como propósito a exploração e análise de um conjunto de dados relacionado ao mercado imobiliário nos Estados Unidos. A motivação por trás desta análise é compreender os fatores que influenciam a variação nos preços das residências, visando identificar as razões pelas quais algumas casas apresentam valores superiores em comparação a outras. Para atingir esse objetivo, empregaremos técnicas de estatística descritiva.

A estatística descritiva é uma abordagem estatística que nos permite resumir e interpretar padrões nos dados. Ao aplicar essas técnicas ao conjunto de dados do mercado imobiliário, buscamos extrair insights significativos sobre as características que impactam diretamente nos preços das residências. Essa compreensão mais profunda pode ser fundamental para investidores, compradores e agentes imobiliários, fornecendo uma base sólida para a tomada de decisões informadas.

Ao longo deste notebook, exploraremos diversas métricas estatísticas, gráficos descritivos e análises comparativas para revelar padrões e tendências presentes no mercado imobiliário. A intenção é não apenas identificar correlações entre variáveis, mas também oferecer uma visão abrangente das nuances que influenciam o valor das propriedades. Essas descobertas podem fornecer insights valiosos para os interessados no setor imobiliário, contribuindo para uma compreensão mais clara do cenário em questão.

## Iniciando o código 

Nesta etapa iremos realizar o import de alguns pacotes e importação dos nossos dados.

In [None]:
#Importando pacotes para realizar a análise de dados.

import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns
import numpy as np

In [None]:
#Lendo o arquivo para iniciar as análises

df = pd.read_csv('../../data/Aula01 - Estatistica Descritiva/house_price.csv')
df

In [21]:
#Verificando algumas informações do dataset

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0    1460 non-null   int64 
 1   SalePrice     1460 non-null   int64 
 2   OverallQual   1460 non-null   int64 
 3   OverallCond   1460 non-null   int64 
 4   BedroomAbvGr  1460 non-null   int64 
 5   TotRmsAbvGrd  1460 non-null   int64 
 6   GrLivArea     1460 non-null   int64 
 7   TotalBsmtSF   1460 non-null   int64 
 8   YearBuilt     1460 non-null   int64 
 9   MSZoning      1460 non-null   object
 10  Utilities     1460 non-null   object
 11  BldgType      1460 non-null   object
dtypes: int64(9), object(3)
memory usage: 137.0+ KB


In [26]:
#Removendo coluna que não iremos utilizar
df = df[[ 'SalePrice', 'OverallQual', 'OverallCond', 'BedroomAbvGr',
       'TotRmsAbvGrd', 'GrLivArea', 'TotalBsmtSF', 'YearBuilt', 'MSZoning',
       'Utilities', 'BldgType']] 

### Informações sobre o dataset

* Colunas: 

     **SalePrice:** Price of sale  
     **OverallQual:** Rates the overall material and finish of the house  
     **OverallCond:** Rates the overall condition of the house  
     **BedroomAbvGr:** Bedrooms above grade (does NOT include basement bedrooms)  
     **TotRmsAbvGrd:** Total rooms above grade (does not include bathrooms)  
     **GrLivArea:** Above grade (ground) living area square feet  
     **TotalBsmtSF:** Total square feet of basement area  
     **YearBuilt:** Original construction date  
     **MSZoning:** Identifies the general zoning classification of the sale  
           &nbsp;&nbsp;&nbsp;&nbsp;A    Agriculture  
           &nbsp;&nbsp;&nbsp;&nbsp;C    Commercial  
           &nbsp;&nbsp;&nbsp;&nbsp;FV    Floating Village Residential  
           &nbsp;&nbsp;&nbsp;&nbsp;I     Industrial  
           &nbsp;&nbsp;&nbsp;&nbsp;RH    Residential High Density  
           &nbsp;&nbsp;&nbsp;&nbsp;RL    Residential Low Density  
           &nbsp;&nbsp;&nbsp;&nbsp;RP    Residential Low Density Park   
           &nbsp;&nbsp;&nbsp;&nbsp;RM    Residential Medium Density  
     **Utilities:** Type of utilities available  
           &nbsp;&nbsp;&nbsp;&nbsp;AllPub    All public Utilities (E,G,W,& S)      
           &nbsp;&nbsp;&nbsp;&nbsp;NoSewr    Electricity, Gas, and Water (Septic Tank)  
           &nbsp;&nbsp;&nbsp;&nbsp;NoSeWa    Electricity and Gas Only  
           &nbsp;&nbsp;&nbsp;&nbsp;ELO       Electricity only      
     **BldgType:** Type of dwelling  
           &nbsp;&nbsp;&nbsp;&nbsp;1Fam      Single-family Detached      
           &nbsp;&nbsp;&nbsp;&nbsp;2FmCon    Two-family Conversion; originally built as one-family dwelling  
           &nbsp;&nbsp;&nbsp;&nbsp;Duplx     Duplex  
           &nbsp;&nbsp;&nbsp;&nbsp;TwnhsE    Townhouse End Unit  
           &nbsp;&nbsp;&nbsp;&nbsp;TwnhsI    Townhouse Inside Unit  

In [27]:
#Verificando valores nulos

df.isnull().sum()

SalePrice       0
OverallQual     0
OverallCond     0
BedroomAbvGr    0
TotRmsAbvGrd    0
GrLivArea       0
TotalBsmtSF     0
YearBuilt       0
MSZoning        0
Utilities       0
BldgType        0
dtype: int64

In [29]:
#Verificando estatística descritvas das colunas numéricas

df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
SalePrice,1460.0,180921.19589,79442.502883,34900.0,129975.0,163000.0,214000.0,755000.0
OverallQual,1460.0,6.099315,1.382997,1.0,5.0,6.0,7.0,10.0
OverallCond,1460.0,5.575342,1.112799,1.0,5.0,5.0,6.0,9.0
BedroomAbvGr,1460.0,2.866438,0.815778,0.0,2.0,3.0,3.0,8.0
TotRmsAbvGrd,1460.0,6.517808,1.625393,2.0,5.0,6.0,7.0,14.0
GrLivArea,1460.0,1515.463699,525.480383,334.0,1129.5,1464.0,1776.75,5642.0
TotalBsmtSF,1460.0,1057.429452,438.705324,0.0,795.75,991.5,1298.25,6110.0
YearBuilt,1460.0,1971.267808,30.202904,1872.0,1954.0,1973.0,2000.0,2010.0


In [44]:
#Boxplot 
# fig,ax = plt.subplots(ncols=2,nrows=4,figsize = (8,10))
# sns.boxplot(df['OverallQual'],ax=ax[0,0])

# for column in df.columns: 
#     if df[column].dtypes == 'int64':
#         fig,ax = plt.subplots(ncols=2,nrows=4,figsize = (8,10))
#         sns.boxplot(df[column],ax=ax[0,0])
linha = -1 
coluna = -1        
for column in df.columns:
    if df[column].dtypes == 'int64':
        linha += 1 
        coluna += 1 
        print(linha,coluna)

0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
