# Python para Análise de Dados - Pandas  02

<p> Iremos trabalhar com base de imóveis que obtive no site Kaggle. 

Você pode fazer Download diretamente no nosso **GitHub**, [aqui](https://github.com/minerandodados/mdrepo/blob/master/kc_house_data.csv)



In [1]:
# Importe a biblioteca pandas
import pandas as pd

In [None]:
# Lendo a base de dados
arquivo = '/home/rodrigo/curso/Python Para Data Análise/kc_house_data.csv'
dataset = pd.read_csv(arquivo, sep=',')

In [None]:
# Plota um Histograma com a coluna Price com 30 bins na cor vermelho
%matplotlib notebook
dataset['price'].hist(bins=80, color='red')

In [None]:
# Plota histogramas das colunas bedrooms e bathrooms lado a lado na cor verde.
%matplotlib notebook
dataset[['bedrooms','bathrooms']].hist(bins=30,alpha=0.5,color='Green')

** Estatistica Descritiva**

In [None]:
# Imprime o valor médio da coluna bedrooms
dataset['bedrooms'].mean()

In [None]:
# Imprime o valor máximo da coluna bedrooms
dataset['bedrooms'].max()

In [None]:
# Imprime o valor mínimo da coluna bedrooms
dataset['bedrooms'].min()

In [None]:
# Imprime o desvio padrão da coluna bedrooms
dataset['bedrooms'].std()

In [None]:
# Imprime o valor máximo da coluna bedrooms
dataset['bedrooms'].skew()

In [None]:
# Esse método retorna o valor de simetria de cada coluna do dataset.
# Um valor zero indica uma distribuição simétrica
# Um valor maior que zero ou menor indica uma distribuição assimétrica.
# Valores acima de zero podemos dizer que existe uma assimetria positiva 
# Valores abaixo de zero uma assimetria negativa.
# Isso quer dizer que valores muito acima de zero indicam que existem mais valores acima da média
# valores abaixo de zero significa que contém mais valores abaixo da média.
dataset.skew()

# **Extraindo Insights**

* Vamos agora trabalhar com um tipo de gráfico muito interessante.

* Os gráficos do tipo Boxplot são excelentes ferramentas de análise de dados, principalmente para identificar _**outliers**_.

In [None]:
import matplotlib

In [None]:
# Plota gráfico do tipo Boxplot da coluna bedrooms
# Esse gráfico é muito rico e é possível visualizar Outliers
%matplotlib notebook
matplotlib.style.use('ggplot')

dataset.boxplot(column='bedrooms')

In [None]:
# Visualizando os estilos de layout disponível
matplotlib.style.available

In [None]:
# Plota boxplot da coluna 'price' por número de quartos
%matplotlib notebook
dataset.boxplot(column='price', by='bedrooms')

**Correlação **

In [None]:
# Imprime a correlação de todas as colunas do dataframe (person)
dataset.corr()

In [None]:
dataset.corr('spearman')

In [None]:
# Imprime a correlação de spearman (esta leva em consideração a correção positiva e negativa)
dataset.corr('spearman')

In [None]:
# Imprime a correção de algumas colunas
dataset[['bedrooms','bathrooms','sqft_living','floors','waterfront','grade','price']].corr()

In [None]:
# Plotando a correlação de algumas colunas
%matplotlib notebook
dataset[['sqft_living','waterfront','grade','price']].corr().plot()

# **Tabelas Pivot**

In [None]:
# Tabelas Pivot são úteis para fazer agrupamento nos dados.
# Conta a quantidade de imóveis agrupados pelas colunas waterfront e floors.
# O parametro index informo as colunas que serão usadas para agregação.
# o parâmetro aggfunc é usado para definir a função de agregação, que poderia ser uma média por exemplo.
# O parâmetro margins=True calcula a quantidade total no final da tabela.

# Muito interessante a performance dessa operação.
dataset.pivot_table('id',index=["waterfront","floors"], aggfunc='count',margins=True)

**Crosstab**

In [None]:
# Crosstab ou tabulação Cruzada
# Essa funcionalidade cruza valores das variáveis
# Nesse exemplo podemos ver qual a distribuição dos imóvies por número de quartos com relação a sua condição
# Podemos ver que imoveis com 3 quartos estão mais na condição 5

pd.crosstab(dataset['bedrooms'],dataset['condition'])

In [None]:
# Plota a tabulação Cruzada
# Usamos o método plot com um gráfico de barras

table = pd.crosstab(dataset['bedrooms'],dataset['condition'])
table.plot(kind='bar',width=1.0, color=['red','yellow','orange','blue','green'], title='Condition by Bedrooms' ,grid=False)

# ** Trabalhando com Excel **

* Com o Pandas podemos trabalhar com o Excel.

* Isso é muito bom, pois, sabemos que temos muita informação nos dias de hoje em planilhas do excel.

* Diante disso você pode usar o pandas para manipular planilhas do excel e até mesmo gerar novas planilhas a partir de outros dados.

In [None]:
# Lendo uma planilha do excel no Pandas.
dataframe_excel = pd.read_excel('/home/rodrigo/Downloads/temp/Controle-de-Atividades-2.0.xlsx', sheetname=0,header=1)

In [None]:
dataframe_excel.head()

In [None]:
# Lendo o arquivo indexando pela coluna 'Estado Atual'

file = '/home/rodrigo/Downloads/temp/Controle-de-Atividades-2.0.xlsx'
dataframe_excel = pd.read_excel(file, sheetname=0, header=1, index_col=3)

In [None]:
dataframe_excel.head(10)

In [None]:
# Ordenando o dataframe pela coluna de índice. 
dataframe_excel.sort_index()

# ** Gerando Planilhas a partir de Dataframes **


In [None]:
# Vou usar o dataset de imoveis para gerar uma planilha.
dataset.head()

In [None]:
# Gerando uma planilha com algumas colunas
colunas = ['id','price','bedrooms','bathrooms','sqft_living','floors','waterfront']
dataset[colunas].head()

In [None]:
# Escrevendo no disco a planilha sem o valor do índice.
dataset[colunas].to_excel('planilha_pandas.xls',index=False)