# Manipulando Dados

In [1]:
# Carregando biblioteca

import pandas as pd

In [None]:
# Carregando base de dados

dados = pd.read('kc_house_data.csv', sep = ',')

**Estatística Descritiva**

In [None]:
# Calculando a média

dados['bedrooms'].mean()

In [None]:
# Valor máximo

dados['bedrooms'].max()

In [None]:
# Valor mínimo

dados['bedrooms'].min()

In [None]:
# Desvio Padrão

dados['bedrooms'].std()

In [None]:
# Simetria

# Um valor zero indica uma distribuição simétrica
# Um valor maior que zero ou menor indica uma distribuição assimétrica.
# Valores acima de zero podemos dizer que existe uma assimetria positiva 
# Valores abaixo de zero uma assimetria negativa.
# Isso quer dizer que valores muito acima de zero indicam que existem mais valores acima da média
# valores abaixo de zero significa que contém mais valores abaixo da média.

dados['bedrooms'].skew()

In [None]:
# Correlação de Pearson

dados.corr()

In [None]:
# Correlação de Spearman

dados.corr('spearman')

**Tabela Pivot**

In [None]:
# Tabelas Pivot são úteis para fazer agrupamento nos dados.
# O parametro index informo as colunas que serão usadas para agregação.
# o parâmetro aggfunc é usado para definir a função de agregação, que poderia ser uma média por exemplo.
# O parâmetro margins = True calcula a quantidade total no final da tabela.

dados.pivot_table('id', index = ['waterfront', 'floors'], aggfunc = 'count', margins = True)

**Crosstab**

In [None]:
# Crosstab ou tabulação cruzada realiza o cruzamento de variáveis

pd.crosstab(dados['bedrooms'], dados['condition'])

**Trabalhando com planilhas do excel**

In [None]:
# Carregando os dados

dados_2 = pd.read_excel('Controle-de-Atividade-2.0.xlsx', sheetname = 0, header = 1)

In [None]:
# Visualizando os dados

dados_2.head()

In [None]:
# Carregando os dados e indexando uma coluna

dados_3 = pd.read_excel('Controle-de-Atividade-2.0.xlsx', sheetname = 0, header = 1, index_col = 3)

In [None]:
# Visualizado os dados

dados_3.head()

In [None]:
# Ordenando os dados pela coluna index

dados_3.sort_index()

**Gerando planilhas**

In [None]:
# Criando um DataFrame a partir de outro

colunas = ['id', 'price', 'bedrooms', 'bathrooms'] # Criando uma lista com os nomes das colunas
dados_4 = dados[colunas]                           # Criando um novo DataFrame

In [None]:
# Salvando a planilha em disco

dados_4.to_excel('Planilha_Gerada.xls', index = False)

**Extraindo Insights**

In [2]:
# Carregando biblioteca

import matplotlib

In [None]:
# Plotando um boxplot: detecção de possíveis outliers

%matplotlib notebook
matplotlib.style.use('ggplot')
dados.boxplot(column = 'bedrooms')

In [None]:
# Boxplot da coluna price por número de quartos

%matplotlib notebook
dados.boxplot(column = 'price', by = 'bedrooms')

In [None]:
# Visualizando os estilos de layout disponíveis

matplotlib.style.available