# Pandas  

In [None]:
# Importando o Pandas.
import pandas as pd

In [None]:
# Lendo uma base de dados no formato .csv.
# o parâmetro sep é usado para definir qual o separador entre os dados.
# o parâmetro header informo em qual linha está minhas colunas ou se elas não existem.
# Se não existe colunas (header=None) o pandas dará um número para cada atributo da base.
arquivo = 'dados/kc_house_data.csv'

df = pd.read_csv(arquivo, sep=',' ,header=0)

In [None]:
# Imprimindo o tipo da variável dataset
# Dataframe é um estrutura de dados onde linhas podem ter colunas de diferentes tipos.
type(df)

In [None]:
# Metodo head() imprime as 5 linhas iniciais do dataframe.
df.head()

In [None]:
# O parâmetro index_col informa a coluna na qual o dataframe será indexado
df = pd.read_csv(arquivo, sep=',', index_col='date')

In [None]:
# Lendo o arquivo usando apenas as colunas informadas
df = pd.read_csv(arquivo, sep=',', usecols=['id','date','price','bedrooms'])

In [None]:
# Metodo head() imprime as 5 linhas iniciais do dataframe.
df.head()

In [None]:
# Imprimindo a 10 primeiras linhas do dataframe.
df.head(10)

In [None]:
# Atributo columns retorna o nome das colunas do dataframe.
df.columns

In [None]:
# Método count() retorna a quantidade de linhas de todas as colunas.
df.count()

In [None]:
# Método describe() exibe informações estatísticas da base de dados. 
# Várias informações como desvio padrão, média, valor mínimo e valor máximo de colunas.
df.describe()

In [None]:
# Imprime as 10 ultimas linhas .
df.tail(10)

In [None]:
# Imprime uma amostra aleatória do dataset.
df.sample(5)

In [None]:
# Retorna em formato de tupla a quantidade de linhas e colunas do dataset.
df.shape

In [None]:
# Imprime informações sobre colunas e uso de memória.
df.info()

In [None]:
# Lista de colunas do DataFrame
df.columns.values

In [None]:
# Contar as ocorrencias unicas de cada valor no DataFrame
df.bedrooms.value_counts()

In [None]:
# Ou
df['bedrooms'].value_counts()

In [None]:
# Pega os indices do "agrupamento"
df.bedrooms.value_counts().index.tolist()

In [None]:
# Pega os valores do "agrupamento"
df.bedrooms.value_counts().values.tolist()

In [None]:
for index, row in df.iterrows():
    print(row['bedrooms'])

# Trabalhando com Grandes Arquivos

In [None]:
# Lendo as 5 primeiras linhas do arquivo.
df = pd.read_csv(arquivo, sep=',')

In [None]:
# O parâmetro chunksize define em quantas linhas cada bloco irá conter.
chunk = pd.read_csv(arquivo, chunksize=10000)

In [None]:
type(chunk)

In [None]:
# Imprimindo tamanho das partes do arquivo chunk.
for parte in chunk:
    print (len(parte))

In [None]:
# Interese sobre cada parte do dataframe em seguida adicione o valor processado a uma nova coluna do dataset.
chunk = pd.read_csv(arquivo, chunksize=10000)
lista = []
for parte in chunk:
    lista.append(parte['bedrooms'] * 2)

df['bedrooms_size'] = pd.concat(lista)

In [None]:
df.head()

# Consultando um Dataset

In [None]:
# Conta a quantidade de valores únicos
pd.value_counts(df['bedrooms'])

In [None]:
# O método loc() é usado para visualizar informações do dataset.
# Este método recebe uma lista por parâmetro e retorna o resultado da consulta.
# Consulta imóveis com 3 quartos
df.loc[df['bathrooms'] > 7]

In [None]:
# Usando o método loc() junto com o operador &
# Consulta imóveis com 3 quartos e com o número de banheiros maior que 2
df.loc[(df['bedrooms']==3) & (df['bathrooms'] >= 4)].head()

In [None]:
# O método sort_values() ordena o dataset pela coluna 'price' em ordem descrescente.
# Apenas o retorno da query será ordenado, não a organização do dataset.
df.sort_values(by='price', ascending=False).head()

In [None]:
# Usando o método count() para contar o número de linhas de uma query.
df[df['bedrooms']==4].count()

In [None]:
# Filtrar coluna com varios elementos de uma lista
df[df['bedrooms'].isin([3,4])]

# Alterando o dataset

In [None]:
# Adicionando uma coluna ao Dataframe.
dataset['size'] = (dataset['bedrooms'] * 20)

In [None]:
# Visualizando o conteúdo da coluna criada.
dataset['size'].head()

In [None]:
# Criando uma função para processamento de dados.
def categoriza(s):
    if s >= 80:
        return 'Big'
    elif s >= 60:
        return 'Medium'
    elif s >= 40:
        return 'Small'

In [None]:
# Criando uma nova coluna a partir do processamento realizado.
dataset['cat_size'] = dataset['size'].apply(categoriza)

In [None]:
# Visualizando a nova coluna criada.
dataset['cat_size'].head()

In [None]:
# Ver a distribuicao da coluna com o método value_counts.
pd.value_counts(dataset['cat_size'])

In [None]:
# O método drop é usado para excluir dados no dataframe.
# A opção axis=1 define que queremos excluir uma coluna e não uma linha.
# O parâmetro inplace define que a alteração irá modificar o objeto em memória.

dataset.drop(['cat_size'], axis=1, inplace=True)

In [None]:
# Apagando a coluna 'size'
dataset.drop(['size'], axis=1, inplace=True)

In [None]:
# Visualizando o dataset.
dataset.head()

**Apagando linhas baseado em Condições lógicas!**

In [None]:
# Dropa linhas com bedrooms = 0
dataset.drop(dataset[dataset.bedrooms==0].index ,inplace=True)

In [None]:
# Dropa linhas maiores que 30
dataset.drop(dataset[dataset.bedrooms>30].index ,inplace=True)

# Missing Values

In [None]:
arquivo = 'dados/kc_house_data.csv'
dataset = pd.read_csv(arquivo, sep=',', header=0)

In [None]:
# Consultando linhas com valores faltantes.
dataset.isnull().sum()

In [None]:
#Com este comando removemos todas as linhas onde tenha pela menos um registro faltante em algum atributo.
dataset.dropna(inplace=True)

In [None]:
# É possível ainda, remover somente linhas que estejam com valores faltantes em todas as colunas, veja:
dataset.dropna(how='all', inplace=True)

In [None]:
#preenche com a media dos valores da coluns floors os values null
dataset['floors'].fillna(dataset['floors'].mean(), inplace=True)

In [None]:
#preenche com 1 os values null da coluna bedrooms
dataset['bedrooms'].fillna(1, inplace=True)

In [None]:
dataset