# Manipulando Conjunto de Dados

In [1]:
# Carregando biblioteca

import pandas as pd

**Carregando conjunto de dados**

In [None]:
# Exemplo 1

arquivo = 'kc_house_data.csv'
dataset = pd.read_csv(arquivo, sep=',' ,header=0)

In [None]:
# Exemplo 2

dataset_2 = pd.read_csv('kc_house_data.csv', sep = ',', header = 0)

In [None]:
# Exemplo 3: definindo as colunas do dataset a ser carregada


dataset_3 = pd.read_csv(arquivo, sep=',', usecols=['id','date','price','bedrooms'])

In [None]:
# Exemplo 4: definindo as colunas do dataset a ser carregada de acordo com sua posição

dataset_4 = pd.read_csv("kc_house_data.csv", usecols=[0,1,2,3,4,5])

In [None]:
# Exemplo 5: definindo o número de linhas a ser carregada

dataset_5 = pd.read_csv('kc_house_data.csv', sep=',', nrows=5)

In [None]:
# Exemplo 6: definindo colunas a não serem carregadas

dataset_6 = pd.read_csv("kc_house_data.csv", usecols = lambda column : column not in ['sqft_living','sqft_lot','floors'])

In [None]:
# Exemplo 7: carregando um arquivo a partir de um link

dataset_7 = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

In [None]:
# Exemplo 8: dividindo o conjunto de dados em parte com total de linhas definidas

dataset_8 = pd.read_csv("kc_house_data.csv", chunksize=10000)

**Algumas funções**

In [None]:
# Verificando o tamanho das partes do arquivo do exemplo 8.

for parte in dataset_8:
    print(len(parte))

In [None]:
# Exibindo conjunto de dados

dataset.head()              # Irá exibir as 5 primeiras linhas do conjunto de dados

In [None]:
# Exibindo conjunto de dados

dataset.tail()              # Irá exibir as últimas 5 linhas do conjunto de dados

In [None]:
# Definindo total de linhas a serem exibidas

dados.head(10)              # Irá exibir as 10 primeiras linhas do conjunto de dados

In [None]:
# Definindo total de linhas a serem exibidas

dados.tail(10)              # Irá exibir as 10 últimas linhas do conjunto de dados

In [None]:
# Verificando o tipo do conjunto de dados

type(dataset)

In [None]:
# Verificando o nome das colunas de um conjunto de dados

dataset.columns

In [None]:
# Verificando o quantidade de linhas de todas as colunas

dataset.count()

In [None]:
# Verificando o total de linhas e colunas de um dataset

dataset.shape()

In [None]:
# Descrição de um dataset

dataset.describe()

In [None]:
# Informações de um dataset

dataset.info()

In [None]:
# Amostra aleatória de dados de um dataset

dados.sample(5)    # Irá selecionar 5 dados aleatórios entre todo o conjunto de dados

In [None]:
# Realizando a contagem de valores únicos

pd.value_counts(dataset['bedrooms'])

In [None]:
# Localizando informações em um dataset

dataset.loc[dataset['bedrooms'] == 3]  # Consultando imóveis com 3 quartos

In [None]:
# Localizando informações em um dataset: loc() e &

dataset.loc[(dataset['bedrooms'] == 3]) & (dataset['bathrooms'] > 2)]

In [None]:
# Ordenando conjunto de dados

dataset.sort_values(by = 'price', ascending = False) # Ordena os dados pela coluna price de forma decrescente

In [None]:
# Ordenando conjunto de dados

dataset.sort_values(by = 'price', ascending = True) # Ordena os dados pela coluna price de forma crescente

In [None]:
# Realizando a contagem de linhas de uma consulta especifica

dataset[dataset['bedrooms'] == 4].count()

**Trabalhando com colunas e linhas**

In [None]:
# Adicionando uma coluna a um dataset

dataset['size'] = (dataset['bedrooms'] * 20) # Cria a coluna size e atribui a ela o valor da coluna bedrooms * 20

In [None]:
# Visualizando o conteúdo de uma coluna

dataset['size'].head()                 # Irá exibir os 5 primeiros registros da coluna
dataset['size'].tail()                 # Irá exibir os 5 últimos registros da coluna

In [None]:
# Excluindo uma coluna do conjunto de dados

# axis = 1: usado quando queremos excluir a coluna e não a linha
# inplace = True: define que a alteração será realiza em memória

dataset.drop(['size'], axis = 1, inplace = True)

In [None]:
# Excluindo linhas a partir de uma condição lógica

dataset.drop(dataset[dataset.bedrooms == 0].index, inplace = True) # Irá excluir as linhas com bedrooms = 0

In [None]:
# Excluindo linhas a partir de uma condição lógica

dataset.drop(dataset[dataset.bedroom > 30].index, inplace = True) # Irá excluir as linhas com bedrooms > 30

**Missing Values**

In [None]:
# Consultando linhas com valores faltantes

dataset.isnull().sum() # Retorna as linhas e o total de valores faltantes em cada uma delas

In [None]:
# Removendo todas as linhas com ao menos um valor faltante

dataset.dropna(inplace = True)

In [None]:
# Removendo todas as linha que tenham valores faltantes em todas as colunas

dataset.dropna(how = 'all', inplace = True)

In [None]:
# Preenchendo valores faltantes com a média das colunas

dataset['floors'].fillna(dataset['floors'].mean(), inplace = True)

In [None]:
# Preenchendo valores faltantes

dataset['bedrooms'].fillna(1, inplace = True) # Preenchendo todos os valores faltantes de coluna bedrooms com 1

**Adicionando uma nova coluna ao dataset**

In [None]:
# Aplicando no dataset_8

lista = []                                  # Criando uma lista vazia

for parte in dataset_8:                     # Loop for percorrendo a coluna bedrooms, multiplicando seu valor por 2
    lista.append(parte['bedrooms'] * 2)     # e adicionando o resultado na lista criada

dataset_8['bedrooms_size'] = pd.concat(lista) # Criando uma nova coluna e adicionando os valores da lista

**Convertendo tipos de dados**

In [None]:
# Aplicando no dataset_7

dataset_7.Sex = dataset_7.Sex.astype('category')              # Conventendo para o tipo categorico
dataset_t.Embarked = dataset_7.Embarked.astype('category')    # Conventendo para o tipo categorico
dataset_7.Survived = dataset_7.Survived.astype('category')    # Conventendo para o tipo categorico
dataset_7.Pclass = dataset_7.Pclass.astype('category')        # Conventendo para o tipo categorico
dataset_7.PassengerId = dataset_7.PassengerId.astype('int32') # Conventendo para o tipo inteiro
dataset_7.Parch = dataset_7.Parch.astype('int32')             # Conventendo para o tipo inteiro
dataset_t.SibSp = dataset_7.SibSp.astype('int32')             # Conventendo para o tipo inteiro

In [None]:
# Convertendo colunas no momento do carregamento dos dados

data = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
dados = pd.read_csv(data,  dtype = {"Embarked" : "category", "Survived": "category", "Parch": "int32"})

**Percorrendo linhas de um DataFrame**

In [None]:
# O método iterrows() permite percorrer por todas as linhas de um dataframe
# Esse método retorna um objeto iterator que contém o indice de cada linha

# Percorrendo linhas

for indice, linha in dataset.head(10).iterrows():
    print(indice, linha)

In [None]:
# Percorrendo linhas acessando algumas colunas

for indice, linha in dataset.head(10).iterrows():
    print(indice, linha['bedrooms'], linha['price'])

In [None]:
# Imprimindo a 1ª linha do objeto iterator

next(dataset.iterrows())

**Percorrendo DataFrame**

In [None]:
# O método itertuples() retorna as linhas e índices em forma de tuplas
# Costuma ser mais rápido que o iterrows()

# Percorrendo DataFrame

for linha in dataset.head().itertuples():
    print(linha)

In [None]:
# Percorrendo o DataFrame acessando algumas colunas

for linha in dataset.head().itertuples():
    print(linha.id, linha.bedrooms, linha.price)