**Biblioteca Pandas**

- O Pandas é uma biblioteca Open Source

- Esta biblioteca facilita a manipulação de conjuntos de dados não estruturados

- Permite manipular arquivos de texto, com tipos de dados de diferentes tipos inclusive arquivos .jason

- Biblioteca faz tarefas complexas se tornarem fáceis

- Principal biblioteca Python para Análise de Dados

In [None]:
# Conhecendo o dataframe pandas
# Importando o Pandas

import pandas as pd 

In [None]:
# Lendo uma base de dados no formato .csv
# O parâmetro sep é usado para definir qual o operador entre os dados
# O parâmetro Header informa qual linha está minhas colunas ou se elas não existem
# Se não existem colunas (header=none) o Pandas dará um número para cada atributo da base

arquivo = 'C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv'
dataset = pd.read_csv (arquivo, ',' , header = 0)

In [None]:
# Imprimindo o tipo da variável dataset

type(dataset)

In [None]:
# Método head() imprime as 5 primeiras linhas do dataframe

dataset.head()

In [None]:
# O parâmetro index_col informa a coluna na qual o dataframe será indexado

dataset = pd.read_csv (arquivo, ',', index_col='date')

In [None]:
# Para informar quais colunas queremos, usamos usecols=

dataset = pd.read_csv (arquivo, ',', usecols= ['id', 'date', 'price', 'bedrooms'])
dataset.head()

In [None]:
# Imprimindo as 100 primeiras linhas do dataset

dataset.head(100)

In [None]:
# Atributo columns retorna o nome das colunas do dataframe

dataset.columns

In [None]:
# Método count() retorna a quantidade de linhas de todas as colunas

dataset.count()

In [None]:
# O método describe() exibe informações estatísticas da base de dados
# Várias informações como desvio de padrão, média, valor mínimo e máximo de colunas

dataset.describe()

In [None]:
# Imprime as 5 últimas linhas do arquivo

dataset.tail(5)

In [None]:
# Imprime uma amostra aleatória

dataset.sample(5)

In [None]:
# Retorna em formato de tupla a quantidade de linhas e colunas do dataset

dataset.shape

In [None]:
# Imprime informações sobre colunas e uso de memória 

dataset.info()

**Analisando um dataframe com Pandas Profiling**

In [None]:
# Instalando o Pandas Profiling

!pip install pandas-profiling

In [None]:
# importando o Pandas Profiling

import pandas_profiling

In [None]:
# Lendo o arquivo de dados e construindo o dataframe chamado df

arquivo = ('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv')
df = pd.read_csv (arquivo, sep= ',', header=0)

In [None]:
# Usando o Profiling no Jupyter Notebook / Google Colab

pandas_profiling.ProfileReport(df)

In [None]:
# Gerando um relatório HTML

profile = pandas_profiling.ProfileReport(df)
profile.to_file('report.html')

**Trabalhando com grandes arquivos**
- Quando estamos trabalhando com grandes arquivos temos um grande desafio que é gerenciar a memória

- As vezes precisamos manipular uma base de dados muito grande e por isso precisamos trabalhar com arquivos de forma diferente

- Uma forma é ler esses arquivos de forma limitada para não consumir toda a memória do servidor

In [None]:
# Lendo as 5 primeiras linhas do arquivo
# A diferença deste comando para o head() é que ele abre somente com o número de linhas desejado

import pandas as pd

arquivo = ('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv')
dataset = pd.read_csv(arquivo, sep=',', nrows=5)
dataset

In [None]:
# O parametro chunksize define quantas linhas o bloco irá ter 

chunk = pd.read_csv(arquivo, chunksize=10000)

In [None]:
# Imprimindo tamanho das partes dos arquivos

for parte in chunk:
  print (len(parte))

In [None]:
# O parametro chunksize define quantas linhas o bloco irá ter

chunk=pd.read_csv(arquivo,chunksize=10000)

In [None]:
# Intera sobre cada parte do dataframe em seguida adicione o valor processado a uma nova coluna do dataset

lista=[]
for parte in chunk:
  lista.append(parte['bedrooms']*2)
  dataset['bedrooms']=pd.concat(lista)
dataset

**Mais recursos para trabalhar com grandes bases de dados**

---
- Tente trabalhar apenas com as colunas que você realmente vai precisar

- Atente para o tipo de dado de cada coluna

- Visualize qual o separador usado para separar os dados

In [None]:
# Dica: se estiver no Linux use o comando head para ler as 5 primeiras linhas do arquivo
	#!head -n 5 dataset.csv


#Dica: se estiver no Windows abra o prompt de comando do PowerShell e use o comando abaixo
	#gc kc_house_data.csv -head 5 (pesquisar sobre isso)


In [None]:
# Ler a base com o parametro nrows

df=pd.read_csv('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv',sep=',',nrows=5 )
df

In [None]:
# Exporte o nome das colunas para usar no parametro usecols

df.columns.tolist()
df=pd.read_csv('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv',usecols=['id','date','price','bedrooms','sqft_living','sqft_lot','floors','waterfront'])

df.head()

In [None]:
# Lendo as colunas por posições numéricas em vez de dar o nome das colunas

df = pd.read_csv ('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv', usecols=[0,1,2,3,4,5])
df.head()

In [None]:
# Ler o arquivo completo e ver o uso de memória

df = pd.read_csv ('C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv', sep=',')
df.info()

In [None]:
# Lendo todas as colunas exceto algumas

data = 'C:/Users/Pc Trabalho/Desktop/Studio Sun/Estudo/DSZ/mdrepo-master/kc_house_data.csv'
df = pd.read_csv (data, usecols = lambda column : column not in ['sqft_living','sqft_lot','floors'])
df.head()

**Trabalhe com os tipos de dados adequados**

- Atenção para os tipos de dados **object**

- Dados que são categóricos podem receber o tipo de dados category

In [None]:
df = pd.read_csv ('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')
df.info()

In [None]:
# Convertendo os tipos de dados

df.Sex = df.Sex.astype ('category')
df.Embarked = df.Embarked.astype ('category')
df.Survived = df.Survived.astype ('category')
df.Pclass = df.Pclass.astype ('category')
df.PassengerId = df.PassengerId.astype ('int32')
df.Parch = df.Parch.astype ('int32')
df.SibSp = df.SibSp.astype ('int32')

df.info()

In [None]:
# Converter as colunas em tempo de leitura (garantir que ocupe pouco espaço na memória)

data = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv (data, dtype = {'Embarked' : 'category', 'Survived' : 'category', 'Parch' : 'int32'})
df.info()

**Consultando e alterando Dataframes**

- Podemos fazer consultas em um Dataset

- Existem métodos interessantes para fazer consultas usando operadores lógicos (>,<,==)

- Além disso podemos fazer consultas usando instruções de agrupamento, por exemplo

- Isso da muita flexibilidade para o Cientista de Dados na hora de explorar a base de dados


In [None]:
import pandas as pd

In [None]:
dataset = pd.read_csv ('https://raw.githubusercontent.com/minerandodados/mdrepo/master/kc_house_data.csv')

In [None]:
dataset.head()

In [None]:
# Conta a quantidade de valores únicos

pd.value_counts(dataset['bedrooms'])

In [None]:
# O método loc() é usado para visualizar informações do dataset 
# Este método recebe uma lista por parâmetro e retorna o resultado da consulta
# Consulta imóveis com 3 quartos

dataset.loc[dataset['bedrooms'] ==3]

In [None]:
# Usando o método loc() com o operador &
# Consulta imóveis com 3 quartos e banheiros maior do que 2

dataset.loc[(dataset['bedrooms']==3) & (dataset['bathrooms'] > 2)]

In [None]:
# O método sort_values() ordena o dataset pela coluna ‘price’ em ordem decrescente
# Apenas o retorno da query será ordenado, não a organização do dataset

dataset.sort_values (by = 'price', ascending=False)

In [None]:
# Usando o método count() para contar o número de linhas de uma query

dataset [dataset ['bedrooms'] == 4 ].count()

**Alterando um dataset**

In [None]:
# Adicionando uma coluna ao dataframe

dataset ['size'] = (dataset ['bedrooms'] * 20)

In [None]:
# Visualizando o conteúdo da coluna criada

dataset ['size'].head()

In [None]:
# Criando uma função para processamento de dados

def categoriza (s):
  if s >= 80:
    return 'big'
  elif s >= 60:
    return 'medium'
  elif s >= 40:
    return 'small'

In [None]:
# Criando uma nova coluna a partir do processamento realizado

dataset ['cat_size'] = dataset ['size'].apply (categoriza)

In [None]:
# Visualizando a nova coluna criada

dataset ['cat_size'].head()

In [None]:
# Ve a distribuição da coluna com o método value_counts

pd.value_counts (dataset ['cat_size'])

In [None]:
# O método drop é usado para excluir dados no dataframe
# A opção axis=1 define que queremos excluir uma coluna e não uma linha
# O parâmetro inplace define que a alteração irá modificar o objeto em memória

dataset.drop (['cat_size'], axis=1, inplace=True)

In [None]:
# Apagando a coluna size 

dataset.drop(['size'], axis=1, inplace=True)

In [None]:
# Visualizando o dataset

dataset.head()

In [None]:
# Dropa linhas com bedrooms = 0

dataset.drop (dataset[dataset.bedrooms ==0].index, inplace=True)

In [None]:
# Dropa linhas maiores que 30

dataset.drop (dataset[dataset.bedrooms > 30].index, inplace=True)

**Percorrendo linhas de um Dataframe Pandas**

- Método iterrows() permite percorrer por todas as linhas de um dataframe

- Esse método retorna um objeto iterator que contém o índice de cada linha e um cada linha em um dado do tipo série

In [None]:
import pandas as pd 
dataset = pd.read_csv ('https://raw.githubusercontent.com/minerandodados/mdrepo/master/kc_house_data.csv')

In [None]:
# Imprime a primeira linha do objeto iterator

next(dataset.iterrows())

In [None]:
# Percorrendo o dataframe e imprimindo o índice e cada linha

for indice, linha in dataset.head(10).iterrows():
  print (indice, linha)

In [None]:
# Percorrendo o dataframe e acessando colunas nomes

for indice, linha in dataset.head(10).iterrows():
  print (indice, linha ['bedrooms'], linha ['floors'], linha ['price'])

**Atualizando dataframe ao percorrer linha a linha**

In [None]:
# Imprime os 5 primeiros valores de preços antes da atualização

dataset.price.head()

In [None]:
# Percorrendo e atualizando linhas de um dataframe
# Atualiza o valor da coluna price multiplicando seu valor por 2
# É preciso usar o método at()

for indice, linha in dataset.iterrows():
  dataset.at[indice, 'price'] = linha ['price'] * 2

In [None]:
# Imprimindo as 5 primeiras linhas da coluna price

dataset.price.head()

**Percorrendo um Dataframe com o método itertuples()**

- Retorna as linhas e índice em formato de tuplas

- Costuma ser mais rápido do que o iterrows()


In [None]:
# Percorre o dataframe usando o itertuples()

for linha in dataset.head().itertuples():
  print (linha)

In [None]:
# Imprime linhas chamando as colunas por nome

for linha in dataset.head().itertuples():
  print (linha.id, linha.bedroom, linha.price)

**Missing Values**
- Missing Values são valores faltantes em colunas, esses podem ser oriundos de falhas em cargas de dados, falhas em crawlers ou até mesmo corrupção de dados

- Missing Values podem ser um problema em várias situações, como por exemplo, algoritmos de machine learning que não trabalham bem com dados faltantes

- Estes também podem atrapalhar resultados de análises 

- Vamos aprender como encontrar missing values na base de dados e como manipular esses valores


In [None]:
# Importando arquivo CSV 

arquivo = 'https://raw.githubusercontent.com/minerandodados/mdrepo/master/kc_house_data.csv'

In [None]:
dataset = pd.read_csv(arquivo, sep = ',', header=0)

In [None]:
# Consultando linhas com valores faltantes

dataset.isnull().sum()

In [None]:
# Com este comando, removemos todas as linhas onde tenha pelo menos um registro faltante em algum atributo 

dataset.dropna (inplace=True)

In [None]:
# É possível ainda, remover somente linhas que estejam, com valores faltantes em todas as colunas

dataset.dropna (how = 'all', inplace= True)

In [None]:
# Preenche com a média dos valores da coluna floors os valores null

dataset ['floors'].fillna (dataset ['floors'].mean(), inplace = True)

In [None]:
# Preenche com 1 os valores null da coluna bedrooms

dataset ['bedrooms'].fillna (1, inplace= True)

**Visualização de dados**

In [None]:
# Plota em um gráfico de barras o preço dos imóveis

from matplotlib import pyplot as plt

%matplotlib inline
dataset ['price'].plot()

In [None]:
# Plota em um gráfico de dispersão o preço e o número de quartos de imóveis

dataset.plot (x = 'bedrooms', y = 'price', kind = 'scatter', title = 'bedroom x price', color ='r')

In [None]:
# Plota em gráfico de dispersão o preço e o número de banheiros

dataset.plot (x = 'bathrooms', y = 'price', kind = 'scatter', color = 'y')