# Python para Análise de Dados - Pandas  

Iremos trabalhar com base de imóveis que obtive no site **Kaggle**



In [None]:
# Importando o Pandas.
import pandas as pd

In [None]:
# Lendo uma base de dados no formato .csv.
# o parâmetro sep é usado para definir qual o separador entre os dados.
# o parâmetro header informo em qual linha está minhas colunas ou se elas não existem.
# Se não existe colunas (header=None) o pandas dará um número para cada atributo da base.
arquivo = 'kc_house_data.csv'
dataset = pd.read_csv(arquivo, sep=',' ,header=0)

In [None]:
# Imprimindo o tipo da variável dataset
# Dataframe é um estrutura de dados onde linhas podem ter colunas de diferentes tipos.
type(dataset)

pandas.core.frame.DataFrame

In [None]:
# Metodo head() imprime as 5 linhas iniciais do dataframe.
dataset.head()

In [None]:
# O parâmetro index_col informa a coluna na qual o dataframe será indexado
dataset = pd.read_csv(arquivo, sep=',', index_col='date')

In [None]:
dataset = pd.read_csv(arquivo, sep=',', usecols=['id','date','price','bedrooms'])

In [None]:
# Metodo head() imprime as 5 linhas iniciais do dataframe.
dataset.head()

In [None]:
# Imprimindo a 100 primeiras linhas do dataframe.
dataset.head(100)

In [None]:
# Atributo columns retorna o nome das colunas do dataframe.
dataset.columns

In [None]:
# Método count() retorna a quantidade de linhas de todas as colunas.
dataset.count()

In [None]:
# Método describe() exibe informações estatísticas da base de dados. 
# Várias informações como desvio padrão, média, valor mínimo e valor máximo de colunas.
dataset.describe()

In [None]:
# Imprime as 5 ultimas linhas .
dataset.tail(100)

In [None]:
# Imprime uma amostra aleatória do dataset.
dataset.sample(5)

In [None]:
# Retorna em formato de tupla a quantidade de linhas e colunas do dataset.
dataset.shape

(21613, 20)

In [None]:
# Imprime informações sobre colunas e uso de memória.
dataset.info()

### Analisando um Dataframe com Profiling

*Instalando o Pandas Profiling*

In [None]:
! pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip


In [None]:
#!pip install pandas-profiling

In [None]:
import pandas_profiling

*Lendo o arquivo de dados e construindo o dataframe chamado df*

In [None]:
arquivo = 'kc_house_data.csv'

In [None]:
df = pd.read_csv(arquivo, sep=',' ,header=0)

*Usando o Profiling no jupyter notebook*

In [None]:
pandas_profiling.ProfileReport(df, check_correlation=False)

* Gerando um relatorio **html**

In [None]:
profile = pandas_profiling.ProfileReport(df)

In [None]:
profile.to_file("report.html")

# Trabalhando com Grandes Arquivos

+ Quando estamos trabalhando com _**Grandes Arquivos**_ temos um desafio um grande desafio que é gerenciar a memória.
+ As vezes precisamos manipular uma base de dados muito grande e por isso precisamos trabalhar com arquivos de forma diferente.
* Uma forma é ler esses arquivos de forma limitada para não consumir toda a _**memória**_ do servidor.

In [None]:
# Lendo as 5 primeiras linhas do arquivo.
dataset = pd.read_csv(arquivo, sep=',')

In [None]:
dataset.head(2)

In [None]:
# O parâmetro chunksize define em quantas linhas cada bloco irá conter.
chunk = pd.read_csv(arquivo, chunksize=10000)

In [None]:
type(chunk)

pandas.io.parsers.readers.TextFileReader

In [None]:
# Imprimindo tamanho das partes do arquivo chunk.
for parte in chunk:
    print (len(parte))

In [None]:
# O parâmetro chunksize define em quantas linhas cada bloco irá conter.
chunk = pd.read_csv(arquivo, chunksize=10000)

In [None]:
# Interese sobre cada parte do dataframe em seguida adicione o valor processado a uma nova coluna do dataset.
lista = []
for parte in chunk:
    lista.append(parte['bedrooms'] * 2)

dataset['bedrooms_size'] = pd.concat(lista)

In [None]:
dataset

### Mais recursos para trabalhar com grandes bases de dados

1.   Tente trabalhar apenas com as colunas que você vai realmente precisar.
2.   Atente para o tipo de dado de cada coluna.
3.   Visualize qual o separador usado para separar os dados.

**Dica:** Se estiver no linux use o comando head para ler as 5 primeiras linhas do arquivo:

`head -n 5 dataset.csv`

In [None]:
!head -n 5 /home/rodrigo/kc_house_data.csv

**Dica**: Se estiver no Windows abra o prompt do **PowerShell** e use o comando abaixo:
- gc log.txt -head 5 

In [None]:
import pandas as pd

In [None]:
# Lear a base com o parâmetro nrows
df = pd.read_csv('kc_house_data.csv', sep=',', nrows=5)

In [None]:
df

*Exporte o nome das colunas para usar no parâmetro usecols*

In [None]:
df.columns.tolist()

In [None]:
df = pd.read_csv("kc_house_data.csv", usecols=['id','date','price','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront'])

In [None]:
df.head()

*lendo as colunas por posições*

In [None]:
df = pd.read_csv("kc_house_data.csv", usecols=[0,1,2,3,4,5])

In [None]:
df.head()

*Ler o arquivo completo e veja o uso de memória*

In [None]:
df = pd.read_csv('kc_house_data.csv', sep=',')

In [None]:
df.info()

*Leia todas as colunas exceto algumas..*

In [None]:
data = "kc_house_data.csv"
df = pd.read_csv(data, usecols = lambda column : column not in ['sqft_living','sqft_lot','floors'])

In [None]:
df.head()

### Trabalhe com os tipos de dados adequados


- Atenção para os tipos de dados **object**
- Dados que são categóricos podem receber o tipo de dados *category*

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

In [None]:
df.info()

*Convertendo os tipos de dados*

In [None]:
df.Sex = df.Sex.astype('category')
df.Embarked = df.Embarked.astype('category')
df.Survived = df.Survived.astype('category')
df.Pclass = df.Pclass.astype('category')
df.PassengerId = df.PassengerId.astype('int32')
df.Parch = df.Parch.astype('int32')
df.SibSp = df.SibSp.astype('int32')

*Veja o uso de memória*

In [None]:
df.info()

- Quase **50%** e ganho de memória !

*Converta colunas em tempo de leitura*

In [None]:
data = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(data,  dtype = {"Embarked" : "category", "Survived": "category", "Parch": "int32"})

In [None]:
df.info()

# Consultando um Dataset

* Podemos fazer _**consultas**_ em um Dataframe, isso se assemelha a linhagem SQL.

* Existem métodos interessantes para fazer consultas usando operadores lógicos (>,<,== ).

* Além disso podemos fazer consultas usando instruções de agrupamento, por exemplo. 

* Isso da muita flexibilidade para o Cientista de dados na hora de explorar da base de dados.

In [None]:
# Conta a quantidade de valores únicos
pd.value_counts(dataset['bedrooms'])

In [None]:
# O método loc() é usado para visualizar informações do dataset.
# Este método recebe uma lista por parâmetro e retorna o resultado da consulta.
# Consulta imóveis com 3 quartos
dataset.loc[dataset['bedrooms'] == 3]

In [None]:
# Usando o método loc() junto com o operador &
# Consulta imóveis com 3 quartos e com o número de banheiros maior que 2
dataset.loc[(dataset['bedrooms']==3) & (dataset['bathrooms'] > 2)]

In [None]:
# O método sort_values() ordena o dataset pela coluna 'price' em ordem descrescente.
# Apenas o retorno da query será ordenado, não a organização do dataset.
dataset.sort_values(by='price', ascending=False)

In [None]:
# Usando o método count() para contar o número de linhas de uma query.
dataset[dataset['bedrooms']==4].count()

# Alterando o dataset

In [None]:
dataset.head()

In [None]:
# Adicionando uma coluna ao Dataframe.
dataset['size'] = (dataset['bedrooms'] * 20)

In [None]:
# Visualizando o conteúdo da coluna criada.
dataset['size'].head()

In [None]:
# Criando uma função para processamento de dados.
def categoriza(s):
    if s >= 80:
        return 'Big'
    elif s >= 60:
        return 'Medium'
    elif s >= 40:
        return 'Small'

In [None]:
# Criando uma nova coluna a partir do processamento realizado.
dataset['cat_size'] = dataset['size'].apply(categoriza)

In [None]:
# Visualizando a nova coluna criada.
dataset['cat_size'].head()

In [None]:
# Ver a distribuicao da coluna com o método value_counts.
pd.value_counts(dataset['cat_size'])

In [None]:
# O método drop é usado para excluir dados no dataframe.
# A opção axis=1 define que queremos excluir uma coluna e não uma linha.
# O parâmetro inplace define que a alteração irá modificar o objeto em memória.

dataset.drop(['cat_size'], axis=1, inplace=True)

In [None]:
# Apagando a coluna 'size'
dataset.drop(['size'], axis=1, inplace=True)

In [None]:
# Visualizando o dataset.
dataset.head()

**Apagando linhas baseado em Condições lógicas!**

In [None]:
# Dropa linhas com bedrooms = 0
dataset.drop(dataset[dataset.bedrooms==0].index ,inplace=True)

In [None]:
# Dropa linhas maiores que 30
dataset.drop(dataset[dataset.bedrooms>30].index ,inplace=True)

**Percorrendo linhas de um Dataframe Pandas**

- Método iterrows() permite percorrer por todas as linhas de um dataframe.
- Esse método retorna um objeto **iterator** que contém o indice de cada linha e um cada linha em um dado do tipo série.

In [None]:
type(dataset.iterrows())

In [None]:
# Imprime a primeira linha do objeto iterator
next(dataset.iterrows())

In [None]:
# Percorrendo o dataframe e imprimindo o indice e cada linha.
for indice, linha in dataset.head(10).iterrows():
     print(indice, linha)

In [None]:
# Percorrendo o dataframe e acessando colunas nomes.
for indice, linha in dataset.head(10).iterrows():
     print(indice, linha['bedrooms'], linha['floors'], linha['price'])

**Atualizando Dataframe ao percorrer linha a linha**

In [None]:
# Imprime os 5 primeiros valores de preços antes da atualização.
dataset.price.head()

In [None]:
# Percorrendo e atualizando linhas de um dataframe.
# Atualiza o valor da coluna PRICE multiplicando seu valor por 2.
# é preciso usar o método at()
for indice, linha in dataset.iterrows():
    dataset.at[indice , 'price'] = linha['price'] * 2

In [None]:
dataset.price.head()

**Percorrendo um dataframe com o método itertuples()**

- Retorna as linhas e índice em formato de tuplas.
- Costuma ser mais rápido que o iterrows()

In [None]:
# Percorre o dataframe usando itertuples()
for linha in dataset.head().itertuples():
    print(linha)

In [None]:
# Imprime linhas chamando as colunas por nome.
for linha in dataset.head().itertuples():
    print(linha.id, linha.bedrooms, linha.price)

# Missing Values

* **Missing Values** são valores faltantes em colunas, esses podem ser oriundos de falhas em cargas de dados, falhas em crawlers ou até mesmo corrupção de dados.

* Missing Values podem ser um problema em várias situações, como por exemplo, algoritmos de machine learning que não trabalham bem com dados faltantes.

* Estes também podem atrapalhar resultados de análises.

* Vamos aprender como encontrar missing values na base de dados e como manipular esses valores.

In [None]:
arquivo = '/home/rodrigo/curso/Python Para Data Análise/kc_house_data.csv'
dataset = pd.read_csv(arquivo, sep=',', header=0)

In [None]:
# Consultando linhas com valores faltantes.
dataset.isnull().sum()

In [None]:
#Com este comando removemos todas as linhas onde tenha pela menos um registro faltante em algum atributo.
dataset.dropna(inplace=True)

In [None]:
# É possível ainda, remover somente linhas que estejam com valores faltantes em todas as colunas, veja:
dataset.dropna(how='all', inplace=True)

In [None]:
#preenche com a media dos valores da coluns floors os values null
dataset['floors'].fillna(dataset['floors'].mean(), inplace=True)

In [None]:
#preenche com 1 os values null da coluna bedrooms
dataset['bedrooms'].fillna(1, inplace=True)

# Visualização de dados

In [None]:
# Plota em um gŕafico de barras o preço dos imóveis
%matplotlib notebook
dataset['price'].plot()

In [None]:
# Plota em gráfico de dispersão o preço e o numero de quartos de imóveis
dataset.plot(x='bedrooms',y='price',kind='scatter', title='Bedrooms x Price',color='r')

In [None]:
# Plota em gráfico de dispersão o preço e o número de banheiros
dataset.plot(x='bathrooms',y='price',kind='scatter',color='y')