# Python para Análise de Dados - Pandas  

Iremos trabalhar com base de imóveis que obtive no site **Kaggle**
ou no github do DSZ


In [1]:
# Importando o Pandas.
import pandas as pd

In [2]:
# Lendo uma base de dados no formato .csv.
# o parâmetro sep é usado para definir qual o separador entre os dados.
# o parâmetro header informa em qual linha está minhas colunas ou se elas não existem.
# Se não existe colunas (header=None) o pandas dará um número para cada atributo da base.
#Se o arquivo nao tiver no mesmo diretorio do Jupyter Notebook, chamar por 
# arquivo = '/user/mperez/Documents/curso_DSZ/kc_house_data.csv'

#neste caso, o arquivo csv ja esta no Notebook
arquivo = 'kc_house_data.csv'

dataset = pd.read_csv(arquivo, sep=',', header=0)

In [3]:
# Imprimindo o tipo da variável dataset
# Dataframe é uma estrutura de dados onde linhas podem ter colunas de diferentes tipos (float, 'string' data, interios, etc,...).
type(dataset)

pandas.core.frame.DataFrame

In [4]:
# Metodo head() imprime as 5 linhas iniciais do dataframe (imprime as 5 primeiras linhas e as 21 colunas).
dataset.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3.0,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3.0,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2.0,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4.0,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3.0,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [5]:
# O parâmetro index_col informa a coluna na qual o dataframe será indexado (qual couluna sera a variavel indexada para este dataframe = coluna indexando o dataframe, baseado em uma coluna espeficica)
dataset = pd.read_csv(arquivo, sep=',', index_col='date')

In [6]:
dataset.head()

Unnamed: 0_level_0,id,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
20141013T000000,7129300520,221900.0,3.0,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
20141209T000000,6414100192,538000.0,3.0,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
20150225T000000,5631500400,180000.0,2.0,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
20141209T000000,2487200875,604000.0,4.0,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
20150218T000000,1954400510,510000.0,3.0,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


In [7]:
dataset = pd.read_csv(arquivo, sep=',', usecols=['id','date','price','bedrooms']) # usecols = dataset apenas com as coulnas ditas no comando

In [8]:
dataset.head()

Unnamed: 0,id,date,price,bedrooms
0,7129300520,20141013T000000,221900.0,3.0
1,6414100192,20141209T000000,538000.0,3.0
2,5631500400,20150225T000000,180000.0,2.0
3,2487200875,20141209T000000,604000.0,4.0
4,1954400510,20150218T000000,510000.0,3.0


In [None]:
# Metodo head() imprime as 5 linhas iniciais do dataframe.
dataset.head()

In [None]:
# Imprimindo a 100 primeiras linhas do dataframe.
dataset.head(100)

In [None]:
# Atributo columns retorna o nome das colunas do dataframe.
dataset.columns

In [None]:
# Método count() retorna a quantidade de linhas de todas as colunas.
dataset.count()

In [None]:
# Método describe() exibe informações estatísticas da base de dados. 
# Várias informações como desvio padrão, média, valor mínimo e valor máximo de colunas.
dataset.describe()

In [None]:
# Imprime as 5 ultimas linhas .
dataset.tail(100)

In [None]:
# Imprime uma amostra aleatória do dataset (nesse caso, 5 linhas aleatorias)
dataset.sample(5)

In [None]:
# Retorna em formato de tupla a quantidade de linhas e colunas do dataset. #21613 linhas e 21 coulunas
dataset.shape

In [None]:
# Imprime informações sobre colunas e uso de memória.
dataset.info()

### Analisando um Dataframe com Profiling

*Instalando o Pandas Profiling*

In [None]:
!pip install pandas-profiling

In [9]:
import pandas_profiling

*Lendo o arquivo de dados e construindo o dataframe chamado df*

In [10]:
arquivo = 'kc_house_data.csv'

In [11]:
df = pd.read_csv(arquivo, sep=',' ,header=0)

*Usando o Profiling no jupyter notebook*

In [None]:
pandas_profiling.ProfileReport(df)

* Gerando um relatorio **html**

In [None]:
profile = pandas_profiling.ProfileReport(df)

In [None]:
profile

In [None]:
profile.to_file("report.html") #vai ficar salvo no diretorio do notebook

# Trabalhando com Grandes Arquivos

+ Quando estamos trabalhando com _**Grandes Arquivos**_ temos um desafio um grande desafio que é gerenciar a memória.
+ As vezes precisamos manipular uma base de dados muito grande e por isso precisamos trabalhar com arquivos de forma diferente.
* Uma forma é ler esses arquivos de forma limitada para não consumir toda a _**memória**_ do servidor.

In [None]:
# Lendo as 5 primeiras linhas do arquivo no momento de carregar o arquivo (menos memoria), e fica na memoria
dataset = pd.read_csv(arquivo, sep=',', nrows = 5)

In [None]:
dataset

In [None]:
dataset.head(2) #esse metodo eh somente para leitura (se vazio, vei ler as as primeiras 5 linhas)

In [None]:
dataset = pd.read_csv(arquivo, sep=',')

In [None]:
# O parâmetro chunksize define em quantas linhas cada bloco irá conter (usando blocos voce pode 'economizar' m,emoria da maquina quand trabalhar com arquivos muito grandes)
chunk = pd.read_csv(arquivo, chunksize=10000) #esse arquivo tem mais de 20 000 linhas. Ira dividir em 2 chuncks de 10 000 e um de 1613

In [None]:
type(chunk) #objeto tipo arquivo = textfilereader

In [None]:
# Imprimindo tamanho das partes do arquivo chunk.
for parte in chunk:
    print (len(parte))

In [None]:
# O parâmetro chunksize define em quantas linhas cada bloco irá conter.
chunk = pd.read_csv(arquivo, chunksize=10000)

In [None]:
# Interese sobre cada parte do dataframe em seguida adicione o valor processado a uma nova coluna do dataset (fazendo uma oprecacao de multiplicacao na 
        #variavel 'bedrooms' em todos os 'chuncks' do dataframe que foi dividido anteriormente)
lista = [] #criar uma lista vazia
for parte in chunk:  # processar cada parte dos 'chunck', e adicionar uma nova coluna 'bedroons_size' a operacao x2, salvando os resultados em uma lista
    lista.append(parte['bedrooms'] * 2)

dataset['bedrooms_size'] = pd.concat(lista) #concatenar as listas = 'chuncks'= operacoes feitas na nova coluna dos chuncks, recebendo o conteudo das listas em um dataframe existente com a nova coluna 'bedrooms size'

In [None]:
dataset

### Mais recursos para trabalhar com grandes bases de dados

1.   Tente trabalhar apenas com as colunas que você vai realmente precisar.
2.   Atente para o tipo de dado de cada coluna.
3.   Visualize qual o separador usado para separar os dados.

**Dica:** Se estiver no linux use o comando head para ler as 5 primeiras linhas do arquivo:

`head -n 5 dataset.csv`

In [None]:
!head -n 5 'kc_house_data.csv'

In [None]:
set-Location "C:\Users\mpere\kc_house_data.csv\Documents"

**Dica**: Se estiver no Windows abra o prompt do **PowerShell** e use o comando abaixo:
- gc log.txt -head 5 

In [None]:
import pandas as pd

In [None]:
# Lear a base com o parâmetro nrows
df = pd.read_csv('kc_house_data.csv', sep=',', nrows=5)

In [None]:
df

*Exporte o nome das colunas para usar no parâmetro usecols*

In [None]:
df.columns.tolist()  #mostra o nome de todas as colunas/para usr depois no parametro usecols = []

In [None]:
df = pd.read_csv("kc_house_data.csv", usecols=['id','date','price','bedrooms','bathrooms','sqft_living','sqft_lot','floors','waterfront'])

In [None]:
df.head()

*lendo as colunas por posições*

In [None]:
df = pd.read_csv("kc_house_data.csv", usecols=[0,1,2,3,4,5])

In [None]:
df.head()

*Ler o arquivo completo e veja o uso de memória*

In [None]:
df = pd.read_csv('kc_house_data.csv', sep=',')

In [None]:
df.info()

*Leia todas as colunas exceto algumas..*

In [None]:
data = "kc_house_data.csv"
df = pd.read_csv(data, usecols = lambda column : column not in ['sqft_living','sqft_lot','floors'])

In [None]:
df.head()

In [None]:
df.info()

### Trabalhe com os tipos de dados adequados


- Atenção para os tipos de dados **object**
- Dados que são categóricos podem receber o tipo de dados *category*

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")#base de dados disponivel onlie (Titanic)

In [None]:
df.info()

*Convertendo os tipos de dados*

In [None]:
df.Sex = df.Sex.astype('category')
df.Embarked = df.Embarked.astype('category')
df.Survived = df.Survived.astype('category')
df.Pclass = df.Pclass.astype('category')
df.PassengerId = df.PassengerId.astype('int32')
df.Parch = df.Parch.astype('int32')
df.SibSp = df.SibSp.astype('int32')

*Veja o uso de memória*

In [None]:
df.info()

- Quase **50%** e ganho de memória !

*Converta colunas em tempo de leitura*

In [None]:
data = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(data,  dtype = {"Embarked" : "category", "Survived": "category", "Parch": "int32"})

In [None]:
df.info()

# Consultando um Dataset

* Podemos fazer _**consultas**_ em um Dataframe, isso se assemelha a linhagem SQL.

* Existem métodos interessantes para fazer consultas usando operadores lógicos (>,<,== ).

* Além disso podemos fazer consultas usando instruções de agrupamento, por exemplo. 

* Isso da muita flexibilidade para o Cientista de dados na hora de explorar da base de dados.

In [None]:
# Conta a quantidade de valores únicos
pd.value_counts(dataset['bedrooms'])

In [None]:
# O método loc() é usado para visualizar informações do dataset.
# Este método recebe uma lista por parâmetro e retorna o resultado da consulta.
# Consulta imóveis com 3 quartos
dataset.loc[dataset['bedrooms'] == 3]

In [None]:
# Usando o método loc() junto com o operador &
# Consulta imóveis com 3 quartos e com o número de banheiros maior que 2
dataset.loc[(dataset['bedrooms']==3) & (dataset['bathrooms'] > 2)]

In [None]:
# O método sort_values() ordena o dataset pela coluna 'price' em ordem descrescente.
# Apenas o retorno da query será ordenado, não a organização do dataset.
dataset.sort_values(by='price', ascending=False)

In [None]:
# Usando o método count() para contar o número de linhas de uma query.
dataset[dataset['bedrooms']==4].count()

# Alterando o dataset

In [None]:
dataset.head()

In [None]:
# Adicionando uma coluna ao Dataframe.
dataset['size'] = (dataset['bedrooms'] * 20)

In [None]:
# Visualizando o conteúdo da coluna criada.
dataset['size'].head()

In [None]:
# Criando uma função para processamento de dados.
def categoriza(s):
    if s >= 80:
        return 'Big'
    elif s >= 60:
        return 'Medium'
    elif s >= 40:
        return 'Small'

In [None]:
# Criando uma nova coluna a partir do processamento realizado.
dataset['cat_size'] = dataset['size'].apply(categoriza)

In [None]:
# Visualizando a nova coluna criada.
dataset['cat_size'].head()

In [None]:
# Ver a distribuicao da coluna com o método value_counts.
pd.value_counts(dataset['cat_size'])

In [None]:
# O método drop é usado para excluir dados no dataframe.
# A opção axis=1 define que queremos excluir uma coluna e não uma linha.
# O parâmetro inplace define que a alteração irá modificar o objeto em memória.

dataset.drop(['cat_size'], axis=1, inplace=True)

In [None]:
# Apagando a coluna 'size'
dataset.drop(['size'], axis=1, inplace=True)

In [None]:
# Visualizando o dataset.
dataset.head()

**Apagando linhas baseado em Condições lógicas!**

In [12]:
# Dropa linhas com bedrooms = 0
dataset.drop(dataset[dataset.bedrooms==0].index ,inplace=True)

In [13]:
# Dropa linhas maiores que 30
dataset.drop(dataset[dataset.bedrooms>30].index ,inplace=True)

In [14]:
pd.value_counts(dataset['bedrooms'])

3.0     9822
4.0     6881
2.0     2759
5.0     1601
6.0      272
1.0      199
7.0       38
8.0       13
9.0        6
10.0       3
11.0       1
Name: bedrooms, dtype: int64

**Percorrendo linhas de um Dataframe Pandas**

- Método iterrows() permite percorrer por todas as linhas de um dataframe.
- Esse método retorna um objeto **iterator** que contém o indice de cada linha e um cada linha em um dado do tipo série.

In [33]:
type(dataset.iterrows())

generator

In [34]:
# Imprime a primeira linha do objeto iterator
next(dataset.iterrows())

(0,
 id               7129300520
 date        20141013T000000
 price                887600
 bedrooms                  3
 Name: 0, dtype: object)

In [35]:
# Percorrendo o dataframe e imprimindo o indice e cada linha.
for indice, linha in dataset.head(10).iterrows():
     print(indice, linha)

0 id               7129300520
date        20141013T000000
price                887600
bedrooms                  3
Name: 0, dtype: object
1 id               6414100192
date        20141209T000000
price             2.152e+06
bedrooms                  3
Name: 1, dtype: object
2 id               5631500400
date        20150225T000000
price                720000
bedrooms                  2
Name: 2, dtype: object
3 id               2487200875
date        20141209T000000
price             2.416e+06
bedrooms                  4
Name: 3, dtype: object
4 id               1954400510
date        20150218T000000
price              2.04e+06
bedrooms                  3
Name: 4, dtype: object
5 id               7237550310
date        20140512T000000
price               4.9e+06
bedrooms                  4
Name: 5, dtype: object
6 id               1321400060
date        20140627T000000
price              1.03e+06
bedrooms                  3
Name: 6, dtype: object
7 id               2008000270
date       

In [26]:
# Percorrendo o dataframe e acessando colunas nomes.
for indice, linha in dataset.head(10).iterrows():
     print(indice, linha['bedrooms'], linha['floors'], linha['price'])

KeyError: 'floors'

**Atualizando Dataframe ao percorrer linha a linha**

In [27]:
# Imprime os 5 primeiros valores de preços antes da atualização.
dataset.price.head()

0     443800.0
1    1076000.0
2     360000.0
3    1208000.0
4    1020000.0
Name: price, dtype: float64

In [28]:
# Percorrendo e atualizando linhas de um dataframe.
# Atualiza o valor da coluna PRICE multiplicando seu valor por 2.
# é preciso usar o método at()
for indice, linha in dataset.iterrows():
    dataset.at[indice , 'price'] = linha['price'] * 2

In [29]:
dataset.price.head()

0     887600.0
1    2152000.0
2     720000.0
3    2416000.0
4    2040000.0
Name: price, dtype: float64

**Percorrendo um dataframe com o método itertuples()**

- Retorna as linhas e índice em formato de tuplas.
- Costuma ser mais rápido que o iterrows()

In [32]:
# Percorre o dataframe usando itertuples()
for linha in dataset.head().itertuples():
    print(linha)

Pandas(Index=0, id=7129300520, date='20141013T000000', price=887600.0, bedrooms=3.0)
Pandas(Index=1, id=6414100192, date='20141209T000000', price=2152000.0, bedrooms=3.0)
Pandas(Index=2, id=5631500400, date='20150225T000000', price=720000.0, bedrooms=2.0)
Pandas(Index=3, id=2487200875, date='20141209T000000', price=2416000.0, bedrooms=4.0)
Pandas(Index=4, id=1954400510, date='20150218T000000', price=2040000.0, bedrooms=3.0)


In [36]:
# Imprime linhas chamando as colunas por nome.
for linha in dataset.head().itertuples():
    print(linha.id, linha.bedrooms, linha.price)

7129300520 3.0 887600.0
6414100192 3.0 2152000.0
5631500400 2.0 720000.0
2487200875 4.0 2416000.0
1954400510 3.0 2040000.0


# Missing Values

* **Missing Values** são valores faltantes em colunas, esses podem ser oriundos de falhas em cargas de dados, falhas em crawlers ou até mesmo corrupção de dados.

* Missing Values podem ser um problema em várias situações, como por exemplo, algoritmos de machine learning que não trabalham bem com dados faltantes.

* Estes também podem atrapalhar resultados de análises.

* Vamos aprender como encontrar missing values na base de dados e como manipular esses valores.

In [39]:
arquivo = 'kc_house_data.csv'
dataset = pd.read_csv(arquivo, sep=',', header=0)

In [40]:
# Consultando linhas com valores faltantes.
dataset.isnull().sum()

id               0
date             0
price            0
bedrooms         4
bathrooms        0
sqft_living      0
sqft_lot         0
floors           1
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64

In [41]:
#Com este comando removemos todas as linhas onde tenha pela menos um registro faltante em algum atributo.
dataset.dropna(inplace=True)

In [42]:
# É possível ainda, remover somente linhas que estejam com valores faltantes em todas as colunas, veja:
dataset.dropna(how='all', inplace=True)

In [43]:
#preenche com a media dos valores da coluns floors os values null
dataset['floors'].fillna(dataset['floors'].mean(), inplace=True)

In [44]:
#preenche com 1 os values null da coluna bedrooms
dataset['bedrooms'].fillna(1, inplace=True)

# Visualização de dados

In [47]:
# Plota em um gŕafico de barras o preço dos imóveis
%matplotlib notebook  #no Colab mudar para %matplotlib inline 
dataset['price'].plot()

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2536a3f2508>

In [48]:
# Plota em gráfico de dispersão o preço e o numero de quartos de imóveis
dataset.plot(x='bedrooms',y='price',kind='scatter', title='Bedrooms x Price',color='r')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2536bda3608>

In [49]:
# Plota em gráfico de dispersão o preço e o número de banheiros
dataset.plot(x='bathrooms',y='price',kind='scatter',color='y')

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x2536a55c3c8>