# Introdução ao Pandas


In [1]:
import pandas as pd
import numpy as np

## 1. Séries 

Series são matrizes unidimensionais rotuladas capazes de armazenar dados de qualquer tipo (inteiro, string, float, objetos python, etc.). Os rótulos dos eixos são chamados coletivamente de índices. Fazendo um paralelo com uma planilha uma série representa uma coluna em uma planilha do Excel. Uma Serie suporta tanto a indexação inteira, quanto a baseada em rótulo e fornece uma série de métodos para executar operações envolvendo o índice.

### 1.1 Criando series baseada em lista

In [2]:
serie_1 = pd.Series(['A', 'B', 'C', 'D', 'E'])
serie_1

0    A
1    B
2    C
3    D
4    E
dtype: object

In [3]:
serie_2 = pd.Series([20, 30, 40, 50, 60])
serie_2

0    20
1    30
2    40
3    50
4    60
dtype: int64

### 1.2 Criando series baseada em ndarray

In [4]:
s1 = pd.Series(np.ones(5))
s1

0    1.0
1    1.0
2    1.0
3    1.0
4    1.0
dtype: float64

### 1.1 Criando series baseada em dicionários

In [5]:
s2 = pd.Series({'a': 1, 'b': 3, 'c':50})
s2

a     1
b     3
c    50
dtype: int64

## 2. DataFrame

é uma estrutura de dados bidimensional com os dados alinhados de forma tabular em linhas e colunas, mutável em tamanho e potencialmente heterogênea. A diferença essencial é que os nomes de colunas e os números de linha são conhecidos como índice de coluna e linha, no caso do DataFrame. As colunas possuem nomes (índice da coluna) e, as linhas, podem ter nomes referentes a colunas e as linhas podem ter nomes (índices textuais) ou podem, por padrão, ser numeradas (Índice numérico).

### 2.1 Criação de um DataFrame

In [6]:
df = pd.DataFrame({'Numeros' : serie_2,
                   'Letras'  : serie_1,
                   'ndarray' : np.ones(5),
                   'lista'   : ['a', 'b', 'c', 'd', 'e']},
                 )
df

Unnamed: 0,Numeros,Letras,ndarray,lista
0,20,A,1.0,a
1,30,B,1.0,b
2,40,C,1.0,c
3,50,D,1.0,d
4,60,E,1.0,e


### 2.2 Acessando Atributos DataFrame

Podemos acessar os atributos do dataframe de duas formas:
* **df['atributo']**: referenciando o nome do atributo entre colchetes e aspas
* **df.atributo**: referenciando com .atributo, porém caso o atributo possua um "espaço" em seu nome este método não funciona 

In [7]:
df['Numeros']

0    20
1    30
2    40
3    50
4    60
Name: Numeros, dtype: int64

In [8]:
df.Numeros

0    20
1    30
2    40
3    50
4    60
Name: Numeros, dtype: int64

In [9]:
df.Letras[0]

'A'

In [10]:
df.Letras[1]

'B'

### 2.3 Alterando Indices

* df.set_index(atributo, inplace)
    * atributo: informa o nome do atributo que será o novo indice do dataframe
    * inplace: {True, False}, aplica as alterações direto no dataframe original

In [11]:
df.set_index('Numeros', inplace=True)
df

Unnamed: 0_level_0,Letras,ndarray,lista
Numeros,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
20,A,1.0,a
30,B,1.0,b
40,C,1.0,c
50,D,1.0,d
60,E,1.0,e


### 2.4 .loc e .iloc

São métodos alternativos para acessar linhas e/ou elementos de um dataframe, onde as principais diferenças entre eles são:

* **.iloc[idx]:** retorna a linha idx do dataframe

In [12]:
df.iloc[0]

Letras       A
ndarray    1.0
lista        a
Name: 20, dtype: object

* **.loc[idx]:** retorna a linha do dataframe na qual o indice seja igual a idx 

In [13]:
df.loc[20]

Letras       A
ndarray    1.0
lista        a
Name: 20, dtype: object

## 3. Criando DataFrame com Arquivo .csv

Para criar um dataframe baseado em um arquivo .csv utilizamos o seguinte método:
* pd.read_csv(file, sep, names)
    * file: é o caminho para o arquivo incluindo seu nome
    * sep: é o separador utilizado no arquivo csv para separar os dados
    * names: não é obrigatório, mas é utilizado para atribuir nome as colunas do dataframe. Assim, deve ser informado uma lista com o nome de cada coluna/atributo

In [43]:
df = pd.read_csv('Iris.csv', sep=',')
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,virginica
146,147,6.3,2.5,5.0,1.9,virginica
147,148,6.5,3.0,5.2,2.0,virginica
148,149,6.2,3.4,5.4,2.3,virginica


## 4. Análise Inicial dos dados

### 4.1 Visualizando Amostras Iniciais do Dataset

Para visualizar as amostras iniciais dos dados utilizamos o método:
* df.head(quantidade)
    * quantidade: informa a quantidade de linhas superiores a serem mostradas do dataframe

In [15]:
df.head(7)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa
5,6,5.4,3.9,1.7,0.4,setosa
6,7,4.6,3.4,1.4,0.3,setosa


### 4.2 Visualizando Amostras Finais do Dataset

Para visualizar as amostras finais dos dados utilizamos o método:
* df.tail(quantidade)
    * quantidade: informa a quantidade de linhas inferiores a serem mostradas do dataframe

In [16]:
df.tail(3)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
147,148,6.5,3.0,5.2,2.0,virginica
148,149,6.2,3.4,5.4,2.3,virginica
149,150,5.9,3.0,5.1,1.8,virginica


### 4.3 Identificando Colunas, Indices e Valores

Podemos obter arrays contendo as colunas, indices e até mesmo os valores do dataframe para executar determinadas operações, como por exemplo: (i) re-ordenar as colunas do dataframe; (ii) desenvolver métodos para iterar sobres colunas específicas; (iii) operações com indices; (iv) aplicar os valores em um modelo; etc. Assim, podemos obter essas informações da seguinte forma:

* df.columns
* df.index
* df.values

In [17]:
df.columns

Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')

In [18]:
df.index

RangeIndex(start=0, stop=150, step=1)

In [19]:
print(type(df.values))
df.values

<class 'numpy.ndarray'>


array([[1, 5.1, 3.5, 1.4, 0.2, 'setosa'],
       [2, 4.9, nan, 1.4, 0.2, 'setosa'],
       [3, 4.7, 3.2, 1.3, 0.2, 'setosa'],
       [4, 4.6, 3.1, 1.5, 0.2, 'setosa'],
       [5, 5.0, 3.6, 1.4, 0.2, 'setosa'],
       [6, 5.4, 3.9, 1.7, 0.4, 'setosa'],
       [7, 4.6, 3.4, 1.4, 0.3, 'setosa'],
       [8, 5.0, 3.4, 1.5, 0.2, 'setosa'],
       [9, 4.4, 2.9, 1.4, 0.2, 'setosa'],
       [10, nan, 3.1, 1.5, 0.1, 'setosa'],
       [11, 5.4, 3.7, 1.5, 0.2, 'setosa'],
       [12, 4.8, 3.4, 1.6, 0.2, 'setosa'],
       [13, 4.8, 3.0, 1.4, 0.1, 'setosa'],
       [14, 4.3, 3.0, 1.1, 0.1, 'setosa'],
       [15, 5.8, 4.0, 1.2, 0.2, 'setosa'],
       [16, 5.7, 4.4, 1.5, 0.4, 'setosa'],
       [17, 5.4, 3.9, 1.3, 0.4, 'setosa'],
       [18, 5.1, 3.5, 1.4, 0.3, 'setosa'],
       [19, 5.7, 3.8, 1.7, 0.3, 'setosa'],
       [20, 5.1, 3.8, 1.5, 0.3, 'setosa'],
       [21, 5.4, 3.4, 1.7, 0.2, 'setosa'],
       [22, 5.1, 3.7, 1.5, 0.4, 'setosa'],
       [23, 4.6, 3.6, 1.0, 0.2, 'setosa'],
       [24, 5.1, 3.3

### 4.4 Identificando Tipos dos Atributos

In [20]:
df.dtypes

Id                 int64
SepalLengthCm    float64
SepalWidthCm     float64
PetalLengthCm    float64
PetalWidthCm     float64
Species           object
dtype: object

### 4.5 Obtendo o Tamanho do Dataset

É possível obter o tamanho do dataframe utilizando a mesma abordagen das listas
* len(df)

In [21]:
len(df)

150

### 4.6 Obtendo o Formato do Dataset

É possível obter o formato do dataframe utilizando a mesma abordagen dos ndarrays
* df.shape

In [22]:
df.shape

(150, 6)

### 4.7 Obtendo Informações Detalhadas

Todas essas informações préviamente apresentadas podem ser obtidas de forma resumida utilizando o método:
* df.info()


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  148 non-null    float64
 2   SepalWidthCm   149 non-null    float64
 3   PetalLengthCm  149 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        149 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


### 4.8 Descrição Estatística dos Dados

Descrição dos dados apresenta informações estatísticas sobre os atributos do dataframe, incluindo: (i) total de registros; (ii) média; (iii) desvio padrão; (iv) valor mínimo; (v) primeiro quartil; (vi) segundo quartil; (vii) terceiro quartil; e (viii) valor máximo. Para isso, utilizamos o método:
* df.describe()



In [24]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Id,150.0,75.5,43.445368,1.0,38.25,75.5,112.75,150.0
SepalLengthCm,148.0,5.856757,0.825459,4.3,5.1,5.8,6.4,7.9
SepalWidthCm,149.0,3.054362,0.435034,2.0,2.8,3.0,3.3,4.4
PetalLengthCm,149.0,3.749664,1.766911,1.0,1.6,4.3,5.1,6.9
PetalWidthCm,150.0,1.198667,0.763161,0.1,0.3,1.3,1.8,2.5


### 4.9 Correlações de Atributos

In [25]:
df.corr()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
Id,1.0,0.711224,-0.40309,0.882971,0.899759
SepalLengthCm,0.711224,1.0,-0.110203,0.868917,0.814053
SepalWidthCm,-0.40309,-0.110203,1.0,-0.422543,-0.359751
PetalLengthCm,0.882971,0.868917,-0.422543,1.0,0.963118
PetalWidthCm,0.899759,0.814053,-0.359751,0.963118,1.0


## 5. Identificando Valores Nulos

É possivel identificar valores nulos utilizando diferentes abordagens com o pandas. Exemplo delas são:
* df.isna()
* df.isnull()

In [26]:
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,virginica
146,147,6.3,2.5,5.0,1.9,virginica
147,148,6.5,3.0,5.2,2.0,virginica
148,149,6.2,3.4,5.4,2.3,virginica


### 5.1 df.isna()

retorna um dataframe com valores True e False para todos os dados do dataframe. Para os valores que não são nulos, este dataframe é preenchido com False, caso contrário o dataframe é preenchido para True (apenas onde os valores são nulos)

In [27]:
df.isna()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,False,False,False,False,False,False
1,False,False,True,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
145,False,False,False,False,False,False
146,False,False,False,False,False,False
147,False,False,False,False,False,False
148,False,False,False,False,False,False


### 5.2 df.isnull().sum()

Retorna um resumo dos atributos com a quantidade de valores nulos em cada atributo

In [28]:
df.isnull().sum()

Id               0
SepalLengthCm    2
SepalWidthCm     1
PetalLengthCm    1
PetalWidthCm     0
Species          1
dtype: int64

### 5.3 Preenchendo Valores Nulos

Podemos preencher valores nulos com algum valor pré-definido. Isto é útil durante o processamento dos dados. Uma das abordagens mais comum quando existem valores nulos é o prenchimento com a média dos valores daquele atributo. Portanto, podemos preencher esses valores usando:
* df['atributo'].fillna(valor, inplace)
    * valor: representa o valor a ser substituido pelo valor nulo
    * inplace: {True, False} realiza a alteração no dataframe original

In [44]:
media = df['SepalWidthCm'].mean()
df['SepalWidthCm'].fillna(media, inplace=True)
print(media)
df

3.0543624161073835


Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.500000,1.4,0.2,setosa
1,2,4.9,3.054362,1.4,0.2,setosa
2,3,4.7,3.200000,1.3,0.2,setosa
3,4,4.6,3.100000,1.5,0.2,setosa
4,5,5.0,3.600000,1.4,0.2,setosa
...,...,...,...,...,...,...
145,146,6.7,3.000000,5.2,2.3,virginica
146,147,6.3,2.500000,5.0,1.9,virginica
147,148,6.5,3.000000,5.2,2.0,virginica
148,149,6.2,3.400000,5.4,2.3,virginica


### 5.2 Removendo Valores Nulos

Para remover os valores nulos utilizamos o método:
* df.dropna(inplace)
    * inplace: {True, False} realiza a alteração no dataframe original


In [45]:
df.dropna(inplace=True)

In [46]:
df.isnull().sum()

Id               0
SepalLengthCm    0
SepalWidthCm     0
PetalLengthCm    0
PetalWidthCm     0
Species          0
dtype: int64

# 6. Operações Aritiméticas com os dados

Operações de agregação podem ser executadas diretamente do DataFrame, para calcular métricas de um atributo específico. Essas operações incluem:

* df['atributo'].mean(): retorna a médida dos valores do atributo
* df['atributo'].sum(): retorna a soma dos valores do atributo
* df['atributo'].std(): retorna o desvio padrão dos valores do atributo
* df['atributo'].min(): retorna o valor mínimo do atributo
* df['atributo'].max(): retorna o valor mínimo do atributo

In [47]:
mean   = df['SepalLengthCm'].mean()
soma   = df['SepalLengthCm'].sum()
minimo = df['SepalLengthCm'].min()
maximo = df['SepalLengthCm'].max()

print(f'media: {mean}, soma: {soma}, minimo:{minimo}, maximo:{maximo}')

media: 5.852739726027399, soma: 854.5, minimo:4.3, maximo:7.9


## 7. Adicionando Colunas

Para adicionar colunas ou atributos no DataFrame é preciso definir uma 'chave' que represente o nome do atributo e atribuir os dados para compor aquele atributo. Por exemplo, **df['novo atributo'] = dados**. Dessa forma, os dados podem ser:
* Valor: o valor especificado é atribuido a todas as linhas do DataFrame para o novo atributo
* Lista: precisa possuir o mesmo tamanho que a quantidade de linhas do DataFrame
* ndarray: precisa possuir o mesmo tamanho que a quantidade de linhas do DataFrame
* serie: pode ter tamanho inferior a quantidade de linhas do dataframe, nesse caso para as linhas excedentes do dataframe o valor NaN é atribuido 


In [48]:
#valores iguais
df['teste']    = True
#baseado em um ndarray
df['nprandom'] = np.random.rand(146)
#Baseado em um array com tamanho menor que o dataset
df['series_']  = pd.Series(np.random.rand(100))
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species,teste,nprandom,series_
0,1,5.1,3.500000,1.4,0.2,setosa,True,0.126424,0.674996
1,2,4.9,3.054362,1.4,0.2,setosa,True,0.605875,0.055479
2,3,4.7,3.200000,1.3,0.2,setosa,True,0.221474,0.353682
3,4,4.6,3.100000,1.5,0.2,setosa,True,0.606187,0.127566
4,5,5.0,3.600000,1.4,0.2,setosa,True,0.080447,0.715026
...,...,...,...,...,...,...,...,...,...
145,146,6.7,3.000000,5.2,2.3,virginica,True,0.215538,
146,147,6.3,2.500000,5.0,1.9,virginica,True,0.139786,
147,148,6.5,3.000000,5.2,2.0,virginica,True,0.970136,
148,149,6.2,3.400000,5.4,2.3,virginica,True,0.135500,


## 8. Removendo Colunas

Para remover colunas do dataframe utilizamos o método:
* df.drop(atributo, axis, inplace)
    * atributo: informa o nome da coluna a ser deletada
    * axis: informa o eixo onde está o atributo (0 para linhas, 1 para colunas)
    * inplace: {True, False}, aplica as alterações diretamente no dataframe original

In [None]:
df.drop('teste', axis=1, inplace=True)
df

é possível passar uma lista com os atributos que desejamos deletar

In [49]:
df.drop(['nprandom', 'series_'], axis=1, inplace=True)
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species,teste
0,1,5.1,3.500000,1.4,0.2,setosa,True
1,2,4.9,3.054362,1.4,0.2,setosa,True
2,3,4.7,3.200000,1.3,0.2,setosa,True
3,4,4.6,3.100000,1.5,0.2,setosa,True
4,5,5.0,3.600000,1.4,0.2,setosa,True
...,...,...,...,...,...,...,...
145,146,6.7,3.000000,5.2,2.3,virginica,True
146,147,6.3,2.500000,5.0,1.9,virginica,True
147,148,6.5,3.000000,5.2,2.0,virginica,True
148,149,6.2,3.400000,5.4,2.3,virginica,True


## 9. Filtrando Dados


In [50]:
resultado = df['PetalLengthCm'] > 3
resultado

0      False
1      False
2      False
3      False
4      False
       ...  
145     True
146     True
147     True
148     True
149     True
Name: PetalLengthCm, Length: 146, dtype: bool

Mostrando dados filtrados

In [None]:
df[resultado]

## 10. Fracionando dados

Fracionar os dados permite utilizar apenas uma porcentagem dos dados. Este fracionamento é útil para realizar testes iniciais nos dados quando temos datasets muito grandes onde o processamento é custo. Assim, podemos utilizar uma fração pequena dos dados para testar os modelos desenvolvidos, em seguida, após a validação dos teste o modelo pode ser aplicado no conjuto total de dados. Um exemplo de fracionamento é apresentado a seguir:
* df.sample(frac)
    * frac: fração do dataframe que deseja ser retornada

In [None]:
#retorna 20% dos dados aleatóriamente
df.sample(frac=0.2)

## 11. Função apply()

A função apply() é utilizada para aplicar uma funções sobre alguma coluna do DataFrame. Esse tipo de função pode ser útil no processamento dos dados ou até para criar novos atributos para o dataset baseado em um atributo de referência.

In [None]:
df['atibuto novo'] = df['PetalLengthCm'].apply(lambda x: x**2)
df

In [None]:
def soma_1(x):
    return x + 1

In [None]:
df['atibuto novo'] = df['PetalLengthCm'].apply(soma_1)
df

## 12. Exportando Dataset

Podemos salvar o dataset após as modificações (i.e., por exemplo, após um préprocessamento onde foi removido valores nulos e novos atributos foram criados). Exportando o dataset para um novo arquivo evita que todo o processamento seja feito novamente durante o próximo uso dos dados. Dessa forma, podemos exportar os dados da seguinte forma

In [None]:
df.to_csv('dataset_iris_alterado.csv', index=False)

In [None]:
#!dir para listar os arquivos da pasta
!dir 
#!ls no linux

In [None]:
df = pd.read_csv('dataset_iris_alterado.csv')
df