# Pandas - "Python Data Analysis Library" 

__Pandas - "Python Data Analysis Library"__  é uma biblioteca criada para manipular de forma rápida e expressiva, dados estruturados.  
Para poder trabalhar com Pandas, você deve conhecer bem estas duas estruturas: __Series__ e __DataFrame__.

__NOTE:__  
Para atualizar o __Pandas__ o prompt de comando ou terminal e digite: __pip install pandas -U__

# Series

__Series__ é um array unidimensional que contém:
 - Um array de dados
 - Um array de labels, chamado índice.

In [1]:
# Importa da biblioteca Pandas o objeto "Series".
from pandas import Series

In [2]:
# Importa a biblioteca Pandas - pd. (TODA A LIBRARY)
import pandas as pd

In [3]:
# Verifica a versão atual do Pandas.
pd.__version__

'0.19.2'

In [4]:
# Cria uma Series com a library "pandas".
# NOTE: Como nós utilizamos "from pandas import Series", não é preciso utilizar o "pd.Series".
# - Passamos como argumento uma lista de números inteiros.
Obj = Series([67, 78, -56, 13])

In [5]:
# Exibe a Series criada.
Obj

0    67
1    78
2   -56
3    13
dtype: int64

__NOTE:__  
Veja que como nós não passamos os __index__ da Series o Pandas criou índices numéricos automáticos. 

In [6]:
# Verifica o tipo de objeto.
type(Obj)

pandas.core.series.Series

In [7]:
# Utiliza o atributo "values" para verificar os valores da Serie.
Obj.values

array([ 67,  78, -56,  13])

In [8]:
# Utiliza o atributo "index" para verificar os elementos em CADA ÍNDICE.
Obj.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
# Cria uma nova Series, porém agora nós vamos específicar os índices de cada elemento.
Obj2 = Series([67, 78, -56, 13], index = ['a', 'b', 'c', 'd'])

In [10]:
# Exibe a Series criada.
Obj2

a    67
b    78
c   -56
d    13
dtype: int64

In [11]:
# Utiliza o atributo "values" para verificar os valores da Serie.
Obj2.values

array([ 67,  78, -56,  13])

In [12]:
# Utiliza o atributo "index" para verificar os elementos em CADA ÍNDICE.

In [13]:
# Retorna todos os elementos cuja valor "obj2 > 50", ou seja, todos os elementos maiores do que 50.
Obj2[Obj2 > 50]

a    67
b    78
dtype: int64

In [14]:
# Exibe o elemento no índice "b" da Series.
Obj2['b']

78

In [15]:
# Verifica se existe um índice(index) "d" na Series.
'd' in Obj2

True

In [16]:
# Cria um dicionário que vai ser passado como argumento para a Series.
dict = {'Futebol':5200, 'Tenis': 120, 'Natação':698, 'Volleyball':1550}

In [17]:
# Cria uma Series, porém agora vamos passar um dicionário como argumento.
Obj3 = Series(dict)

In [18]:
# Exibe a Series criada a partir do dicionário.
Obj3

Futebol       5200
Natação        698
Tenis          120
Volleyball    1550
dtype: int64

In [19]:
# Criando uma lista que vai representar os tipos de esportes - Ou seja os índices vão ser esportes.
esportes = ['Futebol', 'Tenis', 'Natação', 'Basktetball']

In [20]:
# Criando uma serie e usando uma lista como índice
Obj4 = Series(dict, index=esportes)

In [21]:
# Exibe a Series criada da junção do dicionário como elemento e lista como índices.
Obj4

Futebol        5200.0
Tenis           120.0
Natação         698.0
Basktetball       NaN
dtype: float64

In [22]:
pd.isnull(Obj4)

Futebol        False
Tenis          False
Natação        False
Basktetball     True
dtype: bool

In [23]:
# Cria uma lista de labels
labels = ['a', 'b', 'c']

In [24]:
# Exibe os dados da lista
labels

['a', 'b', 'c']

In [25]:
# Cria uma lista de números
myList = [10, 20, 30]

In [26]:
# Utiliza o método Series() da biblioteca Pandas para relacionar "myList" com
# a lista de "labels"
pd.Series(data=myList, index=labels)

a    10
b    20
c    30
dtype: int64

In [27]:
# Passa os dados da Serie criadas com Pandas para a variável "series".
series = pd.Series(data=myList, index=labels)

In [28]:
# Acessa o elemento da serie (como faz com dicionário) com o índice(labels) "a".
series['a']

10

In [29]:
# Importa a biblioteca NumPy.
import numpy as np

### Criando uma Series em conjunto com a biblioteca NumPy

In [30]:
# Cria um array com o método array() do NumPy
arr = np.array([100, 200, 300])

In [31]:
series = pd.Series(data=arr, index=labels)

In [32]:
series

a    100
b    200
c    300
dtype: int64

### Criando uma Series em conjunto com dicionários

In [33]:
# Cria um dicionário
d = {'X':10, 'Y':20, 'Z':30}

In [34]:
series = pd.Series(data=d)

In [35]:
series

X    10
Y    20
Z    30
dtype: int64

__NOTE:__ Veja que com dicinário não foi preciso utilizar o parâmetro "index", isso porque os dicionários já tem seu índice definido.

### Criando uma Series em conjunto com listas

In [36]:
# Cria uma Series passando os argumentos em formato de listas
series = pd.Series(data=[2000, 3000, 4000, 5000], index=['Brazil', 'Germany', 'United States of America', 'Japan'])

In [37]:
# Exibe a Serie criada
series

Brazil                      2000
Germany                     3000
United States of America    4000
Japan                       5000
dtype: int64

### Somando Series()

Para entender como funcionam soma com Series() primeiro vamos criar duas Series() com os mesmos índices(labels)

In [38]:
# Cria a primeira Series()
ser1 = pd.Series(data=[10, 20, 30], index=['Brazil', 'USA', 'Japan'])

In [39]:
ser1

Brazil    10
USA       20
Japan     30
dtype: int64

In [40]:
# Cria a segunda Series()
ser2 = pd.Series(data=[10, 20, 30], index=['Japan', 'USA', 'Brazil'])

In [41]:
ser2

Japan     10
USA       20
Brazil    30
dtype: int64

In [42]:
# Soma as duas Series() índice(label) por índice(label)
ser1 + ser2

Brazil    40
Japan     40
USA       40
dtype: int64

__NOTE:__ Veja que independente da ordem dos índices(labels) a soma foi feita... Isso porque diferente da biblioteca NumPy a soma não é feita índice por índice 1 a 1. A soma é feita comparando os labels, ou seja, os nomes de cada Series().

Veja o exemplo a baixo onde às Series() tem labels(índices) diferentes, ou seja, sem relação.

In [43]:
ser3 = pd.Series(data=[1, 2, 3], index=['Brazil', 'USA', 'Italy'])

In [44]:
ser3

Brazil    1
USA       2
Italy     3
dtype: int64

In [45]:
ser4 = pd.Series(data=[1, 2, 3], index=['Brazil', 'USA', 'Germany'])

In [46]:
ser4

Brazil     1
USA        2
Germany    3
dtype: int64

In [47]:
ser3 + ser4

Brazil     2.0
Germany    NaN
Italy      NaN
USA        4.0
dtype: float64

__NOTE:__ Veja que os países "Italy" e "Germany" ficaram com o valor NaN, isso porque não foi possível relacionar os seus índices(labels) na soma de Series.

# Dataframes

Dataframes representam uma estrutura tabular semelhante a estrutura de uma planilha do Excel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, string, etc...). Os Dataframes possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados e um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array.

O método DataFrame da biblioteca Pandas recebe três argumentos são:

 - Os dados que vamos trabalhar
 - Ás linhas
 - As colunas

Isso porque nossos DataFrame vão ser muito similar a matrizes.


In [48]:
# "De Pandas(Library) importa DataFrame"
from pandas import DataFrame

In [49]:
# Cria uma lista de listas.
arr = [[10, 20, 30], [40, 50, 60], [70, 80, 90]]

In [50]:
# Exibe a lista de listas.
arr

[[10, 20, 30], [40, 50, 60], [70, 80, 90]]

In [51]:
# Transforma nossa lista de listas em um Array NumPy.
arr = np.array(arr)

In [52]:
# Exibe o array craido.
arr

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

In [53]:
# Cria uma lista que vai representar as LINHAS do DataFrame.
row = ['A', 'B', 'C']

In [54]:
# Cria uma lista que vai representar as COLUNAS do DataFrame
col = ['X', 'Y', 'Z']

In [55]:
# Cria um DataFrame com Pandas a partir dos dados e listas que já foram pré-definidos.
df = pd.DataFrame(data=arr, index=row, columns=col)

In [56]:
# Exibe o DataFrame criado
df

Unnamed: 0,X,Y,Z
A,10,20,30
B,40,50,60
C,70,80,90


# Exibindo uma COLUNA de um DataFrame

In [57]:
df['X']

A    10
B    40
C    70
Name: X, dtype: int64

### Exibindo MAIS DE UMA COLUNA de um DataFrame

Para exibir mais de uma coluna nós precisamos passar como argumento uma __lista__ contendo as colunas que desejamos exibir.

In [58]:
# Exibe as colunas 'X' e 'Z' do DataFrane.
df[['X', 'Z']]

Unnamed: 0,X,Z
A,10,30
B,40,60
C,70,90


# Exibindo LINDAS de um DataFrame com o método loc()

Uma maneira diferente e muito utilizada é buscar dados de um DataFrame/Series com o método loc(). Vamos criar um novo DataFrame para fazer nossos testes.

In [59]:
df = pd.DataFrame(np.random.randn(5, 4), index='A B C D E'.split(), columns='W X Y Z'.split())

In [60]:
df

Unnamed: 0,W,X,Y,Z
A,0.391418,0.525338,0.114574,-0.072632
B,-0.828009,-1.025349,-1.045136,0.927954
C,-0.312943,-0.018342,0.934739,-1.659298
D,0.041518,0.313361,0.821805,0.06871
E,-0.382299,-1.025617,-2.127915,-0.887724


Veja que esse novo DataFrame foi criado de uma maneira diferente:

 - Utilizamos o NumPy: np.random.randn() - 5x4
 - As linhas e colunas foram criadas passando uma string
 - Utilizamos o método split() para transformar essa String em uma lista de elementos

In [61]:
# Exibe a linha 'A' com o método loc()
df.loc['A']

W    0.391418
X    0.525338
Y    0.114574
Z   -0.072632
Name: A, dtype: float64

In [62]:
# Exibe a coluna 'B' com o método loc()
df.loc['B']

W   -0.828009
X   -1.025349
Y   -1.045136
Z    0.927954
Name: B, dtype: float64

In [63]:
# Exibe ás linhas 'A' e 'E'
df.loc[['A', 'E']]

Unnamed: 0,W,X,Y,Z
A,0.391418,0.525338,0.114574,-0.072632
E,-0.382299,-1.025617,-2.127915,-0.887724


# Exibindo LINDAS e COLUNAS de um DataFrame com o método loc()

In [64]:
# Exibe as 'A' e 'B' suas respectivas colunas 'X', 'Y' e 'Z'
# A PRIMEIRA lista passada representa as LINHAS
# A SEGUNDA lista passada representa as COLUNAS
df.loc[['A', 'B'], ['X', 'Y', 'Z']]

Unnamed: 0,X,Y,Z
A,0.525338,0.114574,-0.072632
B,-1.025349,-1.045136,0.927954


# Dados ausentes

Agora vamos ver as maneiras básicas de trabalhar com dados __ausentes__.

In [65]:
# Cria um dicionário com dados ausentes - NaN
d = {'A':[1, 2, np.nan], 'B':[5, np.nan, np.nan], 'C':[1, 2, 3]}

In [66]:
# exibe o dicionários criado.
d

{'A': [1, 2, nan], 'B': [5, nan, nan], 'C': [1, 2, 3]}

In [67]:
# Cria um DataFrame com Pandas e passa como argumento o dicionário criado
df = pd.DataFrame(d)

In [68]:
# Exibe o DataFrame criado.
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


# Método dropna()

O método dropna() exibe as LINHAS de um DataFrame que NÃO TEM VALORES AUSENTES.

In [69]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,1


# Método fillna()

Método fillna() adiciona valores em um DataFrame com valores ausente, ou seja, onde estiver um elemento ausente no DataFrame, ele vai adicionar o valor passado como argumento

In [70]:
# Exibe o DataFrame
df

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [71]:
# Adiciona um valor para os elementos NaN.
df.fillna(value='Away')

Unnamed: 0,A,B,C
0,1,5,1
1,2,Away,2
2,Away,Away,3


Veja que o mesmo valor foi adicionado para todos os dados ausentes.

# GroupBy

Agora vamos aprender o básico de como trabalhar com GroupBy em DataFrame. Ou seja, consultas por grupo.

In [72]:
# Cria um dicionário que vai representar o DataFrame.
data = {
    'Empresa':['Google', 'Google', 'Microsoft', 'Microsoft', 'Facebook', 'Facebook'],
    'Nome':['Rodrigo', 'Renan', 'Pedro', 'Bruno', 'Glória', 'Aline'],
    'Venda':[264, 597, 215, 684, 123, 578]
}

In [73]:
# Exibe o dicionário criado.
data

{'Empresa': ['Google',
  'Google',
  'Microsoft',
  'Microsoft',
  'Facebook',
  'Facebook'],
 'Nome': ['Rodrigo', 'Renan', 'Pedro', 'Bruno', 'Glória', 'Aline'],
 'Venda': [264, 597, 215, 684, 123, 578]}

In [74]:
# Transforma o dicionário em um DataFrame.
df = pd.DataFrame(data)

In [75]:
# Exibe o DataFrame criado.
df

Unnamed: 0,Empresa,Nome,Venda
0,Google,Rodrigo,264
1,Google,Renan,597
2,Microsoft,Pedro,215
3,Microsoft,Bruno,684
4,Facebook,Glória,123
5,Facebook,Aline,578


Para utilizar o agrupamento por grupo nós temos às seguintes etapas antes:

- Agrupar por coluna
- Salva o agrupamento em uma variável (se assim desejar)

In [76]:
#Cria uma variável que vai armazenar o agrupamento por coluna.
group = df.groupby('Empresa')

Agora nós podemos trabalhar com esse agrupamento. Por exemplo, como soma as vendas por grupos?

In [77]:
# Soma as vendas por grupo
group.sum()

Unnamed: 0_level_0,Venda
Empresa,Unnamed: 1_level_1
Facebook,701
Google,861
Microsoft,899


# Método describe()

O método describe, descreve algumas características do DataFrame que as vezes necessitam de outros métodos.

In [78]:
group.describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Venda
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
Facebook,count,2.0
Facebook,mean,350.5
Facebook,std,321.733585
Facebook,min,123.0
Facebook,25%,236.75
Facebook,50%,350.5
Facebook,75%,464.25
Facebook,max,578.0
Google,count,2.0
Google,mean,430.5


# Concatenar

In [79]:
# Cria o PRIMEIRO DataFrame para exemplo.
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [80]:
# Exibe o PRIMEIRO DataFrame criado.
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [81]:
# Cria o SEGUNDO DataFrame para exemplo.
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [82]:
# Exibe o SEGUNDO DataFrame criado.
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [83]:
# Cria o TERCEIRO DataFrame para exemplo.
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [84]:
# Exibe o TERCEIRO DataFrame.
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


# Concatenação

Concatenação basicamente cola DataFrames. Tenha em mente que as dimensões devem corresponder ao longo do eixo que você está concatenando. Você pode usar ** pd.concat ** e passar uma lista de DataFrames para concatenar juntos:

In [85]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


Veja que todos os DataFrame criados foram concatenados. Essa concatenação é feita linha por linha, ou seja, vai adicionando as linhas do primeiro DataFrame uma por uma, depois vai para o segundo DataFrame, faz o mesmo processo e segue o mesmo fluxo até o fim das concatenações.

# Entrada e saída de dados

### Entrada de dados com o método read_csv()

In [87]:
# Chama o método read_csv() responsável por ler um arquivo no formado 'csv'.
# OBS: Como o arquivo está no mesmo diretório do Notebook não é preciso passar o caminho relativo.
df = pd.read_csv('exemplo.csv')

In [88]:
# Exibe o DataFrame criado a partir dos dados do arquivo 'exemplo.csv'.
df

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


### Saída de dados com o método to_csv()

Para esse exemplo vamos criar um DataFrame diferente para enviar para o arquivo __exemplo-to.csv__.

In [89]:
# Cria um dicionário.
d = {
    'A':[10, 20, 30],
    'B':[40, 50, 60],
    'C':[70, 80, 90]
}

In [90]:
# Exibe o dicionário criado.
d

{'A': [10, 20, 30], 'B': [40, 50, 60], 'C': [70, 80, 90]}

In [91]:
# Cria um DataFrame a partir do dicionário criado.
df = pd.DataFrame(d)

In [92]:
# Exibe o novo DataFrame
df

Unnamed: 0,A,B,C
0,10,40,70
1,20,50,80
2,30,60,90


In [94]:
# Salva o DataFrame com o método to_csv()
df.to_csv('exemplo-to.csv')

Agora vamos criar um novo DataFrame que vai ler esse arquivo para verificamos se realmente são os mesmos dados.

In [95]:
# Ler o arquivo 'exemplo-to.csv'.
newdf = pd.read_csv('exemplo-to.csv')

In [96]:
# Exibe os dados que estavam salvos no arquivo 'exemplo-to.csv'.
newdf

Unnamed: 0.1,Unnamed: 0,A,B,C
0,0,10,40,70
1,1,20,50,80
2,2,30,60,90


# Part - 02

In [97]:
# Cria um dicionários contendo:
# - Estados;
# - Ano;
# - População.
data = {'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'], 
        'Ano': [2002, 2003, 2004, 2005, 2006], 
        'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [98]:
# Exibe o dicionário "data".
data

{'Ano': [2002, 2003, 2004, 2005, 2006],
 'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'],
 'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [99]:
# Utiliza o método DataFrame() do Pandas para criar um DataFrame.
# Passa como argumento o dicionário criado.
frame = DataFrame(data)

In [100]:
# Exibe o DataFrame criado.
frame

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [101]:
# Verifica o tipo DataFrame.
type(frame)

pandas.core.frame.DataFrame

In [102]:
# Cria um DataFrame.
DataFrame(data, columns=['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [103]:
# Criando outro dataframe com os mesmo dados anteriores mas adicionando uma coluna
frame2 = DataFrame(data, columns = ['Ano', 'Estado', 'População', 'Débito'], 
                   index = ['um', 'dois', 'três', 'quatro', 'cinco'])

In [104]:
# Imprimindo o Dataframe
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
três,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas Gerais,2.9,


In [105]:
# Imprimindo apenas uma coluna do Dataframe
frame2['Estado']

um        Santa Catarina
dois              Paraná
três               Goiás
quatro             Bahia
cinco       Minas Gerais
Name: Estado, dtype: object

## Usando NumPy e Pandas

In [106]:
# Importa a biblioteca NumPy.
import numpy as np

In [107]:
# Usando o NumPy para alimentar uma das colunas do dataframe
frame2['Débito'] = np.arange(5.)

In [108]:
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,0.0
dois,2003,Paraná,1.7,1.0
três,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0
cinco,2006,Minas Gerais,2.9,4.0


In [109]:
# Utiliza o atributo "values" para verificar os elementos do Array.
frame2.values

array([[2002, 'Santa Catarina', 1.5, 0.0],
       [2003, 'Paraná', 1.7, 1.0],
       [2004, 'Goiás', 3.6, 2.0],
       [2005, 'Bahia', 2.4, 3.0],
       [2006, 'Minas Gerais', 2.9, 4.0]], dtype=object)

In [110]:
# Resumo do Dataframe
frame2.describe()

Unnamed: 0,Ano,População,Débito
count,5.0,5.0,5.0
mean,2004.0,2.42,2.0
std,1.581139,0.864292,1.581139
min,2002.0,1.5,0.0
25%,2003.0,1.7,1.0
50%,2004.0,2.4,2.0
75%,2005.0,2.9,3.0
max,2006.0,3.6,4.0
