# <font color=red> Pandas-I AI2 - Turma 5
---

<img src="pandas.png" width=500 height=500>

No nível mais básico, os objetos Pandas podem ser considerados como versões aprimoradas de matrizes estruturadas NumPy nas quais as linhas e colunas são identificadas com rótulos em vez de índices inteiros simples. Como veremos no decorrer desta aula, o Pandas fornece uma série de ferramentas, métodos e funcionalidades úteis além das estruturas de dados básicas, mas quase tudo o que se segue exigirá uma compreensão do que são essas estruturas. Portanto, antes de prosseguirmos, vamos apresentar essas três estruturas de dados fundamentais do Pandas: Series, DataFrame e Index.

In [1]:
# Iniciamos importando a biblioteca do Pandas

import pandas as pd
import numpy as np



# Series

* Series são matrizes unidimensionais rotuladas capazes de armazenar dados de qualquer tipo (inteiro, string, float, objetos python, etc.). 

* Os rótulos dos eixos são chamados coletivamente de índices. 

* Fazendo um paralelo com uma planilha MS-EXCEL uma série representa uma coluna em uma planilha do Excel.

In [2]:
# Criando uma series com indice

s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
s

a    3
b   -5
c    7
d    4
dtype: int64

In [3]:
# Series com indice automático

j = pd.Series([2,4,6,8,9])
j

0    2
1    4
2    6
3    8
4    9
dtype: int64

In [4]:
s['b']

-5

In [5]:
j[0]+j[3]+j[1] / j[2]-j[4]

1.666666666666666

In [6]:
# matemática em Series

j.div(4)

0    0.50
1    1.00
2    1.50
3    2.00
4    2.25
dtype: float64

In [7]:
pd.Series({2:'a',1:'b',3:'c'})

2    a
1    b
3    c
dtype: object

In [8]:
pd.Series({2:'a',1:'b',3:'c'}, index=[3,2])

3    c
2    a
dtype: object

## Série como dicionário especializado

Dessa forma, você pode pensar em uma série Pandas um pouco como uma especialização de um dicionário Python. Um dicionário é uma estrutura que mapeia chaves arbitrárias para um conjunto de valores arbitrários, e uma série é uma estrutura que mapeia chaves digitadas para um conjunto de valores digitados. Essa digitação é importante: assim como o código compilado específico do tipo por trás de um array NumPy o torna mais eficiente do que uma lista Python para certas operações, as informações de tipo de uma série Pandas o tornam muito mais eficiente do que os dicionários Python para certas operações.

A analogia de Series como dicionário pode ser ainda mais clara construindo um objeto Series diretamente de um dicionário Python:

In [9]:
# Lista arbitrário de concentrações urbanas no Brasil por população

population_dict = {'São Paulo': 12252023,
                  'Rio de Janeiro': 6718932,
                  'Brasilia': 3015268,
                  'Salvador': 2872347,
                  'Fortaleza': 2669342}

population = pd.Series(population_dict)
population

São Paulo         12252023
Rio de Janeiro     6718932
Brasilia           3015268
Salvador           2872347
Fortaleza          2669342
dtype: int64

In [10]:
population['São Paulo']

12252023

## O objeto DataFrame do Pandas

A próxima estrutura fundamental do Pandas é o DataFrame. Como o objeto *Series* apresentado, o objeto *DataFrame* pode ser considerado uma generalização de um array *NumPy* ou uma especialização de um dicionário *Python*. Vamos agora dar uma olhada em cada uma dessas perspectivas.

## DataFrame como uma matriz NumPy generalizada

Se um Series é um análogo de uma matriz unidimensional com índices flexíveis, um DataFrame é um análogo de uma matriz bidimensional com índices de linha flexíveis e nomes de coluna flexíveis. Assim como podemos pensar em uma matriz bidimensional como uma sequência ordenada de colunas unidimensionais alinhadas, podemos pensar em um DataFrame como uma sequência de objetos Series alinhados. Aqui, por "alinhado" queremos dizer que eles compartilham o mesmo índice.

 Para demonstrar isso, vamos primeiro construir uma nova série listando a área de cada um dos cinco estados discutidos pouco acima:

In [11]:
area_dict = {'São Paulo': 248209,
                  'Rio de Janeiro': 43696,
                  'Brasilia': 5802,
                  'Salvador': 6938,
                  'Fortaleza': 148826}

area = pd.Series(area_dict)
area

São Paulo         248209
Rio de Janeiro     43696
Brasilia            5802
Salvador            6938
Fortaleza         148826
dtype: int64

In [12]:
# Criando um dataframe

stats = pd.DataFrame({'Population':population, 'Area':area})
stats

Unnamed: 0,Population,Area
São Paulo,12252023,248209
Rio de Janeiro,6718932,43696
Brasilia,3015268,5802
Salvador,2872347,6938
Fortaleza,2669342,148826


In [81]:
stats['Densidade'] = stats['Area'] / stats['Population']
stats

Unnamed: 0,Population,Area,Densidade
São Paulo,12252023,248209,0.020259
Rio de Janeiro,6718932,43696,0.006503
Brasilia,3015268,5802,0.001924
Salvador,2872347,6938,0.002415
Fortaleza,2669342,148826,0.055754


In [83]:
stats.loc[stats.Densidade > 0.02, ['Densidade']]

Unnamed: 0,Densidade
São Paulo,0.020259
Fortaleza,0.055754


In [86]:
stats.iloc[0,2] = 60
stats

Unnamed: 0,Population,Area,Densidade
São Paulo,12252023,248209,60.0
Rio de Janeiro,6718932,43696,0.006503
Brasilia,3015268,5802,0.001924
Salvador,2872347,6938,0.002415
Fortaleza,2669342,148826,0.055754


In [87]:
np.sin(stats * np.pi /4)

Unnamed: 0,Population,Area,Densidade
São Paulo,-0.7071068,0.7071068,5.389684e-15
Rio de Janeiro,1.097527e-10,-8.972677e-13,0.005107748
Brasilia,1.781886e-10,1.0,0.001511268
Salvador,0.7071068,1.0,0.001897086
Fortaleza,-1.0,1.0,0.04377495


In [88]:
np.min(stats)

Population    2.669342e+06
Area          5.802000e+03
Densidade     1.924207e-03
dtype: float64

In [89]:
stats.min()

Population    2.669342e+06
Area          5.802000e+03
Densidade     1.924207e-03
dtype: float64

In [13]:
# Dataframe através do dicionário

data = {'Pais':['Belgica','India','Brasil'],
       'Capital':['Bruxelas','Nova Delphi', 'Brasilia'],
       'População': [123456, 345675, 125674]}
data

{'Pais': ['Belgica', 'India', 'Brasil'],
 'Capital': ['Bruxelas', 'Nova Delphi', 'Brasilia'],
 'População': [123456, 345675, 125674]}

In [14]:
df = pd.DataFrame(data, columns=['Pais','Capital', 'População'])
df

Unnamed: 0,Pais,Capital,População
0,Belgica,Bruxelas,123456
1,India,Nova Delphi,345675
2,Brasil,Brasilia,125674


In [15]:
df.set_index('Pais')

Unnamed: 0_level_0,Capital,População
Pais,Unnamed: 1_level_1,Unnamed: 2_level_1
Belgica,Bruxelas,123456
India,Nova Delphi,345675
Brasil,Brasilia,125674


In [16]:
df.columns

Index(['Pais', 'Capital', 'População'], dtype='object')

In [17]:
df['Pais']

0    Belgica
1      India
2     Brasil
Name: Pais, dtype: object

In [18]:
# Inserindo valores na Sereis do Dataframe

df.insert(3, 'Dimensão',[300,600,900])
df

Unnamed: 0,Pais,Capital,População,Dimensão
0,Belgica,Bruxelas,123456,300
1,India,Nova Delphi,345675,600
2,Brasil,Brasilia,125674,900


In [24]:
Tamanho = pd.Series([])

for i in range(len(df)):
    if df['Pais'][i] == 'Belgica':
        Tamanho[i] = "Pequeno"
    elif df['Pais'][i] == 'India':
        Tamanho[i] = 'Medio'
    elif df['Pais'][i] == 'Brasil':
        Tamanho[i] = 'Grande'
    else:
        Tamanho[i] = df['Pais'][i]

Tamanho

  """Entry point for launching an IPython kernel.


0    Pequeno
1      Medio
2     Grande
dtype: object

In [25]:
# Criando a nova coluna

df.insert(4, 'Tamanho', Tamanho)
df

Unnamed: 0,Pais,Capital,População,Dimensão,Tamanho
0,Belgica,Bruxelas,123456,300,Pequeno
1,India,Nova Delphi,345675,600,Medio
2,Brasil,Brasilia,125674,900,Grande


In [30]:
# Inserir uma nova linha

df.append({'Pais':'Argentina', 'Capital':'Buenos Aires', 'População': 400000, 'Dimensão':144000,'Tamanho':'Grande'}, ignore_index=True)

Unnamed: 0,Pais,Capital,População,Dimensão,Tamanho
0,Belgica,Bruxelas,123456,300,Pequeno
1,India,Nova Delphi,345675,600,Medio
2,Brasil,Brasilia,125674,900,Grande
3,Argentina,Buenos Aires,400000,144000,Grande


In [31]:
df

Unnamed: 0,Pais,Capital,População,Dimensão,Tamanho
0,Belgica,Bruxelas,123456,300,Pequeno
1,India,Nova Delphi,345675,600,Medio
2,Brasil,Brasilia,125674,900,Grande


In [32]:
dic = ({'Pais':'Argentina', 'Capital':'Buenos Aires', 'População': 400000, 'Dimensão':144000,'Tamanho':'Grande'})

In [33]:
df = df.append(dic, ignore_index=True)
df

Unnamed: 0,Pais,Capital,População,Dimensão,Tamanho
0,Belgica,Bruxelas,123456,300,Pequeno
1,India,Nova Delphi,345675,600,Medio
2,Brasil,Brasilia,125674,900,Grande
3,Argentina,Buenos Aires,400000,144000,Grande


In [34]:
# Criando regra para definir classes

def define_class(val):
    if val == 'Grande':
        return 1
    elif val == 'Medio':
        return 2
    elif val == 'Pequeno':
        return 3
    else:
        return 'Classe não encontrada!'

In [35]:
df['Tamanho']

0    Pequeno
1      Medio
2     Grande
3     Grande
Name: Tamanho, dtype: object

In [36]:
# Criando uma nova coluna

df['Classe'] = df['Tamanho'].map(define_class)
df

Unnamed: 0,Pais,Capital,População,Dimensão,Tamanho,Classe
0,Belgica,Bruxelas,123456,300,Pequeno,3
1,India,Nova Delphi,345675,600,Medio,2
2,Brasil,Brasilia,125674,900,Grande,1
3,Argentina,Buenos Aires,400000,144000,Grande,1


In [91]:
df['Tamanho']

0    Pequeno
1      Medio
2     Grande
3     Grande
Name: Tamanho, dtype: object

In [38]:
df.shape

(4, 6)

In [39]:
# Podemos criar um Dataframe através de looping

num = range(1,6)
val2 = [x * 2 for x in num]
val3 = [x * 3 for x in num]
val4 = [x * 4 for x in num]
val5 = [x * 5 for x in num]

data = [num, val2, val3, val4, val5]
data

[range(1, 6),
 [2, 4, 6, 8, 10],
 [3, 6, 9, 12, 15],
 [4, 8, 12, 16, 20],
 [5, 10, 15, 20, 25]]

In [40]:
# Criando o Dataframe

df1 = pd.DataFrame(data, index=['v', 'w', 'x', 'y', 'z'], columns=['A', 'B', 'C', 'D', 'E'])
df1

Unnamed: 0,A,B,C,D,E
v,1,2,3,4,5
w,2,4,6,8,10
x,3,6,9,12,15
y,4,8,12,16,20
z,5,10,15,20,25


In [49]:
img = np.arange(49).reshape((7,7))
img

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12, 13],
       [14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27],
       [28, 29, 30, 31, 32, 33, 34],
       [35, 36, 37, 38, 39, 40, 41],
       [42, 43, 44, 45, 46, 47, 48]])

In [50]:
img = pd.DataFrame(img, index=[1,2,3,4,5,6,7], columns=['A', 'B', 'C','D','E','F','G'])
img

Unnamed: 0,A,B,C,D,E,F,G
1,0,1,2,3,4,5,6
2,7,8,9,10,11,12,13
3,14,15,16,17,18,19,20
4,21,22,23,24,25,26,27
5,28,29,30,31,32,33,34
6,35,36,37,38,39,40,41
7,42,43,44,45,46,47,48


In [51]:
img.rename(columns={'A':'aaa', 'C':'ccc', 'E':'eee'}, inplace=True)
img

Unnamed: 0,aaa,B,ccc,D,eee,F,G
1,0,1,2,3,4,5,6
2,7,8,9,10,11,12,13
3,14,15,16,17,18,19,20
4,21,22,23,24,25,26,27
5,28,29,30,31,32,33,34
6,35,36,37,38,39,40,41
7,42,43,44,45,46,47,48


In [53]:
img[['aaa','eee', 'F']]

Unnamed: 0,aaa,eee,F
1,0,4,5
2,7,11,12
3,14,18,19
4,21,25,26
5,28,32,33
6,35,39,40
7,42,46,47


## Index com: loc e iloc


Esses *slicing* e indexação geralmente são uma fonte de confusão. Por exemplo, vamos utilizar a primeira Série dessa nossa aula, com o nome **s**, se essa Série tem um índice inteiro explícito, uma operação de indexação como s[1] usará os índices explícitos, enquanto uma operação de divisão como s[1:3] usará o índice implícito no estilo Python.

In [54]:
s

a    3
b   -5
c    7
d    4
dtype: int64

In [55]:
s[1]

-5

In [56]:
s[1:3]

b   -5
c    7
dtype: int64

## Primeiro o atributo loc, que permite indexação e divisão fazendo sempre referência ao indice

In [57]:
img.loc[1:3]

Unnamed: 0,aaa,B,ccc,D,eee,F,G
1,0,1,2,3,4,5,6
2,7,8,9,10,11,12,13
3,14,15,16,17,18,19,20


In [62]:
img

Unnamed: 0,aaa,B,ccc,D,eee,F,G
1,0,1,2,3,4,5,6
2,7,8,9,10,11,12,13
3,14,15,16,17,18,19,20
4,21,22,23,24,25,26,27
5,28,29,30,31,32,33,34
6,35,36,37,38,39,40,41
7,42,43,44,45,46,47,48


In [67]:
img2 = img[img.loc[:2,:]%2 == 0]
img2

Unnamed: 0,aaa,B,ccc,D,eee,F,G
1,0.0,,2.0,,4.0,,6.0
2,,8.0,,10.0,,12.0,
3,,,,,,,
4,,,,,,,
5,,,,,,,
6,,,,,,,
7,,,,,,,


In [69]:
# Slice com loc
img.loc[:,'aaa':'ccc']%2 == 0

Unnamed: 0,aaa,B,ccc
1,True,False,True
2,False,True,False
3,True,False,True
4,False,True,False
5,True,False,True
6,False,True,False
7,True,False,True


## O atributo iloc permite indexação e divisão que sempre faz referência ao índice implícito no estilo Python

In [70]:
img

Unnamed: 0,aaa,B,ccc,D,eee,F,G
1,0,1,2,3,4,5,6
2,7,8,9,10,11,12,13
3,14,15,16,17,18,19,20
4,21,22,23,24,25,26,27
5,28,29,30,31,32,33,34
6,35,36,37,38,39,40,41
7,42,43,44,45,46,47,48


In [71]:
img.iloc[1:3]

Unnamed: 0,aaa,B,ccc,D,eee,F,G
2,7,8,9,10,11,12,13
3,14,15,16,17,18,19,20


In [72]:
img[1:3]

Unnamed: 0,aaa,B,ccc,D,eee,F,G
2,7,8,9,10,11,12,13
3,14,15,16,17,18,19,20


In [76]:
img.iloc[1:3,1:3]

Unnamed: 0,B,ccc
2,8,9
3,15,16


In [78]:
img.iloc[:, 0:3]

Unnamed: 0,aaa,B,ccc
1,0,1,2
2,7,8,9
3,14,15,16
4,21,22,23
5,28,29,30
6,35,36,37
7,42,43,44
