<a href="https://colab.research.google.com/github/barcellfe/datascience_study/blob/master/Pandas_II.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula Pandas II - 03-10-2020

Como vimos na aula passada, a biblioteca pandas tem alguns componentes que são elementares:

1. pd.Series -> Para casos univariados
2. pd.DataFrame -> Para casos multivariados
3. df.index é a palavra mais importante dentro do pandas porque é quem controla a posição dos elementos do DataFrame
4. Para modificar o índice do DataFrame, basta usar o comando df.reindex

Vejamos agora mais alguns casos da biblioteca Pandas

In [None]:
import pandas as pd

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

frame3 = pd.DataFrame(pop)

frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
##Transposta de um DF

frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [None]:
##reindexando, a partir da reconstrução de um frame

pd.DataFrame(pop, index = [2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [None]:
##podemos fazer do mesmo modo a partir de um objeto do tipo series

pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}

pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [None]:
##Para modificar campos de nome, usamos os campos df.index.name e df.columns.name para os casos respectivos

frame3.index.name = 'year'
frame3.columns.name = 'state'

frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [None]:
##os valores saem nos campos df.values

frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [None]:
## Tabela 5-1

##Como o Pandas lê cada tipo de estrutura dentro do Python

Aprofundando no indice dos objetos

In [None]:
obj = pd.Series(range(3), index = ['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

In [None]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [None]:
##Quais são as propriedades dos index

#imutabilidade
##Pode ser indexado
##do tipo obj

In [None]:
##remodelando os índices a partir de um outro dataframe
import numpy as np

labels = pd.Index(np.arange(3))

In [None]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [None]:
##remodelando:

obj2 = pd.Series([1.5, -2.5, 0], index = labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [None]:
obj2.index is labels

True

In [None]:
##podemos pesquisar dentro dos índices:

frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [None]:
'Ohio' in frame3.columns

True

In [None]:
2003 in frame3.index

False

In [None]:
##Propriedade: indices do Pandas aceitam valores duplicados

dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

In [None]:
##Indices tem basicamente as mesmas propriedades que sets, ver tabela 5-2 do livro

Fundamento do Pandas:

Reindice: serve para remodelar dataframes a partir da adição de novos índices

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [None]:
##acrescentando novos objetos:

##a ordem mudou, novos valores foram acrescentados
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [None]:
##criando e preenchendo as lacunas

obj3 = pd.Series(['blue', 'purple', 'yellow'], index = [0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [None]:
obj3.reindex(range(6), method = 'ffill')

##Os valores dos buracos são preenchidos pelo valor do índice -1

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [None]:
##linhas e colunas podem ser modificadas a partir do reindex

frame = pd.DataFrame(np.arange(9).reshape(3,3), index = ['a', 'b', 'c'], columns = 
                     ['Ohio', 'Texas', 'California'])

frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
b,3,4,5
c,6,7,8


In [None]:
##Acrescentando linhas

frame2 = frame.reindex(['a', 'b', 'c', 'd', 'e'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,3.0,4.0,5.0
c,6.0,7.0,8.0
d,,,
e,,,


In [None]:
states = ['Utah', 'Texas', 'California', 'NY']

frame.reindex(columns = states)

Unnamed: 0,Utah,Texas,California,NY
a,,1,2,
b,,4,5,
c,,7,8,


Removendo (dropando) entrada dos eixos

In [None]:
obj = pd.Series(np.arange(5.), index = ['a', 'b', 'c', 'd', 'e'])

new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [None]:
##sempre que formos nos expressar para mais de um valor em Python, usamos uma lista

obj.drop(['c', 'd'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [None]:
##Exemplo

data = pd.DataFrame(np.arange(16).reshape(4,4), index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns = ['one', 'two', 'three', 'four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
##removendo o indice:

data.drop(['Ohio', 'Colorado'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
##explicitando a localização:
##Conceito importante
data.drop('two', axis = 1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [None]:
##também podemos nos referir ao índice 1 como columns

data.drop(['two', 'four'], axis = 'columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


Conceito de Pandas:

Seleção e filtro

In [None]:
obj = pd.Series(np.arange(4.), index = ['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [None]:
##Relembrando:

obj['b']

1.0

In [None]:
obj[1]

1.0

In [None]:
obj[['b', 'a', 'c']]

b    1.0
a    0.0
c    2.0
dtype: float64

In [None]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [None]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [None]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [None]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [None]:
##exemplo

data = pd.DataFrame(np.arange(16).reshape(4,4),
                    index = ['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns = ['one', 'two', 'three', 'four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [None]:
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [None]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [None]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [None]:
##usando loc e iloc

##prestar atenção nos colchetes!!

data.loc['Colorado', ['two', 'three']]

two      5
three    6
Name: Colorado, dtype: int64

In [None]:
data.iloc[1, [3, 0, 1]]

four    7
one     0
two     5
Name: Colorado, dtype: int64

In [None]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [None]:
data.iloc[[2,1], [3,0,1]]

Unnamed: 0,four,one,two
Utah,11,8,9
Colorado,7,0,5


In [None]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [None]:
##podemos combinar os elementos:

data.iloc[:,:3][data.three > 5]

##explique como o processo ocorre!

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [None]:
##Para a proxima semana:

##explicar a tabela 5-4

##valendo nota

In [None]:
##Mapeamento de funções

frame = pd.DataFrame(np.random.randn(4,3), columns = list('bde'), index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

frame

Unnamed: 0,b,d,e
Utah,-0.31136,-0.312432,0.194369
Ohio,0.225634,-1.133241,-0.32716
Texas,-0.676969,-2.405284,0.065796
Oregon,0.431451,0.646416,2.409476


In [None]:
##vamos criar uma função que calcula o minimo e o maximo para cada elemento

def f(x):
  return pd.Series([x.min(), x.max()], index = ['min', 'max'])

frame.apply(f)

Unnamed: 0,b,d,e
min,-0.676969,-2.405284,-0.32716
max,0.431451,0.646416,2.409476


In [None]:
##exercicio criar uma função que contenha da biblioteca stats as funções de estatística decritiva: 
##média, moda, desvio padrão, variancia e mediana
##e aplicar num dataset

In [None]:
##exemplo, pegando apenas dois dígitos usando applymap

format = lambda x: '%.2f' %x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,-0.31,-0.31,0.19
Ohio,0.23,-1.13,-0.33
Texas,-0.68,-2.41,0.07
Oregon,0.43,0.65,2.41
