# Pandas

Pandas é uma biblioteca open source do Python para análise de dados. Python sempre foi muito bom para preparação de dados, mas tão bom para análise, geralmente prefeririam R ou usando o banco de dados e manupular via SQL. Pandas torna o Python ótimo para análise de dados.


## Series

Uma Series é um objeto uni-dimensional similar ao ndarray do numpy, lista, ou uma coluna em uma tabela. Cada elemento é indexidado por um rótulo. Por padrão, cada elemento recebe rótulo de 0 a N, onde N é o comprimento da Series menos um.

Tem varias formas de criar uma Series, vamos exemplificar apenas duas:

In [35]:
import pandas as pd
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'])
s

0                7
1       Heisenberg
2             3.14
3      -1789710578
4    Happy Eating!
dtype: object

In [36]:
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'],
             index=['A', 'B', 'Z', 'I', 'J'])
s

A                7
B       Heisenberg
Z             3.14
I      -1789710578
J    Happy Eating!
dtype: object

Você pode utilizar indices para selecionar elementos especificos, similar ao numpy.

In [37]:
s['I']

-1789710578

In [38]:
s[['A', 'Z', 'J']]

A                7
Z             3.14
J    Happy Eating!
dtype: object

In [39]:
s[s > 'H']

B       Heisenberg
J    Happy Eating!
dtype: object

A series são um pouco mais flexíveis do que ndarray, como visto no exemplo anterior. Além disso, possuem quase todas as operações aritiméticas dos ndarray.

In [40]:
s[s < 10] / 3

A       2.33333
Z       1.04667
I   -5.9657e+08
dtype: object

In [41]:
s[s < 10] * s[s < 10]

A                     49
Z                 9.8596
I    3203063953005094084
dtype: object

In [42]:
import numpy as np
s[s  < 10].sum()

-1789710567.86

Valores nulos ou faltante, podem ser tratados com método isnull

In [43]:
s =pd.Series({'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None})

s.isnull()

Austin           False
Boston            True
Chicago          False
New York         False
Portland         False
San Francisco    False
dtype: bool

In [44]:
s.dropna() # ignorando valores nulos

Austin            450.0
Chicago          1000.0
New York         1300.0
Portland          900.0
San Francisco    1100.0
dtype: float64

In [45]:
soma = s.sum() # ignora valores nulos

soma == s.dropna().sum()

True

In [46]:
print(np.square(s)) # funções numpy funcionam

Austin            202500.0
Boston                 NaN
Chicago          1000000.0
New York         1690000.0
Portland          810000.0
San Francisco    1210000.0
dtype: float64


In [47]:
print(np.log(s))

Austin           6.109248
Boston                NaN
Chicago          6.907755
New York         7.170120
Portland         6.802395
San Francisco    7.003065
dtype: float64


## DataFrame

Um DataFrame é uma estrutura de dados tabular composta de linhas e colunas, similar a uma planilha excel, tabela de conjunto de dados, ou objeto data.frame do R (spoiler). Podemos também olhar para o DataFrame como um grupo de Series que compartilham um indice.

### Criando DataFrames

Uma forma de criar DataFrame a partir de estruturas de dados python é através de um dicionário de listas (outros modos ver [pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)).

In [48]:
data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Bears', 'Bears', 'Bears', 'Packers', 'Packers', 'Lions', 'Lions', 'Lions'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}
football = pd.DataFrame(data, columns=['year', 'team', 'wins', 'losses'])
football

Unnamed: 0,year,team,wins,losses
0,2010,Bears,11,5
1,2011,Bears,8,8
2,2012,Bears,10,6
3,2011,Packers,15,1
4,2012,Packers,11,5
5,2010,Lions,6,10
6,2011,Lions,10,6
7,2012,Lions,4,12


Uma forma muito mais comum é de um conjunto de dados persistido no disco em algum formato de panilha. Por exemplo, .csv e .xlsx. Felizmente, pandas provê meios de fazer isso de forma muito fácil e intuitiva.

# Lendo Arquivos CSV

In [49]:
import os
import urllib

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
file_path = "dados/iris-dataset.csv"

# baixa se arquivo não existe
if not os.path.isfile(file_path):
    print(url)
    urllib.urlretrieve(url, file_path)

In [50]:
!head -n 10 dados/iris-dataset.csv

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa


In [51]:
df = pd.read_csv(file_path, 
                 header=None,
                 names=['sepal length', 
                        'sepal width', 
                        'petal length', 
                        'petal width', 
                        'species'])

O arquivo acima não tem cabeçalho, por causa disso nós passamos None para o argumento header. Por padrão, a primeira linha do csv é considerado a cabeçalho, todavia, é possível alterar esse comportamento através do argumento header.

Por causa da falta de header no arquivo tivemos de adicionar os nomes das colunas manualmente com o argumento names.

Vamos dar uma olhada nos dados, com a função head do pandas.

In [52]:
df.head(10)

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [53]:
df.tail(10)

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
140,6.7,3.1,5.6,2.4,Iris-virginica
141,6.9,3.1,5.1,2.3,Iris-virginica
142,5.8,2.7,5.1,1.9,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


## Estatísticas Básicas

Nós conseguimos obter facilmente estatísticas básicas com pandas.DataFrame utilizando a função describe.

In [54]:
df.describe()

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Por padrão, a função describe só mostra as estatísticas de colunas numéricas, como pode ser observado no exemplo anterior. Vamos então forçá-la a mostrar as estatísticas da coluna categórica (species).

In [55]:
df.describe(include="all")

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
count,150.0,150.0,150.0,150.0,150
unique,,,,,3
top,,,,,Iris-setosa
freq,,,,,50
mean,5.843333,3.054,3.758667,1.198667,
std,0.828066,0.433594,1.76442,0.763161,
min,4.3,2.0,1.0,0.1,
25%,5.1,2.8,1.6,0.3,
50%,5.8,3.0,4.35,1.3,
75%,6.4,3.3,5.1,1.8,


### Número de instancias no DataFrame

Pandas DataFrame e Series ambos possuem a atributo shape, igual aos ndarray do numpy, com os quais conseguimos saber quantas linhas e colunas uma tabela tem.

In [56]:
df.shape

(150, 5)

nome das colunas...

In [57]:
df.columns

Index([u'sepal length', u'sepal width', u'petal length', u'petal width',
       u'species'],
      dtype='object')

## Indexação

Por padrão, a indexação por colchetes é sobre as colunas em pandas. Por exemplo:

In [58]:
df['sepal length']

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
5      5.4
6      4.6
7      5.0
8      4.4
9      4.9
10     5.4
11     4.8
12     4.8
13     4.3
14     5.8
15     5.7
16     5.4
17     5.1
18     5.7
19     5.1
20     5.4
21     5.1
22     4.6
23     5.1
24     4.8
25     5.0
26     5.0
27     5.2
28     5.2
29     4.7
      ... 
120    6.9
121    5.6
122    7.7
123    6.3
124    6.7
125    7.2
126    6.2
127    6.1
128    6.4
129    7.2
130    7.4
131    7.9
132    6.4
133    6.3
134    6.1
135    7.7
136    6.3
137    6.4
138    6.0
139    6.9
140    6.7
141    6.9
142    5.8
143    6.8
144    6.7
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal length, Length: 150, dtype: float64

In [59]:
df[['sepal length', 'sepal width']]

Unnamed: 0,sepal length,sepal width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
5,5.4,3.9
6,4.6,3.4
7,5.0,3.4
8,4.4,2.9
9,4.9,3.1


#### Indexação por linhas

Há vários modos de fazer indexação por linhas no pandas. Um dos mais comuns é via indexação booleana (similar ao numpy). Essa abortagem é muito utilizada para filtrar valores.

In [60]:
# criando array de falses com mesmo tamanho
# do dataframe
idx = np.zeros(df.shape[0], dtype=bool)

# como todos os indices são falsos
# vou ter como resposta um dataframe vazio
df[idx]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species


O exemplo acima era meramente ilustrativo. Vamos filtrar agora pela largura da sepala que são menores que a média.

In [61]:
# calculando média com método nativo do DataFrame
mean_sepal_width = df['sepal width'].mean()

# gerando indices booleanos
idx = df['sepal width'] < mean_sepal_width

# imprimindo algumas infos
print("Media da largura da sepala :", mean_sepal_width)
print("Total de elementos apos filtro:", df[idx].shape[0])

df[idx]

('Media da largura da sepala :', 3.0540000000000003)
('Total de elementos apos filtro:', 83)


Unnamed: 0,sepal length,sepal width,petal length,petal width,species
1,4.9,3.0,1.4,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
12,4.8,3.0,1.4,0.1,Iris-setosa
13,4.3,3.0,1.1,0.1,Iris-setosa
25,5.0,3.0,1.6,0.2,Iris-setosa
38,4.4,3.0,1.3,0.2,Iris-setosa
41,4.5,2.3,1.3,0.3,Iris-setosa
45,4.8,3.0,1.4,0.3,Iris-setosa
53,5.5,2.3,4.0,1.3,Iris-versicolor
54,6.5,2.8,4.6,1.5,Iris-versicolor


podemos cobinar mais espressões booleanas utilizando operadores lógicos

In [62]:
# calculando média com método nativo do DataFrame
mean_sepal_width = df['sepal width'].mean()
mean_petal_width = df['petal width'].mean()

# gerando indices booleanos
idx = (df['sepal width'] < mean_sepal_width) & \
            ~(df['petal width'] < mean_petal_width)

# imprimindo algumas infos
print("Media da largura da sepala :", mean_sepal_width)
print("Total de elementos apos filtro:", df[idx].shape[0])

df[idx]

('Media da largura da sepala :', 3.0540000000000003)
('Total de elementos apos filtro:', 65)


Unnamed: 0,sepal length,sepal width,petal length,petal width,species
53,5.5,2.3,4.0,1.3,Iris-versicolor
54,6.5,2.8,4.6,1.5,Iris-versicolor
55,5.7,2.8,4.5,1.3,Iris-versicolor
58,6.6,2.9,4.6,1.3,Iris-versicolor
59,5.2,2.7,3.9,1.4,Iris-versicolor
61,5.9,3.0,4.2,1.5,Iris-versicolor
63,6.1,2.9,4.7,1.4,Iris-versicolor
64,5.6,2.9,3.6,1.3,Iris-versicolor
66,5.6,3.0,4.5,1.5,Iris-versicolor
68,6.2,2.2,4.5,1.5,Iris-versicolor


### Exercício

Crie um pandas.DataFrame para cada espécie de flor iris. Utilize a técnica de filtragem mostrada anteriormente.

In [63]:
## exercício
## a função unique() retorna todos os valore unicos para um pd.DataFrame
df.species.unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

#### Loc

A função loc nos permite fazer indexação como o numpy no eixo das linhas da tabela.

In [64]:
df.loc[[0, 1, 2]]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa


In [65]:
df.loc[0:3] # diferente do python, ela inclui o ultimo elemento

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa


porém, só é possível fazer as operações no dominio do df.index

In [66]:
df.index

RangeIndex(start=0, stop=150, step=1)

In [67]:
# por exemplo, não vai aceitar o indexação negativa
df.loc[-1]

KeyError: 'the label [-1] is not in the [index]'

se alterarmos o indice

In [68]:
df.index = pd.RangeIndex(-df.shape[0], 0, 1)
df

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
-150,5.1,3.5,1.4,0.2,Iris-setosa
-149,4.9,3.0,1.4,0.2,Iris-setosa
-148,4.7,3.2,1.3,0.2,Iris-setosa
-147,4.6,3.1,1.5,0.2,Iris-setosa
-146,5.0,3.6,1.4,0.2,Iris-setosa
-145,5.4,3.9,1.7,0.4,Iris-setosa
-144,4.6,3.4,1.4,0.3,Iris-setosa
-143,5.0,3.4,1.5,0.2,Iris-setosa
-142,4.4,2.9,1.4,0.2,Iris-setosa
-141,4.9,3.1,1.5,0.1,Iris-setosa


In [69]:
df.loc[-3:-1]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
-3,6.5,3.0,5.2,2.0,Iris-virginica
-2,6.2,3.4,5.4,2.3,Iris-virginica
-1,5.9,3.0,5.1,1.8,Iris-virginica


outro modo é fazer slicing no index e ultilizá-lo.

In [70]:
# resetando index
df.index = pd.RangeIndex(0, df.shape[0])
df.loc[df.index[-4:-1]]

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Além disso, a função loc recebe um segundo parâmetro, que é o subconjunto de colunas que vai retornar (o padrão é todas).

In [71]:
df.loc[df.index[-4:-1], "sepal length"]

146    6.3
147    6.5
148    6.2
Name: sepal length, dtype: float64

In [72]:
df.loc[df.index[-4:-1], ["species", "sepal length"]]

Unnamed: 0,species,sepal length
146,Iris-virginica,6.3
147,Iris-virginica,6.5
148,Iris-virginica,6.2


## Transformações com apply

A função apply aplica um função sobre algum dos eixos.

Quando utilizamos em uma coluna específica, estamos chamando a função apply do Series e não do DataFrame. Elas funcionam um pouquinho diferente. Vamos focar primeiro na da Series, pois é mais fácil.

No exemplo abaixo queremos remover "Iris-" dos valores da coluna "species".

In [73]:
# apply
df.species.apply(lambda x: x.split("-")[-1])

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
5         setosa
6         setosa
7         setosa
8         setosa
9         setosa
10        setosa
11        setosa
12        setosa
13        setosa
14        setosa
15        setosa
16        setosa
17        setosa
18        setosa
19        setosa
20        setosa
21        setosa
22        setosa
23        setosa
24        setosa
25        setosa
26        setosa
27        setosa
28        setosa
29        setosa
         ...    
120    virginica
121    virginica
122    virginica
123    virginica
124    virginica
125    virginica
126    virginica
127    virginica
128    virginica
129    virginica
130    virginica
131    virginica
132    virginica
133    virginica
134    virginica
135    virginica
136    virginica
137    virginica
138    virginica
139    virginica
140    virginica
141    virginica
142    virginica
143    virginica
144    virginica
145    virginica
146    virginica
147    virgini

Similarmente a função ```map``` do python, a apply aplica a cada elemento da pd.Series uma função e retorna uma nova pd.Series como os valores alterados de acordo com a função.

Para coluna do tipo string, podemos aplicar as funções da string utilizando o atributo str. Vejamos o exemplo a seguir.

In [74]:
df.species.str.upper().str.split("-")

0         [IRIS, SETOSA]
1         [IRIS, SETOSA]
2         [IRIS, SETOSA]
3         [IRIS, SETOSA]
4         [IRIS, SETOSA]
5         [IRIS, SETOSA]
6         [IRIS, SETOSA]
7         [IRIS, SETOSA]
8         [IRIS, SETOSA]
9         [IRIS, SETOSA]
10        [IRIS, SETOSA]
11        [IRIS, SETOSA]
12        [IRIS, SETOSA]
13        [IRIS, SETOSA]
14        [IRIS, SETOSA]
15        [IRIS, SETOSA]
16        [IRIS, SETOSA]
17        [IRIS, SETOSA]
18        [IRIS, SETOSA]
19        [IRIS, SETOSA]
20        [IRIS, SETOSA]
21        [IRIS, SETOSA]
22        [IRIS, SETOSA]
23        [IRIS, SETOSA]
24        [IRIS, SETOSA]
25        [IRIS, SETOSA]
26        [IRIS, SETOSA]
27        [IRIS, SETOSA]
28        [IRIS, SETOSA]
29        [IRIS, SETOSA]
             ...        
120    [IRIS, VIRGINICA]
121    [IRIS, VIRGINICA]
122    [IRIS, VIRGINICA]
123    [IRIS, VIRGINICA]
124    [IRIS, VIRGINICA]
125    [IRIS, VIRGINICA]
126    [IRIS, VIRGINICA]
127    [IRIS, VIRGINICA]
128    [IRIS, VIRGINICA]


A função apply no DataFrame é similar, porém podemos definir em qual eixo (linhas ou colunas) queremos aplicar a transformação.

In [75]:
# axis=0 a função recebe uma coluna inteira
# vamos então transformar as colunas numéricas
# deixando seus valores numa escala entre 0 e 1
df[['sepal length', 'sepal width', 'petal length', 'petal width']].\
    apply(lambda x: (x - x.min()) / (x.max() - x.min()) ,  axis=0)

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
5,0.305556,0.791667,0.118644,0.125000
6,0.083333,0.583333,0.067797,0.083333
7,0.194444,0.583333,0.084746,0.041667
8,0.027778,0.375000,0.067797,0.041667
9,0.166667,0.458333,0.084746,0.000000


In [76]:
# axis=1 a função recebe linha a linha
# vamos então transformar as colunas numéricas
# deixando seus valores numa escala entre 0 e 1
df[['sepal length', 'sepal width', 'petal length', 'petal width']].\
    apply(lambda x: (x - x.min()) / (x.max() - x.min()) ,  axis=1)

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,1.0,0.673469,0.244898,0.0
1,1.0,0.595745,0.255319,0.0
2,1.0,0.666667,0.244444,0.0
3,1.0,0.659091,0.295455,0.0
4,1.0,0.708333,0.250000,0.0
5,1.0,0.700000,0.260000,0.0
6,1.0,0.720930,0.255814,0.0
7,1.0,0.666667,0.270833,0.0
8,1.0,0.642857,0.285714,0.0
9,1.0,0.625000,0.291667,0.0


In [77]:
df

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


## Groupby

Uma operação muito importante é o groupby. Com ele somos capazes de agrupar nossas linhas a partir de valores iguais de colunas. Vamos calcular a média das variáveis númerias para valor da coluna categória "species".

In [78]:
df.groupby("species").mean()

Unnamed: 0_level_0,sepal length,sepal width,petal length,petal width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.006,3.418,1.464,0.244
Iris-versicolor,5.936,2.77,4.26,1.326
Iris-virginica,6.588,2.974,5.552,2.026


In [79]:
df.groupby("species").std()

Unnamed: 0_level_0,sepal length,sepal width,petal length,petal width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,0.35249,0.381024,0.173511,0.10721
Iris-versicolor,0.516171,0.313798,0.469911,0.197753
Iris-virginica,0.63588,0.322497,0.551895,0.27465


In [80]:
df.groupby("species").agg(['mean', 'std'])

Unnamed: 0_level_0,sepal length,sepal length,sepal width,sepal width,petal length,petal length,petal width,petal width
Unnamed: 0_level_1,mean,std,mean,std,mean,std,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Iris-setosa,5.006,0.35249,3.418,0.381024,1.464,0.173511,0.244,0.10721
Iris-versicolor,5.936,0.516171,2.77,0.313798,4.26,0.469911,1.326,0.197753
Iris-virginica,6.588,0.63588,2.974,0.322497,5.552,0.551895,2.026,0.27465


In [81]:
# escalando por grupo
df.groupby("species").transform(lambda x: (x - x.min()) / (x.max() - x.min()))

Unnamed: 0,sepal length,sepal width,petal length,petal width
0,0.533333,0.571429,0.444444,0.200000
1,0.400000,0.333333,0.444444,0.200000
2,0.266667,0.428571,0.333333,0.200000
3,0.200000,0.380952,0.555556,0.200000
4,0.466667,0.619048,0.444444,0.200000
5,0.733333,0.761905,0.777778,0.600000
6,0.200000,0.523810,0.444444,0.400000
7,0.466667,0.523810,0.555556,0.200000
8,0.066667,0.285714,0.444444,0.200000
9,0.400000,0.380952,0.555556,0.000000


In [82]:
# equivalente a
# df.species.value_counts() 
df.groupby("species").species.count()

species
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: species, dtype: int64

## Mesclando tabelas

O pandas provê a função merge, que nos permite mesclar duas tabelas levando em conta o valor de uma ou mais colunas.

```python
pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False)
```

In [83]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                         'A': ['A0', 'A1', 'A2', 'A3'],
                         'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

print(left)
print("")
print(right)

    A   B key
0  A0  B0  K0
1  A1  B1  K1
2  A2  B2  K2
3  A3  B3  K3

    C   D key
0  C0  D0  K0
1  C1  D1  K1
2  C2  D2  K2
3  C3  D3  K3


In [84]:
pd.merge(left, right, on="key")

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K2,C2,D2
3,A3,B3,K3,C3,D3


In [85]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                         'key2': ['K0', 'K1', 'K0', 'K1'],
                         'A': ['A0', 'A1', 'A2', 'A3'],
                         'B': ['B0', 'B1', 'B2', 'B3']})
    

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                          'key2': ['K0', 'K0', 'K0', 'K0'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})

print(left)
print("")
print(right)

    A   B key1 key2
0  A0  B0   K0   K0
1  A1  B1   K0   K1
2  A2  B2   K1   K0
3  A3  B3   K2   K1

    C   D key1 key2
0  C0  D0   K0   K0
1  C1  D1   K1   K0
2  C2  D2   K1   K0
3  C3  D3   K2   K0


In [86]:
pd.merge(left, right, on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2


### Métodos de Mesclagem

| Método | SQL Join         
| :- |:--------:
| left | LEFT OUTER JOIN
| right | RIGHT OUTER JOIN
| outer | FULL OUTER JOIN
| inner | INNER JOIN

|  | 
| :- |:--------:
| ![left join](img_leftjoin.gif) | ![right join](img_rightjoin.gif) | ![outer join](img_fulljoin.gif) | ![inner join](img_innerjoin.gif) |

\**imagem tirada de (https://www.w3schools.com/sql/sql_join.asp)*

In [87]:
print(left)
print("")
print(right)

    A   B key1 key2
0  A0  B0   K0   K0
1  A1  B1   K0   K1
2  A2  B2   K1   K0
3  A3  B3   K2   K1

    C   D key1 key2
0  C0  D0   K0   K0
1  C1  D1   K1   K0
2  C2  D2   K1   K0
3  C3  D3   K2   K0


In [88]:
pd.merge(left, right, how='left', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,


In [89]:
print(left)
print("")
print(right)

    A   B key1 key2
0  A0  B0   K0   K0
1  A1  B1   K0   K1
2  A2  B2   K1   K0
3  A3  B3   K2   K1

    C   D key1 key2
0  C0  D0   K0   K0
1  C1  D1   K1   K0
2  C2  D2   K1   K0
3  C3  D3   K2   K0


In [90]:
pd.merge(left, right, how='right', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A2,B2,K1,K0,C1,D1
2,A2,B2,K1,K0,C2,D2
3,,,K2,K0,C3,D3


In [91]:
print(left)
print("")
print(right)

    A   B key1 key2
0  A0  B0   K0   K0
1  A1  B1   K0   K1
2  A2  B2   K1   K0
3  A3  B3   K2   K1

    C   D key1 key2
0  C0  D0   K0   K0
1  C1  D1   K1   K0
2  C2  D2   K1   K0
3  C3  D3   K2   K0


In [92]:
pd.merge(left, right, how='outer', on=['key1', 'key2'])

Unnamed: 0,A,B,key1,key2,C,D
0,A0,B0,K0,K0,C0,D0
1,A1,B1,K0,K1,,
2,A2,B2,K1,K0,C1,D1
3,A2,B2,K1,K0,C2,D2
4,A3,B3,K2,K1,,
5,,,K2,K0,C3,D3


## Exercício

### Lendo outros formatos

Com pandas é possível ler arquivos nos mais variados formatos, não só csv. Um desses formatos é o json.
A leitura em formatos json é tão fácil quanto csv. Na pasta "aula 03" há um arquivo pessoas.json, peço que o abram com editor de texto padrão e vejam como está estruturado. Após analizarem, leiam a documentação do pandas na internet para descobrir como ler json. 

In [95]:
# código para ler o arquivo pessoas.json com pandas