# Pandas - Indexação e Seleção de dados no Dataframe

## Pandas

O pandas é uma ferramenta de análise e manipulação de dados de código aberto rápida, poderosa, flexível e fácil de usar,
construída sobre a linguagem de programação Python 

https://pandas.pydata.org/


## Estruturas de dados do Pandas


In [1]:
import numpy as np
import pandas as pd

## Indexação / seleção 
Os princípios básicos da indexação são os seguintes:

- Selecione a coluna: df[col]
- Selecione linha por etiqueta: df.loc[label]
- Selecione linha por localização de inteiro: df.iloc[loc]
- Fatia de linhas: df[5:10]
- Selecione as linhas por vetor booleano: df[bool_vec]

In [2]:
df = pd.read_csv('totaisestados_arr.csv', sep=';',names =['UF','CASOS','OBITOS'])
df.head()

Unnamed: 0,UF,CASOS,OBITOS
0,DF,955540,12025
1,GO,2060518,28669
2,MS,637169,11305
3,MT,921447,15253
4,AL,348701,7355


## seleção de linha

In [3]:
df.loc[1]

UF             GO
CASOS     2060518
OBITOS      28669
Name: 1, dtype: object

In [4]:
df.iloc[2]

UF            MS
CASOS     637169
OBITOS     11305
Name: 2, dtype: object

In [5]:
df[5:9]

Unnamed: 0,UF,CASOS,OBITOS
5,BA,1844481,32034
6,CE,1508135,28215
7,MA,501121,11103
8,PB,725917,10669


In [9]:
filtro  = df['CASOS'] > 1000000
filtro
df[filtro] 

Unnamed: 0,UF,CASOS,OBITOS
1,GO,2060518,28669
5,BA,1844481,32034
6,CE,1508135,28215
9,PE,1235360,23240
20,ES,1384800,15214
21,MG,4335714,66850
22,RJ,2966219,78238
23,SP,6907741,184235
24,PR,3031840,47029
25,RS,3144956,43044


In [10]:
df[ df['CASOS'] > 1000000]

Unnamed: 0,UF,CASOS,OBITOS
1,GO,2060518,28669
5,BA,1844481,32034
6,CE,1508135,28215
9,PE,1235360,23240
20,ES,1384800,15214
21,MG,4335714,66850
22,RJ,2966219,78238
23,SP,6907741,184235
24,PR,3031840,47029
25,RS,3144956,43044


In [13]:
df['CASOS'][df['CASOS'] > 3000000]

21    4335714
23    6907741
24    3031840
25    3144956
Name: CASOS, dtype: int64

In [20]:
df['CASOS'][-10:]

17     505111
18     190318
19     382320
20    1384800
21    4335714
22    2966219
23    6907741
24    3031840
25    3144956
26    2089867
Name: CASOS, dtype: int64

In [22]:
df['CASOS'][:10]

0     955540
1    2060518
2     637169
3     921447
4     348701
5    1844481
6    1508135
7     501121
8     725917
9    1235360
Name: CASOS, dtype: int64

In [15]:
df[ df['CASOS'] > 3000000] ['CASOS']

21    4335714
23    6907741
24    3031840
25    3144956
Name: CASOS, dtype: int64

In [16]:
df.columns

Index(['UF', 'CASOS', 'OBITOS'], dtype='object')

In [17]:
df2 =  df[['UF', 'OBITOS', 'CASOS']]
df2

Unnamed: 0,UF,OBITOS,CASOS
0,DF,12025,955540
1,GO,28669,2060518
2,MS,11305,637169
3,MT,15253,921447
4,AL,7355,348701
5,BA,32034,1844481
6,CE,28215,1508135
7,MA,11103,501121
8,PB,10669,725917
9,PE,23240,1235360


In [25]:
df3 = df.sort_values(by='OBITOS', ascending=False)
df.reset_index(inplace=True, drop=True)
df3

Unnamed: 0,UF,CASOS,OBITOS
23,SP,6907741,184235
22,RJ,2966219,78238
21,MG,4335714,66850
24,PR,3031840,47029
25,RS,3144956,43044
5,BA,1844481,32034
1,GO,2060518,28669
6,CE,1508135,28215
9,PE,1235360,23240
26,SC,2089867,23145


In [24]:
df3 = df.sort_values(by='CASOS', ascending=False)
df3.reset_index(inplace=True, drop=True)
df3

Unnamed: 0,UF,CASOS,OBITOS
0,SP,6907741,184235
1,MG,4335714,66850
2,RS,3144956,43044
3,PR,3031840,47029
4,RJ,2966219,78238
5,SC,2089867,23145
6,GO,2060518,28669
7,BA,1844481,32034
8,CE,1508135,28215
9,ES,1384800,15214
