# Introdução Pandas

https://pandas.pydata.org/docs/

Nesta seção do curso, aprenderemos a usar pandas para análise de dados. Você deve enxergar o pandas como uma versão extremamente poderosa do Excel, com muito mais recursos. Nesta seção do curso, você deve passar pelos notebooks nesta ordem:

* Introdução aos Pandas
* Series
* DataFrames
* Leitura de Arquivos (.csv)

# (1) Series

O primeiro tipo de dado que aprenderemos é a Serie. Vamos importar Pandas e explorar tal objeto.

A Serie é muito semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy). O que diferencia a matriz NumPy de uma Série, é que uma Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica. Também não precisa manter dados numéricos, ele pode conter qualquer objeto Python arbitrário.

Vamos explorar este conceito através de alguns exemplos:

In [1]:
import numpy as np
import pandas as pd

### Criando uma Serie

Você pode converter uma lista, numpy array ou dicionário para uma série:

In [2]:
labels = ['a','b','c']
minha_lista = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

** Usando listas **

In [3]:
pd.Series(data=minha_lista)

0    10
1    20
2    30
dtype: int64

In [4]:
pd.Series(data=minha_lista,index=labels)

a    10
b    20
c    30
dtype: int64

In [5]:
pd.Series(minha_lista,labels)

a    10
b    20
c    30
dtype: int64

** NumPy Arrays **

In [6]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int64

In [7]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int64

** Dicionários **

In [8]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

## Usando um Índice

A chave para usar uma Serie é entender seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informações (funciona como um dicionário).

Veremos alguns exemplos com Series. Vamos criar duas Series, ser1 e ser2:

In [9]:
ser1 = pd.Series([1,2,3,4],index = ['A', 'B','C', 'D'])                                   

In [10]:
ser1

A    1
B    2
C    3
D    4
dtype: int64

In [11]:
ser2 = pd.Series([1,2,5,4],index = ['A', 'B','E', 'D'])                                   

In [12]:
ser2

A    1
B    2
E    5
D    4
dtype: int64

In [13]:
ser1['A']

1

As operações também são feitas com base no índice:

In [14]:
ser1 + ser2

A    2.0
B    4.0
C    NaN
D    8.0
E    NaN
dtype: float64

# (2) DataFrames

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice. Vamos usar Pandas para explorar esse tópico!

In [15]:
import pandas as pd
import numpy as np

In [16]:
from numpy.random import randn
np.random.seed(101)

In [17]:
df = pd.DataFrame(randn(5,4),index='A B C D E'.split(),columns='W X Y Z'.split())

In [18]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


## Seleção e indexação

Vamos aprender os vários métodos para pegar dados de um DataFrame

In [19]:
df['W']

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: W, dtype: float64

In [20]:
# Passando uma lista com nomes das colunas
df[['W','Z']]

Unnamed: 0,W,Z
A,2.70685,0.503826
B,0.651118,0.605965
C,-2.018168,-0.589001
D,0.188695,0.955057
E,0.190794,0.683509


As colunas dos DataFrames são Series

In [None]:
type(df['W'])

** Criando uma coluna: **

In [21]:
df['new'] = df['W'] + df['Y']

In [22]:
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


** Removendo colunas **

In [23]:
df.drop('new',axis=1)

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [24]:
# Porém, tal exclusão só ocorrerá se especificada no parâmetro inplace
df

Unnamed: 0,W,X,Y,Z,new
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


In [25]:
df.drop('new',axis=1,inplace=True)

In [26]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Também podemos deletar linhas desta forma:

In [None]:
df.drop('E',axis=0)

** Selecionando linhas: **

In [27]:
df.loc['A']

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

Ou selecione com base na posição em vez do rótulo

In [29]:
df.iloc[0]

W    2.706850
X    0.628133
Y    0.907969
Z    0.503826
Name: A, dtype: float64

** Selecionando o subconjunto de linhas e colunas **

In [30]:
df.loc['B','Y']

-0.8480769834036315

In [31]:
df.loc[['A','B'],['W','Y']]

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### Seleção condicional

Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [32]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [33]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [34]:
df[df>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,0.188695,,,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [35]:
df[df['W']>0]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [36]:
df[df['W']>0]['Y']

A    0.907969
B   -0.848077
D   -0.933237
E    2.605967
Name: Y, dtype: float64

In [37]:
df[df['W']>0][['Y','X']]

Unnamed: 0,Y,X
A,0.907969,0.628133
B,-0.848077,-0.319318
D,-0.933237,-0.758872
E,2.605967,1.978757


Para duas condições, você pode usar | e & com parênteses:

In [38]:
df[(df['W']>0) & (df['Y'] > 1)]

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509


# (3) Leitura de Arquivio (.csv)

In [None]:
import pandas as pd

In [39]:
df = pd.read_csv('exemplo.csv')

In [40]:
df

Unnamed: 0,nome,col1,col2,col3,col4
0,A,0,1,2,3
1,B,4,5,6,7
2,C,8,9,10,11
3,D,12,13,14,15


In [43]:
df['col3']

0     2
1     6
2    10
3    14
Name: col3, dtype: int64

In [47]:
df.iloc[0:3]

Unnamed: 0,nome,col1,col2,col3,col4
0,A,0,1,2,3
1,B,4,5,6,7
2,C,8,9,10,11
