# AULA - 11

## Introdução a Pandas

Neste notebook abordaremos os temas introdutórios à biblioteca "Pandas" do Python.
Em tópicos, este notebook conterá:

> Series

> DataFrames


Primeiro temos de importar as bibliotecas que iremos utilizar, assim como feito nas aulas anteriores.

In [1]:
import numpy as np
import pandas as pd

Feito isso, podemos começar a utilizar o Pandas

### Series

As series são uma versão simplificada dos DataFrames, que veremos a seguir.
Nós podemos fazer com que diversas variáveis fiquem relacionadas através de uma tabela, que será organizada pelos parâmetros da função.

In [2]:
lista = [10,20,30]
array = np.array([15,30,45])
dic = {'a':20, 'b': 40, 'c': 60}

In [3]:
series = pd.Series(data=lista,index=dic)

Como pode ver, o primeiro parâmetro se refere ao conteúdo da lista, enquanto o segundo parâmetro se refere aos indices dos quais o conteúdo será relacionado.

In [4]:
series

a    10
b    20
c    30
dtype: int64

Você pode fazer operações entre series, elas funcionarão de forma parecida aos arrays e listas, porém serão relacionadas ao indice passado.

Os indices que forem comum entre as series envolvidas na operação farão a operação desejada, já os indices que não possuem um indice equivalente na outra series, irá retornar "NaN"

In [5]:
paises = ['brasil','russia','nepal','belize']
conteudo = [20,30,25,5]
series1 = pd.Series(conteudo,paises)
paises2 = ['venezuela','russia','japão','belize']
conteudo2 = [20,30,25,5]
series2 = pd.Series(conteudo2,paises2)

In [6]:
series1

brasil    20
russia    30
nepal     25
belize     5
dtype: int64

In [7]:
series2

venezuela    20
russia       30
japão        25
belize        5
dtype: int64

In [8]:
series1 + series2

belize       10.0
brasil        NaN
japão         NaN
nepal         NaN
russia       60.0
venezuela     NaN
dtype: float64

Como pode ver acima, os valores relacionados foram somados, enquanto os valores únicos de uma series retornaram 'NaN'.

### DataFrames

Os DataFrames são uma das partes, se não a parte mais impotante de todo o curso, pois serão utilizados ao longo de toda sua duração e são uma das principais ferramentas para o tratamento de dados.

Eles são uma versão mais sofisticada das Series, onde é incluido também um parâmetro para colunas.

In [9]:
np.random.seed(101)

In [10]:
conteudo = np.random.randn(5,4)
indice = ['A','B','C','D','E']
colunas = ['X','Y','K','Z']
df = pd.DataFrame(conteudo,indice,colunas)
df

Unnamed: 0,X,Y,K,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Como pode ver, além de a visualização ser mais detalhada, tambem há a adição da nomenclatura de colunas, o que o deixa bem relacionado e parecido com o Excel.

Para extrair os dados de um DataFrame, é parecido com a notação utilizada para a extração de dados de dicionários.

A notação abaixo serve para extrair colunas.

In [11]:
df['X']

A    2.706850
B    0.651118
C   -2.018168
D    0.188695
E    0.190794
Name: X, dtype: float64

Se verificarmos o tipo dos dados retirados de uma coluna de um Dataframe veremos que são Series.

In [12]:
type(df['X'])

pandas.core.series.Series

Já o tipo do DataFrame como um todo será, claro, um DataFrame.

In [13]:
type(df)

pandas.core.frame.DataFrame

Para adicionar uma nova coluna ao DataFrame, podemos fazer da seguinte forma:

In [14]:
df['nova'] = df['X'] + df['Z']

In [15]:
df

Unnamed: 0,X,Y,K,Z,nova
A,2.70685,0.628133,0.907969,0.503826,3.210676
B,0.651118,-0.319318,-0.848077,0.605965,1.257083
C,-2.018168,0.740122,0.528813,-0.589001,-2.607169
D,0.188695,-0.758872,-0.933237,0.955057,1.143752
E,0.190794,1.978757,2.605967,0.683509,0.874303


Como pode ver foi adicionada uma nova coluna, onde o conteúdo dela é a soma de outras duas colunas.

Para excluir esta ou outras colunas do DataFrame, podemos fazer da seguinte forma:

In [16]:
df.drop('nova',axis=1)

Unnamed: 0,X,Y,K,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


Como pode ver, a coluna anteriormente adicionada foi excluida, porém não foi atribuida a variavel, logo ela foi removida apenas para esta apresentação acima.

Quanto ao parâmetro "axis" serve para direcionar onde é para a exclusão ser feita, por padrão ela tem valor 0, porém isso se refere aos indices.

Temos duas formas de atribuir esta mudança na variável, a atribuição direta ou a atribuição por inplace.

In [17]:
df2 = df

In [18]:
# ATRIBUIÇÃO DIRETA
df2 = df.drop('nova',axis=1)
#ARTIBUIÇÃO POR INPLACE
df.drop('nova',axis=1,inplace=True)

Para extrairmos um dado expecífico da tabela podemos usar a função .Loc().

In [19]:
df.loc['A','Z']

0.5038257538223936

Onde o primeiro parâmetro passado entre os colchetes se refere ao indice desejado, enquanto o segundo se refere à coluna desejada.

Caso seja passado apenas o primeiro parâmetro, ele retornará toda a linha.

In [20]:
df.loc['B']

X    0.651118
Y   -0.319318
K   -0.848077
Z    0.605965
Name: B, dtype: float64

Pode ser usado também a função .iloc[], ela funciona da mesma forma, porém é utilizada a notação de NumPy, ou seja números. Veja a seguir.

In [21]:
df.iloc[2:4,2:]

Unnamed: 0,K,Z
C,0.528813,-0.589001
D,-0.933237,0.955057
