### Pandas 

Pandas é uma biblioteca que surgiu em 2010 e oferece estruturas de dados que facilitam o trabalho com a análise de dados. O nome é derivado de uma mistura entre  *panel data* e *Python data analysis*.

As principais estruturas de dados do pandas são: Series e DataFrame. 

* Series: objeto unidimensional, com rótulos
* DataFrame: objeto multidimensional, com rótulos.

Essa biblioteca disponibiliza funcionalidades para indexação que facilitação a reformatação, manipulação e agregação dos dados. 

In [1]:
import pandas as pd # aqui estamos fornecendo um 'alias' ao pandas para facilitar o trabalho

#### DataFrame

O DataFrame representa uma tabela de dados retangular, uma matriz, ou ainda como se fosse uma planilha do Excel em que temos os nomes das colunas e nomes o número das linhas.

Contém uma coleção ordenada de colunas. Cada coluna pode ter um tipo de dado diferente, por exemplo, string, float, booleano, etc.

Existem diferentes formas de construir um DataFrame, vamos ver um exemplo a partir de um **dicionário**:

In [2]:
dados = {'nome' : ['Bill', 'Fill', 'Steve', 'Bob'],
        'idade' : [21, 87, 56, 43]}

In [3]:
df = pd.DataFrame(dados)

In [4]:
df

Unnamed: 0,idade,nome
0,21,Bill
1,87,Fill
2,56,Steve
3,43,Bob


Eu poderia tambem definir a ordem das colunas no momento da criação

In [5]:
df2 = pd.DataFrame(dados, columns=['nome', 'idade'])

In [6]:
df2

Unnamed: 0,nome,idade
0,Bill,21
1,Fill,87
2,Steve,56
3,Bob,43


Podemos criar a partir de uma **lista** também:

In [7]:
lista = [[1,3], [7, 4], [8,6], [9,7]] 

In [8]:
df3 = pd.DataFrame(lista, columns=['col1', 'col2'])

In [9]:
df3

Unnamed: 0,col1,col2
0,1,3
1,7,4
2,8,6
3,9,7


Nós também podemos mudar o indice, por exemplo:

In [10]:
cadastro = {'nome': ['Jolie', 'Marie', 'Bia', 'Kelly', 'Jill', 'Rachel'],
           'cor': ['red', 'blue', 'black', 'gray', 'green', 'blue']}
data = ['20/03', '21/03', '22/03', '22/03', '20/03', '21/03']

In [11]:
df4 = pd.DataFrame(cadastro, columns=['nome', 'cor'])
df4

Unnamed: 0,nome,cor
0,Jolie,red
1,Marie,blue
2,Bia,black
3,Kelly,gray
4,Jill,green
5,Rachel,blue


In [12]:
df4.index = data

In [13]:
df4

Unnamed: 0,nome,cor
20/03,Jolie,red
21/03,Marie,blue
22/03,Bia,black
22/03,Kelly,gray
20/03,Jill,green
21/03,Rachel,blue


Para acessar uma linha podemos usar o **loc** se refere ao valor do index:

In [14]:
df4.loc['20/03']

Unnamed: 0,nome,cor
20/03,Jolie,red
20/03,Jill,green


Ou o **iloc** quando se refere a posição

In [15]:
df4.iloc[0]

nome    Jolie
cor       red
Name: 20/03, dtype: object

Quando um DataFrame tem uma grande quantidade de linhas podemos usar o método **head** para selecionar as cinco primeiras linhas

In [16]:
df4.head()

Unnamed: 0,nome,cor
20/03,Jolie,red
21/03,Marie,blue
22/03,Bia,black
22/03,Kelly,gray
20/03,Jill,green


O método head permite que você determine o número de linhas que gostaria de exibir sempre considerando do inicio para o fim do DataFrame (de cima para baixo):

In [17]:
df4.head(2)

Unnamed: 0,nome,cor
20/03,Jolie,red
21/03,Marie,blue


Do contrário podemos usar o **tail** para exibir as linhas considerando o fim do DataFrame para o começo (de baixo para cima):

In [18]:
df4.tail()

Unnamed: 0,nome,cor
21/03,Marie,blue
22/03,Bia,black
22/03,Kelly,gray
20/03,Jill,green
21/03,Rachel,blue


In [19]:
df4.tail(2)

Unnamed: 0,nome,cor
20/03,Jill,green
21/03,Rachel,blue


Podemos transformar o indice novamente em numérico usando o **reset_index**:

In [20]:
df4.reset_index()

Unnamed: 0,index,nome,cor
0,20/03,Jolie,red
1,21/03,Marie,blue
2,22/03,Bia,black
3,22/03,Kelly,gray
4,20/03,Jill,green
5,21/03,Rachel,blue
