## Introdução

Importando a biblioteca.

In [3]:
import pandas as pd

Na bibliteca pandas existem dois tipos de objetos principais: o DataFrame e as Séries.

## DataFrame

É uma tabela, ele possui um array de entradas individuais, cada uma delas possui um certo valor. Cada entrada corresponde a uma linha (ou record) e uma coluna.


In [5]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})


Unnamed: 0,Yes,No
0,50,131
1,21,2




The list of row labels used in a DataFrame is known as an Index. We can assign values to it by using an index parameter in our constructor:

Estamos usando o construtor pd.DataFrame() para gerar esses objetos DataFrame. A sintaxe para declarar um novo DataFrame é um dicionário no qual as chaves são o "Sim, Não", e os valores são as entradas das listas. Esse é um padrão de construir um novo DataFrame e é o mais encontrado.

O Construtor da lista de dicionários associa valores aos títulos das colunas, um caso comum é uma contagem a partir do 0. (0,1,2,3, ...) para as novas linhas de títulos (label). As vezes está Ok, mas frequentemente será interessantes nomear esses títulos.

A lista das linhas de títulos, usado em um DataFrame é conhecido como Index. Podemos associar valores a ele usando um parâmetro do Index no construtor:

In [4]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])


Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


## Series
As séries por contraste são uma sequencia de valores. Se o DataFrame é uma tabela, a série é uma lista. E você pode criar uma série com uma simples lista.


In [6]:
pd.Series([1,2,3,4,5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

A série em essência é uma simples coluna do DataFrame. Então pode associar colunas a valores assim como no DataFrame, usando o parâmetro do Index. Porém como a Série só tem uma coluna ela e chamada de "name".
Ex:

In [7]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

É interessante pensar em um DataFrame como uma coleção, sequenia de Séries junta.

## Lendo arquivos

Data can be stored in any of a number of different forms and formats. By far the most basic of these is the humble CSV file. When you open a CSV file you get something that looks like this:

Vimos que somos capaz de criar um DataFrame ou série na mão, mas na maioria das vezes, não será feito dessa forma. No geral trabalhamos com dados já existentes. 

Dados podem ser armazenados em diferentes formas e formatos. E o tipo mais comum é o CSV. Que quando aberto é algo do tipo:

Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11

Deixando de lado os datasets exemplos, vemos um dataset real, quando lemos em um DataFrame. Para isso utilizamos, é a função pd.read_csv(), que lê dados em DataFrame. 

In [13]:
houses = pd.read_csv("/home/bruno/Documents/Python/100DaysChallenge/python/input/melb_data.csv")

Podemos usar o atributo .shape, para verificar a quantidade de dados por coluna.

In [14]:
houses.shape

(18396, 22)

Isto quer dizer que o DataSet escolhido possui 18.396 linhas com 22 colunas. 

Podemos verificar algunas valores iniciais com o comando head(), que exibe as 5 primeiras linhas.

In [16]:
houses.head()

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


The pd.read_csv() function is well-endowed, with over 30 optional parameters you can specify. For example, you can see in this dataset that the CSV file has a built-in index, which pandas did not pick up on automatically. To make pandas use that column for the index (instead of creating a new one from scratch), we can specify an index_col.

A função pd.read_csv() é bem completa, com mais de 30 parâmetros opcionais para especificar. Por exemplo, é possível ver que o Dataset possui um index, que o panda náo pode pegar automaticamente. Para fazer com que o Panda use uma coluna como index(ao inves de criar um do zero), podemos especificar isso como um index_col.

In [17]:
houses = pd.read_csv("/home/bruno/Documents/Python/100DaysChallenge/python/input/melb_data.csv", index_col=0)
houses.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


## Indexando, selecionando e associando dados

Selecionar valores específicos de DataFrames ou Séries para trabalhar, é um passo implícito em qualquer operação de análise de dados. Uma das primeiras coisas para aprender a trabalhar com dados em Python é como selecionar dados relevantes de forma rápida e efetiva.

* Naive Accessors

Objetos nativos no python fornecem uma boa forma de indexar dados. O Panda se preocupa com esse tipo de objeto.


No Python podemos acessar a propriedade de um objeto, acessando seu atributo. Um objeto livro por exemplo, deve ter uma propriedade titulo, que pode ser acessada da forma. livro.titulo. 

As colunas de um DataFrame panda, são acessadas da mesma forma: nome_df.coluna. 

Se nós temos um dicionário em Python, nós podemos acessar seu valores usando um operador de index([]). E podemos fazer o mesmo com as colunas de um DataFrame.

datafame['coluna']

These are the two ways of selecting a specific Series out of a DataFrame. Neither of them is more or less syntactically valid than the other, but the indexing operator [] does have the advantage that it can handle column names with reserved characters in them (e.g. if we had a country providence column, reviews.country providence wouldn't work).

Doesn't a pandas Series look kind of like a fancy dictionary? It pretty much is, so it's no surprise that, to drill down to a single specific value, we need only use the indexing operator [] once more:

Há duas formas de selecionar uma série específica de um DataFrame. Nenhum possui uma forma sintática melhor do que a outra, mas o operador de index[] tem avantagem de lidar com o nome da coluna com carcateres reservados, como por exemplo um espaço. 

Como o DataFrame em Pandas é muito parecido com um dicionário, não é surpresa que para pegar um único item de um dataframe basta adicionar um operador de index[].

logo: dataframe['coluna'][0]

* Indexando no Pandas

O operador de indexação e atributo de seleção são ótimos, pois funcionam como todo o ecosistema em Python. No entando Pandas tem seu próprio operador acessor: loc e iloc, para operações mais avançadas. 

**Index-based selection**
O trabalho de indexação do pandas trabalha em um dos dois paradigmas. O primeiro na base de indexação por seleção: selecionando o banco de dados com a posição numérica nos dados. (iloc)

Para selecionar a primeira linha de dados em um DataFrame, usamos o seguinte:

dataframe.iloc[0]

Utilizando o operador ":" nativo do Python, significa "tudo". Quando combinado com outros seletores, portanto eleepode ser usado para indicar um range de valores. Por exemplo selecionar as 3 primeiras linhas de um DataFrame:

dataframe.iloc[:3,0]

Ou pode selecionar da segunda a terceira entrada:

dataframe.iloc[1:3,0]

Também é possível passar uma lista de entradas:

dataframe.iloc[[0,1,2],0]

Finalmente é interessante saber que números negativos podem ser usados para seleção. Isso irá começar contar de trás para frente do começo para o íncio. Por exemplo pegar as 5 últimas entradas:

dataframe.iloc[-5:]

**Label-based selction

