# pandas
Disponível no [kaggle](https://www.kaggle.com/learn/pandas)

In [2]:
import pandas as pd

Em pandas, __DataFrame__ e __Series__ são objetos essenciais

## DataFrame
- tabela
- matriz com entradas individuais, cada uma com um determinado valor
- cada entrada corresponde a uma linha (registro) e coluna

In [3]:
pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


- _DataFrame's_ podem conter dados que não são inteiros

- Geralmente o construtor ```pd.DataFrame()``` gera um objeto _DataFrame_.

- A sintaxe costuma possuir um dicionário, sendo que suas chaves representam as colunas, e seus valores estão em uma lista de entradas.

  - Quando necessário, é possível também nomear as linhas do _DataFrame_, utilizando ```index``` após o dicionário

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
              'Sue': ['Pretty good.', 'Bland.']},
             index = ['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good.
Product B,It was awful.,Bland.


## Series
- sequência de valores
- lista

In [4]:
pd.Series([number for number in range(1, 5)])

0    1
1    2
2    3
3    4
dtype: int64

- _Series_ é um _DataFrame_ de coluna única
- não possui _name_ para colunas, mas sim, geral

In [5]:
pd.Series([30, 40, 45],
          index = ['2015 Sales', '2016 Sales', '2017 Sales'],
          name = 'Product A')

2015 Sales    30
2016 Sales    40
2017 Sales    45
Name: Product A, dtype: int64

### Leitura de Dados
- dados podem ser armazenados de vários formas
  - o exemplo mais básico é o formato CSV

In [6]:
csv_file = open('winemag-data-130k-v2.csv', 'w')
csv_file.write("""Product A,Product B,Product C
30,21,9
35,34,1
41,11,11""")
csv_file.close()

In [7]:
csv_file = open('winemag-data-130k-v2.csv', 'r')
print(csv_file.readlines())

['Product A,Product B,Product C\n', '30,21,9\n', '35,34,1\n', '41,11,11']


- CSV é uma tabela com valores separados por vírgula
- ```pd.read_csv()``` lê dados de um CSV

In [8]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv")

- o atributo ```shape``` verifica o tamanho do _DataFrame_ resultante
  - ele retorna ```(quantide de linhas, quantidade de colunas)```

In [9]:
wine_reviews.shape

(3, 3)

- o comando ```head()``` examina o conteúdo do _DataFrame_, retornando as 5 primeiras linhas

In [10]:
wine_reviews.head()

Unnamed: 0,Product A,Product B,Product C
0,30,21,9
1,35,34,1
2,41,11,11


- ```index_col``` fará com que a coluna informada seja considerada como indice

In [11]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col = 0)
wine_reviews.head()

Unnamed: 0_level_0,Product B,Product C
Product A,Unnamed: 1_level_1,Unnamed: 2_level_1
30,21,9
35,34,1
41,11,11


# Indexação, Seleção e Atribuição
- selecionar um valor de um DataFrame ou Series é uma etapa implícita em quase todas as operações de dados

In [12]:
pd.set_option('max_rows', 5)

## Acessores nativos
- objetos nativos Python tem boas formas de indexação de dados, e são utilizados por pandas

In [13]:
wine_reviews

Unnamed: 0_level_0,Product B,Product C
Product A,Unnamed: 1_level_1,Unnamed: 2_level_1
30,21,9
35,34,1
41,11,11


- podemos acessar as propriedades de um objeto acessando-o como um atributo

In [14]:
dir(wine_reviews)

['T',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_TO_AXIS_NUMBER',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdiv__',
 '__reduce__',
 '__reduce_ex__',
 '__re

In [15]:
wine_reviews.index

Int64Index([30, 35, 41], dtype='int64', name='Product A')

## Indexando pandas

- pandas tem alguns operadores próprios, como ```loc``` e ```iloc```, muito usados em operações mais avançadas
- ambos exibem linha e coluna, nesta ordem

### Seleção baseada em indíce
- seleciona dados de acordo com a posição numérica

In [16]:
wine_reviews.iloc[0]

Product B    21
Product C     9
Name: 30, dtype: int64

- para obter uma coluna, combinamos ```:``` com o valor da coluna. podemos obter os valores das colunas x a 7 utilizando [x:y+1], bem como passar uma lista como primeiro parametro, ou mesmo um valor negativo

In [17]:
wine_reviews.iloc[:, 0]

Product A
30    21
35    34
41    11
Name: Product B, dtype: int64

### Seleção baseada em rótulo

- utiliza as informações dos indices

## Quando utilizar ```loc``` e ```iloc```
- ```iloc``` quando o primeiro elemento do intervalo é incluído e o ultimo excluido
- ```loc``` quando desejar utilizar uma propriedade (indice) como parametro

## Manipulando indices
- ```loc``` deriva do poder de etiquetar os indices
- o indice não é imutavel

In [23]:
# wine_reviews.set_index("title")

## Seleção condicional
- podemos selecionar utilizando operadores lógicos
- and = &; or = |
- ```.isin``` compara com os valores de uma lista
- ```/notnull``` retorna se o valor dor diferente de NaN