# Introdução à Programação Orientada a Objetos (OOP), NumPy e pandas

Algumas anotações de aula, escritas por **Pedro P. Bittencourt**. Curso de *Formação Data Science em Python*, fornecido pela [Dataquest](https://app.dataquest.io), iniciado em dezembro de 2019. Os objetivos deste caderno são meramente acadêmicos e pessoais, não devendo ser entendidos como uma referência.

## Overview

1. Programação Orientada a Objetos
+ NumPy
+ pandas (em construção)

## 1. Programação Orientada a Objetos

Até o momento, estivemos trabalhando com *programação procedural*, ou seja, blocos de comandos executados em sequência, às vezes encapsulados também em funções.

No python, tudo é um objeto; variáveis, por exemplo, são objetos. Quando estudamos os tipos das variáveis, estávamos, na verdade, nos referindo às classes dessas variáveis. De forma resumida, classe é um tipo de objeto.

* Objeto é uma entidade que armazena dados.
+ Uma classe de objeto define propriedades específicas que objetos dessa classe podem ter.

Definimos uma classe de modo similar à definição de uma função.

In [1]:
def minha_funcao():
    # faz alguma coisa
    return
    
class MinhaClasse():
    # detalhes da classe
    pass

Por uma questão de convenção, funções são nomeadas utilizando [*Snake Case*](https://en.wikipedia.org/wiki/Snake_case), enquanto que classes são nomeadas utilizando [*Pascal Case*](https://en.wikipedia.org/wiki/Camel_case).

No bloco anterior, adicionamos `return` à função e `pass` à classe para não gerar erros na definição, uma vez que o python não nos deixa definir funções e classes "em branco".

Na OOP, utilizamos **instância** para descrever cada objeto. Por exemplo, duas canetas da marca *CIB*, uma azul e outra vermelha, são duas **instâncias** da **classe** *caneta CIB*. Enquanto que cada uma delas seja única, elas são claramente o mesmo tipo de caneta (caneta CIB).

A mesma coisa pode ser dita em relação às strings em Python. Podemos criar duas strings diferentes, cada uma armazenando diferentes valores, mas elas funcionam do mesmo jeito.

In [2]:
uma_string = "eae galera"
outra_string = "tudo blz"

Os dois objetos acima são instâncias da classe `str`. Enquanto cada objeto seja único, eles são do mesmo tipo.

Após criada a classe, o processo de criar um novo objeto daquela classe recebe o nome de **instanciação**:

In [3]:
instancia_da_minha_classe = MinhaClasse()

A linha acima, na verdade, fez duas coisas:

* instanciou um objeto da classe `MinhaClasse`;
+ atribuiu essa instância à variável `instancia_da_minha_classe`.

No Python, quando utilizamos a sintaxe `int()` para converter uma string num número inteiro, estamos na verdade instanciando um objeto da classe `int` e associando essa instância à uma determinada variável.

In [4]:
um_numero = int("1")
#   (2)       (1)
# (1) instancia um objeto da classe int
# (2) associa essa instância à variável um_numero

Classes possuem métodos, funções que as permitem executarem coisas específicas.

Voltando à metáfora das canetas, um objeto da classe *caneta CIB* pode fazer coisas como "escrever", "tampar", "destampar", "sumir embaixo do sofá", "desintegrar-se rumo à quinta dimensão" e assim pode diante. De forma similar, strings em Python possuem métodos que podem substituir substrings, converter a caixa, quebrar numa lista e assim por diante. 

Podemos então pensar em métodos como funções especiais que pertencem a uma classe particular. Por isso, por exemplo, utilizamos a sintaxe `str.replace()` -- o método `replace` pertence à classe `str`. Não podemos utilizar um método de uma classe com objetos de outra classe: não é possível, por exemplo, utilizar `minha_lista.replace("h", "H")` ou `minha_string.append("?")`.

A sintaxe para criar métodos é idêntica à criação de funções:

In [5]:
class NovaLista():
    def primeiro_metodo():
        print('Eae glr!')
        
instancia = NovaLista()

Entretanto, se tentarmos utilizar o método `primeiro_metodo` com a instância acima, obteremos um erro:

`instancia.primeiro_metodo()`

`---------------------------------------------------------------------------`
`TypeError                                 Traceback (most recent call last)`
`<ipython-input-6-d0d79ee75499> in <module>`
`----> 1 instancia.primeiro_metodo()`
`TypeError: primeiro_metodo() takes 0 positional arguments but 1 was given`

Esse erro é confuso, porque diz que `primeiro_metodo()` recebeu um argumento, apesar de não possuí-los. Parece que existe aqui um "argumento fantasma" sendo passado à função! Para o Python, quando chamamos o método de uma instância, a instância em si é passada como argumento (veja a imagem a seguir, via [dataquest](https://app.dataquest.io/m/352/object-oriented-python/6/understanding-self)):

<img src="self_arg_v2_2.svg" />

Dá pra provar que esse argumento extra é a instância em si, observe:

In [7]:
class MeuFantasma():
    def me_imprima(self):
        print(self)
        
mf = MeuFantasma()
print(mf)
mf.me_imprima

<__main__.MeuFantasma object at 0x0000000005516708>


<bound method MeuFantasma.me_imprima of <__main__.MeuFantasma object at 0x0000000005516708>>

Repare que a mesma saída foi gerada para ambos os comandos, tanto imprimindo a variável `mf` quando pedindo para o método `me_imprima`, provando que a instância em si é o tal do "parâmetro fantasma".

Em teoria, o nome deste argumento pode ser qualquer que desejarmos. Por convenção, utiliza-se o nome `self`, e é importante seguir essas regras para que a definição da função não seja demasiado confusa. Então vejamos o que a classe abaixo é capaz de fazer:

In [8]:
class NovaClasse():
    def primeiro_metodo(self):
        print('Estou aprendendo a utilizar classes e métodos! Eba!!')
        
variavel = NovaClasse()
variavel.primeiro_metodo()

Estou aprendendo a utilizar classes e métodos! Eba!!


Se o método receber parâmetros além de `self` eles devem ser declarados logo em sequência:

In [9]:
class NovaLista():
    def retorna(self, lista):
        print(lista)
        
nova_lista = NovaLista()
nova_lista.retorna([1, 1, 2, 3, 5])

[1, 1, 2, 3, 5]


O poder dos objetos reside em sua habilidade em armazenar dados, utilizando **atributos** para isto. Vejamos como fazê-lo, voltando à analogia da *caneta CIB*. Todo objeto da classe caneta CIB possui alguns atributos, tais como "cor", "carga", "espessura da ponta", "chances de se perder na gaveta de talheres" e assim por diante. De forma similar, strings Python também possuem um atributo: o valor armazenado na string.

Podemos então pensar em atributos como variáveis especiais que pertencem à uma classe particular. Atributos nos permitem armazenar dados específicos para cada instância de nossa classe. Ao instanciar um objeto, muitas vezes especificamos o dado que será armazenado naquele objeto. Mais uma vez, o exemplo da classe `int`:

In [10]:
numero_legal = int("13")

Ao utilizar `int`, passamos `"13"` como argumento, que foi convertido e armazenado no objeto. Esse processo, chamado de **init method**, define o que será feito com argumentos passados durante uma instanciação. O *init method*, também chamado de **constructor**, é um método especial executado quando uma instância é criada, de forma que podemos fazer várias coisas ao instanciar um objeto. Basta utilizar `__init__()`:

In [11]:
class AloMamae():
    def __init__(self, string):
        print(string)
        
oie = AloMamae("Eae gentee!")

Eae gentee!


Repare que, ao instanciar o objeto `oie` da classe `AloMamae()`, o método `__init()__` já gerou uma saída da string armazenada dentro do objeto. Ou seja, o método `__init__()` pode ser utilizado para processar dados assim que eles são passados ao instanciar objetos, armazenando esses dados como atributos:

In [12]:
class NovaString():
    def __init__(self, string):
        self.meu_atributo = string
        
ns = NovaString("Ces tao beleza?")

A instanciação não gerou nenhuma saída porque não pedimos para fazê-lo. Ao invés disso, armazenamos o dado no atributo `meu_atributo` que pode ser posteriormente acessado:

In [13]:
print(ns.meu_atributo)

Ces tao beleza?


A tabela a seguir resume o que vimos até o momento, em relação a métodos e atributos (via [dataquest](https://app.dataquest.io/m/352/object-oriented-python/8/attributes-and-the-init-method))

<img src="methods_attributes.png" />

Vamos utilizar o que foi aprendido para definir uma nova classe de lista, "lista melhorada", inserindo um atributo `length` que, essencialmente, faz o mesmo que a função `len()`, porém dentro da própria classe!

In [14]:
class NewList():
    """
    A Python list with some extras!
    """
    def __init__(self, initial_state):
        self.data = initial_state # data is given in the instantiation
        self.calc_length()        # we calculate the length using this method
    
    def calc_length(self):
        length = 0
        for item in self.data:
            length += 1
        self.length = length # after the calculation, we store the value inside 'length' attribute
    
    def append(self, new_item):
        """
        Append `new_item` to the NewList
        """
        self.data = self.data + [new_item]
        self.calc_length()
        
fibonacci = NewList([1, 1, 2, 3, 5])
print(fibonacci.length)
fibonacci.append(8)
print(fibonacci.length)

5
6


## 2. NumPy

Comecemos com a importação do módulo. Por convenção, utilizamos o alias `np`

In [15]:
import numpy as np

O elemento central do módulo `numpy` é o [construtor](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.array.html) `numpy.array()`. Ele é um **ndarray**, isto é, um *vetor n-dimensional*, podendo se comportar como uma lista (1D), uma matriz (2D) ou um conjunto de matrizes (3D+). É possível então gerar um ndarray unidimensional a partir de uma lista simples:

In [16]:
fibonacci_ten = np.array([1, 1, 2, 3, 5, 8, 13, 21, 34, 55])

Importante notar que, na definição do ndarray `fibonacci_ten` utilizamos `np.array()` ao invés de `numpy.array()` por conta do alias na importação do módulo `numpy`. Vamos exibir a classe desta variável recém-criada:

In [17]:
print(type(fibonacci_ten))

<class 'numpy.ndarray'>


Além de otimizar processos através da vetorização de listas, ndarrays também são muito mais convenientes para trabalhar com dados bidimensionais que, a partir de agora, chamaremos de *datasets*. Por exemplo, criemos uma matriz `two_dimensional`:

In [18]:
two_dimensional = np.array(
    [
        [0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]
    ]
)
print('Matriz:\n', two_dimensional)

Matriz:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]


A seleção de elementos é parecida com a que estamos habituados a utilizar, no trabalho com listas de listas. Selecionemos a primeira linha:

In [19]:
print(two_dimensional[0])

[0 1 2]


Selecionar um intervalo de linhas também não muda; podemos ver a seleção das duas primeiras linhas:

In [20]:
print(two_dimensional[:2])

[[0 1 2]
 [3 4 5]]


A sintaxe completa, portanto, é `ndarray[row_index,column_index]` para selecionar uma determinada célula desta matriz. Reparar que isto é um pouco diferente da seleção de células em uma lista de listas, na qual faríamos `list_of_lists[row_index][column_index]`. Se quisermos selecionar todas as colunas de um certo conjunto de linhas, podemos utilizar `ndarray[row_index]`.

In [21]:
cell_1_3 = two_dimensional[0,2]
cell_3_2 = two_dimensional[2,1]
last_row = two_dimensional[-1]

print(cell_1_3)
print(cell_3_2)
print(last_row)

2
7
[6 7 8]


Porém, essa não é a maior nem mais importante diferença. Se quiséssemos selecionar apenas uma **coluna** da lista de listas, precisaríamos recorrer a laços:

In [22]:
second_column = []
for row in two_dimensional:
    col2 = row[1]
    second_column.append(col2)
print(second_column)

[1, 4, 7]


Ao trabalhar com arrays n-dimensionais, entretanto, basta utilizar a sintaxe `ndarray[:,column_index]`. O argumento `:` simboliza "todas as linhas". O mesmo resultado acima pode ser obtido com:

In [23]:
print(two_dimensional[:,1])

[1 4 7]


Isto facilita sobremaneira a seleção de colunas específicas ou intervalo de colunas:

In [24]:
first_column = two_dimensional[:,0]
last_column = two_dimensional[:,-1]
middle_bottom = two_dimensional[1:3,1]

print(first_column)
print(last_column)
print(middle_bottom)

[0 3 6]
[2 5 8]
[4 7]


As imagens a seguir traçam um bom resumo do que foi visto acima (via [Dataquest](https://app.dataquest.io/m/289/introduction-to-numpy/7/selecting-columns-and-custom-slicing-ndarrays)):

<img src="selection_columns_updated.svg" />
<img src="selection_1darray_updated.svg" />
<img src="selection_2darray_updated.svg" />

Operações aritméticas também são válidas. Se eu quisesse somar duas colunas de uma lista de listas, o código seria um pouco lento:

In [25]:
uns_primos = [
    [2, 3],
    [5, 7],
    [11, 13],
    [17, 19]
]

somas = []

for linha in uns_primos:
    soma = linha[0] + linha[1]
    somas.append(soma)
    
print(somas)

[5, 12, 24, 36]


Utilizando operações vetorizadas, este processo, além de mais simples, é também mais rápido de ser executado (imagine a diferença que faria num dataset de centenas de linhas!):

In [26]:
# converte a lista de listas num array n-dimensional
uns_primos = np.array(uns_primos)

# seleciona as colunas que se deseja somar
# (cada uma é uma lista unidimensional)

col1 = uns_primos[:,0]
col2 = uns_primos[:,1]

somas = col1 + col2
print(somas)

[ 5 12 24 36]


Isto pode ser simplificado ainda mais:

In [27]:
somas = uns_primos[:,0] + uns_primos[:,1]

A imagem a seguir resume este processo (via [dataquest](https://app.dataquest.io/m/289/introduction-to-numpy/8/vector-math))

<img src="vectorized_addition.svg" />

O que foi visto com adição é válido também com outras operações, tais como subtração, multiplicação e divisão:

In [28]:
diferencas = uns_primos[:,0] - uns_primos[:,1]
produtos = uns_primos[:,0] * uns_primos[:,1]
quocientes = uns_primos[:,0] / uns_primos[:,1]

print('A diferença das colunas é: ', diferencas)
print('O produto das colunas é: ', produtos)
print('O quociente das colunas é: ', quocientes)

A diferença das colunas é:  [-1 -2 -2 -2]
O produto das colunas é:  [  6  35 143 323]
O quociente das colunas é:  [0.66666667 0.71428571 0.84615385 0.89473684]


Arrays n-dimensionais no Numpy possuem métodos para diversos cálculos, que podem ser conferidos [direto na documentação](https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.ndarray.html#calculation).

## 3. pandas

A biblioteca **pandas** é uma extensão da biblioteca **NumPy**. Suas principais melhorias são:

1. Os valores dos eixos podem conter strings como rótulos, ao invés de simplesmente números.
+ Os dataframes podem conter vários tipos de dados, incluindo inteiros, floats e strings.

<img src="df_anatomy_static_resized.svg">

Para abrir o módulo, basta importá-lo. Por convenção, utilizamos o alias `pd`:

In [1]:
import pandas as pd

Para a abertura de arquivos `*.csv` utiliza-se a [função](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) `pandas.read_csv()`, que lê os dados e os armazena num dataframe. Vamos utilizá-la para abrir o arquivo `googleplaystore.csv`.

In [2]:
android = pd.read_csv('googleplaystore.csv')
print(type(android))
print(android.shape)

<class 'pandas.core.frame.DataFrame'>
(10841, 13)


Assim como no módulo NumPy, o atributo `shape` retorna uma tupla com as dimensões dos eixos do dataframe. No caso do arquivo recém aberto, temos 10.841 linhas e 13 colunas. Podemos utilizar o método `df.head(n)` para exibir as primeiras `n` linhas; caso `n` não seja passado, são exibidas por padrão as cinco primeiras. O mesmo pode ser dito a respeito do método `df.tail(n)`, que retorna as últimas linhas do dataframe:

In [3]:
android_head = android.head(8)
android_tail = android.tail(7)

Outra função que torna o pandas melhor para se trabalhar com dados é a possibilidade dos dataframes conterem mais de um tipo de dado. Mencionamos na introdução deste capítulo que os eixos podem ser rotulados com strings e as colunas podem conter valor inteiros, flutuantes ou literais.

Nós podemos utilizar o [atributo](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dtypes.html#pandas.DataFrame.dtypes) `df.dtypes` para exibir informações a respeito dos tipos de dados de cada coluna do dataframe:

In [4]:
print(android.dtypes)

App                object
Category           object
Rating            float64
Reviews            object
Size               object
Installs           object
Type               object
Price              object
Content Rating     object
Genres             object
Last Updated       object
Current Ver        object
Android Ver        object
dtype: object


Geralmente são retornados os tipos `int64`, que se refere a valores inteiros armazenados em 64 bits, `float64`, que armazena valores com ponto flutuante e `object`, utilizado para colunas cujos dados não se encaixam nos casos anteriores — via de regra, valores literais.

O [método](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html#pandas.DataFrame.info) `df.info()` nos retorna uma boa visão global do dataframe:

In [5]:
android.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 13 columns):
App               10841 non-null object
Category          10841 non-null object
Rating            9367 non-null float64
Reviews           10841 non-null object
Size              10841 non-null object
Installs          10841 non-null object
Type              10840 non-null object
Price             10841 non-null object
Content Rating    10840 non-null object
Genres            10841 non-null object
Last Updated      10841 non-null object
Current Ver       10833 non-null object
Android Ver       10838 non-null object
dtypes: float64(1), object(12)
memory usage: 1.1+ MB


Devido ao fato dos eixos serem rotulados, podemos selecionar dados utilizando esses rótulos — vale mencionar que, comparativamente, no NumPy precisaríamos saber o índice da coluna para realizar essa seleção! Para tanto, basta utilizar o [método](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html#pandas.DataFrame.loc) `df.loc[]`, cuja sintaxe padrão é `df.loc[row_label, column_label]`. Aqui é importante notar que este método utiliza colchetes ao invés de parênteses, como seria de costume. Vamos selecionar a coluna `'Category'` de nosso dataset:

In [6]:
android_category = android.loc[:,'Category']
print(android_category)
print(type(android_category))

0             ART_AND_DESIGN
1             ART_AND_DESIGN
2             ART_AND_DESIGN
3             ART_AND_DESIGN
4             ART_AND_DESIGN
                ...         
10836                 FAMILY
10837                 FAMILY
10838                MEDICAL
10839    BOOKS_AND_REFERENCE
10840              LIFESTYLE
Name: Category, Length: 10841, dtype: object
<class 'pandas.core.series.Series'>


Ao selecionar apenas uma coluna de nosso dataframe, obtemos um novo tipo de dado: um `'series object'`, isto é, uma série. No pandas, séries são objetos unidimensionais. Ou seja: 1D série, 2D dataframe.

<img src="df_exploded_resized.svg">

Para selecionar mais de uma coluna, utilizamos uma *lista de rótulos*.
Mas primeiro deixa eu abrir um outro dataset que esse ta uma merda.

In [7]:
prestige = pd.read_csv('prestige.csv')
print(prestige.head())

            Unnamed: 0  education  income  women  prestige  census  type
0   gov.administrators      13.11   12351  11.16      68.8    1113  prof
1     general.managers      12.26   25879   4.02      69.1    1130  prof
2          accountants      12.77    9271  15.70      63.4    1171  prof
3  purchasing.officers      11.42    8865   9.11      56.8    1175  prof
4             chemists      14.62    8403  11.68      73.5    2111  prof
