Antes de começar este notebook:

- Opcional: Leia e faça os exercícios sobre Python [aqui](Básico%20-%20Python.ipynb);

- Entenda o funcionamento da biblioteca Pandas [aqui](Básico%20-%20Pandas.ipynb);

- Implemente o código no arquivo `ganho_informacao.py` de acordo com as instruções comentadas. Faça na ordem das funçoes que estiverem lá. Para cada função implementada, rode o teste unitário para verificar se a mesma está funcionando. A maioria das funções possuem teste unitário correpondente, verifique em `tests.py`. Por exemplo, para rodar o teste da função `entropia`, execute:
```
python3 -m tests TestInfoGain.test_entropia
```
em que `tests` é o nome do arquivo de testes e `TestInfoGain.test_entropia` é a classe/método a ser testado.

- Caso queira, você também pode usar esse notebook para testar. Para isso, comente a importação do módulo `ganho_informacao` e copie a função aqui no notebook para testà-la e, quando tiver funcionando, copie e cole ela de volta no arquivo `ganho_informação.py`;

- **Atenção:** após rodar o comando de import neste notebook, caso precise mudar algo no código `ganho_informacao.py` e visualizar o resultado aqui, você deverá reiniciar o kernel.



Importação das bibliotecas necessárias. Sempre que quiser acessar alguma função/classe do pandas use, por exemplo: pd.DataFrame()

In [11]:
import numpy as np
import pandas as pd
import math as mt
from ganho_informacao import entropia,ganho_informacao

Como, no código acima, chamamos o módulo pandas de "pd", então, temos que referencia-lo sempre que quisermos intanciar uma classe/chamar uma função deste módulo. Exemplo:

In [4]:
pd.DataFrame({"col1":["a","b","c"]})

Unnamed: 0,col1
0,a
1,b
2,c


Faça um DataFrame do exemplo dado na aula sobre Ganho de Informação (sobre a renda e o crédito aprovado). Logo após, calcule a entropia e o ganho de informação do atributo Renda. Confira os resultados com os slides.

In [27]:
renda = pd.DataFrame({'CreditoAprovado' : ["sim", "sim", "sim", "nao", "nao","nao", "nao","nao"],
                   'Renda' : ["alta", "alta", "alta", "baixa","alta","baixa","baixa","baixa"],
                   })
renda

Unnamed: 0,CreditoAprovado,Renda
0,sim,alta
1,sim,alta
2,sim,alta
3,nao,baixa
4,nao,alta
5,nao,baixa
6,nao,baixa
7,nao,baixa


In [28]:
## Seu código aqui - Calculo da Entropia do atributo Renda
def entropia(df_dados,nom_col_classe):
    """
        Calcula a entropia de acordo com df_dados (DataFrame) e a classe. Use a função math.log com
        o log na base 2. Não esqueça de importar o módulo math.

        df_dados: Dados a serem considerados para o calculo da entropia
        nom_col_classe: nome da coluna (em df_dados) que representa a classe
    """
    #ser_count_col armazena, para cada valor da classe, a sua quantidade
    ser_count_col = df_dados[nom_col_classe].value_counts()
    num_total = len(df_dados)
    entropia = 0

    #Navege em ser_count_col para fazer o calculo da entropia
    for val_atributo,count_atr in ser_count_col.iteritems():
        val_prob = (count_atr/num_total)
        entropia += -1*val_prob*mt.log(val_prob,2)
        #altere os valores de val_prob e entropia para o calculo correto da mesma
        #prop_instances deverá ser a proporção de instancias de uma determinada classe
        #caso tenha duvida sobre o iteritems e value_counts, consulte o passo a passo do pandas

    return entropia

entrop = entropia(renda,"CreditoAprovado")

entrop

0.9544340029249649

In [33]:
## Seu código aqui - Calculo do InfoGain
def ganho_informacao_condicional(df_dados,val_entropia_y,nom_col_classe,nom_atributo,val_atributo):
    """
    Calcula o GI(Y|nom_atributo=val_atributo), ou seja,
    calcula o ganho de informação do atributo 'nom_atributo' quando ele assume o valor 'val_atributo'.
    O valor de Entropia(Y) já foi calculado e está armazenado em val_entropia_y.
    Dica: A entropia condicional pode ser calculada filtrando o DataFrame df_dados.

    df_dados: Dataframe com os dados a serem analisados.
    val_entropia_y: Entropia(Y) (ver slides)
    nom_col_classe: nome da coluna que representa a classe
    nom_atributo: atributo a ser calculado o ganho de informação
    val_atributo: valor do atributo a ser considerado para este calculo
    """

    rendaAlta = df_dados[df_dados[nom_col_classe] == val_atributo]

    ganhoInformacao = val_entropia_y - entropia(rendaAlta, "CreditoAprovado")
        


    val_gi = 0
    #em df_dados_filtrado, filtre o df_dados da forma correta. Lembre que df_dados é um DataFrame
    df_dados_filtrado = None

    #use df_dados_filtrado obter o ganho de informação armazene em val_gi
    val_gi = 0

    #para testes:
    #print("GI({classe}| {atr}={val}) = {val_gi}".format(classe=nom_col_classe,atr=nom_atributo,val=val_atributo,val_gi=val_gi))

    return ganhoInformacao





ganhoInfo = ganho_informacao_condicional(renda)

0.1431558784658321

## Análise de Atributos para Diferenciar Espécies de [Plantas do Gênero Iris](https://en.wikipedia.org/wiki/Iris_(plant))

<img src="imgs/partes_flor.png" alt="Partes da Flor">

Plantas do gênero Iris possuem diversas espécies que podem ser diferenciadas por algumas caracteristicas da flor.  Nesta prática, iremos investigar quais atributos distinguem melhor algumas espécies dessa planta. Para isso, usaremos [este dataset](iris.csv) que possui 150 plantas do gênero Iris com atributos de sua flor (propriedades): 

- Tamanho e largura do cálice (em cm)

- Tamanho e largura da pétala (em cm)

Existem 3 espécies de plantas do genero Iris na base que serão usadas: [Iris Setosa](https://en.wikipedia.org/wiki/Iris_setosa), [Iris Virginifica](https://en.wikipedia.org/wiki/Iris_virginica) e [Iris Versicolor](https://en.wikipedia.org/wiki/Iris_versicolor)

Nesta atividade, você deverá:

1. Calcular do InfoGain de cada atributo. Armazene o resultado em um DataFrame de duas colunas - nome do atributo e valor de infogain - ordene essa tabela pelo InfoGain.

1. Gerar um gráfico de disperção (*scatter plot*) em que o eixo x e y são os dois atributos com InfoGain mais altos e com 3 grupos, cada grupo, uma espécie de flor diferente.

Iniciamente, leia o CSV e armazene-o em um DataFrame por meio do [método read_csv do pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [7]:
# Leia o CSV e armazene-o em um DataFrame - use a função read_csv do pandas


Agora, por meio das funções que você implementou, calcule o InfoGain de cada atributo. O DataFrame possui um atributo columns que pode ajudar. Armazene o resultado em um DataFrame de duas colunas - nome do atributo e valor de infogain - ordene essa tabela pelo InfoGain. Para criação do novo DataFrame, você pode criar uma matriz e depois adiciona-la em um DataFrame

In [1]:
## Seu código aqui


Gere um gráfico de disperção (scatter plot) em que o eixo x e y são os dois atributos com InfoGain mais altos e com 3 grupos, cada grupo, uma espécie de flor diferente.

In [None]:
# Crie o gráfico solicitado

## Seu código aqui



## Opcional: discretização dos atributos numéricos

Nesta versão de InfoGain, não discretizamos quando o valor é numérico. Não irá afetar significativamente a analise dessa prática. Porém, o correto seria discretizarmos cada atributo numérico. Caso queira, discretize, para isso: 

- Você deverá discretizar apenas atributos numéricos. Use a função is_numeric_dtype do módulo pandas.api.types (não esqueça de importar esse módulo)

- Altere o parametro 'bin' de value_counts na função ganho_informacao. [Veja a documentação](https://pandas.pydata.org/pandas-docs/version/0.17.0/generated/pandas.Series.value_counts.html); 

- Você deverá alterar a forma que será filtrado os valores do ganho de informação. Para o filtro, use operadores logicos bitwise e verifique como funciona o objeto [Inteval](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.Interval.html)

Após discretizar, reinicie o kernel e verifique o resultado da análise novamente.

## Informações sobre da Base de Dados (retirada do [Weka](https://www.cs.waikato.ac.nz/ml/weka/))

1. Title: Iris Plants Database
 
2. Sources:
      - (a) Creator: R.A. Fisher
      - (b) Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
      - (c) Date: July, 1988

3. Past Usage:
    1. Fisher,R.A. "The use of multiple measurements in taxonomic problems"
       Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions
       to Mathematical Statistics" (John Wiley, NY, 1950).
    2. Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis.
       (Q327.D83) John Wiley & Sons.  ISBN 0-471-22361-1.  See page 218.
    3. Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System
       Structure and Classification Rule for Recognition in Partially Exposed
       Environments".  IEEE Transactions on Pattern Analysis and Machine
       Intelligence, Vol. PAMI-2, No. 1, 67-71.
    4. Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule".  IEEE 
       Transactions on Information Theory, May 1972, 431-433.
    5. See also: 1988 MLC Proceedings, 54-64.  Cheeseman et al's AUTOCLASS II
       conceptual clustering system finds 3 classes in the data.
 
4. Relevant Information:
        This is perhaps the best known database to be found in the pattern
        recognition literature.  Fisher's paper is a classic in the field
        and is referenced frequently to this day.  (See Duda & Hart, for
        example.)  The data set contains 3 classes of 50 instances each,
        where each class refers to a type of iris plant.  One class is
        linearly separable from the other 2; the latter are NOT linearly
        separable from each other.