<a href="https://colab.research.google.com/github/leaop/Graduation/blob/main/revisao_aula_7.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# `Dados vs Informação:`

``Dados`` são fatos brutos e sem contexto, geralmente em formato numérico ou alfanumérico. Eles são a representação simbólica de algo que pode ser registrado, armazenado e processado por meio de tecnologias de informação. Os dados podem ser coletados a partir de diversas fontes, como sensores, sistemas de informação, formulários, pesquisas, entre outros. Um exemplo de dados são os números de vendas de uma loja ao longo de um mês.

``Informações`` são dados que foram organizados, interpretados e transformados em algo significativo e útil. Ou seja, a informação é o resultado do processamento dos dados, que foram analisados e transformados em conhecimento. As informações têm significado e contexto, e podem ser utilizadas para a tomada de decisões. Continuando com o exemplo anterior, uma informação que poderia ser extraída dos dados de vendas é a conclusão de que o produto X é o mais vendido na loja.

Portanto, podemos dizer que dados são os elementos mais básicos da informação, e que as informações são dados organizados e interpretados que possuem valor e significado para o usuário final. A mineração de dados é justamente o processo de transformar dados em informações úteis, aplicando técnicas de tratamento,análise e interpretação de dados.

Para isto, existem algumas etapas a serem realizadas:
- Análise dos dados;
- Tratamento dos dados;
- Aplicação em algum algoritmo de machine learning;
- Interpretar os resultados.

# 1 - Análise dos dados

Esta parte é fundamental para entender o que os dados representam, o tipo dos dados, informações descritivas da base de dados, valores nulos... 

- 1 - Analisar as primeiras linhas da base de dados para entender quais as colunas e a forma dos valores;
- 2 - Analisar o tipo de dados das colunas;
- 3 - Analisar informações descritivas das colunas numéricas e textuais;
- 4 - Analisar a quantidade/porcentagem de valores nulos em cada coluna;
- 5 - Verificar informações a respeito de valores nulos das colunas com valores núlos ou textuais;

In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler

In [None]:
# Leitura da base de Dados
df = pd.read_csv('olimpiadas_1972.csv')

1

In [None]:
df.head(3)

2

In [None]:
df.info()

3

In [None]:
# Informações descritivas das colunas numéricas
df.describe()

In [None]:
# Informações descritivas das colunas textuais
df.describe(include = 'O')

4

In [None]:
# Quantidade de valores nulos por coluna
df.isna().sum()

In [None]:
# Porcentagem de valores nulos por coluna
df.isna().sum() * 100 / len(df)

In [None]:
# Porcentagem arredondada para 2 casas decimais de valores nulos por coluna
round(df.isna().sum() * 100 / len(df), 2)

5

In [None]:
# Quantidade de valores únicos da coluna ano
df.ano.nunique()

In [None]:
# valores únicos da coluna ano
df.ano.unique()

In [None]:
# quantidade de aparições dps valores únicos da coluna ano
df.ano.value_counts()

In [None]:
# Quantidade de valores únicos da coluna esporte
df.esporte.nunique()

In [None]:
# valores únicos da coluna esporte
df.esporte.unique()

In [None]:
# quantidade de aparições dps valores únicos da coluna esporte
df.esporte.value_counts()

# 2 - Tratamento de Dados

Nesta parte fazemos:
* 1 - Tratamento de valores núlos:
    - Nas colunas com tipo de dados numéricos, podemos utilizar 3 abordagens:
        * 1 - Se forem poucos dados nulos, apagar os registros com estes dados;
        * 2 - Se for uma quantidade considerável de dados podemos:
            * 2.1 - Substituir os valores nulos pela média da coluna;
            * 2.1 - Substituir os valores nulos pela mediana da coluna;
            * 2.1 - Substituir os valores nulos pela moda da coluna.
        * 3 - Se forem muitos dados nulos, apagar a coluna.

    - Nas colunas com tipo de dados textual, podemos utilizar 3 abordagens:
        * 1 - Se forem poucos dados nulos, apagar os registros com estes dados;
        * 2 - Se for uma quantidade considerável de dados podemos substituir os valores nulos pela moda da coluna;
        * 3 - Se forem muitos dados nulos, apagar a coluna.

        O que é média, mediana e moda:
        * Média - é a soma de todos os valores, dividido pela quantidade de valores somados
        * Mediana - considerando a lista de valores em ordem crescente, é o valor central da lista
        * Moda - é o valor que mais aparece na coluna

* 2 - Converter valores textuais em numéricos;
* 3 - Normalizar os dados

1

In [None]:
# Retorna a moda da coluna ano
df.ano.mode()[0]

In [None]:
# Retorna todos os registros com valores núlos na coluna ano
df.loc[df['ano'].isna()]

In [None]:
# Acrescenta a móda da coluna ano na coluna ano nos registros em que são núlos na coluna ano
df.loc[df['ano'].isna(), 'ano'] = df.ano.mode()[0]

In [None]:
# Retorna a moda da coluna esporte
df.esporte.mode()[0]

In [None]:
# Retorna todos os registros com valores núlos na coluna esporte
df.loc[df['esporte'].isna()]

In [None]:
# Acrescenta a móda da coluna ano na coluna ano nos registros em que são núlos na coluna esporte
df.loc[df['esporte'].isna(), 'esporte'] = df.esporte.mode()[0]

In [None]:
df.isna().sum()

2 temos basicamente duas formas de converter valores textuais em numéricos:
- Usar o loc para substituir os valores (neste caso pode ser preciso alterar o tipo de dados da coluna)
- Usar a biblioteca label Encoder

``Label Encoding``: É uma técnica que consiste em atribuir um valor numérico a cada categoria de uma variável categórica. Por exemplo, podemos atribuir o valor 0 para a categoria "masculino" e o valor 1 para a categoria "feminino" na coluna "genero".

In [None]:
# Criação do objeto LabelEncoder
le = LabelEncoder()

In [None]:
# Aplicação do LabelEncoder nas colunas desejadas
df['cidade'] = le.fit_transform(df['cidade'])
df['esporte'] = le.fit_transform(df['esporte'])
df['disciplina'] = le.fit_transform(df['disciplina'])
df['atleta'] = le.fit_transform(df['atleta'])
df['pais'] = le.fit_transform(df['pais'])
df['evento'] = le.fit_transform(df['evento'])
df['medalha'] = le.fit_transform(df['medalha'])

In [None]:
le.classes_

In [None]:
df.head()

In [None]:
df.info()

In [None]:
df.genero.unique()

In [None]:
# Substitui o valor homens por 0
df.loc[df['genero']=='homens', 'genero'] = 0
# Substitui o valor mulheres por 1
df.loc[df['genero']=='mulheres', 'genero'] = 1

# Altera o tipo de dados da coluna de object para int
df['genero'] = df['genero'].astype(int)

In [None]:
df.info()

Repare que a coluna ano está como fload (número com casas decimais). Não é algo extremamente necessário, mas como é uma coluna que só possui valores interiros, vamos alterar o tipo de dados dela também.

In [None]:
# Altera o tipo de dados da coluna de float para int
df['ano'] = df['ano'].astype(int)

In [None]:
df.info()

3 Neste ponto da normalização é importante saber o que deseja fazer. 
- Se for um algorítmo ``não supervisionado`` (clusterização), devemos normalizar todas as colunas;
- Se for um algorítmo supervisionado, temos duas opções:
    - Em uma regressão, normalizar todas as colunas;
    - Em uma classificação, normalizar todas as colunas de atributos (não normaliza o nosso alvo)

Neste caso, poderíamos tanto aplicar uma clusterização para identificar padrões na base, como também podemos aplicar uma classificação para prever qual a medalha.

In [None]:
# Retorna a base de dados sem a coluna medalha (mas sem apagar definitivamente esta coluna)
df.drop('medalha', axis=1)

In [None]:
X = df.drop('medalha', axis=1)

# Cria um objeto MinMaxScaler e ajusta aos dados selecionados
scaler = MinMaxScaler()
scaler.fit(X)

# Aplica a normalização aos dados selecionados
X = scaler.transform(X)

# Cria uma lista com os valores da coluna medalha
y = df[['medalha']].values

In [None]:
from keras.utils import to_categorical

# converte y para one-hot-encoded
y_one_hot = to_categorical(y)

In [None]:
y_one_hot

In [None]:
y

# 3 - Aplicação de algoritmo de machine learning

In [None]:
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y_one_hot, test_size=0.15, random_state=71)

In [None]:
!pip install plotly

In [None]:
model = Sequential()
# No input_shape, a quantidade de atributos que possuimos
model.add(Dense(32, activation='relu', input_shape=(X_train.shape[1],)))
model.add(Dense(64, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(16, activation='relu'))
# Na camada de saida de uma classificação, usamos 1 neurônio para cada classe possível e softmax
model.add(Dense(3, activation='softmax'))
# Compilação do modelo
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
# Treinamento do modelo
history = model.fit(X_train, y_train, epochs=1000, validation_split=0.15)

In [None]:
# Retorna um dicionário com algumas métricas do treinamento
history.history

In [None]:
# Retorna as chaves do dicionário
history.history.keys()

# 4 - interpretar resultados

In [None]:
import plotly.offline as py
import plotly.graph_objs as go

# Define a função que plota o gráfico
def grafico(x_val, valy, namey, titulo, x_name, y_name, save):
    # Verifica se x_val é uma lista vazia
    if len(x_val) == 0:
        # Cria uma lista com o número de elementos na primeira lista de valy
        x_val = [x for x in range(1,len(valy[0])+1)]
    # Inicializa a lista de dados
    data = []
    # Define as cores para cada conjunto de dados
    cores = ['#DC143C','#FFB90F','#0000FF','#006400','#00FFFF','#8B008B']
    # Percorre cada conjunto de dados em valy
    for cont in range(0,len(valy)):
        # Adiciona um novo conjunto de dados na lista 'data'
        data.append(go.Scatter(x = x_val,
                    y = valy[cont],
                    mode = 'lines',
                    name = namey[cont],
                    marker = {'color': cores[cont]}))
    # Define as configurações do layout do gráfico
    layout = go.Layout(title = f'{titulo}', title_x=0.5,
                   titlefont = {'family': 'Arial',
                                'size': 22,
                                'color': '#000000'},
                   xaxis = {'title': x_name},
                   yaxis = {'title': y_name},
                   paper_bgcolor = 'rgb(188, 231, 245)',
                   plot_bgcolor = 'rgb(188, 231, 245)')
    # Cria um objeto 'Figure' do plotly com os dados e o layout
    fig = go.Figure(data=data, layout=layout)
    # Define as configurações para a legenda
    fig.update_layout(legend=dict(
    orientation="h",
    yanchor="top",
    entrywidth=200,
    y=1.15,
    xanchor="right",
    x=1,
    bgcolor = 'rgba(188, 231, 245,0.8)'
    ),
    font=dict(
            size=15,
            color="black"
        ))
    # Verifica se o parâmetro 'save' é True
    if save == True:
        # Salva o gráfico como uma imagem SVG e um arquivo HTML
        fig.write_image(f"grafico/{titulo}.svg", scale=1, width=1000, height=500)
        fig.write_html(f"grafico/{titulo}.html")
    # Verifica se o parâmetro 'save' é False
    if save == False:
        # Renderiza o gráfico na tela
        py.iplot(fig)


In [None]:
loss = history.history['loss']
val_loss = history.history['val_loss']  
accuracy = history.history['accuracy']  
val_accuracy = history.history['val_accuracy']  

valor_y = [loss, val_loss, accuracy, val_accuracy]
name_y = ['loss','val loss', 'accuracy', 'val_accuracy']


grafico([], valor_y, name_y, 'Treinamento', 'Epoch', 'Loss', False)

In [None]:
import matplotlib.pyplot as plt

grafico_x = [x for x in range(1,len(val_accuracy)+1)]

plt.plot(grafico_x, loss, label='loss')
plt.plot(grafico_x, val_loss, label='val_loss')
plt.plot(grafico_x, accuracy, label='accuracy')
plt.plot(grafico_x, val_accuracy, label='val_accuracy')

plt.title('Treinamento')
plt.legend()

plt.xlabel('Epoch')
plt.ylabel('Loss')

plt.show()

In [None]:
# calcular a acurácia
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Acurácia: {accuracy}")

In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
import numpy as np

# fazer previsões com o modelo
y_pred = model.predict(X_test)
y_pred = np.argmax(y_pred, axis=1)
y_test = np.argmax(y_test, axis=1)

# calcular a matriz de confusão
cm = confusion_matrix(y_test, y_pred)

# plotar o heatmap
sns.heatmap(cm, annot=True, cmap="Blues", fmt="d")
plt.title('Matriz de Confusão')
plt.xlabel('Previsões')
plt.ylabel('Real')
plt.show()