##### Copyright 2019 The TensorFlow Authors.

Licensed under the Apache License, Version 2.0 (the "License");

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Carregar um pandas.DataFrame

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://www.tensorflow.org/tutorials/load_data/pandas_dataframe"><img src="https://www.tensorflow.org/images/tf_logo_32px.png" />Ver em TensorFlow.org</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/tensorflow/docs-l10n/blob/master/site/pt-br/tutorials/load_data/pandas_dataframe.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Executar no Google Colab</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/tensorflow/docs-l10n/blob/master/site/pt-br/tutorials/load_data/pandas_dataframe.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png" />Ver código fonte no GitHub</a>
  </td>
  <td>
    <a href="https://storage.googleapis.com/tensorflow_docs/docs-l10n/site/pt-br/tutorials/load_data/pandas_dataframe.ipynb"><img src="https://www.tensorflow.org/images/download_logo_32px.png" />Baixar notebook</a>
  </td>
</table>

Este tutorial fornece um exemplo de como carregar dataframe do pandas em um `tf.data.Dataset`.

Este tutorial usa um pequeno [conjunto de dados] (https://archive.ics.uci.edu/ml/datasets/heart+Disease) fornecido pela Cleveland Clinic Foundation for Heart Disease. Existem várias centenas de linhas no CSV. Cada linha descreve um paciente e cada coluna descreve um atributo. Usaremos essas informações para prever se um paciente tem uma doença cardíaca, que neste conjunto de dados é uma tarefa de classificação binária.

## Ler os dados usando pandas

In [None]:
from __future__ import absolute_import, division, print_function, unicode_literals

try:
  # %tensorflow_version only exists in Colab.
  %tensorflow_version 2.x
except Exception:
  pass
import pandas as pd
import tensorflow as tf

Fazer download do arquivo csv que contém o conjunto de dados do coração.

In [None]:
csv_file = tf.keras.utils.get_file('heart.csv', 'https://storage.googleapis.com/applied-dl/heart.csv')

Ler o arquivo csv usando pandas.

In [None]:
df = pd.read_csv(csv_file)

In [None]:
df.head()

In [None]:
df.dtypes

Converta a coluna `thal`, que é um `objeto` no dataframe para um valor numérico discreto

In [None]:
df['thal'] = pd.Categorical(df['thal'])
df['thal'] = df.thal.cat.codes

In [None]:
df.head()

## Carregar dados usando o `tf.data.Dataset`

Use `tf.data.Dataset.from_tensor_slices` para ler os valores de um dataframe do pandas.

Uma das vantagens do uso do `tf.data.Dataset` é que ele permite escrever pipelines de dados simples e altamente eficientes. Leia o [loading data guide] (https://www.tensorflow.org/guide/data) para obter mais informações.

In [None]:
target = df.pop('target')

In [None]:
dataset = tf.data.Dataset.from_tensor_slices((df.values, target.values))

In [None]:
for feat, targ in dataset.take(5):
  print ('Features: {}, Target: {}'.format(feat, targ))

Como um `pd.Series` implementa o protocolo `__array__`, ele pode ser usado de forma transparente em praticamente qualquer lugar que você usaria um `np.array` ou um `tf.Tensor`.

In [None]:
tf.constant(df['thal'])

Aleatório e lote do conjunto de dados.

In [None]:
train_dataset = dataset.shuffle(len(df)).batch(1)

## Crirar e treinar um modelo

In [None]:
def get_compiled_model():
  model = tf.keras.Sequential([
    tf.keras.layers.Dense(10, activation='relu'),
    tf.keras.layers.Dense(10, activation='relu'),
    tf.keras.layers.Dense(1)
  ])

  model.compile(optimizer='adam',
                loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
                metrics=['accuracy'])
  return model

In [None]:
model = get_compiled_model()
model.fit(train_dataset, epochs=15)

## Alternativa para colunas de características

Passar um dicionário como entrada para um modelo é tão fácil quanto criar um dicionário correspondente de camadas `tf.keras.layers.Input`, aplicar qualquer pré-processamento e empilhá-los usando a [API funcional] (../../guide/keras/functional.ipynb). Você pode usar isso como uma alternativa para [colunas de características] (../keras/feature_columns.ipynb).

In [None]:
inputs = {key: tf.keras.layers.Input(shape=(), name=key) for key in df.keys()}
x = tf.stack(list(inputs.values()), axis=-1)

x = tf.keras.layers.Dense(10, activation='relu')(x)
output = tf.keras.layers.Dense(1)(x)

model_func = tf.keras.Model(inputs=inputs, outputs=output)

model_func.compile(optimizer='adam',
                   loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
                   metrics=['accuracy'])

A maneira mais fácil de preservar a estrutura da coluna de um `pd.DataFrame` quando usado com `tf.data` é converter o `pd.DataFrame` em um `dict` e dividir esse dicionário.

In [None]:
dict_slices = tf.data.Dataset.from_tensor_slices((df.to_dict('list'), target.values)).batch(16)

In [None]:
for dict_slice in dict_slices.take(1):
  print (dict_slice)

In [None]:
model_func.fit(dict_slices, epochs=15)