## 1 Estruturas de séries e dataframes da biblioteca Pandas

Este notebook apresenta uma introdução as estruturas de série e dataframe fornecidas pela biblioteca Pandas. Além de armazenar os dados, essas estruturas também possuem diversas operações aritméticas e estatísticas encapsuladas, o que torna o seu uso bastante simplificado.

### 1.1 Import

In [None]:
import pandas as pd

### 1.2 Séries

In [None]:
#uma série pode ser criada a partir de uma lista do python
minha_serie = pd.Series([10,20,30,40,50])
display(minha_serie)

In [None]:
#alterando a chave do indice
minha_serie.index = ['A','B','C','D','E']
display(minha_serie)

### 1.3 DataFrames

In [None]:
#criando um dataframe a partir de um dicionario python
data = {"Nome": ["João","Maria", "José", "Pedro"],
       "Idade": [19,23,34,37]}

meu_data_frame = pd.DataFrame(data)
display(meu_data_frame)

In [None]:
#carregando um dataframe a patir de um dataset em .csv

meu_data_frame = pd.read_csv("../data/cereal.csv")
display(meu_data_frame.head()) #default = 5

#display(meu_data_frame.tail())
#print(meu_data_frame.describe)

#### Dicionário dos atributos do dataset

Fonte: https://www.kaggle.com/crawford/80-cereals

    Name: Name of cereal
    mfr: Manufacturer of cereal
        A = American Home Food Products;
        G = General Mills
        K = Kelloggs
        N = Nabisco
        P = Post
        Q = Quaker Oats
        R = Ralston Purina 
    type:
        cold
        hot 
    calories: calories per serving
    protein: grams of protein
    fat: grams of fat
    sodium: milligrams of sodium
    fiber: grams of dietary fiber
    carbo: grams of complex carbohydrates
    sugars: grams of sugars
    potass: milligrams of potassium
    vitamins: vitamins and minerals - 0, 25, or 100, indicating the typical percentage of FDA recommended
    shelf: display shelf (1, 2, or 3, counting from the floor)
    weight: weight in ounces of one serving
    cups: number of cups in one serving
    rating: a rating of the cereals (Possibly from Consumer Reports?)


In [None]:
#algumas operações básicas do dataframe

#exibe as dimensões do dataframe
#exibe os n primeiros
#print(meu_data_frame.head()) 
#exibe os n ultimos
#
#exibe as colunas
#print(meu_data_frame.columns)
#resume um dataframe
#

In [None]:
#mostrar os dados de uma coluna especifica
display(meu_data_frame["calories"])

### 1.4 Análise dos metadados


In [None]:
#computar quantidade de linhas e colunas
(qtd_linhas, qtd_colunas) = meu_data_frame.shape

print("Meu dataframe tem:", qtd_linhas,"linhas e", qtd_colunas, "colunas")

In [None]:
#iterar sobre as amostras (linhas) do dataset
for linha, serie in meu_data_frame.iterrows(): 
    print("linha:", linha)
    display(serie) 
  

In [None]:
#obtendo a lista com os nomes dos atributos (colunas)
lista_colunas = list(meu_data_frame.columns.values)
 
print("Atributos dos dados:", lista_colunas)

##### Tipos suportados

<img src="imgs/types_panda.png" width=70% />

In [None]:
#exibindo os tipos de cada atributo
display(meu_data_frame.dtypes)
#meu_data_frame["type"].dtype.name

In [None]:
#criando uma cópia da tabela apenas com os dados do tipo 'object'
meus_dados = meu_data_frame.select_dtypes(include=['object']).copy()
display(meus_dados.head())

In [None]:
#realizando a contagem de valores únicos
display(meus_dados["mfr"].value_counts())

In [None]:
meu_data_frame["mfr"] = meu_data_frame["mfr"].astype('category')
meu_data_frame["type"] = meu_data_frame["type"].astype('category')

display(meu_data_frame.dtypes)

In [None]:
#chamando o método 'info' é possivel obter mais detalhes sobre o dataframe
meu_data_frame.info()

In [None]:
#como salvar o dataframe processado em um arquivo pickle (.pkl)
import os

path = "../data/cereal.pkl"

#caso exista um arquivo, ele é deletado
if os.path.exists(path):
    os.remove(path)

#salvando os dados no arquivo
meu_data_frame.to_pickle(path)

#lendo os dados do arquico recém salvo
novo_dataframe = pd.read_pickle(path)
novo_dataframe.info()