# 1 - Importing libraries

In [1]:
#data processing
import pandas as pd
import numpy as np

#utils
import os
import sys
import time
import json
import random
import warnings
import datetime
import requests

#remove warnings
warnings.filterwarnings('ignore')

#pandas display options 2 decimal places and show all columns
pd.set_option('display.float_format', lambda x: '%.2f' % x)
pd.set_option('display.max_columns', None)

# 2 - Criação dos dados de exemplo e carga para dataframe padrão do pandas


In [5]:

# Dados multidimensionais
dados = {
    "pessoas": [
        {
            "nome": "João",
            "idade": 25,
            "endereço": {
                "rua": "Rua A",
                "cidade": "São Paulo"
            }
        },
        {
            "nome": "Maria",
            "idade": 30,
            "endereço": {
                "rua": "Rua B",
                "cidade": "Rio de Janeiro"
            }
        }
    ]
}

# Converter para JSON
json_dados = json.dumps(dados)

# Imprimir o JSON
print(json_dados)


In [10]:
type(dados)

dict

In [11]:
type(json_dados)

str

In [12]:
dados_dict = json.loads(json_dados) #converte json para dict
type(dados_dict)


dict

In [10]:
dataframe_dict = pd.DataFrame(dados);dataframe_dict

Unnamed: 0,pessoas
0,"{'nome': 'João', 'idade': 25, 'endereço': {'ru..."
1,"{'nome': 'Maria', 'idade': 30, 'endereço': {'r..."


In [3]:
dataframe = pd.read_json(json_dados); dataframe

Unnamed: 0,pessoas
0,"{'nome': 'João', 'idade': 25, 'endereço': {'ru..."
1,"{'nome': 'Maria', 'idade': 30, 'endereço': {'r..."


# 3 - Acessando os dados multidiensionais

In [14]:
dados['pessoas'][0]['nome']
dados['pessoas'][0]['idade']
dados['pessoas'][0]['endereço']['rua']
dados['pessoas'][0]['endereço']['cidade']

'São Paulo'

# 4 - Estruturando o DataFrame

In [4]:
dataframe_list_comprehension = pd.DataFrame()
dataframe_list_comprehension['nome'] = [x['nome'] for x in dados['pessoas']]
dataframe_list_comprehension['idade'] = [x['idade'] for x in dados['pessoas']]
dataframe_list_comprehension['rua'] = [x['endereço']['rua'] for x in dados['pessoas']]
dataframe_list_comprehension['cidade'] = [x['endereço']['cidade'] for x in dados['pessoas']]
dataframe_list_comprehension.to_json('./data/catalogs/json/model_people_v1.json', orient='records')

In [18]:
dataframe_list_map = pd.DataFrame()
dataframe_list_map['nome'] = list(map(lambda x: x['nome'], dados['pessoas']))
dataframe_list_map['idade'] = list(map(lambda x: x['idade'], dados['pessoas']))
dataframe_list_map['rua'] = list(map(lambda x: x['endereço']['rua'], dados['pessoas']))
dataframe_list_map['cidade'] = list(map(lambda x: x['endereço']['cidade'], dados['pessoas']))
dataframe_list_map

Unnamed: 0,nome,idade,rua,cidade
0,João,25,Rua A,São Paulo
1,Maria,30,Rua B,Rio de Janeiro


### 4.1 - Estruturando dados com Python
 enumerate() - retorna um objeto enumerado. Ele pega uma lista (ou outro objeto iterável) como argumento e retorna um objeto enumerado.

In [24]:
for i, pessoa in enumerate(dados_dict['pessoas']):
    print(i, pessoa['nome'], pessoa['idade'], pessoa['endereço']['cidade'], pessoa['endereço']['rua'])

0 João 25 São Paulo Rua A
1 Maria 30 Rio de Janeiro Rua B


In [25]:
dataframe_list_comprehension = pd.DataFrame([
    {
        'nome': pessoa['nome'],
        'idade': pessoa['idade'],
        'rua': pessoa['endereço']['rua'],
        'cidade': pessoa['endereço']['cidade']
    }
    for i, pessoa in enumerate(dados['pessoas'])
]);

dataframe_list_comprehension


Unnamed: 0,nome,idade,rua,cidade
0,João,25,Rua A,São Paulo
1,Maria,30,Rua B,Rio de Janeiro


# 5 - Classes em Python

In [26]:
class Pessoa:
    #Atributo de classe
    especie = 'Humana'
    pessoas = []

    #Método construtor
    def __init__(self, nome, idade, rua, cidade):
        self.nome = nome
        self.idade = idade
        self.rua = rua
        self.cidade = cidade
        self.pessoas.append(self)
    
    #Método de instância
    def __str__(self):
        return f'{self.nome} tem {self.idade} anos e mora na {self.rua} em {self.cidade}'



objeto_criado = Pessoa('João', 25, 'Rua A', 'São Paulo')


# Imprimir o objeto com o método de instância __str__
print(objeto_criado)


João tem 25 anos e mora na Rua A em São Paulo


### 5.1 - Atributos de classe e instância

Atributos de classe são atributos que são definidos diretamente na classe. Atributos de instância são atributos que são definidos dentro do método construtor.
Por isto, atributos de classe são os mesmos para todas as instâncias da classe, enquanto que atributos de instância são únicos para cada instância.
Através do método `__init__` é possível definir os atributos de instância de uma classe.
Porem quando instanciar uma classe, é possível passar argumentos para o método construtor, que serão utilizados para definir os atributos de instância da classe.

In [28]:
Pessoa.especie

'Humana'

In [27]:
objeto_criado.especie

'Humana'

### 5.2 - Entendendo instancias e valores de objetos em Python para Engenheiros de Dados

Primeiro fator como visto anteriormente, é que atributos fora do método construtor são atributos de classe, e não de instância. Portanto, eles não vão aparecer quando você chamar o método `__dict__`  ou instanciar um objeto. Atributos de classe são atributos que são definidos diretamente na classe. Atributos de instância são atributos que são definidos dentro do método construtor. Por isto, atributos de classe são os mesmos para todas as instâncias da classe, enquanto que atributos de instância são únicos para cada instância. Através do método `__init__` é possível definir os atributos de instância de uma classe. Porem quando instanciar uma classe, é possível passar argumentos para o método construtor, que serão utilizados para definir os atributos de instância da classe.

In [29]:
vars(objeto_criado)

{'nome': 'João', 'idade': 25, 'rua': 'Rua A', 'cidade': 'São Paulo'}

In [32]:
objeto_criado.__dict__

{'nome': 'João', 'idade': 25, 'rua': 'Rua A', 'cidade': 'São Paulo'}

In [31]:
Pessoa.pessoas[0].nome

'João'

# 6 - Estruturando dataframe com classes em Python a importância da programação orientada a objetos para Engenheiros de Dados

Apos conter a classe criada.
Podemos trazer todos objetos para dentro do dataframe de forma mais simples e organizada.

In [41]:
object_info_dataframe = pd.DataFrame([
    vars(pessoa)
    for pessoa in Pessoa.pessoas
]);object_info_dataframe


Unnamed: 0,nome,idade,rua,cidade
0,João,25,Rua A,São Paulo
