# Análise de Dados e ETL, utilizando **ibis** com MySQL

## Bibliotecas necessárias

In [None]:
# Instalando libs necessárias
%pip install -q 'ibis-framework[mysql]'
%pip install -q cryptography

![image.png](attachment:image.png)

## Conectando no database MySQL

In [2]:
import ibis
ibis.options.interactive = True
con = ibis.mysql.connect(
    user="teste",
    password="teste",
    host="localhost",
    port=3307,
    database="teste",
)

## Manipulando as tabelas MySQL

In [13]:
# Tabelas existente na 
con.list_tables()

['cidades', 'lojas', 'pessoas']

In [4]:
# criando o objeto ibis cidades com os dados da tabela cidades
cidades = con.sql("select * from cidades")
cidades

In [9]:
# criando o objeto ibis lojas com os dados da tabela lojas
lojas = con.sql("select * from lojas")
lojas

In [5]:
# criando o objeto ibis pessoas com os dados da tabela pessoas
pessoas = con.sql("select * from pessoas")
pessoas

### Selecionando Colunas

In [17]:
cidades.select('descricao')

In [18]:
pessoas.select('nome', 'idade')

### Filtrando os dados

In [22]:
pessoas \
    .filter(
        pessoas.idade > 40
    ).select('nome', 'idade', 'id_cidade')

In [23]:
pessoas \
    .filter(
        (pessoas.idade > 40) &
        (pessoas.id_cidade == 3)
    ).select('nome', 'idade', 'id_cidade')

### Ordenando os dados

In [28]:
pessoas \
    .filter(
        pessoas.idade > 40
    ).order_by(
        'id_cidade'
    ).select(
        'nome', 'idade', 'id_cidade'
    )

In [34]:
pessoas \
    .filter(
        pessoas.idade > 40
    ).order_by(
        pessoas.idade.desc()
    ).select(
        'nome', 'idade', 'id_cidade'
    )

### Funções de agregação

In [35]:
pessoas.aggregate(
    pessoas.nome.count()
)

In [46]:
pessoas.aggregate(
    pessoas.nome.count().name('Qtd. de Pessas')
)

In [42]:
pessoas.aggregate(
    [
        pessoas.idade.count(),
        pessoas.idade.sum(),
        pessoas.idade.min(),
        pessoas.idade.max()
    ]
)

### Agrupando Dados

In [48]:
pessoas.group_by('id_cidade').aggregate()

In [43]:
# agrupando pelo id da cidade
# contando a quantidade de pessoas por cidade
pessoas.group_by('id_cidade') \
.aggregate(pessoas.id_cidade.count())

In [49]:
# colocando um label na agregação
pessoas.group_by('id_cidade') \
    .aggregate(
        pessoas.id_cidade.count().name("qtd_pessoas")
)

## Joins

In [50]:
con.list_tables()

['cidades', 'lojas', 'pessoas']

In [10]:
cidades_pessoas = cidades.left_join(
    pessoas,
    cidades.id_cidade == pessoas.id_cidade
)
cidades_pessoas

In [12]:
# cidades com lojas
cidades_lojas = cidades.right_join(
    lojas,
    cidades.id_cidade == lojas.id_cidade
)
display(cidades_lojas)
display(cidades_lojas.select('descricao', 'fantasia'))

In [52]:
p1 = pessoas.filter(pessoas.idade <40)
p2 = pessoas.filter(pessoas.idade >=40)
display(pessoas)
display(p1)
display(p2)

In [53]:
p1.union(p2)

### Subqueries

In [55]:
condicao = cidades.id_cidade.isin(lojas.id_cidade)
cidades[condicao]

### Outros 

In [16]:
# quantidade de registros na tabela pessoas
pessoas.count()

[1;36m10[0m

In [58]:
pessoas.id_cidade.nunique()

[1;36m3[0m

In [67]:
pessoas.select(
    pessoas.nome.capitalize(),
    pessoas.nome.lower(),
    pessoas.nome.upper(),
    pessoas.nome.substr(0, 4),
    pessoas.nome.length(),
)