**Biblioteca sqlalchemy**

- A biblioteca sqlalchemy é a responsável por criar uma engine de conexão.
- Com essa biblioteca podemos criar a engine para fazer a conexão com diversos bancos de dados como: MySQL, Oracle, SQL Server, PostgreSQL entre outros.
- Além da engine precisamos de um drive de conexão, cada banco de dados possui o seu drive específico. A seguir vamos instalar o drive do MySQL.

In [1]:
import pandas as pd
import sqlalchemy

In [2]:
!pip install pymysql



-A sintese para a conexão ao Banco de Daddos MySQL é: 
    engine = sqlalchemy.create_engine( ‘mysql+drive://usuario:senha@ip-servidor:porta/banco-de-dados‘)



In [7]:
#Criando a engine para a conexão.

engine = sqlalchemy.create_engine('mysql+pymysql://root:borgir10@localhost:3306/cadastro')

- A conexão já foi criada, agora podemos fazer as consultas no Banco de Dados.

- Método: read_sql_table: Com esse método conseguimos recuperar uma tabela inteira do nosso banco e criar um DataFrame do pandas.

In [5]:
engine

Engine(mysql+pymysql://root:***@localhost:3306/cursos)

In [8]:
#Lendo a tabela no banco de dados e transformando em um DataFrame com o Pandas.

df = pd.read_sql_table('cursos', engine)

Nota: Os bancos de dados aqui utilizados são bancos que já possuia no MySQl, portanto basta trocar por bancos que possua em sua maquina.

In [9]:
df.head()

Unnamed: 0,idcurso,nome,descricao,carga,totaulas,ano
0,1,HTML5,Curso de HTML5,40,37,2014
1,2,Algoritmos,Lógica de Programação,20,15,2014
2,3,Photoshop5,Dicas de Photoshop CC,10,8,2014
3,4,PHP,Curso de PHP para iniciantes,40,20,2015
4,5,Java,Introdução à Linguagem Java,40,29,2015


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   idcurso    29 non-null     int64 
 1   nome       29 non-null     object
 2   descricao  29 non-null     object
 3   carga      29 non-null     int64 
 4   totaulas   29 non-null     int64 
 5   ano        29 non-null     int64 
dtypes: int64(4), object(2)
memory usage: 1.5+ KB


In [11]:
#Lendo apenas colunas escolhidas na planilha

#df = pd.read_sql_table('cursos', engine, columns=["nome","carga"])

**Método: read_sql_query**

- Com esse método é possivel importar os dados usando uma query SQL.
- Permite consultar uma ou diversas tabelas.

In [22]:
df = pd.read_sql_query("select * from cursos", engine)

In [23]:
df.head()

Unnamed: 0,idcurso,nome,descricao,carga,totaulas,ano
0,1,HTML5,Curso de HTML5,40,37,2014
1,2,Algoritmos,Lógica de Programação,20,15,2014
2,3,Photoshop5,Dicas de Photoshop CC,10,8,2014
3,4,PHP,Curso de PHP para iniciantes,40,20,2015
4,5,Java,Introdução à Linguagem Java,40,29,2015


In [14]:
df = pd.read_sql_query("select ano, carga, nome from cursos order by nome", engine)


In [16]:
df.head(20)

Unnamed: 0,ano,carga,nome
0,2018,20,After Effects
1,2014,20,Algoritmos
2,2018,60,Android
3,2017,30,C#
4,2017,40,C++
5,2017,40,Excel
6,2017,30,Hardware
7,2014,40,HTML5
8,2015,40,Java
9,2017,35,JavaScript


- Criando uma query utilizando a mesma tabela e colocando a id key como o idcurso.(Muito importante a sua especificação para utilizar a query Join.)

In [17]:
df_index = pd.read_sql_query("select * from cursos", engine, index_col="idcurso")

In [19]:
df_index.head()

Unnamed: 0_level_0,nome,descricao,carga,totaulas,ano
idcurso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,HTML5,Curso de HTML5,40,37,2014
2,Algoritmos,Lógica de Programação,20,15,2014
3,Photoshop5,Dicas de Photoshop CC,10,8,2014
4,PHP,Curso de PHP para iniciantes,40,20,2015
5,Java,Introdução à Linguagem Java,40,29,2015


- Criando um DataFrame a partir de uma query ligando várias tabelas.

In [21]:
# Lendo outra tabela na base de dados estudada


df_gaf = pd.read_sql_query("select * from gafanhotos", engine)

In [24]:
df_gaf.head()

Unnamed: 0,id,nome,profissao,nascimento,sexo,peso,altura,nacionalidade,cursopreferido
0,1,Daniel Morais,Auxiliar Administrat,1984-01-02,M,78.5,1.83,Brasil,6.0
1,2,Talita Nascimento,Farmacêutico,1999-12-30,F,55.2,1.65,Portugal,22.0
2,3,Emerson Gabriel,Programador,1920-12-30,M,50.2,1.65,Moçambique,12.0
3,4,Lucas Damasceno,Auxiliar Administrat,1930-11-02,M,63.2,1.75,Irlanda,7.0
4,5,Leila Martins,Farmacêutico,1975-04-22,F,99.0,2.15,Brasil,1.0


In [25]:
# Indicando a query utilizada para o join entre as tabelas cursos e gafanhotos.

query = '''
SELECT gafanhotos.nome , cursos.nome, cursos.ano FROM gafanhotos INNER JOIN cursos
ON cursos.idcurso = gafanhotos.cursopreferido
order by ano;
'''


In [27]:
df = pd.read_sql_query(query,engine)
df.head(20)

Unnamed: 0,nome,nome.1,ano
0,Danilo Araujo,PHP4,2010
1,Leila Martins,HTML5,2014
2,Jackson Telles,Photoshop5,2014
3,Carlisson Rosa,Java,2015
4,Janaína Couto,PHP,2015
5,Lucas Damasceno,Word,2016
6,Daniel Morais,MySQL,2016
7,Emerson Gabriel,C++,2017
8,Andreia Delfino,Premiere,2017
9,Talita Nascimento,Premiere,2017


In [28]:
## outer join (mostrando todos os alunos, até mesmo os que não possuem cursos preferidos. 
#left auter join - assim o preferencial esta a esquerda.

query=''' select g.nome , c.nome, c.ano 
from gafanhotos as g left outer join cursos as c
on c.idcurso = g.cursopreferido;
'''

In [30]:
df = pd.read_sql_query(query,engine)
df.head(50)

Unnamed: 0,nome,nome.1,ano
0,Daniel Morais,MySQL,2016.0
1,Talita Nascimento,Premiere,2017.0
2,Emerson Gabriel,C++,2017.0
3,Lucas Damasceno,Word,2016.0
4,Leila Martins,HTML5,2014.0
5,Letícia Neves,Python,2017.0
6,Janaína Couto,PHP,2015.0
7,Carlisson Rosa,Java,2015.0
8,Jackson Telles,Photoshop5,2014.0
9,Danilo Araujo,PHP4,2010.0


- Criando um DataFrame a partir de uma query utilizando parâmetros dinâmicos.

In [44]:
query = 'SELECT nome, ano ' \
      'FROM cursos ' \
      'WHERE ano = %s' 

In [47]:
df = pd.read_sql_query(query, engine,params=["2016"])
df.head()

Unnamed: 0,nome,ano
0,MySQL,2016
1,Word,2016
2,POO,2016
3,Redes,2016


In [52]:
# Criando um DataFrame a partir de uma query utilizando parâmetros nomeados.

query = '''
SELECT gafanhotos.nome , cursos.nome, cursos.ano FROM gafanhotos INNER JOIN cursos
ON cursos.idcurso = gafanhotos.cursopreferido
order by ano
WHERE cursos.ano >=%(ano_inicial)s AND cursos.ano < %(ano_final)s;
'''

In [53]:
df = pd.read_sql_query(query,
                       engine,
                       params={'ano_inicial':"2015",
                               'ano_final':"2017"}
                      )

ProgrammingError: (pymysql.err.ProgrammingError) (1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'WHERE cursos.ano >='2015' AND cursos.ano < '2017'' at line 4")
[SQL: 
SELECT gafanhotos.nome , cursos.nome, cursos.ano FROM gafanhotos INNER JOIN cursos
ON cursos.idcurso = gafanhotos.cursopreferido
order by ano
WHERE cursos.ano >=%(ano_inicial)s AND cursos.ano < %(ano_final)s;
]
[parameters: {'ano_inicial': '2015', 'ano_final': '2017'}]
(Background on this error at: http://sqlalche.me/e/f405)

In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   nome    4 non-null      object
 1   ano     4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes


**Método: read_sql**

- Faz o roteamento entre os métodos read_table e read_sql_query.

- Se especificamos como primeiro parâmetro o nome de uma tabela é como se ele executasse internamente o read_table, ou seja, ela busca a tabela inteira, agora se passamos uma query como primeiro parâmetro ele vai executar por baixo dos panos o read_sql.

In [54]:
#Utilizando o read_table

df = pd.read_sql("gafanhotos",engine)
df.head()

Unnamed: 0,id,nome,profissao,nascimento,sexo,peso,altura,nacionalidade,cursopreferido
0,1,Daniel Morais,Auxiliar Administrat,1984-01-02,M,78.5,1.83,Brasil,6.0
1,2,Talita Nascimento,Farmacêutico,1999-12-30,F,55.2,1.65,Portugal,22.0
2,3,Emerson Gabriel,Programador,1920-12-30,M,50.2,1.65,Moçambique,12.0
3,4,Lucas Damasceno,Auxiliar Administrat,1930-11-02,M,63.2,1.75,Irlanda,7.0
4,5,Leila Martins,Farmacêutico,1975-04-22,F,99.0,2.15,Brasil,1.0


In [55]:
#Utilizando o query SQL

df = pd.read_sql("select * from gafanhotos", engine)
df.head()

Unnamed: 0,id,nome,profissao,nascimento,sexo,peso,altura,nacionalidade,cursopreferido
0,1,Daniel Morais,Auxiliar Administrat,1984-01-02,M,78.5,1.83,Brasil,6.0
1,2,Talita Nascimento,Farmacêutico,1999-12-30,F,55.2,1.65,Portugal,22.0
2,3,Emerson Gabriel,Programador,1920-12-30,M,50.2,1.65,Moçambique,12.0
3,4,Lucas Damasceno,Auxiliar Administrat,1930-11-02,M,63.2,1.75,Irlanda,7.0
4,5,Leila Martins,Farmacêutico,1975-04-22,F,99.0,2.15,Brasil,1.0


**Método: to_sql (Método Inverso)**

- O processo agora será o inverso, vamos pegar o DataFrame e persistir no banco de dados relacional, ele será criado como uma tabela no banco.

In [58]:
df = pd.read_excel("Prevendo_acoes/petr4_1_2010_11_2020.xlsx")

In [59]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume
0,2020-05-25,19.48,19.56,19.26,19.48,3758000000
1,2020-05-22,18.8,18.9,18.35,18.67,6884000000
2,2020-05-21,19.5,19.77,19.07,19.19,8092000000
3,2020-05-20,19.09,19.44,19.06,19.3,7412000000
4,2020-05-19,18.51,18.93,18.41,18.68,7969000000


- Criando uma tabela com o datraframe carregado anteriormente, assim sendo iremos persistir a tabela dentro do banco de dados "cadastro" já criado no MySQL.

- Parâmetros do método to_sql.

* name = Nome da tabela que será criada no SGBD.
* con = Objeto conexão criado pelo SQLAlchemy.
* schema = Nome do Schema onde será criada a tabela.
* if_exists= Comportamento caso a tabela exista no SGBD.
* index= Escreve o índice do DataFrame como uma coluna da tabela.
* index_label= Nome da coluna de índice.

In [60]:
df.to_sql(
    name = 'tb_acoes_petr4',
    con = engine,
)

#A tabela indicada ja estará dentro do meu banco de dados no MySQL.

- Para criar uma tabelka sem o index utilizamos o codigo abaixo.
- Além de dizer que não queremos uma coluna de index, vamos passar o parâmetro if_exists = ‘append’ , isso quer dizer que se a tabela já existir no banco esses dados serão acrescentados nessa mesma tabela.


In [61]:
df.to_sql(
    name = 'tb_acoes_petr4',
    con = engine,
    index = False,
    if_exists ='append'
)

- Todos os codigos indicados acima podem ser usados para a manipulação de banco de dados dentro do python, não so por meio das bibliotecas como o pandas e numpy, como também por meio das queries SQL.
- Também foi visto como é possivel persistir dataframes para a utilização dentro de programas como o MySQL, espero que seja util para quem procura utilizar estas duas ferramentas para fazer análise de dados.