## Coleta de dados estruturados em lista de arquivos

Um instituto de pesquisa realizou no ano de 2020 uma pesquisa que tinha como objetivo coletar
dados sobre as preferências pessoais de seus entrevistados. Essa pesquisa coletou dados dos
seguintes assuntos:
1. Animal de estimação.
2. Bebida.
3. Clima.
4. Hobbies.

A pesquisa foi realizada em dias diferentes durante todo o ano de 2020. Dessa forma,
cada dia da pesquisa contém informações pessoais de um ou vários entrevistados


In [None]:
#Vamos importar as bibliotecas que vamos utilizar para essa prática
import pandas as pd 
import os # bibliotecas para funções do sistema operacional

### Documentação das bibliotecas
**Pandas** - https://pandas.pydata.org/pandas-docs/stable/index.html

**os** - https://docs.python.org/3/library/os.html

Vamos atribuir a uma váriavel o caminho no qual está armazenados os arquivos com as vendas do veículo



In [None]:
DIRETORIO = "/content/files/"

Agora vamos criar uma lista com todos os arquivos que estão armazenados no diretório.

o metódo listdir retorna uma lista contendo os nomes das entradas no diretório fornecido por path.


In [None]:
lista_df = [] # cria uma lista
lista_path = os.listdir(DIRETORIO) 

In [None]:
lista_path[:3] #lista quantidade de itens na lista

['2020-01-16.csv', '2020-12-19.csv', '2020-01-13.csv']

Ótmo! Agora temos todos os nomes dos aquivos que estão dentro do diretório. Agora vamos abrir cada arquivo e coletar os seus dados.

In [None]:
lista_df = [] # cria uma lista vazia
for arquivo in lista_path:
    local_arquivo = os.path.join(DIRETORIO, arquivo)
    df = pd.read_csv(local_arquivo, sep = '|', encoding='latin-1')
    lista_df.append(df)
df_pesquisa = pd.concat(lista_df) # Atribui os dados coletados em um dataframe

In [None]:
lista_new = [] # cria uma lista vazia
for arquivo in lista_path:
    if arquivo != '.ipynb_checkpoints':
      local_arquivo = os.path.join(DIRETORIO, arquivo)
      dfnew = pd.read_csv(local_arquivo, sep = '|', encoding='latin-1')
      lista_new.append(dfnew)
#df_pesquisa = pd.concat(lista_df) # Atribui os dados coletados em um dataframe
df_new= pd.concat(lista_new) # Atribui os dados coletados em um dataframe

In [None]:
#df_pesquisa[:10]
df_new.head()

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10142036,2020-01-16,Feminino,1965-04-19,tartaruga,frio,Água,Escutar música
1,10142053,2020-01-16,Feminino,1968-10-21,peixe,quente,refrigerante,Praticar esporte
0,10141876,2020-12-19,Feminino,1972-12-20,gato,frio,Vinho,Aprender algo novo
1,10141899,2020-12-19,Masculino,1969-09-18,gato,moderado,Chá,Pintar quadros
2,10143110,2020-12-19,Masculino,1951-07-25,gato,moderado,refrigerante,Praticar esporte


In [None]:
df_pesquisa.describe()

Unnamed: 0,cod_pessoa
count,2127.0
mean,10142560.0
std,614.1563
min,10141500.0
25%,10142030.0
50%,10142560.0
75%,10143100.0
max,10143630.0


In [None]:
df_pesquisa.head()

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10142036,2020-01-16,Feminino,1965-04-19,tartaruga,frio,Água,Escutar música
1,10142053,2020-01-16,Feminino,1968-10-21,peixe,quente,refrigerante,Praticar esporte
0,10141876,2020-12-19,Feminino,1972-12-20,gato,frio,Vinho,Aprender algo novo
1,10141899,2020-12-19,Masculino,1969-09-18,gato,moderado,Chá,Pintar quadros
2,10143110,2020-12-19,Masculino,1951-07-25,gato,moderado,refrigerante,Praticar esporte


# Exportando dados para arquivos

Agora que ja temos todos os arquivos do diretório, vamos exporta-los apenas para um arquivo único.


In [None]:
df_pesquisa.to_csv(DIRETORIO + '/pesquisa_completa.csv', sep = ';', encoding='latin-1', index=False)

Agora temos os dados das vendas em um único arquivo. Abaixo segue a prévia do arquivo exportado.


#Questões do Desafio

Carregando biblioteca de SQL do pandas

In [None]:
!pip install -U pandasql #Lib pandas SQL

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from pandasql import sqldf
from sklearn import datasets

In [None]:
# Teste de Query SQL
q = "SELECT * FROM df_pesquisa LIMIT 20"
sqldf(q, globals())

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10142036,2020-01-16,Feminino,1965-04-19,tartaruga,frio,Água,Escutar música
1,10142053,2020-01-16,Feminino,1968-10-21,peixe,quente,refrigerante,Praticar esporte
2,10141876,2020-12-19,Feminino,1972-12-20,gato,frio,Vinho,Aprender algo novo
3,10141899,2020-12-19,Masculino,1969-09-18,gato,moderado,Chá,Pintar quadros
4,10143110,2020-12-19,Masculino,1951-07-25,gato,moderado,refrigerante,Praticar esporte
5,10143158,2020-12-19,Feminino,1988-10-18,gato,quente,refrigerante,Escutar música
6,10143159,2020-12-19,Feminino,1956-07-16,peixe,quente,Café,Escutar música
7,10141518,2020-01-13,Masculino,1959-06-12,tartaruga,frio,Água,Aprender algo novo
8,10142083,2020-01-13,Masculino,1959-02-22,gato,moderado,Água,Dormir
9,10142537,2020-01-13,Masculino,1994-08-20,cachorro,quente,Cerveja,Escrever


## 1. Qual é a soma das Pessoas que gostam de gato ou cachorro? Utilize operador IN na clausura where.

In [None]:
q = "SELECT COUNT(*) as TOTAL FROM df_pesquisa WHERE animal_estimacao IN ('gato', 'cachorro')"
sqldf(q, globals())

Unnamed: 0,TOTAL
0,1278


## 2. Qual a média de idade dos mulheres que gostam de chá e clima frio?

In [None]:
q = "SELECT AVG((strftime('%Y', 'now') - strftime('%Y', data_nascimento)) - (strftime('%m-%d', 'now') < strftime('%m-%d', data_nascimento))) as media_idade FROM "
q+="df_pesquisa WHERE genero='Feminino' AND clima='frio' AND bebida_favorita='Chá'"
sqldf(q, globals())

Unnamed: 0,media_idade
0,49.890909


## 3. Qual o segundo maior hobbie de preferência entre os homens?



In [None]:
q = "SELECT COUNT(hobbies) as hobbie, hobbies FROM df_pesquisa WHERE genero='Masculino' GROUP BY hobbies ORDER BY COUNT(hobbies) DESC;"
sqldf(q, globals())

Unnamed: 0,hobbie,hobbies
0,184,Dormir
1,183,Aprender algo novo
2,182,Escrever
3,177,Ler livros
4,175,Praticar esporte
5,173,Assistir TV
6,171,Pintar quadros
7,153,Escutar música


## 5. Qual o resultado da consulta abaixo?
select aes.animal, count(pes.cod_pessoa) as qtd_pessoas
 from pesquisa as pesq
 join animal_estimacao aes on
                 pesq.cod_animal_estimacao = aes.cod_animal_estimacao
 join pessoa as pes on
                 pesq.cod_pessoa = pes.cod_pessoa
 group by aes.animal
order by count(pes.cod_pessoa) desc

In [None]:
#Estatística que apresenta o índice de pessoas que possuem preferência por tipo de animal e classificado de maneira decrescente.

## 6. Qual é a média de idade das pessoas que têm como hobbie assistir TV?

In [None]:
q = "SELECT AVG((strftime('%Y', 'now') - strftime('%Y', data_nascimento)) - (strftime('%m-%d', 'now') < strftime('%m-%d', data_nascimento))) as media_idade FROM df_pesquisa WHERE hobbies='Assistir TV' ORDER BY COUNT(hobbies) DESC;"
sqldf(q, globals())

Unnamed: 0,media_idade
0,46.247148


## 7. Quantas pessoas têm como hobbie como ler livros e qual a sua média de idade respectivamente?

In [None]:
q = "SELECT COUNT(1) as total, hobbies, AVG((strftime('%Y', 'now') - strftime('%Y', data_nascimento)) - (strftime('%m-%d', 'now') < strftime('%m-%d', data_nascimento))) as media_idade FROM df_pesquisa WHERE hobbies='Ler livros' GROUP BY hobbies ORDER BY COUNT(hobbies) DESC;"
sqldf(q, globals())

Unnamed: 0,total,hobbies,media_idade
0,257,Ler livros,45.750973


##8. Qual script abaixo retorna o número total de pessoas que responderam na pesquisa que gostam de cachorro?

In [None]:
'''select ae.animal, count(1) total
from pesquisa p
inner join animal_estimacao ae
on p.cod_animal_estimacao = ae.cod_animal_estimacao
where ae.animal = 'cachorro'
group by animal 
'''

q = "SELECT animal_estimacao, COUNT(1) as total FROM df_pesquisa WHERE animal_estimacao='cachorro' GROUP BY animal_estimacao"
sqldf(q, globals())


Unnamed: 0,animal_estimacao,total
0,cachorro,414


## 9. Qual a quantidade de pessoas que gostam de tempo moderado?

In [None]:
q = "SELECT COUNT(*) as TOTAL FROM df_pesquisa WHERE clima='moderado'"
sqldf(q, globals())

Unnamed: 0,TOTAL
0,711


##10. Qual o animal de estimação preferido entre as mulheres?

In [None]:
q = "SELECT COUNT(animal_estimacao) as total, animal_estimacao FROM df_pesquisa WHERE genero='Feminino' GROUP BY animal_estimacao ORDER BY COUNT(animal_estimacao) DESC;"
sqldf(q, globals())

## 11. Quantas pessoas gostam de clima quente por gênero?

In [None]:
q = "SELECT COUNT(clima) as total, genero FROM df_pesquisa WHERE clima='quente' GROUP BY clima, genero ORDER BY COUNT(clima) DESC;"
sqldf(q, globals())

Unnamed: 0,total,genero
0,447,Masculino
1,246,Feminino


## 12. Quantas pessoas do sexo masculino gostam de cachorro e possuem hobbie de assistir tv?


In [None]:
q = "SELECT COUNT(*) as TOTAL FROM df_pesquisa WHERE animal_estimacao = 'cachorro' AND genero = 'Masculino' AND hobbies='Assistir TV'"
sqldf(q, globals())

Unnamed: 0,TOTAL
0,44


#  Armazendo os dados no banco dados MySQL

Vamos importar as bibliotecas necessárias para trabalhar no banco de dados

In [None]:
!pip install mysqlclient

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
!pip install sqlalchemy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### Documentação das bibliotecas
**MySQLdb** - https://mysqlclient.readthedocs.io/user_guide.html

**sqlalchemy** - https://www.sqlalchemy.org/


### Criando schema do banco de dados
O próximo passo é criar a conexão com o banco de dados. No entanto, antes de executar o script que gera a string de conexão precisamos criar o schema no banco de dados. 

Os **schemas** são coleções de objetos dentro de um determinado banco de dados, que organizam vários aspectos e são importantes para segmentação da segurança, facilitando a administração dos objetos e dos dados. 

Para criar o o schema de um banco de dados MySQL temos que utilizar o seguinte comando dentro do ambiente do SGDB:

> create schema [nome_schema];

SGBD é o sistema gerenciador de banco de dados. Para esse curso vamos utilizar o MySQL Workbench.



Pronto! Depois que criamos o schema/database dentro do MySQL Workbenck o proximo passo é criar a conexão com o banco.
Vamos definir os dados necessárias para fazer o acesso ao servidor de banco de dados MySQL e, em seguinda, criar uma conexão com o banco de dados baseado em uma string de conexão.

In [1]:
user = 'db_odiego'
password = 'senha'
host = 'localhost'
database = 'db_odiego' #schema

string_conexao = f'mysql://{user}:{password}@{host}/{database}'
string_conexao #testar a string de conexão com o banco de dados. 

'mysql://db_odiego:senha@localhost/db_odiego'

A string é composta pelo o **usuário** de acesso ao banco, a **senha**, o **caminho** do banco de dados e o **schema** que vai ser utilizado.

In [None]:
from sqlalchemy import create_engine

engine = create_engine(string_conexao)
conn = engine.connect()

O primeiro passo é inserir os dados do dataframe **df_pesquisa** na tabela no banco. 
Para isso, vamos percorrer todo o dataframe e atribuir as variáveis os valores de cada coluna. Em seguida, vamos inseri-las no insert.

In [None]:
for pessoa in df_pesquisa[:3].itertuples():
    print(pessoa)

Pandas(Index=0, cod_pessoa=10142036, data_coleta='2020-01-16', genero='Feminino', data_nascimento='1965-04-19', animal_estimacao='tartaruga', clima='frio', bebida_favorita='Água', hobbies='Escutar música')
Pandas(Index=1, cod_pessoa=10142053, data_coleta='2020-01-16', genero='Feminino', data_nascimento='1968-10-21', animal_estimacao='peixe', clima='quente', bebida_favorita='refrigerante', hobbies='Praticar esporte')
Pandas(Index=0, cod_pessoa=10141876, data_coleta='2020-12-19', genero='Feminino', data_nascimento='1972-12-20', animal_estimacao='gato', clima='frio', bebida_favorita='Vinho', hobbies='Aprender algo novo')


Observerm que para o animal_estimacao não foi gerado um dataframe e sim uma lista. Não foi necessário criar um dataframe, uma vez que os dados contidos são apenas de uma coluna.


In [None]:
df_pesquisa[:20].itertuples()
df_animal = df_pesquisa['animal_estimacao']
animais = list(df_animal.unique())
animais #Dados de modelo

['tartaruga', 'peixe', 'gato', 'cachorro']

In [None]:
for animal in animais:
  print(animal)

tartaruga
peixe
gato
cachorro


In [None]:
for animal in animais:
    try:
        query = f"""insert into animal_estimacao (animal) 
                     values ('{animal}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso: {animal}")
    except Exception as e:
        print(f"Não foi possível inserir o regristro {animal}. O erro foi encontrado foi: {e}")    

Não foi possível inserir o regristro tartaruga. O erro foi encontrado foi: (MySQLdb.OperationalError) (2013, 'Lost connection to MySQL server during query')
[SQL: insert into animal_estimacao (animal) 
                     values ('tartaruga')]
(Background on this error at: https://sqlalche.me/e/14/e3q8)
Registro inserido com sucesso: peixe
Registro inserido com sucesso: gato
Registro inserido com sucesso: cachorro


## Dados de Clima, Bebidas e Hobbies


In [None]:
df_clima = df_pesquisa['clima']
climas = list(df_clima.unique())
climas #Dados de modelo

['frio', 'quente', 'moderado']

In [None]:
df_bebida = df_pesquisa['bebida_favorita']
bebidas = list(df_bebida.unique())
bebidas #Dados de modelo

['Água', 'refrigerante', 'Vinho', 'Chá', 'Café', 'Cerveja']

In [None]:
df_hobbie = df_pesquisa['hobbies']
hobbies = list(df_hobbie.unique())
hobbies #Dados de modelo

['Escutar música',
 'Praticar esporte',
 'Aprender algo novo',
 'Pintar quadros',
 'Dormir',
 'Escrever',
 'Assistir TV',
 'Ler livros']

## Inserção no DB (Clima, Bebidas e Hobbies)

In [None]:
# Lista de climas
for clima in climas:
    try:
        query = f"""insert into clima (clima) 
                     values ('{clima}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso: {clima}")
    except Exception as e:
        print(f"Não foi possível inserir o regristro {clima}. O erro foi encontrado foi: {e}") 

Não foi possível inserir o regristro frio. O erro foi encontrado foi: (MySQLdb.OperationalError) (2013, 'Lost connection to MySQL server during query')
[SQL: insert into clima (clima) 
                     values ('frio')]
(Background on this error at: http://sqlalche.me/e/14/e3q8)
Registro inserido com sucesso: quente
Registro inserido com sucesso: moderado


In [None]:
# Lista de bebidas
for drink in bebidas:
    try:
        query = f"""insert into bebida (bebida) 
                     values ('{drink}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso: {drink}")
    except Exception as e:
        print(f"Não foi possível inserir o regristro {drink}. O erro foi encontrado foi: {e}") 

Não foi possível inserir o regristro Água. O erro foi encontrado foi: (MySQLdb.OperationalError) (2013, 'Lost connection to MySQL server during query')
[SQL: insert into bebida (bebida) 
                     values ('Água')]
(Background on this error at: http://sqlalche.me/e/14/e3q8)
Registro inserido com sucesso: refrigerante
Registro inserido com sucesso: Vinho
Registro inserido com sucesso: Chá
Registro inserido com sucesso: Café
Registro inserido com sucesso: Cerveja


In [None]:
# Lista de hobbies
for hb in hobbies:
    try:
        query = f"""insert into hobbie (hobbie) 
                     values ('{hb}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso: {hb}")
    except Exception as e:
        print(f"Não foi possível inserir o regristro {hb}. O erro foi encontrado foi: {e}") 

# Data Frame de pessoas

In [None]:
df_pessoa = df_pesquisa[['cod_pessoa', 'genero', 'data_nascimento']].drop_duplicates()
df_pessoa

Unnamed: 0,cod_pessoa,genero,data_nascimento
0,10142036,Feminino,1965-04-19
1,10142053,Feminino,1968-10-21
0,10141876,Feminino,1972-12-20
1,10141899,Masculino,1969-09-18
2,10143110,Masculino,1951-07-25
...,...,...,...
1,10141591,Feminino,1970-10-13
2,10141873,Feminino,1956-10-10
3,10142141,Masculino,1958-07-12
4,10142626,Feminino,1957-11-11


In [None]:
for pessoa in df_pessoa.itertuples():
    cod_pessoa = pessoa.cod_pessoa
    genero = pessoa.genero
    data_nascimento = str(pessoa.data_nascimento)

    try:
        query = f"""insert into pessoa (cod_pessoa, genero, data_nascimento ) 
                     values ('{cod_pessoa}','{genero}', '{data_nascimento}')"""      
        conn.execute(query)      
        print(f"Registro inserido com sucesso: {cod_pessoa}")
    except Exception as e:        
        print(f"Não foi possível inserir o regristro {cod_pessoa}. O erro foi encontrado foi: {e}")    

Não foi possível inserir o regristro 10142036. O erro foi encontrado foi: (MySQLdb.OperationalError) (2013, 'Lost connection to MySQL server during query')
[SQL: insert into pessoa (cod_pessoa, genero, data_nascimento ) 
                     values ('10142036','Feminino', '1965-04-19')]
(Background on this error at: https://sqlalche.me/e/14/e3q8)
Registro inserido com sucesso: 10142053
Registro inserido com sucesso: 10141876
Registro inserido com sucesso: 10141899
Registro inserido com sucesso: 10143110
Registro inserido com sucesso: 10143158
Registro inserido com sucesso: 10143159
Registro inserido com sucesso: 10141518
Registro inserido com sucesso: 10142083
Registro inserido com sucesso: 10142537
Registro inserido com sucesso: 10142628
Registro inserido com sucesso: 10142815
Registro inserido com sucesso: 10142923
Registro inserido com sucesso: 10142148
Registro inserido com sucesso: 10142539
Registro inserido com sucesso: 10142847
Registro inserido com sucesso: 10141597
Registro in

Pronto! Ja inserimos os registros de fabricante na tabela no banco. Agora vamos ler um sql da tabela do banco e adiciona-lo em um dataframe.


## Adicionar Dados a um dataframe

> Data Frame de Clima

In [None]:
df_clima = pd.read_sql('clima', con=conn) # Lê o dado na tabela do banco de dados
df_clima

Unnamed: 0,cod_clima,clima
0,1,quente
1,2,moderado
2,3,frio


In [None]:
dict_climas = df_clima.set_index(df_clima.clima)['cod_clima'].to_dict()
dict_climas

{'quente': 1, 'moderado': 2, 'frio': 3}

> Data Frame de Hobbies

In [None]:
df_hobbie = pd.read_sql('hobbie', con=conn) # Lê o dado na tabela do banco de dados
df_hobbie

Unnamed: 0,cod_hobbie,hobbie
0,1,Escutar música
1,2,Praticar esporte
2,3,Aprender algo novo
3,4,Pintar quadros
4,5,Dormir
5,6,Escrever
6,7,Assistir TV
7,8,Ler livros


In [None]:
dict_hobbies = df_hobbie.set_index(df_hobbie.hobbie)['cod_hobbie'].to_dict()
dict_hobbies

{'Escutar música': 1,
 'Praticar esporte': 2,
 'Aprender algo novo': 3,
 'Pintar quadros': 4,
 'Dormir': 5,
 'Escrever': 6,
 'Assistir TV': 7,
 'Ler livros': 8}

> Data Frame de bebidas

In [None]:
df_bebida = pd.read_sql('bebida', con=conn) # Lê o dado na tabela do banco de dados
df_bebida

Unnamed: 0,cod_bebida,bebida
0,1,refrigerante
1,2,Vinho
2,3,Chá
3,4,Café
4,5,Cerveja
5,6,Água


In [None]:
dict_bebidas = df_bebida.set_index(df_bebida.bebida)['cod_bebida'].to_dict()
dict_bebidas

{'refrigerante': 1, 'Vinho': 2, 'Chá': 3, 'Café': 4, 'Cerveja': 5, 'Água': 6}

> Data Frame de Pessoas

In [None]:
df_pessoas = pd.read_sql('pessoa', con=conn) # Lê o dado na tabela do banco de dados

In [None]:
df_pessoas

Unnamed: 0,cod_pessoa,genero,data_nascimento
0,10141501,Feminino,1984-05-22
1,10141502,Masculino,1998-06-27
2,10141503,Masculino,1963-02-18
3,10141504,Masculino,1979-09-09
4,10141505,Masculino,1958-10-04
...,...,...,...
2122,10143623,Masculino,1975-07-16
2123,10143624,Masculino,1959-04-01
2124,10143625,Masculino,1994-05-13
2125,10143626,Masculino,1956-09-08


Perceba que agora temos o código associado a uma pessoa. Esse código será utilizado para popular a tabela de pessoas.

> *Vamos ler todo o dado contido na coluna de cod_pessoa do dataframe **df_pessoas** e buscar a sua equivalencia no dataframe **df_pesquisa***

In [None]:
df_animais = pd.read_sql('animal_estimacao', con=conn) # Lê o dado na tabela do banco de dados

In [None]:
df_animais

Unnamed: 0,cod_animal_estimacao,animal
0,1,peixe
1,2,gato
2,3,cachorro
3,4,tartaruga


Perceba que agora temos o código associado a um animal de estimação. Esse código será utilizado para popular a tabela de pessoas.

> *Vamos ler todo o dado contido na coluna de animal_estimacao do dataframe **df_animais** e buscar a sua equivalencia no dataframe **df_pesquisa***



 Primeiro vamos setar a coluna nome do animal como index. Essa coluna vai ser utilizada como index para buscar os dados no dataframe df_pesquisa. Após isso, vamos transformar em um dicionário

In [None]:
dict_animais = df_animais.set_index(df_animais.animal)['cod_animal_estimacao'].to_dict()
dict_animais

{'peixe': 1, 'gato': 2, 'cachorro': 3, 'tartaruga': 4}

In [None]:
dict_pessoas = df_pessoas.set_index(df_pessoas.cod_pessoa)['cod_pessoa'].to_dict()
dict_pessoas

{10141501: 10141501,
 10141502: 10141502,
 10141503: 10141503,
 10141504: 10141504,
 10141505: 10141505,
 10141506: 10141506,
 10141507: 10141507,
 10141508: 10141508,
 10141509: 10141509,
 10141510: 10141510,
 10141511: 10141511,
 10141512: 10141512,
 10141513: 10141513,
 10141514: 10141514,
 10141515: 10141515,
 10141516: 10141516,
 10141517: 10141517,
 10141518: 10141518,
 10141519: 10141519,
 10141520: 10141520,
 10141521: 10141521,
 10141522: 10141522,
 10141523: 10141523,
 10141524: 10141524,
 10141525: 10141525,
 10141526: 10141526,
 10141527: 10141527,
 10141528: 10141528,
 10141529: 10141529,
 10141530: 10141530,
 10141531: 10141531,
 10141532: 10141532,
 10141533: 10141533,
 10141534: 10141534,
 10141535: 10141535,
 10141536: 10141536,
 10141537: 10141537,
 10141538: 10141538,
 10141539: 10141539,
 10141540: 10141540,
 10141541: 10141541,
 10141542: 10141542,
 10141543: 10141543,
 10141544: 10141544,
 10141545: 10141545,
 10141546: 10141546,
 10141547: 10141547,
 10141548: 10

# Associação de Códigos no DataFrame Pesquisa
Nesse momento vamos buscar os nomes dos animais e associamos a seu respectivo código.

Em seguida, o mesmo para pessoas, clima, bebida e hobbies.

In [None]:
df_pesquisa.animal_estimacao = df_animais.animal.map(dict_animais)
df_pesquisa

#df_pesquisa['cod_animal_estimacao']

Unnamed: 0,cod_pessoa,data_pesquisa,cod_animal_estimacao,cod_clima,cod_bebida,cod_hobbie
0,10142036,2020-01-16,1.0,1.0,1.0,1.0
1,10142053,2020-01-16,2.0,2.0,2.0,2.0
0,10141876,2020-12-19,1.0,1.0,1.0,1.0
1,10141899,2020-12-19,2.0,2.0,2.0,2.0
2,10143110,2020-12-19,3.0,3.0,3.0,3.0
...,...,...,...,...,...,...
1,10141591,2020-07-07,2.0,2.0,2.0,2.0
2,10141873,2020-07-07,3.0,3.0,3.0,3.0
3,10142141,2020-07-07,4.0,,4.0,4.0
4,10142626,2020-07-07,,,5.0,5.0


In [None]:
# Clima
df_pesquisa.clima = df_clima.clima.map(dict_climas)
df_pesquisa

Unnamed: 0,cod_pessoa,data_pesquisa,cod_animal_estimacao,clima,bebida_favorita,hobbies
0,10142036,2020-01-16,1.0,1.0,Água,Escutar música
1,10142053,2020-01-16,2.0,2.0,refrigerante,Praticar esporte
0,10141876,2020-12-19,1.0,1.0,Vinho,Aprender algo novo
1,10141899,2020-12-19,2.0,2.0,Chá,Pintar quadros
2,10143110,2020-12-19,3.0,3.0,refrigerante,Praticar esporte
...,...,...,...,...,...,...
1,10141591,2020-07-07,2.0,2.0,Cerveja,Ler livros
2,10141873,2020-07-07,3.0,3.0,Café,Aprender algo novo
3,10142141,2020-07-07,4.0,,Chá,Praticar esporte
4,10142626,2020-07-07,,,refrigerante,Ler livros


In [None]:
# Hobbies
df_pesquisa.hobbies = df_hobbie.hobbie.map(dict_hobbies)
df_pesquisa

Unnamed: 0,cod_pessoa,data_pesquisa,cod_animal_estimacao,clima,bebida_favorita,hobbies
0,10142036,2020-01-16,1.0,1.0,Água,1.0
1,10142053,2020-01-16,2.0,2.0,refrigerante,2.0
0,10141876,2020-12-19,1.0,1.0,Vinho,1.0
1,10141899,2020-12-19,2.0,2.0,Chá,2.0
2,10143110,2020-12-19,3.0,3.0,refrigerante,3.0
...,...,...,...,...,...,...
1,10141591,2020-07-07,2.0,2.0,Cerveja,2.0
2,10141873,2020-07-07,3.0,3.0,Café,3.0
3,10142141,2020-07-07,4.0,,Chá,4.0
4,10142626,2020-07-07,,,refrigerante,5.0


In [None]:
# Bebidas
df_pesquisa.bebida_favorita = df_bebida.bebida.map(dict_bebidas)
df_pesquisa

Unnamed: 0,cod_pessoa,data_pesquisa,cod_animal_estimacao,clima,bebida_favorita,hobbies
0,10142036,2020-01-16,1.0,1.0,1.0,1.0
1,10142053,2020-01-16,2.0,2.0,2.0,2.0
0,10141876,2020-12-19,1.0,1.0,1.0,1.0
1,10141899,2020-12-19,2.0,2.0,2.0,2.0
2,10143110,2020-12-19,3.0,3.0,3.0,3.0
...,...,...,...,...,...,...
1,10141591,2020-07-07,2.0,2.0,2.0,2.0
2,10141873,2020-07-07,3.0,3.0,3.0,3.0
3,10142141,2020-07-07,4.0,,4.0,4.0
4,10142626,2020-07-07,,,5.0,5.0


In [None]:
#df_pesquisa.cod_pessoa = df_pessoas.cod_pessoa.map(dict_pessoas)
#df_pesquisa

## Feito isso, vamos alterar o nome da coluna de todos importados:

1.   Animal Estimação
2.   Pessoa
3.   Clima
4.   Bebida
5.   Hobbies



In [None]:
# Renomeia as colunas conforme Database
#df_pesquisa = df_pesquisa.rename(columns={'data_coleta' : 'data_pesquisa'})
#df_pesquisa = df_pesquisa.rename(columns={'animal_estimacao' : 'cod_animal_estimacao'})

df_pesquisa = df_pesquisa.rename(columns={'clima' : 'cod_clima'})
df_pesquisa = df_pesquisa.rename(columns={'bebida_favorita' : 'cod_bebida'})
df_pesquisa = df_pesquisa.rename(columns={'hobbies' : 'cod_hobbie'})

# Dropa duas colunas nao mais necessarias
try:
  df_pesquisa.drop('genero', axis=1, inplace=True)
  df_pesquisa.drop('data_nascimento', axis=1, inplace=True)
except Exception as e:
  print(f"Não foi possível dropar colunas. {e}") 

# Exibe o dataframe
df_pesquisa

Não foi possível dropar colunas. O erro foi encontrado foi: "['genero'] not found in axis"


Unnamed: 0,cod_pessoa,data_pesquisa,cod_animal_estimacao,cod_clima,cod_bebida,cod_hobbie
0,10142036,2020-01-16,1.0,1.0,1.0,1.0
1,10142053,2020-01-16,2.0,2.0,2.0,2.0
0,10141876,2020-12-19,1.0,1.0,1.0,1.0
1,10141899,2020-12-19,2.0,2.0,2.0,2.0
2,10143110,2020-12-19,3.0,3.0,3.0,3.0
...,...,...,...,...,...,...
1,10141591,2020-07-07,2.0,2.0,2.0,2.0
2,10141873,2020-07-07,3.0,3.0,3.0,3.0
3,10142141,2020-07-07,4.0,,4.0,4.0
4,10142626,2020-07-07,,,5.0,5.0


# Pronto! Agora é so fazer o insert na tabela do banco.

In [None]:
for pesquisa in df_pesquisa.itertuples():
    data_pesquisa = str(pesquisa.data_pesquisa)
    cod_pessoa = pesquisa.cod_pessoa
    cod_animal_estimacao = pesquisa.cod_animal_estimacao
    cod_clima = pesquisa.cod_clima
    cod_bebida = pesquisa.cod_bebida
    cod_hobbie = pesquisa.cod_hobbie
    try:        
        query = f"""insert into pesquisa (cod_pessoa, data_pesquisa, 
        cod_animal_estimacao, cod_clima, cod_bebida, cod_hobbie) 
                     values ('{cod_pessoa}','{data_pesquisa}',{cod_animal_estimacao}
                     ,{cod_clima},{cod_bebida},{cod_hobbie})"""
        conn.execute(query)
        print(f"Registro inserido com sucesso: {cod_pessoa}")
    except Exception as e:
        print(f'Não foi possível inserir o registro: {cod_pessoa} Erro: {e}')
    

## Criando tabela Staging no banco de dados

Uma outra forma de popular dados no banco de dados é através da criação de uma tabela de preparação temporária. Uma tabela Staging é uma area intermediária utilizada para preparar os dados para serem utilizados em um ambiente de análise. 

Deste modo, criamos uma cópia da tabela com os dados coletados e persistimos no banco sem nenhum tratamento.

In [None]:
# cria uma tabela no banco SQL com o nome 
df_vendas.to_sql('stg_venda_veiculos', con=conn, schema='coletaIGTI')

Após criar a tabela de staging no banco de dados, vamos executar a seguinte consulta em SQL abaixo:

![image.png](attachment:3006f2f5-7863-4398-a336-74c2837947fa.png)

Na tabela principal **stg_venda_veiculos** vamos selecionar os campos: data_compra, valor e cod_pessoa. Além disso, temos que buscar a informação de cod_modelo que esta na tabela **modelo_veiculo**. Para fazer isso vamos realizar uma junção entre as duas tabelas e indicar o campo de descrição como parâmetro. Feito isso, vamos ter os dados necessários para inserir na tabela **venda_veiculo**. 

Pronto! Agora temos todos os dados coletados e armazenados normalizados no banco de dados. \0/ 