**Enunciado**

Um instituto de pesquisa realizou no ano de 2020, uma pesquisa que tinha como
objetivo coletar dados referente a preferências pessoais de seus entrevistados. Essa
pesquisa coletou dados dos seguintes assuntos:

1. Animal de estimação.
2. Bebida.
3. Clima.
4. Hobbies.

A pesquisa foi realizada em dias diferentes durante todo o ano de 2020. Desta forma,
cada dia da pesquisa, contém informações pessoais de um ou vários entrevistados.

**Atividades:**
- Coleta de dados fornecidos através da lista de arquivos;
- Manipulação e visualização de dados;
- Criar estrutura de tabelas no banco de dados MySQL;
- Tratamento de dados;
- Inserir dados no banco de dados MySQL.

**Instalando bibliotecas**

In [None]:
!pip install pandas
!pip install mysqlclient
!pip install sqlalchemy

**Importando bibliotecas**

In [1]:
import pandas as pd
import os
import MySQLdb
import sqlalchemy

# **Carregando dataset**

In [2]:
DIRETORIO = 'C:\\Users\\Caio Yuri\\Desktop\\Cursos Data Science\\Bootcamp IGTI PAN\\base_trabalho_pratico-2\\'

In [3]:
lista_path = os.listdir(DIRETORIO)

In [4]:
#Verificando lista de arquivos
lista_path[:5]

['2020-01-01.csv',
 '2020-01-02.csv',
 '2020-01-03.csv',
 '2020-01-04.csv',
 '2020-01-05.csv']

In [5]:
#Juntando todos os arquivos em um único dataframe
lista_df = [] #lista vazia
for arquivo in lista_path:
    local_arquivo = os.path.join(DIRETORIO, arquivo)
    if arquivo.endswith('csv'):
        df = pd.read_csv(local_arquivo, sep = '|', encoding = 'latin-1')
        lista_df.append(df)
df_pesquisa = pd.concat(lista_df) #Atribui os dados coletados em um dataframe

In [6]:
#Consultando os dados
df_pesquisa

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,peixe,frio,Cerveja,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,peixe,quente,Café,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,tartaruga,frio,Café,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,gato,moderado,Cerveja,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,tartaruga,moderado,Café,Assistir TV
...,...,...,...,...,...,...,...,...
1,10142475,2020-12-31,Masculino,1955-05-30,peixe,quente,Café,Praticar esporte
2,10142522,2020-12-31,Masculino,1954-12-22,peixe,moderado,Cerveja,Praticar esporte
3,10142881,2020-12-31,Masculino,1952-07-30,gato,frio,refrigerante,Assistir TV
4,10143184,2020-12-31,Masculino,1984-06-05,tartaruga,quente,refrigerante,Pintar quadros


# **Verificando os dados ausentes**

In [7]:
df_pesquisa.isna().sum()

cod_pessoa          0
data_coleta         0
genero              0
data_nascimento     0
animal_estimacao    0
clima               0
bebida_favorita     0
hobbies             0
dtype: int64

# **Criando conexão com o banco de dados MySQL**

In [8]:
user = 'CaioYuri'
password = 'Senha142536'
host = 'localhost'
database = 'pesquisa' #schema

string_conexao = f'mysql://{user}:{password}@{host}/{database}'
string_conexao #testar string de conexão com banco de dados

'mysql://CaioYuri:11071998Cy#0@localhost/pesquisa'

In [9]:
#Realizando conexão com banco de dados
engine = sqlalchemy.create_engine(string_conexao)
conn = engine.connect()

# **Preparando os dados para inserir nas tabelas**

In [10]:
#Separando os dados poe tabelas# **Preparando os dados para inserir nas tabelas**
df_pessoas = df_pesquisa[['cod_pessoa', 'genero', 'data_nascimento']].drop_duplicates()
df_pessoas

Unnamed: 0,cod_pessoa,genero,data_nascimento
0,10141743,Masculino,1981-04-25
1,10141860,Feminino,1966-01-19
2,10142548,Masculino,1973-08-02
3,10142591,Masculino,1997-03-05
4,10142654,Feminino,1969-08-05
...,...,...,...
1,10142475,Masculino,1955-05-30
2,10142522,Masculino,1954-12-22
3,10142881,Masculino,1952-07-30
4,10143184,Masculino,1984-06-05


In [11]:
#Separando os valores distintos
animais = list(df_pesquisa.animal_estimacao.unique())
animais

['peixe', 'tartaruga', 'gato', 'cachorro']

In [12]:
climas = list(df_pesquisa.clima.unique())
climas

['frio', 'quente', 'moderado']

In [13]:
bebidas = list(df_pesquisa.bebida_favorita.unique())
bebidas

['Cerveja', 'Café', 'refrigerante', 'Água', 'Vinho', 'Chá']

In [14]:
hobbies = list(df_pesquisa.hobbies.unique())
hobbies

['Praticar esporte',
 'Assistir TV',
 'Ler livros',
 'Aprender algo novo',
 'Escrever',
 'Pintar quadros',
 'Dormir',
 'Escutar música']

# **Inserindo os dados nas tabela do Banco de Dados**

In [15]:
for pessoa in df_pessoas[:3].itertuples():
    print(pessoa)

Pandas(Index=0, cod_pessoa=10141743, genero='Masculino', data_nascimento='1981-04-25')
Pandas(Index=1, cod_pessoa=10141860, genero='Feminino', data_nascimento='1966-01-19')
Pandas(Index=2, cod_pessoa=10142548, genero='Masculino', data_nascimento='1973-08-02')


In [16]:
for pessoa in df_pessoas.itertuples():
    cod_pessoa = pessoa.cod_pessoa
    genero = pessoa.genero
    data_nascimento = str(pessoa.data_nascimento)
    try:
        query = f"""insert into pessoa (cod_pessoa, genero, data_nascimento)
                      values ('{cod_pessoa}','{genero}','{data_nascimento}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso: Cod_pessoa = {cod_pessoa}")
    except Exception as e:
        print(f"Não foi possível inserir o registro {cod_pessoa}. O erro encontrado foi {e}")   

Registro inserido com sucesso: Cod_pessoa = 10141743
Registro inserido com sucesso: Cod_pessoa = 10141860
Registro inserido com sucesso: Cod_pessoa = 10142548
Registro inserido com sucesso: Cod_pessoa = 10142591
Registro inserido com sucesso: Cod_pessoa = 10142654
Registro inserido com sucesso: Cod_pessoa = 10141523
Registro inserido com sucesso: Cod_pessoa = 10141996
Registro inserido com sucesso: Cod_pessoa = 10142089
Registro inserido com sucesso: Cod_pessoa = 10142145
Registro inserido com sucesso: Cod_pessoa = 10142520
Registro inserido com sucesso: Cod_pessoa = 10143160
Registro inserido com sucesso: Cod_pessoa = 10141712
Registro inserido com sucesso: Cod_pessoa = 10141987
Registro inserido com sucesso: Cod_pessoa = 10142093
Registro inserido com sucesso: Cod_pessoa = 10142325
Registro inserido com sucesso: Cod_pessoa = 10142552
Registro inserido com sucesso: Cod_pessoa = 10142598
Registro inserido com sucesso: Cod_pessoa = 10143013
Registro inserido com sucesso: Cod_pessoa = 10

In [17]:
for animal_estimacao in animais:
    try:
        query = f"""insert into animal_estimacao (animal_estimacao)
                      values ('{animal_estimacao}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso {animal_estimacao}")
    except Exception as e:
        print(f"Não foi possível inserir o registro {animal_estimacao}. O erro encontrado foi {e}")   

Registro inserido com sucesso peixe
Registro inserido com sucesso tartaruga
Registro inserido com sucesso gato
Registro inserido com sucesso cachorro


In [18]:
for bebida in bebidas:
    try:
        query = f"""insert into bebida (bebida)
                      values ('{bebida}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso {bebida}")
    except Exception as e:
        print(f"Não foi possível inserir o registro {bebida}. O erro encontrado foi {e}")   

Registro inserido com sucesso Cerveja
Registro inserido com sucesso Café
Registro inserido com sucesso refrigerante
Registro inserido com sucesso Água
Registro inserido com sucesso Vinho
Registro inserido com sucesso Chá


In [19]:
for hobbie in hobbies:
    try:
        query = f"""insert into hobbie (hobbie)
                      values ('{hobbie}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso {hobbie}")
    except Exception as e:
        print(f"Não foi possível inserir o registro {hobbie}. O erro encontrado foi {e}")   

Registro inserido com sucesso Praticar esporte
Registro inserido com sucesso Assistir TV
Registro inserido com sucesso Ler livros
Registro inserido com sucesso Aprender algo novo
Registro inserido com sucesso Escrever
Registro inserido com sucesso Pintar quadros
Registro inserido com sucesso Dormir
Registro inserido com sucesso Escutar música


In [20]:
for clima in climas:
    try:
        query = f"""insert into clima (clima)
                      values ('{clima}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso {clima}")
    except Exception as e:
        print(f"Não foi possível inserir o registro {clima}. O erro encontrado foi {e}")   

Registro inserido com sucesso frio
Registro inserido com sucesso quente
Registro inserido com sucesso moderado


# **Preparando os dados para inserir na tabela pesquisa**

In [21]:
#Consultando como foi inserido no banco de dados
df_animais = pd.read_sql('animal_estimacao', con=conn)
df_animais

Unnamed: 0,cod_animal_estimacao,animal_estimacao
0,1,peixe
1,2,tartaruga
2,3,gato
3,4,cachorro


In [22]:
#Atribuindo uma chave para cada valor
dict_animais = df_animais.set_index(df_animais.animal_estimacao)['cod_animal_estimacao'].to_dict()
dict_animais

{'peixe': 1, 'tartaruga': 2, 'gato': 3, 'cachorro': 4}

In [23]:
df_climas = pd.read_sql('clima', con=conn)
df_climas

Unnamed: 0,cod_clima,clima
0,1,frio
1,2,quente
2,3,moderado


In [24]:
dict_climas = df_climas.set_index(df_climas.clima)['cod_clima'].to_dict()
dict_climas

{'frio': 1, 'quente': 2, 'moderado': 3}

In [25]:
df_bebidas = pd.read_sql('bebida', con=conn)
df_bebidas

Unnamed: 0,cod_bebida,bebida
0,1,Cerveja
1,2,Café
2,3,refrigerante
3,4,Água
4,5,Vinho
5,6,Chá


In [26]:
dict_bebidas = df_bebidas.set_index(df_bebidas.bebida)['cod_bebida'].to_dict()
dict_bebidas

{'Cerveja': 1, 'Café': 2, 'refrigerante': 3, 'Água': 4, 'Vinho': 5, 'Chá': 6}

In [27]:
df_hobbies = pd.read_sql('hobbie', con=conn)
df_hobbies

Unnamed: 0,cod_hobbie,hobbie
0,1,Praticar esporte
1,2,Assistir TV
2,3,Ler livros
3,4,Aprender algo novo
4,5,Escrever
5,6,Pintar quadros
6,7,Dormir
7,8,Escutar música


In [28]:
dict_hobbies = df_hobbies.set_index(df_hobbies.hobbie)['cod_hobbie'].to_dict()
dict_hobbies

{'Praticar esporte': 1,
 'Assistir TV': 2,
 'Ler livros': 3,
 'Aprender algo novo': 4,
 'Escrever': 5,
 'Pintar quadros': 6,
 'Dormir': 7,
 'Escutar música': 8}

In [29]:
#Substituindo animal estimação pelo código dele
df_pesquisa.animal_estimacao = df_pesquisa.animal_estimacao.map(dict_animais)
df_pesquisa[:5]

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,1,frio,Cerveja,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,1,quente,Café,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,2,frio,Café,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,3,moderado,Cerveja,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,2,moderado,Café,Assistir TV


In [30]:
#Substituindo clima pelo código dele
df_pesquisa.clima = df_pesquisa.clima.map(dict_climas)
df_pesquisa[:5]

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,1,1,Cerveja,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,1,2,Café,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,2,1,Café,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,3,3,Cerveja,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,2,3,Café,Assistir TV


In [31]:
#Substituindo bebida pelo código dele
df_pesquisa.bebida_favorita = df_pesquisa.bebida_favorita.map(dict_bebidas)
df_pesquisa[:5]

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,1,1,1,Praticar esporte
1,10141860,2020-01-01,Feminino,1966-01-19,1,2,2,Assistir TV
2,10142548,2020-01-01,Masculino,1973-08-02,2,1,2,Ler livros
3,10142591,2020-01-01,Masculino,1997-03-05,3,3,1,Aprender algo novo
4,10142654,2020-01-01,Feminino,1969-08-05,2,3,2,Assistir TV


In [32]:
#Substituindo hobbie pelo código dele
df_pesquisa.hobbies = df_pesquisa.hobbies.map(dict_hobbies)
df_pesquisa[:5]

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,animal_estimacao,clima,bebida_favorita,hobbies
0,10141743,2020-01-01,Masculino,1981-04-25,1,1,1,1
1,10141860,2020-01-01,Feminino,1966-01-19,1,2,2,2
2,10142548,2020-01-01,Masculino,1973-08-02,2,1,2,3
3,10142591,2020-01-01,Masculino,1997-03-05,3,3,1,4
4,10142654,2020-01-01,Feminino,1969-08-05,2,3,2,2


In [33]:
#Renomeando as colunas modificadas
df_pesquisa = df_pesquisa.rename(columns={'animal_estimacao' : 'cod_animal_estimacao'})
df_pesquisa = df_pesquisa.rename(columns={'clima' : 'cod_clima'})
df_pesquisa = df_pesquisa.rename(columns={'bebida_favorita' : 'cod_bebida'})
df_pesquisa = df_pesquisa.rename(columns={'hobbies' : 'cod_hobbie'})
df_pesquisa[:5]

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,cod_animal_estimacao,cod_clima,cod_bebida,cod_hobbie
0,10141743,2020-01-01,Masculino,1981-04-25,1,1,1,1
1,10141860,2020-01-01,Feminino,1966-01-19,1,2,2,2
2,10142548,2020-01-01,Masculino,1973-08-02,2,1,2,3
3,10142591,2020-01-01,Masculino,1997-03-05,3,3,1,4
4,10142654,2020-01-01,Feminino,1969-08-05,2,3,2,2


# **Inserindo os dados na tabela pesquisa**

In [40]:
for pesquisa in df_pesquisa.itertuples():
    data_pesquisa = pesquisa.data_coleta
    cod_pessoa = pesquisa.cod_pessoa
    cod_animal_estimacao = pesquisa.cod_animal_estimacao
    cod_bebida = pesquisa.cod_bebida
    cod_hobbie = pesquisa.cod_hobbie
    cod_clima = pesquisa.cod_clima
    try:
        query = f"""insert into pesquisa (data_pesquisa, cod_pessoa, cod_animal_estimacao, cod_bebida, cod_hobbie, cod_clima)
                      values ('{data_pesquisa}','{cod_pessoa}','{cod_animal_estimacao}','{cod_bebida}','{cod_hobbie}','{cod_clima}')"""
        conn.execute(query)
        print(f"Registro inserido com sucesso {pesquisa}")
    except Exception as e:
        print(f"Não foi possível inserir o registro {pesquisa}. O erro encontrado foi {e}")   

Registro inserido com sucesso Pandas(Index=0, cod_pessoa=10141743, data_coleta='2020-01-01', genero='Masculino', data_nascimento='1981-04-25', cod_animal_estimacao=1, cod_clima=1, cod_bebida=1, cod_hobbie=1)
Registro inserido com sucesso Pandas(Index=1, cod_pessoa=10141860, data_coleta='2020-01-01', genero='Feminino', data_nascimento='1966-01-19', cod_animal_estimacao=1, cod_clima=2, cod_bebida=2, cod_hobbie=2)
Registro inserido com sucesso Pandas(Index=2, cod_pessoa=10142548, data_coleta='2020-01-01', genero='Masculino', data_nascimento='1973-08-02', cod_animal_estimacao=2, cod_clima=1, cod_bebida=2, cod_hobbie=3)
Registro inserido com sucesso Pandas(Index=3, cod_pessoa=10142591, data_coleta='2020-01-01', genero='Masculino', data_nascimento='1997-03-05', cod_animal_estimacao=3, cod_clima=3, cod_bebida=1, cod_hobbie=4)
Registro inserido com sucesso Pandas(Index=4, cod_pessoa=10142654, data_coleta='2020-01-01', genero='Feminino', data_nascimento='1969-08-05', cod_animal_estimacao=2, cod

# **Criando tabela Staging no banco de dados**

A tabela de staging é uma tabela temporária que guarda todos os dados que serão usados para fazer alterações na tabela de destino, incluindo atualizações e inserções

In [41]:
#Consultando a versão final do dataframe
df_pesquisa

Unnamed: 0,cod_pessoa,data_coleta,genero,data_nascimento,cod_animal_estimacao,cod_clima,cod_bebida,cod_hobbie
0,10141743,2020-01-01,Masculino,1981-04-25,1,1,1,1
1,10141860,2020-01-01,Feminino,1966-01-19,1,2,2,2
2,10142548,2020-01-01,Masculino,1973-08-02,2,1,2,3
3,10142591,2020-01-01,Masculino,1997-03-05,3,3,1,4
4,10142654,2020-01-01,Feminino,1969-08-05,2,3,2,2
...,...,...,...,...,...,...,...,...
1,10142475,2020-12-31,Masculino,1955-05-30,1,2,2,1
2,10142522,2020-12-31,Masculino,1954-12-22,1,3,1,1
3,10142881,2020-12-31,Masculino,1952-07-30,3,1,3,2
4,10143184,2020-12-31,Masculino,1984-06-05,2,2,3,6


In [42]:
df_pesquisa.to_sql('stg_pesquisa', con=conn, schema = 'pesquisa')

2127