# ETL

Nesta etapa, iremos realizar a extração/leitura, tratamento e carregamento dos dados da nossa base em um banco de dados.

A base de dados fornecida para este desafio possui diversos caracteres que não podem ser lidos diretamente, e/ou estão formatados incorretamente. Além disso, adicionaremos novas colunas que irão nos auxiliar para a criação das análises que virão a seguir e carregaremos nossos dados em um banco de dados online.

Dividiremos este processo nas seguintes etapas:
- [x] Instalação e importação das bibliotecas necessárias
- [x] Encode/decode dos dados da base
- [x] Ajuste e padronização dos cabeçalhos da tabela
- [x] Retirada de valores nulos
- [x] Retirada de colunas que não serão necessárias
- [x] Correção da tipagem dos dados
- [x] Padronização de valores 
- [x] Carregamento dos dados no banco de dados
- [x] Salvamento do arquivo de backup em csv

## Instalando e importando as bibliotecas necessárias

Note que nesta etapa não precisaremos instalar todas as bibliotecas que utilizaremos devido a utilização do Jupyter notebook, que já trás consigo diversas bibliotecas comumente utilizadas para trabalharmos com dados.

In [1]:
%pip install SQLAlchemy
%pip install psycopg2

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [2]:
from sqlalchemy import create_engine
from sqlalchemy.exc import SQLAlchemyError
import pandas as pd
import geopandas as gpd
import numpy as np

## Extração/leitura

O bloco de código a seguir trata caracteres mal interpretados em nosso arquivo CSV antes de carregá-lo em um DataFrame do Pandas.

A função decode_text() é definida para corrigir caracteres mal interpretados:
Estafunção é responsável por:
- Verificar se o texto é uma string.
- Codificar o texto como bytes usando a codificação Latin-1, ignorando erros.
- Decodificar os bytes usando a codificação UTF-8, ignorando erros.
- Retornar o texto corrigido ou o valor original se não for uma string.

Um arquivo CSV é lido usando pd.read_csv() com a codificação UTF-8 e sem um cabeçalho definido para que os cabeçalhos também passem pela correção de caracteres.

A função decode_text() é aplicada a cada célula do DataFrame usando applymap() para corrigir os caracteres mal interpretados.

O DataFrame resultante desta operação é impresso para realizarmos a veriricação inicial do tratamento.

In [7]:
def decode_text(text):
    '''Tratando caracteres mal interpretados'''

    if isinstance(text, str):
        latin1_bytes = text.encode('latin-1', errors='ignore')
        corrected_text = latin1_bytes.decode('utf-8', errors='ignore')
        return corrected_text
    else:
        return text

input_file = 'dados/base_de_dados.csv'

df = pd.read_csv(input_file, encoding='utf-8', header=None).applymap(decode_text)

df


  df = pd.read_csv(input_file, encoding='utf-8', header=None).applymap(decode_text)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,id,id,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade
1,1,1,Eleonora Arilda Penedo Gomes de Padilha,Fem,34.0,pardo,"9155 Harold Oval\r\nSellersside, FL 21337",Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno
2,2,2,Elisângela Gabrielle de Osório,Fem,26.0,pardo,"941 Martin Manor\r\nLake Isaiahtown, FM 43797",Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior
3,3,3,José Túlio de Cabral,Masc,35.0,pardo,"110 Davis Ridges\r\nMejiaville, LA 17095",Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno
4,4,4,Ezequiel Edivaldo de Medeiros Sonao,Masc,24.0,pardo,"48010 Wilson Glen Apt. 749\r\nSmithborough, NV...",Ensino Superior,Tocantins,4.0,Administrativo,Gerente
...,...,...,...,...,...,...,...,...,...,...,...,...
9996,9996,9996,Omar Camilo da Paz,Masc,21.0,pardo,"47323 Casey Junction\r\nJaimefort, UT 49158",Ensino Superior,Rondônia,9.0,Contabilidade,Analista Júnior
9997,9997,9997,Edu de Muniz Jinuyul Neto,Masc,44.0,pardo,"1431 Gina Gardens Apt. 534\r\nJohnsonshire, GU...",Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior
9998,9998,9998,Benedito Robert Dlievic,Masc,21.0,branco,"41179 Tracie Parkways\r\nLangfort, IA 88137",Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente
9999,9999,9999,Bento Osvaldo do Piauí,Masc,39.0,pardo,"902 Luis Island\r\nBrownton, NJ 61984",Ensino Superior,Paraná,5.0,Vendas,Analista Júnior


## Tratamento dos dados

Nesta etapa do processo, vamos realizar as ações abaixo para tratar os dados carregados anteriormente.


1. Correção dos cabeçalhos:

- Os cabeçalhos do DataFrame são atualizados para os valores da primeira linha do DataFrame usando df.columns = df.iloc[0].
- A primeira linha do DataFrame, que agora contém os novos cabeçalhos, é removida usando df = df[1:].
- O método info() é então usado para exibir um resumo das informações do DataFrame após as correções. Isso inclui o tipo de dados de cada coluna e a quantidade de valores não nulos em cada uma delas.

In [8]:
# Corrigindo os cabeçalhos
df.columns = df.iloc[0]  
df = df[1:] 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 1 to 10000
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             10000 non-null  object
 1   id             10000 non-null  object
 2   Nome           10000 non-null  object
 3   Genero         10000 non-null  object
 4   Idade          9944 non-null   object
 5   Raça           10000 non-null  object
 6   Endereço       10000 non-null  object
 7   Formação       9956 non-null   object
 8   Estado         10000 non-null  object
 9   Tempo de casa  9800 non-null   object
 10  Departamento   10000 non-null  object
 11  Senioridade    10000 non-null  object
dtypes: object(12)
memory usage: 937.6+ KB


Neste momento, vamos tratar os dados das colunas realizando a padronização e normalização dos dados



In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 1 to 10000
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             10000 non-null  object
 1   id             10000 non-null  object
 2   Nome           10000 non-null  object
 3   Genero         10000 non-null  object
 4   Idade          9944 non-null   object
 5   Raça           10000 non-null  object
 6   Endereço       10000 non-null  object
 7   Formação       9956 non-null   object
 8   Estado         10000 non-null  object
 9   Tempo de casa  9800 non-null   object
 10  Departamento   10000 non-null  object
 11  Senioridade    10000 non-null  object
dtypes: object(12)
memory usage: 937.6+ KB


Note que todas as nossas colunas estão sendo consideradas strings, vamos corrigir os tipos e os dados da nossa tabela.

2. Remoção de linhas com valores ausentes:

Removemos linhas do DataFrame onde os valores nas colunas 'Idade', 'Formação' e 'Tempo de casa' são nulos (NaN). 

- Remoção de linhas com valores nulos:
    A função dropna() do Pandas é utilizada para remover linhas onde os valores nas colunas especificadas (nesse caso, 'Idade', 'Formação' e 'Tempo de casa') são nulos (NaN).
    
    Utilizamos o parâmetro inplace=True para indicar que as modificações devem ser feitas diretamente no DataFrame original, ou seja, as linhas com valores nulos são removidas do DataFrame atual.

Optamos pela remoção destas linhas pois elas não têm um volume significativo de dados.


In [10]:
df.dropna(subset=['Idade','Formação','Tempo de casa'],inplace= True)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.dropna(subset=['Idade','Formação','Tempo de casa'],inplace= True)


Unnamed: 0,id,id.1,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade
1,1,1,Eleonora Arilda Penedo Gomes de Padilha,Fem,34.0,pardo,"9155 Harold Oval\r\nSellersside, FL 21337",Ensino Médio,Santa Catarina,12.0,Compras,Analista Pleno
2,2,2,Elisângela Gabrielle de Osório,Fem,26.0,pardo,"941 Martin Manor\r\nLake Isaiahtown, FM 43797",Ensino Médio,Pará,6.0,Contabilidade,Analista Júnior
3,3,3,José Túlio de Cabral,Masc,35.0,pardo,"110 Davis Ridges\r\nMejiaville, LA 17095",Ensino Médio,Santa Catarina,5.0,Vendas,Analista Pleno
4,4,4,Ezequiel Edivaldo de Medeiros Sonao,Masc,24.0,pardo,"48010 Wilson Glen Apt. 749\r\nSmithborough, NV...",Ensino Superior,Tocantins,4.0,Administrativo,Gerente
5,5,5,Fagner Josiel dos Santos,Masc,21.0,pardo,"8666 Ramos Ports Apt. 070\r\nSandraport, MN 33570",Ensino Superior,Ceará,5.0,Recursos Humanos,Analista Júnior
...,...,...,...,...,...,...,...,...,...,...,...,...
9996,9996,9996,Omar Camilo da Paz,Masc,21.0,pardo,"47323 Casey Junction\r\nJaimefort, UT 49158",Ensino Superior,Rondônia,9.0,Contabilidade,Analista Júnior
9997,9997,9997,Edu de Muniz Jinuyul Neto,Masc,44.0,pardo,"1431 Gina Gardens Apt. 534\r\nJohnsonshire, GU...",Ensino Médio,Paraíba,10.0,Contabilidade,Analista Júnior
9998,9998,9998,Benedito Robert Dlievic,Masc,21.0,branco,"41179 Tracie Parkways\r\nLangfort, IA 88137",Ensino Superior,Distrito Federal,6.0,Desenvolvimento de Produtos,Gerente
9999,9999,9999,Bento Osvaldo do Piauí,Masc,39.0,pardo,"902 Luis Island\r\nBrownton, NJ 61984",Ensino Superior,Paraná,5.0,Vendas,Analista Júnior



3. Correção dos dados das colunas:

Vamos corrigir os dados em diferentes colunas do DataFrame.

- Correção da coluna 'Tempo de casa':

    Os valores da coluna 'Tempo de casa' são convertidos para float e, em seguida, para int, garantindo que sejam tratados como números inteiros.
    Valores negativos na coluna 'Tempo de casa' são substituídos por -1.

- Correção da coluna 'Idade':

    Os valores da coluna 'Idade' são convertidos para float e, em seguida, para int, para garantir que sejam tratados como números inteiros.

- Correção da coluna 'Endereço':

    O método str.replace() é utilizado para substituir quebras de linha ('\n') por espaços em branco na coluna 'Endereço', removendo assim possíveis caracteres indesejados.

-  Correção da coluna 'Gênero':

    Os valores 'Fem' e 'Masc' na coluna 'Gênero' são substituídos por 'F' e 'M', respectivamente, para padronizar os rótulos.


In [11]:
# Corrigindo dados das colunas

df['Tempo de casa'] = df['Tempo de casa'].astype(float).astype(int)
df.loc[df['Tempo de casa'] < 0, 'Tempo de casa'] = -1

df['Idade'] = df['Idade'].astype(float).astype(int)

df['Endereço'] = df['Endereço'].str.replace('\n', ' ')

df['Genero'] = df['Genero'].replace({'Fem': 'F', 'Masc': 'M'})

df['Senioridade'] = df['Senioridade'].str.title()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Tempo de casa'] = df['Tempo de casa'].astype(float).astype(int)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Idade'] = df['Idade'].astype(float).astype(int)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Endereço'] = df['Endereço'].str.replace('\n', ' ')
A value is trying to be set on

4. Adição da coluna de UFs:

- Aqui adicionaremos uma nova coluna chamada 'Estado_UF' ao DataFrame, que contém as siglas dos estados brasileiros correspondentes aos nomes dos estados existentes na coluna 'Estado'. 

A função replace() do Pandas é utilizada para substituir os valores da coluna 'Estado' pelos valores correspondentes no dicionário state_list, resultando na criação da nova coluna 'Estado_UF' no DataFrame.

In [12]:
# Adição da coluna de UFs

state_list = {
                    'Acre':'AC',
                    'Alagoas':'AL',
                    'Amapá':'AP',
                    'Amazonas':'AM',
                    'Bahia':'BA',
                    'Ceará':'CE',
                    'Distrito Federal':'DF',
                    'Espírito Santo':'ES',
                    'Goiás':'GO',
                    'Maranhão':'MA',
                    'Mato Grosso':'MT',
                    'Mato Grosso do Sul':'MS',
                    'Minas Gerais':'MG',
                    'Pará':'PA',
                    'Paraíba':'PB',
                    'Paraná':'PR',
                    'Pernambuco':'PE',
                    'Piauí':'PI',
                    'Rio de Janeiro':'RJ',
                    'Rio Grande do Norte':'RN',
                    'Rio Grande do Sul':'RS',
                    'Rondônia':'RO',
                    'Roraima':'RR',
                    'Santa Catarina':'SC',
                    'São Paulo':'SP',
                    'Sergipe':'SE',
                    'Tocantins':'TO'}

df['Estado_UF'] = df['Estado'].replace(state_list)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Estado_UF'] = df['Estado'].replace(state_list)


4.1 Adicionanco coluna de faixa etária


Este bloco de código criam uma nova coluna chamada 'Faixa_Etaria' no DataFrame, que representa a faixa etária de cada indivíduo com base em sua idade. Aqui está uma explicação concisa sobre o que está acontecendo:

- Definição dos limites das faixas etárias:

São definidos os limites das faixas etárias em uma lista chamada bins.
Cada intervalo na lista representa uma faixa etária, por exemplo, o intervalo [0, 18] representa a faixa etária "<18", o intervalo [18, 23] representa a faixa etária "18-22", e assim por diante.

- Definição dos rótulos para as faixas etárias:

São definidos os rótulos para cada faixa etária em uma lista chamada labels.
Cada rótulo corresponde a uma faixa etária definida nos limites.

- Criação da nova coluna de faixa etária:

A função pd.cut() do Pandas é utilizada para criar a nova coluna 'Faixa_Etaria' no DataFrame.

Esta função divide os valores da coluna 'Idade' em intervalos (faixas etárias) com base nos limites definidos em bins, e atribui os rótulos correspondentes definidos em labels para cada intervalo.

O parâmetro right=False indica que os intervalos são semi-abertos à direita, o que significa que o limite superior de cada intervalo não está incluído na faixa etária.

In [13]:
bins = [0, 18, 23, 28, 33, 38, 43, 48, 53, 58, 63, 68, 200]
labels = ['<18', '18-22', '23-27', '28-32', '33-37', '38-42', '43-47', '48-52', '53-57', '58-62', '63-67', '68+']

df['Faixa_Etaria'] = pd.cut(df['Idade'], bins=bins, labels=labels, right=False)

df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Faixa_Etaria'] = pd.cut(df['Idade'], bins=bins, labels=labels, right=False)


Unnamed: 0,id,id.1,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade,Estado_UF,Faixa_Etaria
1,1,1,Eleonora Arilda Penedo Gomes de Padilha,F,34,pardo,"9155 Harold Oval\r Sellersside, FL 21337",Ensino Médio,Santa Catarina,12,Compras,Analista Pleno,SC,33-37
2,2,2,Elisângela Gabrielle de Osório,F,26,pardo,"941 Martin Manor\r Lake Isaiahtown, FM 43797",Ensino Médio,Pará,6,Contabilidade,Analista Júnior,PA,23-27
3,3,3,José Túlio de Cabral,M,35,pardo,"110 Davis Ridges\r Mejiaville, LA 17095",Ensino Médio,Santa Catarina,5,Vendas,Analista Pleno,SC,33-37
4,4,4,Ezequiel Edivaldo de Medeiros Sonao,M,24,pardo,"48010 Wilson Glen Apt. 749\r Smithborough, NV ...",Ensino Superior,Tocantins,4,Administrativo,Gerente,TO,23-27
5,5,5,Fagner Josiel dos Santos,M,21,pardo,"8666 Ramos Ports Apt. 070\r Sandraport, MN 33570",Ensino Superior,Ceará,5,Recursos Humanos,Analista Júnior,CE,18-22
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9996,9996,9996,Omar Camilo da Paz,M,21,pardo,"47323 Casey Junction\r Jaimefort, UT 49158",Ensino Superior,Rondônia,9,Contabilidade,Analista Júnior,RO,18-22
9997,9997,9997,Edu de Muniz Jinuyul Neto,M,44,pardo,"1431 Gina Gardens Apt. 534\r Johnsonshire, GU ...",Ensino Médio,Paraíba,10,Contabilidade,Analista Júnior,PB,43-47
9998,9998,9998,Benedito Robert Dlievic,M,21,branco,"41179 Tracie Parkways\r Langfort, IA 88137",Ensino Superior,Distrito Federal,6,Desenvolvimento de Produtos,Gerente,DF,18-22
9999,9999,9999,Bento Osvaldo do Piauí,M,39,pardo,"902 Luis Island\r Brownton, NJ 61984",Ensino Superior,Paraná,5,Vendas,Analista Júnior,PR,38-42


5. Padronização dos cabeçalhos:

- Os cabeçalhos do DataFrame são padronizados para usar camel case e remover caracteres especiais.
- A coluna 'id' é removida do DataFrame, se existir.

In [10]:
# Padronizando cabeçalos
df.rename(columns={'Raça': 'Raca', 'Endereço': 'Endereco', 'Formação': 'Formacao', 'Tempo de casa': 'Tempo_de_casa'}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.rename(columns={'Raça': 'Raca', 'Endereço': 'Endereco', 'Formação': 'Formacao', 'Tempo de casa': 'Tempo_de_casa'}, inplace=True)


In [14]:
# Retirando coluna repetida
df.drop(['id'], axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.drop(['id'], axis=1, inplace=True)


6. Exibição de informações do DataFrame:

- É exibido um resumo das informações do DataFrame, incluindo o tipo de dados de cada coluna.
- São exibidas as primeiras linhas do DataFrame para verificar as mudanças realizadas.

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9701 entries, 1 to 10000
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype   
---  ------         --------------  -----   
 0   Nome           9701 non-null   object  
 1   Genero         9701 non-null   object  
 2   Idade          9701 non-null   int32   
 3   Raça           9701 non-null   object  
 4   Endereço       9701 non-null   object  
 5   Formação       9701 non-null   object  
 6   Estado         9701 non-null   object  
 7   Tempo de casa  9701 non-null   int32   
 8   Departamento   9701 non-null   object  
 9   Senioridade    9701 non-null   object  
 10  Estado_UF      9701 non-null   object  
 11  Faixa_Etaria   9701 non-null   category
dtypes: category(1), int32(2), object(9)
memory usage: 843.5+ KB


In [16]:
df.head()

Unnamed: 0,Nome,Genero,Idade,Raça,Endereço,Formação,Estado,Tempo de casa,Departamento,Senioridade,Estado_UF,Faixa_Etaria
1,Eleonora Arilda Penedo Gomes de Padilha,F,34,pardo,"9155 Harold Oval\r Sellersside, FL 21337",Ensino Médio,Santa Catarina,12,Compras,Analista Pleno,SC,33-37
2,Elisângela Gabrielle de Osório,F,26,pardo,"941 Martin Manor\r Lake Isaiahtown, FM 43797",Ensino Médio,Pará,6,Contabilidade,Analista Júnior,PA,23-27
3,José Túlio de Cabral,M,35,pardo,"110 Davis Ridges\r Mejiaville, LA 17095",Ensino Médio,Santa Catarina,5,Vendas,Analista Pleno,SC,33-37
4,Ezequiel Edivaldo de Medeiros Sonao,M,24,pardo,"48010 Wilson Glen Apt. 749\r Smithborough, NV ...",Ensino Superior,Tocantins,4,Administrativo,Gerente,TO,23-27
5,Fagner Josiel dos Santos,M,21,pardo,"8666 Ramos Ports Apt. 070\r Sandraport, MN 33570",Ensino Superior,Ceará,5,Recursos Humanos,Analista Júnior,CE,18-22



Os últimos blocos de código realizam tratamentos importantes nos dados do DataFrame, incluindo:

- Renomeação de colunas: As colunas são renomeadas para seguir um padrão de escrita consistente.

- Remoção de coluna: A coluna 'id' é removida do DataFrame devido a utilização da indexação do próprio pandas.

- Exibição de informações do DataFrame: Um resumo das informações do DataFrame é exibido para verificar as transformações aplicadas.

- Exibição das primeiras linhas do DataFrame: As primeiras linhas do DataFrame são exibidas para verificar se as mudanças foram aplicadas corretamente.

Esses tratamentos são essenciais para garantir a consistência, qualidade e utilidade dos dados para análise posterior.

## Carregamento dos dados

Os blocos de código a seguir realizam operações de conexão e manipulação de banco de dados PostgreSQL usando SQLAlchemy. 

1. Conexão ao banco de dados:

- É criada uma string de conexão usando SQLAlchemy para se conectar ao banco de dados PostgreSQL.
- Um engine SQLAlchemy é criado com a string de conexão.
- Se a conexão for bem-sucedida, uma mensagem de "Conectado" é exibida; caso contrário, uma mensagem de "Falha de Conexão" é exibida, seguida pelo erro.

In [17]:
# Conectando ao postgres DB
try:
    # Criar a string de conexão usando SQLAlchemy 
    db_string = "postgresql://postgres:adahack2024@db-adahack.cfevcennalmb.us-east-1.rds.amazonaws.com:5432/postgres"
    # Criar engine SQLAlchemy
    engine = create_engine(db_string)
    print("Conectado")
except Exception as e:
    print("Falha de Conexão")
    print(e)

Conectado


2. Salvando o DataFrame no banco de dados:

- O DataFrame é salvo em uma tabela no banco de dados PostgreSQL usando o método to_sql() do Pandas.
- O parâmetro index=False é utilizado para não incluir o índice do DataFrame na tabela.
- Se a operação de salvamento for bem-sucedida, uma mensagem indicando sucesso é exibida; caso contrário, uma mensagem de erro é exibida, seguida pelo erro.

3. Fechando a conexão com o banco de dados:

- A conexão com o banco de dados é fechada usando o método dispose() do SQLAlchemy. Isso libera os recursos do banco de dados utilizados pela conexão.


In [15]:
name_table = "colaboradores"

# Salvar o DataFrame no banco de dados usando o engine SQLAlchemy
try:
    df.to_sql(name_table, engine, index=False, if_exists='replace')
    print("Dados salvos com sucesso na tabela", name_table)
except Exception as e:
    print("Erro ao salvar os dados na tabela:", e)

# Fechando conexão com o banco de dados
engine.dispose()

Dados salvos com sucesso na tabela colaboradores


4. Salvando os dados em um arquivo CSV
- Salvamos o arquivo de backup por segurança

In [16]:
# Salvando o arquivo de backup dos dados tratados em um arquivo csv
df.to_csv('./base_dados/dados_tratados.csv', index=True)