# Manipulação de dados de um CSV de compras com cartão de crédito.

## Importando bibliotecas

In [30]:
import pandas as pd
import numpy as np
import psycopg2
import os
import re

from datetime import datetime
from sqlalchemy import create_engine

## Lendo o CSV e apresentando pela primeira vez

In [18]:
df = pd.read_csv('card.csv')
df

Unnamed: 0,index,City,Date,Card Type,Exp Type,Gender,Amount
0,0,"Delhi, India",29-Oct-14,Gold,Bills,F,82475
1,1,"Greater Mumbai, India",22-Aug-14,Platinum,Bills,F,32555
2,2,"Bengaluru, India",27-Aug-14,Silver,Bills,F,101738
3,3,"Greater Mumbai, India",12-Apr-14,Signature,Bills,F,123424
4,4,"Bengaluru, India",5-May-15,Gold,Bills,F,171574
...,...,...,...,...,...,...,...
26047,26047,"Kolkata, India",22-Jun-14,Silver,Travel,F,128191
26048,26048,"Pune, India",3-Aug-14,Signature,Travel,M,246316
26049,26049,"Hyderabad, India",16-Jan-15,Silver,Travel,M,265019
26050,26050,"Kanpur, India",14-Sep-14,Silver,Travel,M,88174


## Renomeando colunas

In [19]:
df.rename(columns={"index":"id", "City":"cidade", "Date":"data_compra", "Card Type": "cartao_tipo", "Exp Type":"categoria", "Gender": "genero", "Amount":"valor"}, inplace=True)
df

Unnamed: 0,id,cidade,data_compra,cartao_tipo,categoria,genero,valor
0,0,"Delhi, India",29-Oct-14,Gold,Bills,F,82475
1,1,"Greater Mumbai, India",22-Aug-14,Platinum,Bills,F,32555
2,2,"Bengaluru, India",27-Aug-14,Silver,Bills,F,101738
3,3,"Greater Mumbai, India",12-Apr-14,Signature,Bills,F,123424
4,4,"Bengaluru, India",5-May-15,Gold,Bills,F,171574
...,...,...,...,...,...,...,...
26047,26047,"Kolkata, India",22-Jun-14,Silver,Travel,F,128191
26048,26048,"Pune, India",3-Aug-14,Signature,Travel,M,246316
26049,26049,"Hyderabad, India",16-Jan-15,Silver,Travel,M,265019
26050,26050,"Kanpur, India",14-Sep-14,Silver,Travel,M,88174


# Alterando dados necessários para análise posterior

In [20]:
df['genero'] = df['genero'].replace({'F':'Mulher',
                                     'M':'Homem'})

df['categoria'] = df['categoria'].replace({'Bills':'Notas',
                                           'Food':'Comida',
                                           'Entertainment':'Entretenimento',
                                           'Grocery':'Mercado',
                                           'Fuel':'Gasolina',
                                           'Travel':'Viagem'})

## Separando a cidade do país e criando uma coluna própria para o país

In [21]:
df['pais'] = df['cidade'].str.split(',').str[1]
df['pais'] = df['pais'].replace(' ', '')

df['cidade'] = df['cidade'].str.split(',').str[0]

## Alterando os meses que estavam escritos, para números

In [22]:
df["data_compra"] = df["data_compra"].replace(regex=['Jan'],value='01')
df["data_compra"] = df["data_compra"].replace(regex=['Fev'],value='02')
df["data_compra"] = df["data_compra"].replace(regex=['Mar'],value='03')
df["data_compra"] = df["data_compra"].replace(regex=['Apr'],value='04')
df["data_compra"] = df["data_compra"].replace(regex=['May'],value='05')
df["data_compra"] = df["data_compra"].replace(regex=['Jun'],value='06')
df["data_compra"] = df["data_compra"].replace(regex=['Jul'],value='07')
df["data_compra"] = df["data_compra"].replace(regex=['Aug'],value='08')
df["data_compra"] = df["data_compra"].replace(regex=['Sep'],value='09')
df["data_compra"] = df["data_compra"].replace(regex=['Oct'],value='10')
df["data_compra"] = df["data_compra"].replace(regex=['Nov'],value='11')
df["data_compra"] = df["data_compra"].replace(regex=['Dec'],value='12')

## Organizando a coluna data, mudando o tipo e acertando a ordem

In [23]:
df['data_compra'] = pd.to_datetime(df['data_compra'])
df['data_compra'] = df['data_compra'].dt.strftime('%d-%m-%Y')

## Trocando o tipo e adicionando uma "mascara" para a coluna valor

In [24]:
df['valor'] = df['valor'].astype(float)
df['valor'] = df['valor'].apply('${:,.2f}'.format)

# Dataset finalizado

In [25]:
df = df[['id', 'cidade', 'pais', 'data_compra', 'cartao_tipo', 'categoria', 'genero', 'valor']]

In [26]:
df

Unnamed: 0,id,cidade,pais,data_compra,cartao_tipo,categoria,genero,valor
0,0,Delhi,India,29-10-2014,Gold,Notas,Mulher,"$82,475.00"
1,1,Greater Mumbai,India,22-08-2014,Platinum,Notas,Mulher,"$32,555.00"
2,2,Bengaluru,India,27-08-2014,Silver,Notas,Mulher,"$101,738.00"
3,3,Greater Mumbai,India,04-12-2014,Signature,Notas,Mulher,"$123,424.00"
4,4,Bengaluru,India,05-05-2015,Gold,Notas,Mulher,"$171,574.00"
...,...,...,...,...,...,...,...,...
26047,26047,Kolkata,India,22-06-2014,Silver,Viagem,Mulher,"$128,191.00"
26048,26048,Pune,India,08-03-2014,Signature,Viagem,Homem,"$246,316.00"
26049,26049,Hyderabad,India,16-01-2015,Silver,Viagem,Homem,"$265,019.00"
26050,26050,Kanpur,India,14-09-2014,Silver,Viagem,Homem,"$88,174.00"


# Passando o Dataframe para o Banco Postgresql

In [34]:
conn = psycopg2.connect(
    host="localhost",
    port = 5432,
    user="postgres",
    password="teste",
    database="postgres"
)

engine = create_engine('postgresql://postgres:teste@localhost:5432/postgres')

df.to_sql("credit_card", engine, if_exists='replace', index=False)

52