## **Importando Biblioteca e Carregando Arquivo**

In [None]:
import pandas as pd

#Importando o arquivo e definir variável com caminho do arquivo
arquivo = 'http://www.harve.com.br/praticas/dados_etl.csv'
#carregar em um df do pandas com comando read_csv
df = pd.read_csv(arquivo, sep = '\t')
df.head()

Unnamed: 0,Client ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,5,0,0,0,0,0,0,3,11,0


## **Verificando e Conhecendo o Arquivo**

In [None]:
#Fazer prints de funções que ajudam a visualizar e entender o data frame (shape, info()/dtypes, head(), describe())
print(df.shape) #formato do arquivo (linhas, colunas)
print(df.info()) # colunas e tipos de dados
print(df.head()) #primeiras 5 linhas
print(df.describe()) # estatísticas descritivas

(2240, 29)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Client ID            2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 n

## **Criando Colunas e Fazendo Cálculos**


In [None]:
#Calcular idade dos clientes, total de filhos e quantidade de itens vendidos
df['Age'] = 2025 - df['Year_Birth']

df['Total_Children'] = df['Kidhome'] + df['Teenhome']
df['Total_Purchases'] = df['NumDealsPurchases'] + df['NumWebPurchases'] + df['NumCatalogPurchases'] + df['NumStorePurchases']
df['Total_Items'] = df['MntWines'] + df['MntFruits'] + df['MntMeatProducts'] + df['MntFishProducts'] + df['MntSweetProducts'] + df['MntGoldProds']

#Criar data frame somente com clientes acima de 50 anos
df_50 = df[df['Age'] > 50]
df_50.head()



Education
Graduation    0.503125
PhD           0.216964
Master        0.165179
2n Cycle      0.090625
Basic         0.024107
Name: proportion, dtype: float64
Education
Graduation    1127
PhD            486
Master         370
2n Cycle       203
Basic           54
Name: count, dtype: int64


## **Classificando Variáveis**

In [None]:
#Criar mapeamento para renda dos clientes (20k = low, 40k = medium, 60k = high, very high)
def class_income(income):
  if income <= 20000:
    return 'Low'
  elif income <= 40000:
    return 'Medium'
  elif income <= 60000:
    return 'High'
  else:
    return 'Very High'

#Adicionar coluna para classificar renda
df['Class_Income'] = df['Income'].apply(lambda x: class_income(x))

#Criar mapeamento de nível educacional (Basic, 2nCycle = low, Graduation = mid, Master, PhD = high)
df['Education'].value_counts()
ensino_dict = {
    'Basic': 'low',
    '2n Cycle': 'Low',
    'Graduation': 'Medium',
    'Master': 'High',
    'PhD': 'High'
}

#Adicionar coluna para classificar nível educacional
df['Class_Education'] = df['Education'].apply(lambda x: ensino_dict[x]) #opção 1
df['Class_Education_2'] = df['Education'].map(ensino_dict) #opção 2

df.head()





Unnamed: 0,Client ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt Customer,Recency,MntWines,...,Z_CostContact,Z_Revenue,Response,Age,Total_Children,Total_Purchases,Total_Items,Class_Education,Class_Education_2,Class_Income
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,3,11,1,68,0,25,1617,Medium,Medium,High
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,3,11,0,71,2,6,27,Medium,Medium,High
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,3,11,0,60,0,21,776,Medium,Medium,Very High
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,3,11,0,41,1,8,53,Medium,Medium,Medium
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,3,11,0,44,1,19,422,High,High,High


## **Identificando Quantidade de Nulos**

In [None]:
#Verificando quantidade de nulos
df.isna().sum()
#Criar df copia para excluir valores nulos
df2 = df.copy()
#Excluir entradas com valores nulos
df2 = df2.dropna()
#Substituir os NAs por média
df['Income'] = df['Income'].fillna(df['Income'].mean()) #median() -> substituir pela mediana mode() -> substituir pela moda
print(df.isna().sum())


Client ID              0
Year_Birth             0
Education              0
Marital_Status         0
Income                 0
Kidhome                0
Teenhome               0
Dt Customer            0
Recency                0
MntWines               0
MntFruits              0
MntMeatProducts        0
MntFishProducts        0
MntSweetProducts       0
MntGoldProds           0
NumDealsPurchases      0
NumWebPurchases        0
NumCatalogPurchases    0
NumStorePurchases      0
NumWebVisitsMonth      0
AcceptedCmp3           0
AcceptedCmp4           0
AcceptedCmp5           0
AcceptedCmp1           0
AcceptedCmp2           0
Complain               0
Z_CostContact          0
Z_Revenue              0
Response               0
Age                    0
Total_Children         0
Total_Purchases        0
Total_Items            0
Class_Education        0
Class_Education_2      0
Class_Income           0
dtype: int64


## **Se Conectando a uma API**

In [None]:
#Passo 1: importando a biblioteca REQUESTS (comunicação com páginas e aplicações web), JSON (utilização para manipular esse tipo de arquivos) e pandas
import requests as r
import json
import pandas as pd

#Passo 2: Montando as variáveis para a URL completa
base_url = 'https://restcountries.com/v3.1' #endereço raíz da api
endpoint = '/name/' #rota específica da API (endpoint)
pais = 'brazil' #parâmetro de rota: nome do país que queremos consultar
params = '?fields=name,capital,population,gini,cca3,subregion' #parâmetros de filtro: campos que queremos receber na resposta (filtro do JSON)

#Passo 3: construindo a URL completa da requisição
url = base_url + endpoint + pais + params
print("URL Final:",url) #verificando qual foi a url final

URL Final: https://restcountries.com/v3.1/name/brazil?fields=name,capital,population,gini,cca3,subregion


## **Fazendo uma Requisição e Verificando o Output**

In [None]:
#Passo 4: Criando requisição e verificando resposta
resposta = r.get(url) #enviando a requisição GET e salvando a resposta
print("Status Code:",resposta.status_code) #verificando status da requisição 200 = sucesso

Status Code: 200


In [None]:
#Passo 5: verificando e conhecendo o output
data = resposta.json() #salvando o output da requisição em uma variável
print("Verificando header", resposta.headers, '\n') # metadados da requisição, pode conter informações relevantes como o tipo de arquivo que recebemos
print(resposta.text, '\n') #Exibe a resposta bruta da API como string (texto puro)
print('chaves do arquivo', data[0].keys(), '\n') #Visualiza as chaves (campos) do primeiro registro do JSON
print(data[0], '\n') #Mostra o conteúdo completo do primeiro item da resposta
print(json.dumps(resposta.json(), indent=2, ensure_ascii=False)) #ver o conteúdo formatado da resposta
for chave, valor in data[0].items(): #Percorre todas as chaves e valores do primeiro país retornado
    print(chave, "--", valor)

Verificando header {'Server': 'nginx/1.22.1', 'Date': 'Thu, 10 Jul 2025 14:50:39 GMT', 'Content-Type': 'application/json', 'Content-Length': '268', 'Connection': 'keep-alive', 'Cache-Control': 'public, immutable, max-age=31556926'} 

[{"name":{"common":"Brazil","official":"Federative Republic of Brazil","nativeName":{"por":{"official":"República Federativa do Brasil","common":"Brasil"}}},"cca3":"BRA","capital":["Brasília"],"subregion":"South America","population":212559409,"gini":{"2019":53.4}}] 

[
  {
    "name": {
      "common": "Brazil",
      "official": "Federative Republic of Brazil",
      "nativeName": {
        "por": {
          "official": "República Federativa do Brasil",
          "common": "Brasil"
        }
      }
    },
    "cca3": "BRA",
    "capital": [
      "Brasília"
    ],
    "subregion": "South America",
    "population": 212559409,
    "gini": {
      "2019": 53.4
    }
  }
]
chaves do arquivo dict_keys(['name', 'cca3', 'capital', 'subregion', 'population', 

## **Adicionando o Arquivo em um Data Frame**

In [None]:
#Passo 6: trazer as informações que queremos para formato de tabela/data frame
df = pd.DataFrame([{
    'nomeComum': data[0].get('name', {}).get('common', 'NA'),   #Acessa o nome comum do país
    'capital': data[0].get('capital', "NA")[0], #A capital é armazenada em uma lista, então acessamos o primeiro item com [0]. Usamos .get() com valor padrão ["N/A"] para evitar erro caso o campo não exista.
    'populacao' : data[0].get('population', 0), #Acessa a população, ou 0 se não existir
    'gini': data[0].get('gini', {}).get('2019', 0), #Acessa o índice GINI, ou 0 se não existir
    'sigla': data[0].get('cca3', 'N/A'), #Acessa a sigla do país, ou "N/A" se não existir
    'subregiao': data[0].get('subregion', 'N/A')
 }])

print(df)

     nome   capital  populacao  gini sigla      subregiao
0  Brazil  Brasília  212559409  53.4   BRA  South America


## **Manipulando o Arquivo**

In [None]:
# Como acessamos o campo nome comum do país?
print(data[0]['name']['common'])  # Acessamos o primeiro item da lista (data[0]), depois a chave 'name' (que é um dicionário),e dentro dela, a chave 'common' que traz o nome mais comum do país (ex: "Brasil")

# Qual a chave que representa a capital?
print(data[0]['capital'])         # A chave 'capital' contém uma lista com as capitais do país (geralmente uma só)
print(data[0]['capital'][0])      # Usamos [0] para acessar a primeira capital da lista (ex: "Brasília")

# Como acessar o nome nativo oficial em português?
print(data[0]['name']['nativeName']['por']['official'])  # Acessamos o dicionário 'nativeName', depois a chave 'por'(abreviação de português), e em seguida 'official' para obter o nome oficial do país nesse idioma

# Qual o valor populacional retornado?
print(data[0]['population'])      # A chave 'population' traz o número de habitantes do país como um inteiro

# Em qual chave está localizada a sigla de 3 letras do país?
print(data[0]['cca3'])            # A chave 'cca3' retorna o código ISO alpha-3 do país (ex: "BRA" para o Brasil)

# Qual valor representa o índice de Gini de 2019?
print(data[0]['gini']['2019'])    # O índice de Gini está em um dicionário com o ano como chave. Aqui acessamos diretamente o valor de 2019

# Em qual chave está a sub-região do país?
print(data[0]['subregion'])       # A chave 'subregion' traz o nome da sub-região geográfica do país (ex: "South America")


Brazil
['Brasília']
Brasília
República Federativa do Brasil
212559409
BRA
53.4
South America


## **Trabalhando com Datas (SEM PANDAS)**

In [None]:
from datetime import datetime, timedelta, date  # Importa classes para manipulação de datas

agora_local = datetime.now() # Captura o momento atual na hora local
agora_utc = datetime.utcnow() # Captura o momento atual em UTC

# Extrai partes específicas da data/hora atual usando strftime:
agora_segundos = int(agora_local.strftime("%s")) # %s: timestamp em segundos desde 1970-01-01
agora_segundos_2 = agora_local.timestamp() # opção mais segura utiliza método que não é de formatação de string
agora_hora = int(agora_local.strftime("%H")) # %H: hora (formato 24h)
agora_dia = int(agora_local.strftime("%d")) # %d: dia do mês
agora_mes = int(agora_local.strftime("%m")) # %m: mês (com dois dígitos)

# Exibe os valores extraídos
print("Segundos desde 1970:", agora_segundos)
print("Segundos desde 1970:", agora_segundos_2)
print("Hora:", agora_hora)
print("Dia:", agora_dia)
print("Mês:", agora_mes)

milissegundos = agora_segundos * 1000 # Converte segundos em milissegundos
print("Milissegundos:", milissegundos)
print("Convertido de volta para datetime:", datetime.fromtimestamp(milissegundos / 1000)) # Converte o timestamp de volta para um datetime (dividido por 1000 para voltar aos segundos)

utc_ts = 1672531200 #valor em timestamp para uma data específica no tempo
hora_utc = datetime.utcfromtimestamp(utc_ts) #transformando timestamp em datetime em UTC
print('Hora UTC:' ,hora_utc) #visualizando o timestamp em formato datetime

Segundos desde 1970: 1752599776
Segundos desde 1970: 1752599776.056204
Hora: 17
Dia: 15
Mês: 7
Milissegundos: 1752599776000
Convertido de volta para datetime: 2025-07-15 17:16:16
Hora UTC: 2023-01-01 00:00:00


## **Trabalhando com Datas (COM PANDAS)**

In [None]:
import pandas as pd  # Importando a biblioteca pandas

pd.Timestamp.now() #equivalente ao datetime.now()


arquivo = 'https://drive.google.com/uc?id=1Cmi7ChwivaFO5C9qNM1G8oQ-hk1RORgt'  #Nome do arquivo CSV contendo os dados
df = pd.read_csv(arquivo)  #Lendo o arquivo CSV e criando o DataFrame
#print(df.head())  #Visualizando as primeiras linhas do DataFrame para conferir a leitura dos dados

#Transformando timestamp em datetime
df['data'] = pd.to_datetime(df['concluido_ts'], unit='ms')  #to_datetime equivale ao utcfromtimestamp()

#Formatando a data para o formato dia/mês/ano (dd/mm/yyyy)
df['data_formatada'] = df['data'].dt.strftime('%d/%m/%Y') #.dt acessa os métodos de datetime da coluna
                                                          #e strftime define o formato da string resultante

df['dias_desde_compra'] = pd.Timestamp.now() - df['data'] #Exemplo de subtração de datas (equivalente ao datetime - datetime)
                                                          #retorna uma coluna tipo timedelta64

df['tempo_para_inativar'] = df['data'] + pd.Timedelta(days=90) #Exemplo de adição de dias (equivalente ao datetime + timedelta)

#Extraindo partes (componentes) da data com pandas
df['ano'] = df['data'].dt.year #extrai ano
df['mes'] = df['data'].dt.month #extrai mês
df['dia'] = df['data'].dt.day #extrai dia
df['hora'] = df['data'].dt.hour #extrai hora

## **Identificando Colunas**

In [None]:
df = pd.read_csv(arquivo, header = None, skiprows=1) #carregando arquivo sem header
print(df.head()) #vendo arquivo sem colunas nomeadas
df.columns = (['user_id', 'sku_id', 'item', 'descricao_item', 'categoria', # passando headers para o df
       'valor_total', 'formas_pagamento', 'endereco_entrega', 'criado_em',
       'concluido_em', 'criado_ts', 'concluido_ts'])
print(df) #vendo arquivo com colunas nomeadas

     0      1              2               3            4       5   \
0  1051  10044  Produto_10044  liquidificador         casa  342.62   
1  1092  10051  Produto_10051         celular  eletrônicos  202.64   
2  1014  10079  Produto_10079        camiseta         moda  228.20   
3  1071  10049  Produto_10049          tablet  eletrônicos  138.93   
4  1060  10007  Produto_10007            sofá         casa  392.03   

                                             6   \
0                         ['cartão de crédito']   
1                             ['pix', 'boleto']   
2            ['2 cartões', 'cartão de crédito']   
3  ['cartão de débito', '2 cartões', 'voucher']   
4                ['boleto', 'cartão de débito']   

                                                  7                        8   \
0  {'estado': 'RJ', 'cidade': 'Belo Horizonte', '...  2024-06-28 05:21:18.620   
1  {'estado': 'BA', 'cidade': 'Belo Horizonte', '...  2024-03-29 11:29:10.748   
2  {'estado': 'SP', 'cidade':

## **Alterando Tipos de Dados e Arredondando Valores**

In [None]:
df['vl_total_str'] = df['valor_total'].astype('object') #transformando coluna de valor em string (object)
df['vl_total_int'] = df['valor_total'].astype('int') #transformando coluna de valor em inteiro
df['novo_valor'] = df['valor_total'].round(1) #arredondando para 1 casa decimal
df['novo_valor_float'] = df['valor_total'].astype('float').round(1) #transformando coluna de valor em float e arredondando com 1 casa decimal
df