<a href="https://colab.research.google.com/github/GuihJF/python_for_data_analysis/blob/Python-Data-Test/Data_Test_Python_for_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Exploratory Python Script – Data Analysis Journey
# ----------------------------------------------------
# Purpose: This file was used to test and explore the dataset incrementally.
# It helped validate calculations, debug logic, and build confidence prior to developing the final report.
# This work highlights my hands-on approach when analyzing real-world data.

# Author Information:
name = "Guilherme"
age = 25
country = "Brazil"
current_role = "Service Desk Specialist – Global L1 Support"
aspiration = "Data Analyst / Data Engineer"
skills = ["Python", "Excel", "SQL", "Power BI", "Technical Support"]

# Project Overview:
project_title = "Python for Data: From Scratch to Complete Analysis"
project_goal = (
    "Apply core Python skills to read, clean, and analyze public datasets. "
    "This test file documents my iterative process—experimentation, debugging, and logic validation—leading up to final insights."
)

In [2]:
# Google Drive Connection:
from google.colab import drive
drive.mount('/content/drive')

# File Address:
caminho_dados = '/content/drive/My Drive/AD/2023_Viagem.csv'

Mounted at /content/drive


In [3]:
# Pandas to data analisys:
import pandas as pd
import matplotlib.pyplot as plt

# Reading the file into a variable / # encoding format definition / # Delimiter definition ';'
df_viagens = pd.read_csv(caminho_dados, encoding='windows-1252', delimiter=';')

# Defining no columns limit:
pd.set_option('display.max_columns', None)

In [4]:
# Previewing the first rows of the dataset to verify successful import and inspect column structure
df_viagens.head()

Unnamed: 0,Identificador do processo de viagem,Número da Proposta (PCDP),Situação,Viagem Urgente,Justificativa Urgência Viagem,Código do órgão superior,Nome do órgão superior,Código órgão solicitante,Nome órgão solicitante,CPF viajante,Nome,Cargo,Função,Descrição Função,Período - Data de início,Período - Data de fim,Destinos,Motivo,Valor diárias,Valor passagens,Valor devolução,Valor outros gastos
0,17821923,000001/23-1C,Realizada,NÃO,Sem informação,26000,Ministério da Educação,26352,Fundação Universidade Federal do ABC,***.875.238-**,PRISCILA LEAL DA SILVA,PROFESSOR DO MAGISTERIO SUPERIOR,-1,Sem informação,01/01/2023,02/12/2023,Loughborough/Reino Unido,Intercâmbio acadêmico PCDP anterior 07/21-3C,0,0,0,0
1,18159396,000001/23,Realizada,NÃO,Sem informação,26000,Ministério da Educação,26271,Fundação Universidade de Brasília,***.000.000-**,Ekaterina Pavlovskaia,,-1,Sem informação,25/02/2023,06/03/2023,Pirenópolis/GO,Segue abaixo cópia da carta-convite enviada à ...,0,789450,0,0
2,18236583,000018/23,Realizada,NÃO,Sem informação,26000,Ministério da Educação,26236,Universidade Federal Fluminense,,CAMILLA DUARTE DA SILVA,BIBLIOTECARIO-DOCUMENTALISTA,-1,Sem informação,16/01/2023,28/02/2024,Rio de Janeiro/RJ,Afastamento para pós-graduação stricto sensu n...,0,0,0,0
3,18288418,000007/23-1C,Realizada,SIM,Por necessidade do serviço.,52000,Ministério da Defesa,52121,Comando do Exército,***.621.358-**,ANDRE LUIS COSTA PITANGUEIRA,,OfSuperior,OfSuperior,10/01/2023,29/01/2023,Nova York/Estados Unidos da América,Participar da revisão do COE Manual (Contingen...,3956570,743413,0,109535
4,18296348,000070/23,Realizada,SIM,A efetivação do empenho no Siafi e a respectiv...,26000,Ministério da Educação,26406,Instituto Federal do Espírito Santo,***.407.547-**,LIDIANY MIRANDA FERRAZ NUNES,AUXILIAR DE BIBLIIOTECA,-1,Sem informação,05/02/2023,10/02/2023,Vitória/ES,Participação das aulas de Mestrado Interinstit...,101396,0,0,0


In [5]:
# Selecting and displaying the 'Nome do órgão superior' column to inspect values
df_viagens["Nome do órgão superior"]

Unnamed: 0,Nome do órgão superior
0,Ministério da Educação
1,Ministério da Educação
2,Ministério da Educação
3,Ministério da Defesa
4,Ministério da Educação
...,...
831006,Sem informação
831007,Sem informação
831008,Sem informação
831009,Sem informação


In [6]:
# Method 1 – Using a predefined variable (more reusable for further processing)
multiple_columns = ["Valor diárias", "Nome"]
df_viagens[multiple_columns]

# Method 2 – Inline declaration (ideal for quick visual checks)
df_viagens[["Valor diárias", "Nome"]]

Unnamed: 0,Valor diárias,Nome
0,000,PRISCILA LEAL DA SILVA
1,000,Ekaterina Pavlovskaia
2,000,CAMILLA DUARTE DA SILVA
3,3956570,ANDRE LUIS COSTA PITANGUEIRA
4,101396,LIDIANY MIRANDA FERRAZ NUNES
...,...,...
831006,60689,BIANCA VIANA CARDOSO KIVEL
831007,108900,LUCAS ALVES FREIRE
831008,73413,SERGIO BOTELHO
831009,31928,NELSON CAMPOS REIS JUNIOR


In [7]:
# Text normalization: standardize organization names
# Convert to uppercase and abbreviate common terms for consistency

(
    df_viagens["Nome do órgão superior"]
    .str.upper()
    .str.replace(
        'MINISTÉRIO',
        'MIN.')
)

Unnamed: 0,Nome do órgão superior
0,MIN. DA EDUCAÇÃO
1,MIN. DA EDUCAÇÃO
2,MIN. DA EDUCAÇÃO
3,MIN. DA DEFESA
4,MIN. DA EDUCAÇÃO
...,...
831006,SEM INFORMAÇÃO
831007,SEM INFORMAÇÃO
831008,SEM INFORMAÇÃO
831009,SEM INFORMAÇÃO


In [8]:
# Select expense-related columns for aggregation
df_viagens[["Valor diárias", "Valor passagens"]]

Unnamed: 0,Valor diárias,Valor passagens
0,000,000
1,000,789450
2,000,000
3,3956570,743413
4,101396,000
...,...,...
831006,60689,333129
831007,108900,183718
831008,73413,455595
831009,31928,374553


In [10]:
# Fix for data type mismatch: convert text to numeric before summing
(
    df_viagens
    ["Valor diárias"] +

    df_viagens["Valor passagens"]
 )

Unnamed: 0,0
0,000000
1,000789450
2,000000
3,3956570743413
4,101396000
...,...
831006,60689333129
831007,108900183718
831008,73413455595
831009,31928374553


In [11]:
# Standardize and convert 'Valor diárias' to float format
df_viagens['Valor diárias'] = df_viagens['Valor diárias'].str.replace(",", ".").astype(float)

In [12]:
# Inspect updated 'Valor diárias' column to confirm conversion and values
df_viagens['Valor diárias']

Unnamed: 0,Valor diárias
0,0.00
1,0.00
2,0.00
3,39565.70
4,1013.96
...,...
831006,606.89
831007,1089.00
831008,734.13
831009,319.28


In [13]:
# Normalize monetary fields: convert string with commas to float
df_viagens["Valor passagens"] = df_viagens["Valor passagens"].astype(str).str.replace(",", ".").astype(float)
df_viagens["Valor devolução"] = df_viagens["Valor devolução"].astype(str).str.replace(",", ".").astype(float)
df_viagens["Valor outros gastos"] = df_viagens["Valor outros gastos"].astype(str).str.replace(",", ".").astype(float)

In [14]:
# Overview of dataframe structure, types, and non-null counts
df_viagens.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 831011 entries, 0 to 831010
Data columns (total 22 columns):
 #   Column                               Non-Null Count   Dtype  
---  ------                               --------------   -----  
 0   Identificador do processo de viagem  831011 non-null  int64  
 1   Número da Proposta (PCDP)            831011 non-null  object 
 2   Situação                             831011 non-null  object 
 3   Viagem Urgente                       831011 non-null  object 
 4   Justificativa Urgência Viagem        830909 non-null  object 
 5   Código do órgão superior             831011 non-null  int64  
 6   Nome do órgão superior               831011 non-null  object 
 7   Código órgão solicitante             831011 non-null  int64  
 8   Nome órgão solicitante               831011 non-null  object 
 9   CPF viajante                         750075 non-null  object 
 10  Nome                                 831011 non-null  object 
 11  Cargo        

In [16]:
# Data types have been successfully adjusted, allowing proper arithmetic operations
total_gastos = df_viagens["Valor diárias"] + df_viagens["Valor passagens"]

In [17]:
# Computes total trip expenses by aggregating daily rates, ticket fares, and additional costs
df_viagens['Despesas'] = (
    df_viagens['Valor diárias'] +
    df_viagens['Valor passagens'] +
    df_viagens['Valor outros gastos']
)

In [18]:
# Total expenses per trip stored in 'Despesas'
df_viagens['Despesas']

Unnamed: 0,Despesas
0,0.00
1,7894.50
2,0.00
3,48095.18
4,1013.96
...,...
831006,3938.18
831007,2926.18
831008,5290.08
831009,4464.81


In [19]:
# Calculate the percentage of trips taken by each position
cargo_counts = df_viagens['Cargo'].value_counts(normalize=True) * 100

# Transform the result into a DataFrame for better readability
cargo_freq = cargo_counts.reset_index()

# Rename the columns for clarity
cargo_freq.columns = ['Cargo', 'Proporção de Viagens (%)']

# Display the final frequency table
display(cargo_freq)

Unnamed: 0,Cargo,Proporção de Viagens (%)
0,Informações protegidas por sigilo,23.377849
1,PROFESSOR DO MAGISTERIO SUPERIOR,10.831317
2,PROFESSOR ENS BASICO TECN TECNOLOGICO,7.435823
3,CONTRATADO LEI 8745/93 - NI,3.510763
4,AUDITOR FISCAL FEDERAL AGROPECUARIO,3.273515
...,...,...
818,ANALISTA II,0.000197
819,COSTUREIRO,0.000197
820,ANALISTA DE CONTROLE ECON FINANCEIRO SR,0.000197
821,MEDICO I - 36HORAS,0.000197


In [20]:
# Format float numbers to show two decimal places (e.g., 1234.56)
pd.set_option('display.float_format', '{:.2f}'.format)

# Calculate total expenses per job position and sort in descending order
cargo_despesas = (
    df_viagens.groupby('Cargo')['Despesas']
    .sum()
    .reset_index()
    .sort_values(by='Despesas', ascending=False)
)

# Display the result
display(cargo_despesas)

Unnamed: 0,Cargo,Despesas
444,Informações protegidas por sigilo,376291588.90
569,PROFESSOR DO MAGISTERIO SUPERIOR,111444418.35
570,PROFESSOR ENS BASICO TECN TECNOLOGICO,52872603.52
687,TECNICO DO SEGURO SOCIAL,46002065.53
72,ANALISTA AMBIENTAL,35397636.03
...,...,...
152,ASG - OPERADOR DE MAQUINA E EQUIPAMENTOS,0.00
725,TECNICO EM GEOLOGIA,0.00
735,TECNICO EM METALURGIA,0.00
302,CENOTECNICO,0.00


In [31]:
# Calculate percentage distribution of trips by job role
viagens_por_cargo = (
    df_viagens["Cargo"]                 # Select job position column
    .value_counts(normalize=True)       # Calculate proportional frequency
    .rename("Trips proportion:") * 100  # Rename and scale to percentage
).reset_index()                         # Convert Series to DataFrame

In [32]:
# Keep only job roles where trips are more than 1% of the total
filtro_mais_de_1_pct = viagens_por_cargo['Trips proportion:'] > 1