## Script até aqui

In [None]:
caminho_dados = '/content/drive/MyDrive/Curso AD/dados_viagens/2023_Viagem.csv'

In [None]:
import pandas as pd

pd.set_option('display.max_columns', None)
df_viagens = pd.read_csv(caminho_dados, encoding='Windows-1252', sep=';')

## Operações entre duas colunas
Podemos fazer operações entre colunas - por exemplo, somar os valores das diárias e das passagens. Estas operações geram uma **coluna nova**:

In [None]:
df_viagens[['Valor diárias', 'Valor passagens']]

Unnamed: 0,Valor diárias,Valor passagens
0,000,000
1,000,000
2,3956570,743413
3,101396,000
4,000,1490310
...,...,...
825756,60689,333129
825757,108900,183718
825758,73413,455595
825759,31928,374553


In [None]:
df_viagens['Valor diárias'] + df_viagens['Valor passagens']

Unnamed: 0,0
0,000000
1,000000
2,3956570743413
3,101396000
4,0001490310
...,...
825756,60689333129
825757,108900183718
825758,73413455595
825759,31928374553


A "soma" deu errado - as colunas de valores foram lidas como texto!

Este é um problema clássico de programação:

In [None]:
soma  = 1 + 2
print(f'A soma é: {soma}')

A soma é: 3


In [None]:
soma  = '1' + '2'
print(f'A soma é: {soma}')

A soma é: 12


## Exibindo informações sobre as colunas
O método `.info()` devolve algumas informações sobre a tabela:
- Tipo de dado de cada coluna
- Número de valores nulos de cada coluna
- Consumo de memória da tabela

In [None]:
df_viagens.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 825761 entries, 0 to 825760
Data columns (total 22 columns):
 #   Column                               Non-Null Count   Dtype 
---  ------                               --------------   ----- 
 0   Identificador do processo de viagem  825761 non-null  int64 
 1   Número da Proposta (PCDP)            825761 non-null  object
 2   Situação                             825761 non-null  object
 3   Viagem Urgente                       825761 non-null  object
 4   Justificativa Urgência Viagem        825659 non-null  object
 5   Código do órgão superior             825761 non-null  int64 
 6   Nome do órgão superior               825761 non-null  object
 7   Código órgão solicitante             825761 non-null  int64 
 8   Nome órgão solicitante               825761 non-null  object
 9   CPF viajante                         747834 non-null  object
 10  Nome                                 825761 non-null  object
 11  Cargo                     

Dados do tipo `object` são strings!

## Lendo colunas de valores como números

Vamos converter o tipo de dado das colunas de interesse:

In [None]:
df_viagens['Valor diárias']

Unnamed: 0,Valor diárias
0,000
1,000
2,3956570
3,101396
4,000
...,...
825756,60689
825757,108900
825758,73413
825759,31928


Precisamos fazer os seguintes ajustes:
- Mudar as vírgulas dos números por pontos (Python trabalha com números em inglês)
- Converter o tipo de dado para números fracionados (floats)

In [None]:
df_viagens['Valor diárias'].str.replace(',', '.')

Unnamed: 0,Valor diárias
0,0.00
1,0.00
2,39565.70
3,1013.96
4,0.00
...,...
825756,606.89
825757,1089.00
825758,734.13
825759,319.28


In [None]:
df_viagens['Valor diárias'].str.replace(',', '.').astype(float)

Unnamed: 0,Valor diárias
0,0.00
1,0.00
2,39565.70
3,1013.96
4,0.00
...,...
825756,606.89
825757,1089.00
825758,734.13
825759,319.28


## Modificando colunas
Agora podemos aplicar isto para todas as colunas.

Para atualizar uma coluna, basta acessá-la normalmente e usar o sinal de `=`, como se fosse uma variável:

In [None]:
df_viagens['Valor diárias'] = df_viagens['Valor diárias'].str.replace(',', '.').astype(float)
df_viagens['Valor diárias']

In [None]:
df_viagens['Valor passagens'] = df_viagens['Valor passagens'].str.replace(',', '.').astype(float)

In [None]:
df_viagens['Valor devolução'] = df_viagens['Valor devolução'].str.replace(',', '.').astype(float)

In [None]:
df_viagens['Valor outros gastos'] = df_viagens['Valor outros gastos'].str.replace(',', '.').astype(float)

In [None]:
df_viagens.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 825761 entries, 0 to 825760
Data columns (total 22 columns):
 #   Column                               Non-Null Count   Dtype  
---  ------                               --------------   -----  
 0   Identificador do processo de viagem  825761 non-null  int64  
 1   Número da Proposta (PCDP)            825761 non-null  object 
 2   Situação                             825761 non-null  object 
 3   Viagem Urgente                       825761 non-null  object 
 4   Justificativa Urgência Viagem        825659 non-null  object 
 5   Código do órgão superior             825761 non-null  int64  
 6   Nome do órgão superior               825761 non-null  object 
 7   Código órgão solicitante             825761 non-null  int64  
 8   Nome órgão solicitante               825761 non-null  object 
 9   CPF viajante                         747834 non-null  object 
 10  Nome                                 825761 non-null  object 
 11  Cargo        

Sucesso! E a soma ao final:

In [None]:
df_viagens['Valor diárias'] + df_viagens['Valor passagens']

Unnamed: 0,0
0,0.00
1,0.00
2,46999.83
3,1013.96
4,14903.10
...,...
825756,3938.18
825757,2926.18
825758,5290.08
825759,4064.81


## Outras operações matemáticas
Com colunas numéricas, conseguimos fazer todas as operações matemáticas básicas:

In [None]:
df_viagens['Valor diárias'] + df_viagens['Valor passagens']

Unnamed: 0,0
0,0.00
1,0.00
2,46999.83
3,1013.96
4,14903.10
...,...
825756,3938.18
825757,2926.18
825758,5290.08
825759,4064.81


In [None]:
df_viagens['Valor diárias'] - df_viagens['Valor passagens']

Unnamed: 0,0
0,0.00
1,0.00
2,32131.57
3,1013.96
4,-14903.10
...,...
825756,-2724.40
825757,-748.18
825758,-3821.82
825759,-3426.25


Também podemos usar números para fazer a operação com uma "constante":

In [None]:
df_viagens['Valor diárias'] * 3

Unnamed: 0,Valor diárias
0,0.00
1,0.00
2,118697.10
3,3041.88
4,0.00
...,...
825756,1820.67
825757,3267.00
825758,2202.39
825759,957.84


In [None]:
df_viagens['Valor diárias'] / 2

Unnamed: 0,Valor diárias
0,0.000
1,0.000
2,19782.850
3,506.980
4,0.000
...,...
825756,303.445
825757,544.500
825758,367.065
825759,159.640
