This script is used to process data for the fleet composition chart in the Portuguese version of the story.

In [1]:
import pandas as pd

  from pandas.core import (


In [2]:
uf_abbr_dict = {
    'Acre': 'AC', 'Alagoas': 'AL', 'Amapá': 'AP', 'Amazonas': 'AM',
    'Bahia': 'BA', 'Ceará': 'CE', 'Distrito Federal': 'DF', 'Espírito Santo': 'ES',
    'Goiás': 'GO', 'Maranhão': 'MA', 'Mato Grosso': 'MT', 'Mato Grosso do Sul': 'MS',
    'Minas Gerais': 'MG', 'Pará': 'PA', 'Paraíba': 'PB', 'Paraná': 'PR',
    'Pernambuco': 'PE', 'Piauí': 'PI', 'Rio de Janeiro': 'RJ', 'Rio Grande do Norte': 'RN',
    'Rio Grande do Sul': 'RS', 'Rondônia': 'RO', 'Roraima': 'RR', 'Santa Catarina': 'SC',
    'São Paulo': 'SP', 'Sergipe': 'SE', 'Tocantins': 'TO'
}

uf_to_region = {
    'AC': 'Norte', 'AL': 'Nordeste', 'AP': 'Norte', 'AM': 'Norte',
    'BA': 'Nordeste', 'CE': 'Nordeste', 'DF': 'Centro-Oeste', 'ES': 'Sudeste',
    'GO': 'Centro-Oeste', 'MA': 'Nordeste', 'MT': 'Centro-Oeste', 'MS': 'Centro-Oeste',
    'MG': 'Sudeste', 'PA': 'Norte', 'PB': 'Nordeste', 'PR': 'Sul',
    'PE': 'Nordeste', 'PI': 'Nordeste', 'RJ': 'Sudeste', 'RN': 'Nordeste',
    'RS': 'Sul', 'RO': 'Norte', 'RR': 'Norte', 'SC': 'Sul',
    'SP': 'Sudeste', 'SE': 'Nordeste', 'TO': 'Norte'
}


In [3]:
def process_and_save_data(csv_path):

    df = pd.read_csv(csv_path) # Reads CSV
    
    df = df.rename(columns={'Grandes Regiões e\n Unidades da Federação': 'Região/UF', 
                       'SEMI0REBOQUE': 'SEMI-REBOQUE', 
                       'SIDE0CAR': 'SIDE-CAR'}) # Fixes column names


    # Changes state full name for state abbreviation
    df['Região/UF'] = df['Região/UF'].map(uf_abbr_dict).fillna(df['Região/UF'])
    
    # Adds the region for each state
    df['Região'] = df['Região/UF'].map(uf_to_region)
    
    # Removes region aggregates, keeping only states
    df = df[df['Região/UF'].isin(uf_to_region.keys())]
    
    # Renames column to accurately reflect that it only holds UFs now
    df = df.rename(columns={'Região/UF': 'UF'}) 
        
    df = df.replace({',': ''}, regex=True) # Removes thousands separator
    df.iloc[:, 2:-1] = df.iloc[:, 2:-1].apply(pd.to_numeric) # Turns all rows to numeric, except the recently
    # created 'Região'
    
    # Groups the vehicle types into broader categories
    df['Automóveis de pequeno porte'] = df['AUTOMÓVEL'] + df['UTILITÁRIO']
    df['Ônibus e caminhões'] = df['CAMINHÃO'] + df['CAMINHÃO TRATOR'] + df['ÔNIBUS'] + df['MICROÔNIBUS']
    df['Camionetes'] = df['CAMINHONETE'] + df['CAMIONETA']
    df['Motocicletas e outros veículos de duas rodas'] = df['MOTOCICLETA'] + df['MOTONETA'] + df['CICLOMOTOR']
    df['Outros'] = df['QUADRICICLO'] + df['REBOQUE'] + df['SIDE-CAR'] + df['OUTROS'] + df['TRATOR ESTEIRA'] + df['TRATOR RODAS'] + df['TRICICLO'] + df['CHASSI PLATAFORMA'] + df['BONDE'] + df['SEMI-REBOQUE']

    # Keep only the aggregate categories
    df = df[['UF', 'Região', 'Motocicletas e outros veículos de duas rodas', 'Automóveis de pequeno porte', 'Camionetes', 'Ônibus e caminhões', 'Outros']]
        
    # Computes percentages
    row_sums = df.iloc[:, 2:].sum(axis=1) # Sums all numeric values in a row
    percentages = df.iloc[:, 2:].div(row_sums, axis=0) * 100 # Divides the original values by the sums
    df.iloc[:, 2:] = percentages # Replaces values by percentages
    
    # Divides each numeric value for the sum of the values on its row, then multiply by 100.

    display(df)

    # Salvar o arquivo com porcentagens
#     output_path = '../output/uf_vehicle_categories_percentages.csv'
#     df.to_csv(output_path, index=False)


In [4]:
process_and_save_data("../data/fleet/fleet-clean.csv")

Unnamed: 0,UF,Região,Motocicletas e outros veículos de duas rodas,Automóveis de pequeno porte,Camionetes,Ônibus e caminhões,Outros
2,AC,Norte,52.458453,30.910918,11.083896,3.422185,2.124548
3,AP,Norte,39.353907,42.057493,13.753433,3.121737,1.713431
4,AM,Norte,39.340378,42.52314,12.185991,3.879812,2.070679
5,PA,Norte,53.100499,29.854199,10.041598,4.576666,2.427039
6,RO,Norte,51.219497,29.256156,11.923378,4.343634,3.257335
7,RR,Norte,43.465796,35.387799,15.495643,3.686799,1.963964
8,TO,Norte,45.741652,31.719819,11.821849,5.018941,5.697739
10,AL,Nordeste,42.015709,41.335174,9.051264,4.465053,3.132799
11,BA,Nordeste,36.73963,43.867562,11.906729,4.932327,2.553751
12,CE,Nordeste,49.296745,37.1085,8.342678,3.411892,1.840185
