<a href="https://colab.research.google.com/github/KathrynKashitsyn/Natural-Gas-Marketing-in-Brazil/blob/main/Brazil_Gas_Sales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In this notebook, we will do exploratory data analysis and data visualization of Natural Gas Marketing in Brazil, sales of natural gas to local natural gas distribution companies or free consumers authorized by the states to purchase natural gas directly from selling agents. The data contains information on average prices weighted by volumes sold, as well as the volumes sold themselves by year and months.



Original source: https://dados.gov.br/dados/conjuntos-dados/comercializacao-de-gas-natural

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

The original CSV file can be only downloaded and is not directly accessible through Brazilian Open Datasets website. Thus, it was saved on GitHub. However, it didn't work out as intended. The parsing error kept appearing.

As a last resort I manually copied the CSV contents to create a dataframe.
The following code cell contains the data.

In [2]:
# @title
csv_data = """
"Ano";"Mês";"TipoMercado";"RegiãoAgregada";"Preço em Reais por MMBtu";"Volume em mil metros cúbicos dia"
"2019";9;"Térmico";"Norte-Nordeste";18,9;15908
"2019";9;"Não Térmico";"Norte-Nordeste";49,3;7159
"2019";9;"Não Térmico";"Sudeste";48,8;26028
"2019";9;"Térmico";"Sudeste-Sul-Centro-Oeste";18,8;10520
"2019";9;"Não Térmico";"Sul-Centro-Oeste";40,1;5726
"2019";10;"Térmico";"Norte-Nordeste";18,8;16353
"2019";10;"Não Térmico";"Norte-Nordeste";49,4;7500
"2019";10;"Não Térmico";"Sudeste";47,8;25854
"2019";10;"Térmico";"Sudeste-Sul-Centro-Oeste";21,9;15759
"2019";10;"Não Térmico";"Sul-Centro-Oeste";38;5863
"2019";11;"Térmico";"Norte-Nordeste";19;16941
"2019";11;"Não Térmico";"Norte-Nordeste";48,1;6710
"2019";11;"Não Térmico";"Sudeste";47,2;25385
"2019";11;"Térmico";"Sudeste-Sul-Centro-Oeste";24,6;16319
"2019";11;"Não Térmico";"Sul-Centro-Oeste";39,2;5786
"2019";12;"Térmico";"Norte-Nordeste";18,9;15392
"2019";12;"Não Térmico";"Norte-Nordeste";48,2;6576
"2019";12;"Não Térmico";"Sudeste";46,9;23854
"2019";12;"Térmico";"Sudeste-Sul-Centro-Oeste";19,7;10403
"2019";12;"Não Térmico";"Sul-Centro-Oeste";37,6;5288
"2020";1;"Térmico";"Norte-Nordeste";19,1;16489
"2020";1;"Não Térmico";"Norte-Nordeste";44,6;6950
"2020";1;"Não Térmico";"Sudeste";42,6;23993
"2020";1;"Térmico";"Sudeste-Sul-Centro-Oeste";23,8;9036
"2020";1;"Não Térmico";"Sul-Centro-Oeste";38,1;5504
"2020";2;"Térmico";"Norte-Nordeste";20,7;12782
"2020";2;"Não Térmico";"Norte-Nordeste";46;7146
"2020";2;"Não Térmico";"Sudeste";44;19854
"2020";2;"Térmico";"Sudeste-Sul-Centro-Oeste";17,9;5834
"2020";2;"Não Térmico";"Sul-Centro-Oeste";38,1;4434
"2020";3;"Térmico";"Norte-Nordeste";29,1;6157
"2020";3;"Não Térmico";"Norte-Nordeste";44,5;6514
"2020";3;"Não Térmico";"Sudeste";46,4;22899
"2020";3;"Térmico";"Sudeste-Sul-Centro-Oeste";18,7;4607
"2020";3;"Não Térmico";"Sul-Centro-Oeste";41,1;3546
"2020";4;"Não Térmico";"Norte-Nordeste";45,5;5120
"2020";4;"Não Térmico";"Sudeste";45,5;17053
"2020";4;"Térmico";"Sudeste-Sul-Centro-Oeste";16,2;2714
"2020";4;"Não Térmico";"Sul-Centro-Oeste";43,2;3698
"2020";5;"Não Térmico";"Norte-Nordeste";40,8;5317
"2020";5;"Térmico";"Norte-Nordeste";34,5;5060
"2020";5;"Não Térmico";"Sudeste";42,4;19085
"2020";5;"Térmico";"Sudeste-Sul-Centro-Oeste";19,5;2509
"2020";5;"Não Térmico";"Sul-Centro-Oeste";39;4027
"2020";6;"Não Térmico";"Norte-Nordeste";41,5;6080
"2020";6;"Térmico";"Norte-Nordeste";27,2;7289
"2020";6;"Não Térmico";"Sudeste";42,5;20596
"2020";6;"Térmico";"Sudeste-Sul-Centro-Oeste";21,5;5271
"2020";6;"Não Térmico";"Sul-Centro-Oeste";38,8;4436
"2020";7;"Não Térmico";"Norte-Nordeste";41,3;6657
"2020";7;"Térmico";"Norte-Nordeste";26,2;6668
"2020";7;"Não Térmico";"Sudeste";39,6;23270
"2020";7;"Térmico";"Sudeste-Sul-Centro-Oeste";21,7;4058
"2020";7;"Não Térmico";"Sul-Centro-Oeste";38,2;4678
"2020";8;"Não Térmico";"Norte-Nordeste";33;6667
"2020";8;"Térmico";"Norte-Nordeste";25,6;7942
"2020";8;"Não Térmico";"Sudeste";34,5;24061
"2020";8;"Térmico";"Sudeste-Sul-Centro-Oeste";21;3132
"2020";8;"Não Térmico";"Sul-Centro-Oeste";30,8;4898
"2020";9;"Não Térmico";"Norte-Nordeste";33;7017
"2020";9;"Térmico";"Norte-Nordeste";26,2;6733
"2020";9;"Não Térmico";"Sudeste";33,8;24623
"2020";9;"Térmico";"Sudeste-Sul-Centro-Oeste";23,7;2762
"2020";9;"Não Térmico";"Sul-Centro-Oeste";31,1;5279
"2020";10;"Não Térmico";"Norte-Nordeste";31,8;7179
"2020";10;"Térmico";"Norte-Nordeste";20,3;13637
"2020";10;"Não Térmico";"Sudeste";34,4;25265
"2020";10;"Térmico";"Sudeste-Sul-Centro-Oeste";28,1;6647
"2020";10;"Não Térmico";"Sul-Centro-Oeste";31,3;5139
"2020";11;"Não Térmico";"Norte-Nordeste";41,8;7115
"2020";11;"Térmico";"Norte-Nordeste";20,2;14931
"2020";11;"Não Térmico";"Sudeste";41;25878
"2020";11;"Térmico";"Sudeste-Sul-Centro-Oeste";31,4;7950
"2020";11;"Não Térmico";"Sul-Centro-Oeste";41,4;5373
"2020";12;"Não Térmico";"Norte-Nordeste";41,4;6840
"2020";12;"Térmico";"Norte-Nordeste";20,1;14817
"2020";12;"Não Térmico";"Sudeste";40,7;25296
"2020";12;"Térmico";"Sudeste-Sul-Centro-Oeste";35,3;8615
"2020";12;"Não Térmico";"Sul-Centro-Oeste";41,2;4879
"2021";1;"Não Térmico";"Norte-Nordeste";42,6;6981
"2021";1;"Térmico";"Norte-Nordeste";20,8;15971
"2021";1;"Não Térmico";"Sudeste";41,8;25158
"2021";1;"Térmico";"Sudeste-Sul-Centro-Oeste";32,3;7463
"2021";1;"Não Térmico";"Sul-Centro-Oeste";41,1;4967
"2021";2;"Não Térmico";"Norte-Nordeste";43;7723
"2021";2;"Térmico";"Norte-Nordeste";23,5;14581
"2021";2;"Não Térmico";"Sudeste";41,8;27854
"2021";2;"Térmico";"Sudeste-Sul-Centro-Oeste";32,3;8262
"2021";2;"Não Térmico";"Sul-Centro-Oeste";41,1;5499
"2021";3;"Não Térmico";"Norte-Nordeste";42,9;7458
"2021";3;"Térmico";"Norte-Nordeste";37,8;4644
"2021";3;"Não Térmico";"Sudeste";42,9;25363
"2021";3;"Térmico";"Sudeste-Sul-Centro-Oeste";38,9;9845
"2021";3;"Não Térmico";"Sul-Centro-Oeste";43,3;4961
"2021";4;"Não Térmico";"Norte-Nordeste";42,6;8357
"2021";4;"Térmico";"Norte-Nordeste";31,5;6169
"2021";4;"Não Térmico";"Sudeste";44,4;25344
"2021";4;"Térmico";"Sudeste-Sul-Centro-Oeste";31,3;7470
"2021";4;"Não Térmico";"Sul-Centro-Oeste";43,6;5263
"2021";5;"Não Térmico";"Norte-Nordeste";54,9;8570
"2021";5;"Térmico";"Norte-Nordeste";22,8;12029
"2021";5;"Não Térmico";"Sudeste";55,8;26146
"2021";5;"Térmico";"Sudeste-Sul-Centro-Oeste";31,3;6736
"2021";5;"Não Térmico";"Sul-Centro-Oeste";59,7;5286
"2021";6;"Não Térmico";"Norte-Nordeste";53,6;9250
"2021";6;"Térmico";"Norte-Nordeste";22,2;14471
"2021";6;"Não Térmico";"Sudeste";57;27222
"2021";6;"Térmico";"Sudeste-Sul-Centro-Oeste";38,6;10368
"2021";6;"Não Térmico";"Sul-Centro-Oeste";60,1;5402
"2021";7;"Não Térmico";"Norte-Nordeste";53,6;10323
"2021";7;"Térmico";"Norte-Nordeste";22,2;15437
"2021";7;"Não Térmico";"Sudeste";58,8;27414
"2021";7;"Térmico";"Sudeste-Sul-Centro-Oeste";46,1;10276
"2021";7;"Não Térmico";"Sul-Centro-Oeste";60,2;5449
"2021";8;"Não Térmico";"Norte-Nordeste";56,9;9976
"2021";8;"Térmico";"Norte-Nordeste";21,6;16041
"2021";8;"Não Térmico";"Sudeste";62,1;27856
"2021";8;"Térmico";"Sudeste-Sul-Centro-Oeste";52,3;8937
"2021";8;"Não Térmico";"Sul-Centro-Oeste";64,5;5157
"2021";9;"Não Térmico";"Norte-Nordeste";56,7;9297
"2021";9;"Térmico";"Norte-Nordeste";21,8;15574
"2021";9;"Não Térmico";"Sudeste";62,2;27505
"2021";9;"Térmico";"Sudeste-Sul-Centro-Oeste";72,8;4976
"2021";9;"Não Térmico";"Sul-Centro-Oeste";65,1;5090
"2021";10;"Não Térmico";"Norte-Nordeste";57,6;11126
"2021";10;"Térmico";"Norte-Nordeste";21,9;15163
"2021";10;"Não Térmico";"Sul-Centro-Oeste";64,6;5330
"2021";10;"Não Térmico";"Sudeste";64,8;28094
"2021";10;"Térmico";"Sudeste-Sul-Centro-Oeste";82,5;10193
"2021";11;"Não Térmico";"Norte-Nordeste";61,6;11419
"2021";11;"Térmico";"Norte-Nordeste";22,3;14954
"2021";11;"Não Térmico";"Sul-Centro-Oeste";67,3;5349
"2021";11;"Não Térmico";"Sudeste";66,5;27496
"2021";11;"Térmico";"Sudeste-Sul-Centro-Oeste";64,1;9540
"2021";12;"Não Térmico";"Norte-Nordeste";62,4;11088
"2021";12;"Térmico";"Norte-Nordeste";26,3;8684
"2021";12;"Não Térmico";"Sul-Centro-Oeste";66,8;4941
"2021";12;"Não Térmico";"Sudeste";65,9;26026
"2021";12;"Térmico";"Sudeste-Sul-Centro-Oeste";45,3;7056
"2022";1;"Não Térmico";"Norte-Nordeste";69,1;11144
"2022";1;"Térmico";"Norte-Nordeste";40,7;3979
"2022";1;"Não Térmico";"Sul-Centro-Oeste";71,5;4827
"2022";1;"Não Térmico";"Sudeste";70,1;25850
"2022";1;"Térmico";"Sudeste-Sul-Centro-Oeste";60,3;8416
"2022";2;"Não Térmico";"Norte-Nordeste";75,1;11585
"2022";2;"Térmico";"Norte-Nordeste";39,9;4294
"2022";2;"Não Térmico";"Sul-Centro-Oeste";81,9;5126
"2022";2;"Não Térmico";"Sudeste";79,5;26620
"2022";2;"Térmico";"Sudeste-Sul-Centro-Oeste";44,5;7381
"2022";3;"Não Térmico";"Norte-Nordeste";75,3;11579
"2022";3;"Térmico";"Norte-Nordeste";NA;3831
"2022";3;"Não Térmico";"Sudeste";79,3;26003
"2022";3;"Não Térmico";"Sul-Centro-Oeste";82,3;5281
"2022";3;"Térmico";"Sudeste-Sul-Centro-Oeste";31,1;3228
"2022";4;"Não Térmico";"Norte-Nordeste";80,8;11520
"2022";4;"Térmico";"Norte-Nordeste";38,1;4952
"2022";4;"Não Térmico";"Sudeste";79,7;26106
"2022";4;"Não Térmico";"Sul-Centro-Oeste";82,2;5253
"2022";4;"Térmico";"Sudeste-Sul-Centro-Oeste";43,5;669
"2022";5;"Não Térmico";"Norte-Nordeste";91,9;12015
"2022";5;"Térmico";"Norte-Nordeste";37,6;4037
"2022";5;"Não Térmico";"Sudeste";93,8;27122
"2022";5;"Não Térmico";"Sul-Centro-Oeste";105,8;5287
"2022";5;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;537
"2022";6;"Não Térmico";"Norte-Nordeste";84,7;11327
"2022";6;"Térmico";"Norte-Nordeste";21,8;10951
"2022";6;"Não Térmico";"Sudeste";93,6;27590
"2022";6;"Não Térmico";"Sul-Centro-Oeste";105,8;5379
"2022";6;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;154
"2022";7;"Não Térmico";"Norte-Nordeste";79,2;10373
"2022";7;"Térmico";"Norte-Nordeste";23,9;8843
"2022";7;"Não Térmico";"Sudeste";92,5;26917
"2022";7;"Não Térmico";"Sul-Centro-Oeste";105,5;5166
"2022";7;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;350
"2022";8;"Não Térmico";"Norte-Nordeste";86,7;11105
"2022";8;"Térmico";"Norte-Nordeste";23,7;9096
"2022";8;"Não Térmico";"Sudeste";96;27075
"2022";8;"Térmico";"Sudeste-Sul-Centro-Oeste";285,5;917
"2022";8;"Não Térmico";"Sul-Centro-Oeste";110,3;5125
"2022";9;"Não Térmico";"Norte-Nordeste";80,2;10550
"2022";9;"Térmico";"Norte-Nordeste";23;9238
"2022";9;"Não Térmico";"Sudeste";95,6;26483
"2022";9;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;864
"2022";9;"Não Térmico";"Sul-Centro-Oeste";107,8;4972
"2022";10;"Não Térmico";"Norte-Nordeste";79,2;12061
"2022";10;"Térmico";"Norte-Nordeste";25,4;8108
"2022";10;"Não Térmico";"Sudeste";95,3;25274
"2022";10;"Não Térmico";"Sul-Centro-Oeste";104,8;4897
"2022";10;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;843
"2022";11;"Não Térmico";"Norte-Nordeste";77,9;11177
"2022";11;"Térmico";"Norte-Nordeste";27,1;7318
"2022";11;"Não Térmico";"Sudeste";90,2;25500
"2022";11;"Não Térmico";"Sul-Centro-Oeste";100,2;4853
"2022";11;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;926
"2022";12;"Não Térmico";"Norte-Nordeste";80,2;11405
"2022";12;"Não Térmico";"Sudeste";90;23381
"2022";12;"Térmico";"Norte-Nordeste";NA;9722
"2022";12;"Não Térmico";"Sul-Centro-Oeste";98,1;4198
"2022";12;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1214
"2023";1;"Não Térmico";"Norte-Nordeste";76,2;11293
"2023";1;"Não Térmico";"Sudeste";90,5;23458
"2023";1;"Térmico";"Norte-Nordeste";NA;6944
"2023";1;"Não Térmico";"Sul-Centro-Oeste";92,9;4200
"2023";1;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1506
"2023";2;"Não Térmico";"Norte-Nordeste";70,5;11103
"2023";2;"Não Térmico";"Sudeste";82,3;24174
"2023";2;"Térmico";"Norte-Nordeste";NA;5154
"2023";2;"Não Térmico";"Sul-Centro-Oeste";84,8;4549
"2023";2;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;753
"2023";3;"Não Térmico";"Norte-Nordeste";67,9;11416
"2023";3;"Não Térmico";"Sudeste";82,3;24228
"2023";3;"Térmico";"Norte-Nordeste";NA;4407
"2023";3;"Não Térmico";"Sul-Centro-Oeste";85,3;4484
"2023";3;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;744
"2023";4;"Não Térmico";"Norte-Nordeste";67,3;9810
"2023";4;"Não Térmico";"Sudeste";82,7;24065
"2023";4;"Térmico";"Norte-Nordeste";NA;7026
"2023";4;"Não Térmico";"Sul-Centro-Oeste";88,7;4454
"2023";4;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1242
"2023";5;"Não Térmico";"Norte-Nordeste";61,7;9598
"2023";5;"Não Térmico";"Sudeste";76,3;25025
"2023";5;"Térmico";"Norte-Nordeste";NA;5309
"2023";5;"Não Térmico";"Sul-Centro-Oeste";82;4361
"2023";5;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;922
"2023";6;"Não Térmico";"Norte-Nordeste";61,2;8821
"2023";6;"Não Térmico";"Sudeste";76,1;25483
"2023";6;"Térmico";"Norte-Nordeste";NA;9829
"2023";6;"Não Térmico";"Sul-Centro-Oeste";82,5;4417
"2023";6;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;796
"2023";7;"Não Térmico";"Norte-Nordeste";59,8;9567
"2023";7;"Não Térmico";"Sudeste";77,1;24526
"2023";7;"Térmico";"Norte-Nordeste";NA;8199
"2023";7;"Não Térmico";"Sul-Centro-Oeste";83,8;4123
"2023";7;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;865
"2023";8;"Não Térmico";"Norte-Nordeste";56,5;8042
"2023";8;"Não Térmico";"Sudeste";72,2;24727
"2023";8;"Térmico";"Norte-Nordeste";NA;6937
"2023";8;"Não Térmico";"Sul-Centro-Oeste";76,3;4339
"2023";8;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1090
"2023";9;"Não Térmico";"Norte-Nordeste";56,6;9243
"2023";9;"Não Térmico";"Sudeste";72;24362
"2023";9;"Térmico";"Norte-Nordeste";NA;7564
"2023";9;"Não Térmico";"Sul-Centro-Oeste";74,1;4287
"2023";9;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;70
"2023";10;"Não Térmico";"Norte-Nordeste";58,8;9707
"2023";10;"Não Térmico";"Sudeste";71,9;24533
"2023";10;"Térmico";"Norte-Nordeste";NA;7406
"2023";10;"Não Térmico";"Sul-Centro-Oeste";75;4168
"2023";10;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;357
"2023";11;"Não Térmico";"Norte-Nordeste";62,1;9012
"2023";11;"Não Térmico";"Sudeste";77,9;24457
"2023";11;"Térmico";"Norte-Nordeste";27,4;10678
"2023";11;"Não Térmico";"Sul-Centro-Oeste";81;4213
"2023";11;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;2143
"2023";12;"Não Térmico";"Norte-Nordeste";62,6;8296
"2023";12;"Não Térmico";"Sudeste";80,1;22504
"2023";12;"Térmico";"Norte-Nordeste";30,2;8606
"2023";12;"Não Térmico";"Sul-Centro-Oeste";80,9;3718
"2023";12;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;3065
"2024";1;"Não Térmico";"Norte-Nordeste";66,3;8090
"2024";1;"Não Térmico";"Sudeste";78,4;22459
"2024";1;"Térmico";"Norte-Nordeste";26,1;10922
"2024";1;"Não Térmico";"Sul-Centro-Oeste";76,6;3898
"2024";1;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;3341
"2024";2;"Não Térmico";"Norte-Nordeste";66;8151
"2024";2;"Não Térmico";"Sudeste";77,6;23495
"2024";2;"Térmico";"Norte-Nordeste";NA;7117
"2024";2;"Não Térmico";"Sul-Centro-Oeste";75,6;4226
"2024";2;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1660
"2024";3;"Não Térmico";"Norte-Nordeste";66,8;8297
"2024";3;"Não Térmico";"Sudeste";76,2;22520
"2024";3;"Térmico";"Norte-Nordeste";NA;5464
"2024";3;"Não Térmico";"Sul-Centro-Oeste";75,6;4056
"2024";3;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1940
"2024";4;"Não Térmico";"Norte-Nordeste";63,8;8862
"2024";4;"Não Térmico";"Sudeste";77,9;23345
"2024";4;"Térmico";"Norte-Nordeste";NA;5635
"2024";4;"Não Térmico";"Sul-Centro-Oeste";74;4247
"2024";4;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1583
"2024";5;"Não Térmico";"Norte-Nordeste";62,3;8837
"2024";5;"Não Térmico";"Sudeste";77,3;23391
"2024";5;"Não Térmico";"Sul-Centro-Oeste";72,9;4118
"2024";5;"Térmico";"Norte-Nordeste";NA;5398
"2024";5;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;81
"2024";6;"Não Térmico";"Norte-Nordeste";63,2;9181
"2024";6;"Não Térmico";"Sudeste";74,6;23909
"2024";6;"Não Térmico";"Sul-Centro-Oeste";72,9;4333
"2024";6;"Térmico";"Norte-Nordeste";NA;5525
"2024";6;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1225
"2024";7;"Não Térmico";"Norte-Nordeste";63,8;9380
"2024";7;"Não Térmico";"Sudeste";75,5;24807
"2024";7;"Não Térmico";"Sul-Centro-Oeste";73,5;4524
"2024";7;"Térmico";"Norte-Nordeste";NA;10002
"2024";7;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;1969
"2024";8;"Não Térmico";"Norte-Nordeste";65,1;8989
"2024";8;"Não Térmico";"Sudeste";81,1;25157
"2024";8;"Não Térmico";"Sul-Centro-Oeste";78,1;4564
"2024";8;"Térmico";"Norte-Nordeste";NA;11933
"2024";8;"Térmico";"Sudeste-Sul-Centro-Oeste";NA;2626
"""



In [3]:
import pandas as pd
from io import StringIO

# Convert string to DataFrame
sales_df = pd.read_csv(StringIO(csv_data), sep=';', decimal=',')


Let's see what first rows look like

In [4]:
#sales_df - sales data dataframe
sales_df.head()

Unnamed: 0,Ano,Mês,TipoMercado,RegiãoAgregada,Preço em Reais por MMBtu,Volume em mil metros cúbicos dia
0,2019,9,Térmico,Norte-Nordeste,18.9,15908
1,2019,9,Não Térmico,Norte-Nordeste,49.3,7159
2,2019,9,Não Térmico,Sudeste,48.8,26028
3,2019,9,Térmico,Sudeste-Sul-Centro-Oeste,18.8,10520
4,2019,9,Não Térmico,Sul-Centro-Oeste,40.1,5726


The information is provided in the language of the country of origin. The target reader is English-speaking, so we should translate all text (strings) data into English

In [5]:
# Translate Column Headings

column_translations = {
    "Ano": "Year",
    "Mês": "Month",
    "TipoMercado": "MarketType",
    "RegiãoAgregada": "Region",
    "Preço em Reais por MMBtu": "Price (Reals per MMBtu)",
    "Volume em mil metros cúbicos dia": "Volume (1.000 m³/Day)"
}

# Rename columns
sales_df_english = sales_df.rename(columns=column_translations)

We got the column headings translated first as this text was obvious from `df.head()` code. Now, its time to translate all categorical string values.

In [6]:
# get the names of Market categories (Portugues)

unique_market = sales_df['TipoMercado'].unique()
print(unique_market)

['Térmico' 'Não Térmico']


In [7]:
# get the names of specific Region categories (Portugues)

unique_regions = sales_df['RegiãoAgregada'].unique()
print(unique_regions)

['Norte-Nordeste' 'Sudeste' 'Sudeste-Sul-Centro-Oeste' 'Sul-Centro-Oeste']


In [8]:
# Translate specific categories
sales_df_english["MarketType"] = sales_df_english["MarketType"].map({
    "Térmico": "Thermal",
    "Não Térmico": "NonThermal"
})

# Translate regions (if needed)
sales_df_english["Region"] = sales_df_english["Region"].map({
    "Norte-Nordeste": "North-Northeast",
    "Sudeste": "Southeast",
    "Sudeste-Sul-Centro-Oeste": "Southeast-South-CentralWest",
    "Sul-Centro-Oeste": "South-CentralWest"
})

Check the updated dataframe

In [9]:
sales_df_english.head()

Unnamed: 0,Year,Month,MarketType,Region,Price (Reals per MMBtu),Volume (1.000 m³/Day)
0,2019,9,Thermal,North-Northeast,18.9,15908
1,2019,9,NonThermal,North-Northeast,49.3,7159
2,2019,9,NonThermal,Southeast,48.8,26028
3,2019,9,Thermal,Southeast-South-CentralWest,18.8,10520
4,2019,9,NonThermal,South-CentralWest,40.1,5726


To perform further analysis

In [10]:
#sales_df - sales data dataframe
sales_df_english.dtypes

Unnamed: 0,0
Year,int64
Month,int64
MarketType,object
Region,object
Price (Reals per MMBtu),float64
Volume (1.000 m³/Day),int64


It's necessary  to standardize DataFrame data types

In [11]:
# Convert all numeric columns to consistent types

sales_df_english_upd = sales_df_english.convert_dtypes()
sales_df_english_upd.dtypes

Unnamed: 0,0
Year,Int64
Month,Int64
MarketType,string[python]
Region,string[python]
Price (Reals per MMBtu),Float64
Volume (1.000 m³/Day),Int64


In [12]:
# Convert object columns to category type if they have <50% unique values
sales_df_english_upd['MarketType'] = sales_df_english_upd['MarketType'].astype('category')
sales_df_english_upd['Region'] = sales_df_english_upd['Region'].astype('category')

sales_df_english_upd.dtypes

Unnamed: 0,0
Year,Int64
Month,Int64
MarketType,category
Region,category
Price (Reals per MMBtu),Float64
Volume (1.000 m³/Day),Int64


At this stage the dataset is ready for cleaning

In [13]:
# Count total duplicate rows
duplicate_rows = sales_df_english_upd.duplicated().sum()
print(f"Total duplicate rows: {duplicate_rows}")

# Show duplicate rows (keeping all occurrences)
duplicates = sales_df_english_upd[sales_df_english_upd.duplicated(keep=False)]
print("Duplicate rows:")
display(duplicates.sort_values(by=sales_df_english_upd.columns.tolist()))

# Remove duplicates (keeping first occurrence)
df_clean = sales_df_english_upd.drop_duplicates()

Total duplicate rows: 0
Duplicate rows:


Unnamed: 0,Year,Month,MarketType,Region,Price (Reals per MMBtu),Volume (1.000 m³/Day)


In [14]:
# Check total missing values per column
print("Missing values per column:")
print(df_clean.isnull().sum())

Missing values per column:
Year                        0
Month                       0
MarketType                  0
Region                      0
Price (Reals per MMBtu)    46
Volume (1.000 m³/Day)       0
dtype: int64


There are 46 'NA' cells and for us to get a complete picture of the data set

In [18]:
price_col = df_clean['Price (Reals per MMBtu)']
print(price_col.head(10))

# Summary statistics
print(price_col.describe())

0    18.9
1    49.3
2    48.8
3    18.8
4    40.1
5    18.8
6    49.4
7    47.8
8    21.9
9    38.0
Name: Price (Reals per MMBtu), dtype: Float64
count        253.0
mean     55.151383
std      27.781739
min           16.2
25%           34.5
50%           49.4
75%           75.5
max          285.5
Name: Price (Reals per MMBtu), dtype: Float64


In [16]:
df_clean['Price (Reals per MMBtu)'] = df_clean['Price (Reals per MMBtu)'].fillna("NULL")

TypeError: Invalid value 'NULL' for dtype Float64