# Reflecting about datas with Python

### Case - Trimestral balance of a autonomous person in Pernambuco, Brazil. (2012-2023)

Here we are going to explore some information about the autonomous people at the state of Pernambuco, the place that I live, in Brazil. This data was available from the Central Bank of Brazil.

Reference data: https://dados.gov.br/dados/conjuntos-dados/25912-saldo-de-credito-pessoa-juridica-por-estado-microempresa-pernambuco

In [140]:
import pandas as pd

tabela = pd.read_csv("mediaTrimestral.csv", sep=";")

display(tabela)
display(tabela.info())



Unnamed: 0,data,valor
0,01/01/2012,12730
1,01/04/2012,11491
2,01/07/2012,12899
3,01/10/2012,14058
4,01/01/2013,10480
5,01/04/2013,9080
6,01/07/2013,10025
7,01/10/2013,129066
8,01/01/2014,8034
9,01/04/2014,9469


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46 entries, 0 to 45
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   data    46 non-null     object
 1   valor   46 non-null     object
dtypes: object(2)
memory usage: 864.0+ bytes


None

In [166]:

#transformando os valores em strings e substituindo a virgula por ponto, para que o python consiga fazer a conversão para float
tabela['valor'] = tabela['valor'].astype(str).str.replace(',', '.').astype(float)
print(tabela['valor'])
# Calcular a média dos valores na coluna 'valor'
media_total = tabela['valor'].mean()
# Exibir a média total
print(f"A média total dos valores é: {media_total:.2f}")

0      1273.0
1      1149.1
2      1289.9
3      1405.8
4      1048.0
5       908.0
6      1002.5
7     12906.6
8       803.4
9       946.9
10     1199.2
11     1103.8
12     1122.2
13      860.9
14     1019.4
15     1092.7
16     1029.5
17      860.3
18      666.0
19     1108.5
20      728.1
21      664.4
22      612.0
23      689.9
24      645.5
25     1060.2
26     1008.9
27     1013.8
28     1342.5
29     1052.4
30      953.4
31     1108.6
32     1173.8
33     1209.5
34     1194.0
35     1574.9
36     1342.2
37     1390.4
38     1481.4
39     1509.1
40     1565.7
41     1633.9
42     1796.0
43     1722.8
44     1517.8
45     1629.1
Name: valor, dtype: float64
A média total dos valores é: 1400.35


In [179]:
# Passo 4: Análise inicial dos valores maiores que a média

# quantos e quais trimestres estavam acima da média, o maior e seu respectivo trimestre.
contagem = tabela[tabela["valor"] > media_total].value_counts().sum()
print(f"Existem {contagem} trimestres acima da média.")
print(f"Os trimestres acima da média são:")
display(tabela[tabela["valor"] > media_total])
print(f"O maior valor acima da média é:")
display(tabela["valor"].max())
print(f"Do trimestre: ")
display(tabela[tabela["valor"] == tabela["valor"].max()])

'''Note que o valor máximo é muito distoante dos demais, o que pode indicar um dado equivocado, o mais provável
é que o real valor da média trimestral seja 1290.66 e não 12906.6, o que pode ter ocorrido é que o valor foi digitado
incorretamente. Fato é que influencia bastante na média total, porém não podemos descobrir o valor real da média trimestral
de outubro de 2013.'''

# quantos trimestres em percentual estão acima da média
display(pd.Series((tabela[tabela["valor"] > media_total].shape[0] / tabela.shape[0])).map("{:.1%}".format))


Existem 11 trimestres acima da média.
Os trimestres acima da média são:


Unnamed: 0,data,valor
3,01/10/2012,1405.8
7,01/10/2013,12906.6
35,01/10/2020,1574.9
38,01/07/2021,1481.4
39,01/10/2021,1509.1
40,01/01/2022,1565.7
41,01/04/2022,1633.9
42,01/07/2022,1796.0
43,01/10/2022,1722.8
44,01/01/2023,1517.8


O maior valor acima da média é:


12906.6

Do trimestre: 


Unnamed: 0,data,valor
7,01/10/2013,12906.6


0    23.9%
dtype: object

In [192]:
# Passo 5: Análise das  (como as colunas da base impactam no valor médio)
# gráficos/dashboards

#Primeiro vamos transformar a coluna data em datetime, para que se possa fazer a análise temporal.
tabela['data'] = pd.to_datetime(tabela['data'], format='%d/%m/%Y')
import plotly.express as px

# criar o grafico

for coluna in tabela.columns:
    
    #grafico mostra os trimestres de maneira crescente
    grafico = px.bar(tabela, x=coluna,  color= (tabela["valor"] > media_total), title=f"Gráfico de {coluna} x valor")
    grafico.update_xaxes(categoryorder='total ascending')
    # exibir o grafico
    grafico.show()



'Note que o valor máximo se comparta como uma grande anomalia, confirmando a suspeita de que o valor foi digitado erroneamente\ne que a inflação e cresminento da renda foram os grandes resposáveis pelo aumento da média trimestral, visto que os saldos aumentaram '

In [202]:
# diferença entre os trimestres comparado a média	
tabela["diferença"] = tabela["valor"] - media_total
#excluir o valor máximo para que o gráfico fique mais legível
tabela = tabela[tabela["valor"] != tabela["valor"].max()]

#criar o gráfico
#grafico somente da diferença

for coluna in tabela.columns:
    
    #grafico mostra os trimestres de maneira crescente
    grafico = px.line(tabela, x=coluna, y="diferença", title=f"Gráfico de {coluna} x diferença")
    
    # exibir o grafico
    grafico.show()
    break #O gráfico de diferença é o mesmo para todas as colunas, então não é necessário repetir o processo para todas as colunas

'''Note que o valor máximo se comparta como uma grande anomalia, confirmando a suspeita de que o valor foi digitado erroneamente
e que a inflação foram os grandes resposáveis pelo aumento da média trimestral, visto que os saldos aumentam pouco, e oscilaram bastante'''

'Note que o valor máximo se comparta como uma grande anomalia, confirmando a suspeita de que o valor foi digitado erroneamente\ne que a inflação e cresminento da renda foram os grandes resposáveis pelo aumento da média trimestral, visto que os saldos aumentaram '