# Sumarizando colunas em Python
Como obter contagem e totais com Pandas.

Referências: 
* [How to calculate summary statistics?](https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/06_calculate_statistics.html)
* [10 minutes to Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html#viewing-data)
* [pandas.DataFrame.sort_values()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values)

#### Importante
Para o correto processamento do arquivo CSV devem ser feitas algumas modificações direto no arquivo antes de abrir pelo Python.

O arquivo desve ser mudado deste formato:
```csv
Data,Descrição,Valor,Banco,Categoria,Dia da semana
01/10/2020,Magic Dolar,"29,50",Neon,Casa,quinta-feira
01/10/2020,Distribuidora Primavera,"92,98",Neon,Lazer,quinta-feira
01/10/2020,Casa da esfiha,"19,75",Neon,Lanche,quinta-feira
05/10/2020,Grife das capas,"20,00",Neon,Reparos,segunda-feira
05/10/2020,Speed up,"326,87",Neon,Aprendizado,segunda-feira
```

Para este:
```csv
Data;Descrição;Valor;Banco;Categoria;Dia da semana
01/10/2020;Magic Dolar;29.50;Neon;Casa;quinta-feira
01/10/2020;Distribuidora Primavera;92.98;Neon;Lazer;quinta-feira
01/10/2020;Casa da esfiha;19.75;Neon;Lanche;quinta-feira
05/10/2020;Grife das capas;20.00;Neon;Reparos;segunda-feira
05/10/2020;Speed up;326.87;Neon;Aprendizado;segunda-feira
05/10/2020;Sanepar;139.99;BB;Casa;segunda-feira
```

Principais mudanças:
* O separador de colunas foi de vírgula para ponto-e-vírgula.
* Os números foram convertidos para o formato americano, com o ponto no lugar da vírgula e removidos os separadores de milhares.
* Também foram removidas as aspas duplas dos números.

In [4]:
import pandas as pd
csv = pd.read_csv('./desp-out-2020-2.csv', sep=';')
## Mostrando alguns valores
csv.head(100)

Unnamed: 0,Data,Descrição,Valor,Banco,Categoria,Dia da semana
0,01/10/2020,Magic Dolar,29.5,Neon,Casa,quinta-feira
1,01/10/2020,Distribuidora Primavera,92.98,Neon,Lazer,quinta-feira
2,01/10/2020,Casa da esfiha,19.75,Neon,Lanche,quinta-feira
3,05/10/2020,Grife das capas,20.0,Neon,Reparos,segunda-feira
4,05/10/2020,Speed up,326.87,Neon,Aprendizado,segunda-feira
5,05/10/2020,Sanepar,139.99,BB,Casa,segunda-feira
6,07/10/2020,Auto Escola Liderança,1520.0,BB,Habilitação,quarta-feira
7,09/10/2020,Pagamento do aluguel,1300.0,BB,Casa,sexta-feira
8,09/10/2020,Musitech: cordas para guitarra,45.0,BB,Instrumentos,sexta-feira
9,09/10/2020,Empório Pet,84.0,BB,Pets,sexta-feira


In [6]:
## Vendo a estrutura dos objetos
print('Informação estrutural:\n\n')
csv.info()

Informação estrutural:


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48 entries, 0 to 47
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Data           48 non-null     object 
 1   Descrição      48 non-null     object 
 2   Valor          48 non-null     float64
 3   Banco          48 non-null     object 
 4   Categoria      48 non-null     object 
 5   Dia da semana  48 non-null     object 
dtypes: float64(1), object(5)
memory usage: 2.4+ KB


In [11]:
# Média por dia da semana
lst = csv.groupby('Dia da semana').count()
print(lst)

               Data  Descrição  Valor  Banco  Categoria
Dia da semana                                          
domingo           4          4      4      4          4
quarta-feira      2          2      2      2          2
quinta-feira     13         13     13     13         13
segunda-feira    10         10     10     10         10
sexta-feira       8          8      8      8          8
sábado            5          5      5      5          5
terça-feira       6          6      6      6          6


In [13]:
lst = csv.groupby('Dia da semana')['Valor'].mean()
print(lst)

Dia da semana
domingo           135.500000
quarta-feira     1010.855000
quinta-feira       64.709231
segunda-feira      88.314000
sexta-feira       253.737500
sábado             78.712000
terça-feira       168.698333
Name: Valor, dtype: float64


In [17]:
# Contagem por categoria
lst = csv.groupby('Categoria')['Valor'].count()
lst.head(50)


Categoria
Aprendizado     1
Casa            7
Contribuição    4
Crédito         3
Habilitação     1
Instrumentos    2
Lanche          9
Lazer           5
Pets            2
Presentes       2
Reparos         4
Taxas           1
Telefonia       1
Vestuário       1
Viagem          5
Name: Valor, dtype: int64

In [19]:
lst = csv.groupby('Categoria')['Valor'].sum()
lst.head(50)

Categoria
Aprendizado      326.87
Casa            2030.98
Contribuição     549.90
Crédito         1308.01
Habilitação     1520.00
Instrumentos      74.00
Lanche           416.10
Lazer            346.57
Pets             119.00
Presentes         74.49
Reparos          515.00
Taxas             13.25
Telefonia         51.99
Vestuário         29.99
Viagem           347.57
Name: Valor, dtype: float64

In [23]:
# Ordenando os resultados
# Primeiro transforma em um DataFrame para poder usar funções do Pandas
lst2 = pd.DataFrame(lst)
# Ascendente
lst2.sort_values(by='Valor')


Unnamed: 0_level_0,Valor
Categoria,Unnamed: 1_level_1
Taxas,13.25
Vestuário,29.99
Telefonia,51.99
Instrumentos,74.0
Presentes,74.49
Pets,119.0
Aprendizado,326.87
Lazer,346.57
Viagem,347.57
Lanche,416.1


In [26]:
# Sort reverso (descendente)
lst2.sort_values(by='Valor', ascending=False)

Unnamed: 0_level_0,Valor
Categoria,Unnamed: 1_level_1
Casa,2030.98
Habilitação,1520.0
Crédito,1308.01
Contribuição,549.9
Reparos,515.0
Lanche,416.1
Viagem,347.57
Lazer,346.57
Aprendizado,326.87
Pets,119.0
