# Ciência de Dados

# Big Data Real-Time Analytics com Python e Spark

# Capítulo 3

Dados obtidos do Portal Brasileiro de Dados Abertos:
http://dados.gov.br/dataset/cidades-digitais
    

O projeto Cidades Digitais foi planejado para modernizar a gestão e ampliar o acesso ao serviço público, bem como promover o desenvolvimento dos municípios brasileiros através da tecnologia.

# Group By e Reshape

In [1]:
import numpy as np
import pandas as pd

In [2]:
cidadesDigitais = pd.read_csv('data/cidades_digitais.csv', sep = ';', encoding = 'latin-1')

In [3]:
cidadesDigitais.head()

Unnamed: 0,UF,CIDADE,IBGE,POPULAÇÃO,VALOR_TOTAL_PREVISTO,STATUS,PONTOS_ATENDIDOS,VALOR_INVESTIDO
0,AC,Tarauacá,1200609,38819,"484.547,53",Sem Previsão,8,0
1,AL,Delmiro Gouveia,2702405,51997,"1.169.381,70",Sem Previsão,43,0
2,AL,Estrela de Alagoas,2702553,18306,"527.206,83",Sem Previsão,39,0
3,AM,Autazes,1300300,37033,"1.171.151,92",Sem Previsão,51,0
4,AM,Benjamin Constant,1300607,39484,"844.586,48",Sem Previsão,12,0


In [4]:
cidadesDigitais.count()

UF                      338
CIDADE                  338
IBGE                    338
POPULAÇÃO               338
VALOR_TOTAL_PREVISTO    338
STATUS                  338
PONTOS_ATENDIDOS        338
VALOR_INVESTIDO         338
dtype: int64

In [5]:
del cidadesDigitais['IBGE']

In [6]:
# Aplicando Group By
cidadesUF_1 = cidadesDigitais.groupby('UF')

In [7]:
type(cidadesUF_1)

pandas.core.groupby.generic.DataFrameGroupBy

In [9]:
cidadesUF_1.head()

Unnamed: 0,UF,CIDADE,POPULAÇÃO,VALOR_TOTAL_PREVISTO,STATUS,PONTOS_ATENDIDOS,VALOR_INVESTIDO
0,AC,Tarauacá,38819,"484.547,53",Sem Previsão,8,0
1,AL,Delmiro Gouveia,51997,"1.169.381,70",Sem Previsão,43,0
2,AL,Estrela de Alagoas,18306,"527.206,83",Sem Previsão,39,0
3,AM,Autazes,37033,"1.171.151,92",Sem Previsão,51,0
4,AM,Benjamin Constant,39484,"844.586,48",Sem Previsão,12,0
...,...,...,...,...,...,...,...
303,SP,Cachoeira Paulista,32294,"935.119,68",Sem Previsão,27,0
334,TO,Paraíso do Tocantins,49076,"1.872.693,90",Sem Previsão,49,0
335,TO,Ponte Alta do Bom Jesus,4649,"251.266,44",Sem Previsão,9,"23.969,90"
336,TO,Porto Nacional,52182,"1.101.168,76",Sem Previsão,61,0


In [10]:
cidadesUF_1.groups

{'AC': Int64Index([0], dtype='int64'),
 'AL': Int64Index([1, 2], dtype='int64'),
 'AM': Int64Index([3, 4, 5, 6, 7, 8, 9, 10, 11], dtype='int64'),
 'AP': Int64Index([12, 13, 14, 15, 16, 17], dtype='int64'),
 'BA': Int64Index([18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
             35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50],
            dtype='int64'),
 'CE': Int64Index([51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
             68, 69, 70, 71, 72, 73, 74, 75, 76],
            dtype='int64'),
 'DF': Int64Index([77], dtype='int64'),
 'ES': Int64Index([78, 79, 80, 81], dtype='int64'),
 'GO': Int64Index([82, 83, 84, 85, 86, 87, 88, 89, 90, 91], dtype='int64'),
 'MA': Int64Index([ 92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103, 104,
             105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117],
            dtype='int64'),
 'MG': Int64Index([118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129

In [11]:
# Número de grupos
len(cidadesUF_1.groups)

27

In [12]:
ordenaUF = cidadesUF_1.size()

In [13]:
# Ordena os grupos por ordem decrescente
ordenaUF.sort_values(ascending = False)

UF
SP    35
BA    33
MG    28
MA    26
CE    26
PA    24
PI    18
PB    18
PR    17
PE    16
RS    16
RJ    15
GO    10
RN     9
AM     9
AP     6
SC     6
ES     4
TO     4
MT     4
SE     4
MS     3
RO     2
AL     2
DF     1
RR     1
AC     1
dtype: int64

In [14]:
cidadesUF_2 = cidadesDigitais.groupby(['UF','STATUS'])

In [15]:
total = cidadesUF_2.size()
total.sort_values(ascending = False)
total

UF  STATUS      
AC  Sem Previsão     1
AL  Sem Previsão     2
AM  Concluída        3
    Sem Previsão     6
AP  Concluída        1
    Sem Previsão     5
BA  Concluída        9
    Sem Previsão    24
CE  Concluída       11
    Sem Previsão    15
DF  Concluída        1
ES  Sem Previsão     4
GO  Sem Previsão    10
MA  Concluída        1
    Sem Previsão    25
MG  Concluída        2
    Em andamento     1
    Sem Previsão    25
MS  Sem Previsão     3
MT  Sem Previsão     4
PA  Concluída        9
    Sem Previsão    15
PB  Concluída        6
    Em andamento     3
    Sem Previsão     9
PE  Concluída        1
    Sem Previsão    15
PI  Concluída        3
    Sem Previsão    15
PR  Concluída        7
    Em andamento     1
    Sem Previsão     9
RJ  Concluída        1
    Em andamento     2
    Sem Previsão    12
RN  Concluída        1
    Sem Previsão     8
RO  Sem Previsão     2
RR  Sem Previsão     1
RS  Concluída        4
    Em andamento     2
    Sem Previsão    10
SC  Concluída    

In [16]:
cidadesDigitais.head()

Unnamed: 0,UF,CIDADE,POPULAÇÃO,VALOR_TOTAL_PREVISTO,STATUS,PONTOS_ATENDIDOS,VALOR_INVESTIDO
0,AC,Tarauacá,38819,"484.547,53",Sem Previsão,8,0
1,AL,Delmiro Gouveia,51997,"1.169.381,70",Sem Previsão,43,0
2,AL,Estrela de Alagoas,18306,"527.206,83",Sem Previsão,39,0
3,AM,Autazes,37033,"1.171.151,92",Sem Previsão,51,0
4,AM,Benjamin Constant,39484,"844.586,48",Sem Previsão,12,0


In [17]:
cidadesUF_3 = cidadesDigitais.set_index('STATUS')

In [18]:
# Aplicando Group By
cidadesUF_3 = cidadesUF_3.groupby(level = 'STATUS')

In [19]:
cidadesUF_3.head()

Unnamed: 0_level_0,UF,CIDADE,POPULAÇÃO,VALOR_TOTAL_PREVISTO,PONTOS_ATENDIDOS,VALOR_INVESTIDO
STATUS,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sem Previsão,AC,Tarauacá,38819,"484.547,53",8,0
Sem Previsão,AL,Delmiro Gouveia,51997,"1.169.381,70",43,0
Sem Previsão,AL,Estrela de Alagoas,18306,"527.206,83",39,0
Sem Previsão,AM,Autazes,37033,"1.171.151,92",51,0
Sem Previsão,AM,Benjamin Constant,39484,"844.586,48",12,0
Concluída,AM,Coari,83078,"814.954,75",27,0
Concluída,AM,Manacapuru,94175,"892.096,87",31,"763.009,30"
Concluída,AM,Manaquiri,28413,"636.682,15",21,0
Concluída,AP,Serra do Navio,4938,"590.073,15",21,"495.899,00"
Concluída,BA,Guanambi,85797,"533.416,18",15,"441.985,58"


In [20]:
cidadesUF_4 = cidadesDigitais.set_index(['STATUS', 'UF'])

In [21]:
cidadesUF_4

Unnamed: 0_level_0,Unnamed: 1_level_0,CIDADE,POPULAÇÃO,VALOR_TOTAL_PREVISTO,PONTOS_ATENDIDOS,VALOR_INVESTIDO
STATUS,UF,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Sem Previsão,AC,Tarauacá,38819,"484.547,53",8,0
Sem Previsão,AL,Delmiro Gouveia,51997,"1.169.381,70",43,0
Sem Previsão,AL,Estrela de Alagoas,18306,"527.206,83",39,0
Sem Previsão,AM,Autazes,37033,"1.171.151,92",51,0
Sem Previsão,AM,Benjamin Constant,39484,"844.586,48",12,0
Sem Previsão,...,...,...,...,...,...
Sem Previsão,SP,Vargem Grande do Sul,41807,"1.525.640,54",47,0
Sem Previsão,TO,Paraíso do Tocantins,49076,"1.872.693,90",49,0
Sem Previsão,TO,Ponte Alta do Bom Jesus,4649,"251.266,44",9,"23.969,90"
Sem Previsão,TO,Porto Nacional,52182,"1.101.168,76",61,0


In [22]:
cidadesUF_4 = cidadesDigitais.set_index(['UF', 'STATUS'])

In [23]:
cidadesUF_4 = cidadesUF_4.groupby(level = ['UF', 'STATUS'])

In [24]:
cidadesUF_4.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,POPULAÇÃO,PONTOS_ATENDIDOS
UF,STATUS,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,Sem Previsão,38819,8
AL,Sem Previsão,70303,82
AM,Concluída,205666,79
AM,Sem Previsão,204136,167
AP,Concluída,4938,21
AP,Sem Previsão,107938,81
BA,Concluída,1171174,155
BA,Sem Previsão,532445,559
CE,Concluída,658927,218
CE,Sem Previsão,427514,370


In [25]:
cidadesUF_4.aggregate(np.sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,POPULAÇÃO,PONTOS_ATENDIDOS
UF,STATUS,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,Sem Previsão,38819,8
AL,Sem Previsão,70303,82
AM,Concluída,205666,79
AM,Sem Previsão,204136,167
AP,Concluída,4938,21
AP,Sem Previsão,107938,81
BA,Concluída,1171174,155
BA,Sem Previsão,532445,559
CE,Concluída,658927,218
CE,Sem Previsão,427514,370


In [None]:
cidadesUF_4.aggregate([np.sum, np.mean, np.size])

In [None]:
cidadesUF_5 = cidadesDigitais.set_index([ 'STATUS', 'CIDADE', 'VALOR_TOTAL_PREVISTO', 'VALOR_INVESTIDO', 'POPULAÇÃO', 'PONTOS_ATENDIDOS'])

In [None]:
cidadesUF_5 = cidadesUF_5.groupby(level = ['STATUS', 'VALOR_TOTAL_PREVISTO', 'VALOR_INVESTIDO'])

In [None]:
cidadesDigitais.head(3)

In [None]:
cidadesUF_5.sum()

# Fim