# Estatística para BI

Vamos trabalhar com dados proveniente de duas fontes diferentes. Considere os dados do Índice de Desenvolvimento da Educação Básica (Ideb) disponíveis em [Ideb](https://basedosdados.org/dataset/br-inep-ideb?bdm_table=municipio) e os dados sobre Produto Interno Bruto (PIB) disponíveis em [PIB](https://basedosdados.org/dataset/br-ibge-pib?bdm_table=municipio).

No conjunto de dados `ideb.csv` vamos selecionar as colunas `ano`, `id_municipio`, `nota_saeb_matematica`, `nota_saeb_lingua_portuguesa` e `ideb` provenientes dos dados do Ideb, e as colunas `pib` e `impostos_liquidos` do `pib.csv`.

In [None]:
# Importando pandas
import pandas as pd

### Atividade 1: Selecione apenas as colunas `ano`, `id_municipio`, `nota_saeb_matematica`, `nota_saeb_lingua_portuguesa` e `ideb` provenientes dos dados do Ideb, apenas para o ano de 2019 e agrupado por município.

In [None]:
# Importando os dados do Ideb
df_ideb = pd.read_csv('ideb (1).csv')
df_ideb

Unnamed: 0,ano,sigla_uf,id_municipio,rede,ensino,anos_escolares,taxa_aprovacao,indicador_rendimento,nota_saeb_matematica,nota_saeb_lingua_portuguesa,nota_saeb_media_padronizada,ideb,projecao
0,2005,AC,1200302,municipal,fundamental,iniciais (1-5),53.9,0.561795,167.80,165.60,4.177761,2.3,
1,2005,AC,1200328,estadual,fundamental,iniciais (1-5),49.3,0.501470,151.80,149.60,3.578558,1.8,
2,2005,AC,1200328,municipal,fundamental,iniciais (1-5),48.8,0.494267,163.60,155.80,3.920963,1.9,
3,2005,AC,1200328,publica,fundamental,iniciais (1-5),48.8,0.497858,159.00,153.39,3.785995,1.9,
4,2005,AC,1200336,municipal,fundamental,iniciais (1-5),74.7,0.752579,138.00,134.19,3.038804,2.3,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
294421,2019,SP,3551108,publica,fundamental,iniciais (1-5),98.4,0.984750,229.75,216.07,6.277331,6.2,6.6
294422,2019,SP,3551702,municipal,fundamental,finais (6-9),92.9,0.930569,305.85,296.39,6.704167,6.2,6.1
294423,2019,SP,3555406,municipal,fundamental,iniciais (1-5),98.0,0.981080,230.69,216.92,6.310906,6.2,6.0
294424,2019,SP,3555406,publica,fundamental,iniciais (1-5),98.0,0.980861,230.69,216.92,6.310906,6.2,6.0


In [None]:
# Selecionando as colunas que vamos trabalhar
df_ideb_filter = df_ideb[['ano','id_municipio', 'nota_saeb_matematica', 'nota_saeb_lingua_portuguesa', 'ideb']]
df_ideb_filter

Unnamed: 0,ano,id_municipio,nota_saeb_matematica,nota_saeb_lingua_portuguesa,ideb
0,2005,1200302,167.80,165.60,2.3
1,2005,1200328,151.80,149.60,1.8
2,2005,1200328,163.60,155.80,1.9
3,2005,1200328,159.00,153.39,1.9
4,2005,1200336,138.00,134.19,2.3
...,...,...,...,...,...
294421,2019,3551108,229.75,216.07,6.2
294422,2019,3551702,305.85,296.39,6.2
294423,2019,3555406,230.69,216.92,6.2
294424,2019,3555406,230.69,216.92,6.2


In [None]:
# Selecionando somente os dados do ano 2019

df_ideb_2019 = df_ideb_filter[df_ideb_filter['ano'] == 2019]
df_ideb_2019

Unnamed: 0,ano,id_municipio,nota_saeb_matematica,nota_saeb_lingua_portuguesa,ideb
8947,2019,1200104,288.92,263.10,8.1
8948,2019,1200104,254.78,231.63,6.8
8949,2019,1200401,246.47,228.63,6.7
8950,2019,1200450,256.67,231.75,6.9
8951,2019,2701407,261.32,223.47,7.0
...,...,...,...,...,...
294421,2019,3551108,229.75,216.07,6.2
294422,2019,3551702,305.85,296.39,6.2
294423,2019,3555406,230.69,216.92,6.2
294424,2019,3555406,230.69,216.92,6.2


In [None]:
#Verificando os tipos de variáveis
df_ideb.dtypes

ano                              int64
sigla_uf                        object
id_municipio                     int64
rede                            object
ensino                          object
anos_escolares                  object
taxa_aprovacao                 float64
indicador_rendimento           float64
nota_saeb_matematica           float64
nota_saeb_lingua_portuguesa    float64
nota_saeb_media_padronizada    float64
ideb                           float64
projecao                       float64
dtype: object

In [None]:
#Mudando a variável 'id_municipio' para object
df_ideb_2019['id_municipio'] = df_ideb_2019['id_municipio'].astype("object")
df_ideb_2019.dtypes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_ideb_2019['id_municipio'] = df_ideb_2019['id_municipio'].astype("object")


ano                              int64
id_municipio                    object
nota_saeb_matematica           float64
nota_saeb_lingua_portuguesa    float64
ideb                           float64
dtype: object

In [None]:
#Contagem do número de ocorrências por município
df_ideb_2019['id_municipio'].value_counts()

1501402    12
4314902    12
3136702    11
1200401    11
1400100    11
           ..
2702801     4
5107743     4
1704600     4
4212650     2
4304853     1
Name: id_municipio, Length: 5570, dtype: int64

In [None]:
# Agrupando por município

df_ideb_2019_municipio = df_ideb_2019.groupby('id_municipio').mean()['ideb']

df_ideb_2019_municipio


id_municipio
1100015    5.050000
1100023    4.762500
1100031    4.850000
1100049    5.200000
1100056    5.642857
             ...   
5222005    6.000000
5222054    5.828571
5222203    4.657143
5222302    4.950000
5300108    4.900000
Name: ideb, Length: 5570, dtype: float64

### Atividade 2: Selecione as colunas `ano`, `id_municipio`, `pib` e `impostos_liquidos` dos dados do PIB, para o ano de 2019 e agrupado por município.

In [None]:
# Carregando os dados do arquivo pib.csv
df_pib = pd.read_csv("pib.csv")
df_pib

Unnamed: 0,ano,id_municipio,pib,impostos_liquidos,va,va_agropecuaria,va_industria,va_servicos,va_adespss
0,2002,1100015,111290995,7549266,103741729,27013223,9376871,24651113,42700523
1,2002,1100023,449592816,42665972,406926845,28590178,99922936,161851549,116562182
2,2002,1100031,31767520,1867935,29899585,10883801,1961907,5128876,11925001
3,2002,1100049,474443097,49622951,424820146,32810376,98292764,175748703,117968303
4,2002,1100056,79173614,8200971,70972643,11283793,6651475,25306009,27731366
...,...,...,...,...,...,...,...,...,...
100181,2019,5222005,483663323,37741787,445921536,174224615,26348404,175036109,70312408
100182,2019,5222054,342355634,33561723,308793911,100351513,47140720,117133534,44168144
100183,2019,5222203,113668466,8405675,105262791,24110657,16186594,33145548,31819993
100184,2019,5222302,206971225,7933047,199038178,104542025,29867460,35312525,29316168


In [None]:
# Selecionando as colunas que vamos trabalhar

df_pib_filter = df_pib[["ano","id_municipio","pib", "impostos_liquidos"]]
df_pib_filter

Unnamed: 0,ano,id_municipio,pib,impostos_liquidos
0,2002,1100015,111290995,7549266
1,2002,1100023,449592816,42665972
2,2002,1100031,31767520,1867935
3,2002,1100049,474443097,49622951
4,2002,1100056,79173614,8200971
...,...,...,...,...
100181,2019,5222005,483663323,37741787
100182,2019,5222054,342355634,33561723
100183,2019,5222203,113668466,8405675
100184,2019,5222302,206971225,7933047


In [None]:
#Mudando a variável 'id_municipio' para object

df_pib_filter['id_municipio'] = df_pib_filter['id_municipio'].astype("object")
df_pib_filter.dtypes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_pib_filter['id_municipio'] = df_pib_filter['id_municipio'].astype("object")


ano                   int64
id_municipio         object
pib                   int64
impostos_liquidos     int64
dtype: object

In [None]:
# Selecionando somente os dados do ano 2019

dados_selecionados_pib = df_pib_filter.loc[df_pib_filter['ano'] == 2019]
dados_selecionados_pib

Unnamed: 0,ano,id_municipio,pib,impostos_liquidos
94616,2019,1100015,495628767,29350985
94617,2019,1100023,2578829725,284397627
94618,2019,1100031,139959390,5997974
94619,2019,1100049,2260643565,253988284
94620,2019,1100056,506854457,76671376
...,...,...,...,...
100181,2019,5222005,483663323,37741787
100182,2019,5222054,342355634,33561723
100183,2019,5222203,113668466,8405675
100184,2019,5222302,206971225,7933047


In [None]:
# Agrupando por município
dados_selecionados_pib_municipio = dados_selecionados_pib.groupby('id_municipio').mean()['pib']

dados_selecionados_pib_municipio

id_municipio
1100015    4.956288e+08
1100023    2.578830e+09
1100031    1.399594e+08
1100049    2.260644e+09
1100056    5.068545e+08
               ...     
5222005    4.836633e+08
5222054    3.423556e+08
5222203    1.136685e+08
5222302    2.069712e+08
5300108    2.736137e+11
Name: pib, Length: 5570, dtype: float64

### Atividade 3: Vamos juntar os dois DataFrames em um único. Para isso, vamos "unir" os dois dataframes pela variável `id_municipio`.

In [None]:
# Unindo os dataframes "dados_selecionados_pib_municipio" e "df_ideb_2019_municipio" pela variável "id_municipio"

dados_pib_ideb = pd.merge(dados_selecionados_pib_municipio, df_ideb_2019_municipio, on="id_municipio")
dados_pib_ideb

Unnamed: 0_level_0,pib,ideb
id_municipio,Unnamed: 1_level_1,Unnamed: 2_level_1
1100015,4.956288e+08,5.050000
1100023,2.578830e+09,4.762500
1100031,1.399594e+08,4.850000
1100049,2.260644e+09,5.200000
1100056,5.068545e+08,5.642857
...,...,...
5222005,4.836633e+08,6.000000
5222054,3.423556e+08,5.828571
5222203,1.136685e+08,4.657143
5222302,2.069712e+08,4.950000


### Atividade 4:  Verifique se há dados faltantes, além disso verifique se há alguma coluna irrelevante. Se houver, descarte-a.

In [None]:
dados_pib_ideb.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5570 entries, 1100015 to 5300108
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   pib     5570 non-null   float64
 1   ideb    5549 non-null   float64
dtypes: float64(2)
memory usage: 130.5 KB


In [None]:
#calcular o número de valores nulos em cada coluna.
dados_pib_ideb.isnull().sum()

pib      0
ideb    21
dtype: int64

In [None]:
# Existem 21 dados nulos na coluna ideb, não existem dados irrelevantes pós decisão colegiada.

### Atividade 5: Quais são os tipos das variáveis do DataFrame?

In [None]:
dados_pib_ideb.dtypes

pib     float64
ideb    float64
dtype: object

In [None]:
#No dataset existem apenas variáveis float64

### Atividade 6: Observando as variáveis envolvidas, você acha que deve existir alguma correlação entre quais delas?

Será que municípios com alta nota no Ideb possuem um PIB alto?

In [None]:
# Como vemos abaixo, não existe correlação aparente, ou é muito fraca a correlação.

In [None]:
dados_pib_ideb[["ideb", "pib"]].corr(method="spearman")

Unnamed: 0,ideb,pib
ideb,1.0,0.151978
pib,0.151978,1.0


### O que significa a correlação das variáveis `id_municipio` e `ideb`?

sua resposta:
Não são variáveis da mesma natureza

### Atividade 7: Vamos importar os dados de [Estatística de Segurança Pública do Rio de Janeiro](https://basedosdados.org/dataset/br-isp-estatisticas-seguranca?bdm_table=taxa_evolucao_mensal_uf) e observar os dados do dataframe.

In [None]:
# Carregando os dados do arquivo seg_tj.csv
df_rj = pd.read_csv('seg_rj.csv')
df_rj

Unnamed: 0,ano,mes,mes_ano,hom_doloso,lesao_corp_morte,latrocinio,cvli,hom_por_interv_policial,letalidade_violenta,tentat_hom,...,cmp,cmba,ameaca,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,registro_ocorrencias,fase
0,2003,1,2003m01,4.01,0.04,0.14,4.19,0.61,4.80,2.48,...,,,41.71,2.78,0.98,0.02,,,304.90,3.0
1,2003,2,2003m02,3.97,0.03,0.08,4.08,0.76,4.83,2.46,...,,,41.16,2.89,1.27,0.03,,,309.05,3.0
2,2003,3,2003m03,4.17,0.03,0.11,4.32,0.77,5.08,2.26,...,,,39.43,3.14,1.06,0.05,,,309.13,3.0
3,2003,4,2003m04,3.98,0.07,0.10,4.15,0.85,5.00,2.02,...,,,38.29,2.35,0.82,0.03,,,300.72,3.0
4,2003,5,2003m05,4.08,0.04,0.14,4.25,0.65,4.91,2.59,...,,,37.00,2.84,1.00,0.03,,,310.15,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
217,2021,2,2021m02,1.41,0.02,0.07,1.50,0.85,2.35,1.91,...,4.71,0.20,23.65,1.68,0.14,0.03,3.75,0.00,281.30,3.0
218,2021,3,2021m03,1.80,0.04,0.05,1.89,0.91,2.79,2.36,...,6.13,0.20,26.01,1.88,0.13,0.01,3.75,0.00,311.49,3.0
219,2021,4,2021m04,1.73,0.02,0.04,1.79,0.81,2.60,1.93,...,5.04,0.15,22.30,1.59,0.11,0.03,5.63,0.00,274.01,2.0
220,2021,5,2021m05,1.52,0.01,0.03,1.57,0.64,2.21,1.95,...,5.56,0.25,23.08,1.64,0.17,0.01,1.88,11.56,286.05,2.0


### Atividade 8: Filtrar os dados ano de 2020 e selecionar as variáveis: mês, hom_doloso, lesao_corp_morte, latrocinio, cvli, hom_por_interv_policial, e trafico_drogas. Em seguida calcular a correlação de spearman e identificar quais são as correlações fortes e muito fortes (se houver).

In [None]:
# Filtrar os dados para o ano de 2020 e selecionar as variáveis desejadas
dados_2020 = df_rj[df_rj['ano'] == 2020][['mes', 'hom_doloso', 'lesao_corp_morte', 'latrocinio', 'cvli', 'hom_por_interv_policial', 'trafico_drogas']]
dados_2020

Unnamed: 0,mes,hom_doloso,lesao_corp_morte,latrocinio,cvli,hom_por_interv_policial,trafico_drogas
204,1,2.07,0.02,0.05,2.14,0.9,5.06
205,2,1.88,0.01,0.06,1.95,0.95,5.06
206,3,2.16,0.01,0.05,2.22,0.66,4.7
207,4,1.8,0.03,0.03,1.86,1.03,5.29
208,5,1.57,0.0,0.03,1.61,0.75,5.39
209,6,1.49,0.01,0.01,1.52,0.2,4.71
210,7,1.48,0.02,0.04,1.54,0.3,5.15
211,8,1.5,0.01,0.07,1.58,0.29,5.28
212,9,1.37,0.02,0.04,1.43,0.31,5.12
213,10,1.59,0.01,0.03,1.63,0.83,5.23


In [None]:
# Calcular a correlação de Spearman
correlacao_spearman = dados_2020.corr(method='spearman')

print("Correlação de Spearman:")
print(correlacao_spearman)

Correlação de Spearman:
                              mes  hom_doloso  lesao_corp_morte  latrocinio  \
mes                      1.000000   -0.468531          0.011427   -0.061063   
hom_doloso              -0.468531    1.000000         -0.064753    0.423852   
lesao_corp_morte         0.011427   -0.064753          1.000000   -0.031304   
latrocinio              -0.061063    0.423852         -0.031304    1.000000   
cvli                    -0.461538    0.993007         -0.026663    0.456180   
hom_por_interv_policial -0.489510    0.664336          0.159977    0.017960   
trafico_drogas          -0.028070   -0.396494          0.053513   -0.252321   

                             cvli  hom_por_interv_policial  trafico_drogas  
mes                     -0.461538                -0.489510       -0.028070  
hom_doloso               0.993007                 0.664336       -0.396494  
lesao_corp_morte        -0.026663                 0.159977        0.053513  
latrocinio               0.456180  

In [None]:
# Identificar correlações fortes e muito fortes

# Vamos considerar |correlação| > 0.7 como forte e |correlação| > 0.9 como muito forte

for coluna in correlacao_spearman.columns:
    for indice, valor in correlacao_spearman[coluna].iteritems():
        if abs(valor) > 0.7 and abs(valor) < 0.9:
            print(f"Correlação forte entre {coluna} e {indice}: {valor}")
        elif abs(valor) >= 0.9:
            print(f"Correlação muito forte entre {coluna} e {indice}: {valor}")

Correlação muito forte entre mes e mes: 1.0
Correlação muito forte entre hom_doloso e hom_doloso: 1.0
Correlação muito forte entre hom_doloso e cvli: 0.993006993006993
Correlação muito forte entre lesao_corp_morte e lesao_corp_morte: 1.0
Correlação muito forte entre latrocinio e latrocinio: 1.0
Correlação muito forte entre cvli e hom_doloso: 0.993006993006993
Correlação muito forte entre cvli e cvli: 1.0
Correlação muito forte entre hom_por_interv_policial e hom_por_interv_policial: 1.0
Correlação muito forte entre trafico_drogas e trafico_drogas: 1.0


  for indice, valor in correlacao_spearman[coluna].iteritems():


In [None]:
# Correlação muito forte entre cvli e hom_doloso: 0.993006993006993.