# Importando as bibliotecas necessárias

## Introdução

#### Bruno Fornaro, Lorenzo Alencastro e Vanessa Wille

Este trabalho trata da Avaliação 2 da disciplina de Banco de Dados do curso Ciêncisa de Dados/FGV-EMAp objetivando aperfeiçoar e colocar em prática os aprendizados do semestre. Neste caso, a proposta é capturar dados GeoJson, armanezar no banco MySql e, posteriormente, analisar as informações.

Para tanto, capturamos os dados de [Arquivos GeoJSON](https://github.com/tbrugz/geodata-br) do Estado de São Paulo e datasets com informações adicionais sobre os municípios, como o Índice de Nível Socioeconômico, o Índice de Desenvolvimento da Educação do Estado de São Paulo, fluxo escolar, a quantidade de população por município e referências sobre a segurança, extraídos do site [Base dos Dados](https://basedosdados.org/), afim de entedermos como essas estão distribuídas no espaço geográfico do Estado, averiguando quais municípios se destacam e como os dados se correlacionam.

In [1]:
import os
import sys
import time
import datetime
import numpy as np
import pandas as pd
import pathlib
import getpass
import geopandas as gpd
import geoplot.crs as gcrs
import geoplot as gplt
import matplotlib.pyplot as plt
import matplotlib as ptl
import pymysql
import seaborn as sns
from sklearn.preprocessing import MaxAbsScaler
%matplotlib inline
abs_scaler = MaxAbsScaler()

import plotly.express as px
from plotly.subplots import make_subplots
import geoplot.crs as gcrs
import contextily as ctx
from cartopy import crs as ccrs


import pandas.io.sql as psql

#from cartopy import crs as ccrs

# Importando as bibliotecas necessárias
import pymysql
import sqlalchemy

ModuleNotFoundError: No module named 'contextily'

# Criando a conexão

In [None]:
p = getpass.getpass()
connection = pymysql.connect(host='localhost', port=3306, user='root', passwd=p) #, db='mysql')
cursor = connection.cursor()
connection.autocommit(True)

# Importando e limpando os dados

## Geometria

In [None]:
geometria = gpd.read_file('geojs-35-mun.json')

#geometria.rename(columns={"geometry":"poligono"}, inplace = True)

geometria.set_index("id", drop=True, inplace=True)

print(geometria.dtypes)
geometria.head(3)


Conferindo se as colunas nome e descrição são iguais

In [None]:
contador = 0
for row in geometria.iterrows():
    if row[1]["name"] != row[1]["description"]:
        print("Existe nome diferente da descrição")
        contador += 1
if contador == 0:
    print("As duas colunas são iguais")

Verificando o nome de maior tamanho na coluna

In [None]:
geometria["name"].apply(lambda x: len(x)).max()

Removendo a coluna `description`

In [None]:
geometria.drop('description', axis='columns', inplace=True)
geometria.head(3)

## IDESP das Escolas

In [None]:
idesp = pd.read_csv('escola_IDESP.csv')
idesp = idesp[~np.isnan(idesp["id_municipio"])]
idesp["id_municipio"] = idesp["id_municipio"].apply(lambda x: int(x))
#idesp.index.name = "index"
#idesp.set_index("id_municipio", drop=True, inplace=True)

idesp.head(3)

In [None]:
# for i in idesp["id_municipio"]:
#     try:
#         abacate = int(i)
#     except:
#         print(np.isnan(i))

## Nível Sócio Economico das Escolas

In [None]:
escolas_nse = pd.read_csv('escola_nse.csv')
#escolas_nse.set_index("id_municipio", drop=True, inplace=True)

escolas_nse.head(3)

## Fluxo Escolar

In [None]:
fluxo_escolar = pd.read_csv('fluxo_escolar.csv')
fluxo_escolar = fluxo_escolar[~np.isnan(fluxo_escolar["id_municipio"])]
fluxo_escolar["id_municipio"] = fluxo_escolar["id_municipio"].apply(lambda x: int(x))

fluxo_escolar = fluxo_escolar[~(fluxo_escolar["prop_aprovados_em"] > 100)]
fluxo_escolar = fluxo_escolar[~(fluxo_escolar["prop_reprovados_em"] > 100)]
fluxo_escolar = fluxo_escolar[~(fluxo_escolar["prop_abandono_em"] > 100)]

#fluxo_escolar.set_index("id_municipio", drop=True, inplace=True)

fluxo_escolar.head(3)

## Ocorrências Registrasdas em São Paulo

In [None]:
ocorrencias_sp = pd.read_csv('ocorrencias_registradas.csv')
#ocorrencias_sp.set_index("id_municipio", drop=True, inplace=True)

ocorrencias_sp.head(3)

### População

In [None]:
populacao_brasil = pd.read_csv('municipio.csv')
populacao_sp = populacao_brasil[populacao_brasil["id_municipio"].isin(geometria.index.astype(int))].copy()

populacao_sp.head(3)

# Criando o banco de dados e as tabelas no MySQL

## Criando o banco de dados

Apagando a base de dados caso exista e criando de novo

In [None]:
cursor.execute("DROP DATABASE IF EXISTS educacao_sao_paulo;")
cursor.execute("create database educacao_sao_paulo;")

## Criando as tabelas

In [None]:
cursor.execute("use educacao_sao_paulo;")

### Geometria

Criando a tabela de geometria

In [None]:
cursor.execute("""CREATE TABLE geometria (
    id int NOT NULL,
    name varchar(40) NOT NULL,
    geometry polygon NOT NULL,
    CONSTRAINT geometria_pk PRIMARY KEY (id)
);""")

### Nível Sócio Econômico das Escolas

In [None]:
cursor.execute("""CREATE TABLE escola_nse (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    rede varchar(40) NOT NULL,
    diretoria varchar(40) NOT NULL,
    id_escola_sp int NOT NULL,
    id_escola int NOT NULL,
    nivel_socio_economico float(6,3) NULL,
    CONSTRAINT escola_nse_pk PRIMARY KEY (id)
);
                """)

### Fluxo Escolar

In [None]:
cursor.execute("""CREATE TABLE fluxo_escolar (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    ano int NOT NULL,
    sigla_uf varchar(2) NOT NULL,
    rede varchar(40) NULL,
    diretoria varchar(40) NOT NULL,
    id_escola int NOT NULL,
    id_escola_sp int NOT NULL,
    codigo_tipo_escola int NULL,
    prop_aprovados_anos_inciais_ef float(11,8) NULL,
    prop_reprovados_anos_iniciais_ef float(11,8) NULL,
    prop_abandono_anos_iniciais_ef float(11,8) NULL,
    prop_aprovados_anos_finais_ef float(11,8) NULL,
    prop_reprovados_anos_finais_ef float(11,8) NULL,
    prop_abandono_anos_finais_ef float(11,8) NULL,
    prop_aprovados_em float(11,8) NULL,
    prop_reprovados_em float(11,8) NULL,
    prop_abandono_em float(11,8) NULL,
    CONSTRAINT fluxo_escolar_pk PRIMARY KEY (id)
);
                """)

### IDESP das Escolas

In [None]:
cursor.execute("""CREATE TABLE idesp (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    ano int NOT NULL,
    id_escola int NOT NULL,
    id_escola_sp int NOT NULL,
    nota_idesp_ef_iniciais float(6,3) NULL,
    nota_idesp_ef_finais float(6,3) NULL,
    nota_idesp_em float(6,3) NULL,
    CONSTRAINT idesp_pk PRIMARY KEY (id)
);
                """)

### Ocorrências Registradas em São Paulo

In [None]:
cursor.execute("""CREATE TABLE ocorrencias_sp (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    ano int NOT NULL,
    mes int NOT NULL,
    regiao_ssp varchar(40) NOT NULL,
    homicidio_doloso int NULL,
    numero_de_vitimas_em_homicidio_doloso int NULL,
    homicidio_doloso_por_acidente_de_transito int NULL,
    numero_de_vitimas_em_homicidio_doloso_por_acidente_de_transito int NULL,
    homicidio_culposo_por_acidente_de_transito int NULL,
    homicidio_culposo_outros int NULL,
    tentativa_de_homicidio int NULL,
    lesao_corporal_seguida_de_morte int NULL,
    lesao_corporal_dolosa int NULL,
    lesao_corporal_culposa_por_acidente_de_transito int NULL,
    lesao_corporal_culposa_outras int NULL,
    latrocinio int NULL,
    numero_de_vitimas_em_latrocinio int NULL,
    total_de_estupro int NULL,
    estupro int NULL,
    estupro_de_vulneravel int NULL,
    total_de_roubo_outros int NULL,
    roubo_outros int NULL,
    roubo_de_veiculo int NULL,
    roubo_a_banco int NULL,
    roubo_de_carga int NULL,
    furto_outros int NULL,
    furto_de_veiculo int NULL,
    CONSTRAINT ocorrencias_sp_pk PRIMARY KEY (id)
);
                """)

### População de São Paulo

In [None]:
cursor.execute("""
CREATE TABLE populacao_sp (
    id int NOT NULL AUTO_INCREMENT,
    ano int NOT NULL,
    sigla_uf varchar(2) NOT NULL,
    id_municipio int NOT NULL,
    populacao int NULL,
    CONSTRAINT populacao_sp_pk PRIMARY KEY (id)
);
                """)

# Populando as tabelas

## Geometria

In [None]:
for row in geometria.iterrows():
    
    data = (row[0], row[1]["name"], row[1]["geometry"].wkt)
    sql = """INSERT INTO geometria (id, name, geometry) VALUES (%s, %s, ST_GeomFromText(%s, 0))"""
    
    cursor.execute(sql,data)

## IDESP das Escolas 

In [None]:
from sqlalchemy import create_engine
conectar = f'mysql+pymysql://root:{p}@localhost/educacao_sao_paulo'
engine = create_engine(conectar)

In [None]:
idesp.to_sql('idesp', con=engine, index=False, if_exists="append")

## Nível Sócio Economico das Escolas

In [None]:
escolas_nse.to_sql('escola_nse', con=engine, index=False, if_exists="append")

## Fluxo Escolar

In [None]:
fluxo_escolar.to_sql('fluxo_escolar', con=engine, index=False, if_exists="append")

## Ocorrências Registrasdas em São Paulo

In [None]:
ocorrencias_sp.to_sql('ocorrencias_sp', con=engine, index=False, if_exists="append")

## População de São Paulo

In [None]:
populacao_sp.to_sql('populacao_sp', con=engine, index=False, if_exists="append")

# Adicionando as Foreign Keys

In [None]:
cursor.execute("""
ALTER TABLE escola_nse ADD CONSTRAINT escola_nse_geometria FOREIGN KEY escola_nse_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE fluxo_escolar ADD CONSTRAINT fluxo_escolar_geometria FOREIGN KEY fluxo_escolar_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE idesp ADD CONSTRAINT idesp_geometria FOREIGN KEY idesp_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE ocorrencias_sp ADD CONSTRAINT ocorrencias_sp_geometria FOREIGN KEY ocorrencias_sp_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE populacao_sp ADD CONSTRAINT populacao_sp_geometria FOREIGN KEY populacao_sp_geometria (id_municipio)
    REFERENCES geometria (id);
""")

# Importando os dados para o pandas e o geopandas

## Geometria

In [None]:
#from shapely import wkt
mapassp = psql.read_sql('SELECT id, name, ST_AsWKT(geometry) as geometry FROM geometria;', con=connection)
#df_mysql["poligono"] = gpd.GeoSeries.from_wkt(df_mysql["poligono"])


#df_mysql["geometry"]

mapassp['geometry'] = gpd.GeoSeries.from_wkt(mapassp['geometry'])
mapassp = gpd.GeoDataFrame(mapassp, geometry="geometry")

print(mapassp.dtypes)
mapassp.head(3)

## Nível Sócio Econômico

In [None]:
sp_nse = psql.read_sql('SELECT * FROM escola_nse;', con=connection)
sp_nse.head(3)

## IDESP das Escolas

In [None]:
sp_idesp = psql.read_sql('SELECT * FROM idesp;', con=connection)
sp_idesp = gpd.GeoDataFrame(sp_idesp)
sp_idesp.head(3)

## Fluxo Escolar

In [None]:
sp_fluxo_escolar = psql.read_sql('SELECT * FROM fluxo_escolar;', con=connection)
sp_fluxo_escolar.head(3)

## Ocorrências Registrasdas em São Paulo

In [None]:
df_seguranca = psql.read_sql('SELECT * FROM ocorrencias_sp;', con=connection)
df_seguranca.head(3)

## População de São Paulo

In [None]:
sp_populacao = psql.read_sql('SELECT * FROM populacao_sp;', con=connection)
sp_populacao.head(3)

# Realizando as Análises e Visualizações

In [None]:
# mapassp = gpd.read_file(".//bases_de_dados//geojs-35-mun.json")
# mapassp = mapassp[['id','name', "geometry"]]
# mapassp

## Índice de Nível Socieconômico

Para esta análise, usou-se uma tabela que contém dados que caracterizam brevemente a escola e, principalmente, dados do indicador socioeconômico da escola, o INSE. O indicador varia de 0 a 10, sendo 10 a escola com o nível socioeconômico mais baixo e 0 a escola com nível mais alto. O INSE é calculado a partir dos questionários do SARESP. Ele considera as seguintes variáveis: grau de escolaridade dos pais, posse de bens de consumo duráveis na residência e renda familiar.

Inicialmente, realizou-se a leitura da base com Geopandas e uma filtragem nos dados, para trabalhar somente com o necessário. Posteriormente, ainda, foram unidas as bases de dados com informações espaciais e do INSE do munícipio. 

In [None]:
#selecionando as colunas necessárias
sp_nse = sp_nse[['id_municipio','nivel_socio_economico']].copy()
#tranformando em numérico
sp_nse["nivel_socio_economico"] = pd.to_numeric(sp_nse["nivel_socio_economico"]).copy()
#transformando NaN em 0
sp_nse.fillna(0, inplace = True)
#Renomeando coluna id_municipio para posteriormente juntar as tabelas
sp_nse.rename(columns={"id_municipio": "id"}, inplace = 1)
#agrupando por id e tirando a média
sp_nse=sp_nse.groupby("id").mean()
#juntando as tabelas com a geometria e os dados por id
sp_nse_f = mapassp.join(sp_nse, on="id", how="left")
sp_nse_f

Na primeira plotagem, abaixo, é possível visualizar os nível socioeconômico (média das escolas) por município. 

In [None]:
#plotagem do mapa do INSE por munícipio
fig, ax = plt.subplots(figsize=(10, 10))
sp_nse_f.plot(ax=ax, column='nivel_socio_economico', cmap='coolwarm', legend=True,
                legend_kwds={'label': "Nível socioeconômico", 'shrink': 0.3} )
plt.title('Nível socioeconômico (média das escolas) por município') 
ax.axis('off');

Pelo mapa, é vísivel que alguns munícipios possuem níveis socioeconômicos (média das escolas) mais elevados que outros. O município com melhor índice de nível socioecônomico é águas de São Pedro (1.66), já com o pior INSE, é Itaóca (8.56), como verificado pelos gráficos de barras a seguir, que indicam os 10 melhores e 10 piores INSE. 

In [None]:
df = sp_nse_f[['name','nivel_socio_economico']] #tabela com os dados necessários para fazer os gráficos de barra
df1=df.sort_values('nivel_socio_economico', ascending=False).reset_index().head(10) #ordenação decrescente dos dados 
df2=df.sort_values('nivel_socio_economico').reset_index().head(10)#ordenação crsescente dos dados

In [None]:
#plotagem do gráfico de barra dos 10 piores INSE com Plotly
fig = px.bar(df1,
             x='name', y="nivel_socio_economico", height=500, width=700,
             barmode='stack', labels={"name": "Nome", 'nivel_socio_economico':"Nível socioeconômico "})
fig.update_layout(title = '10 municípios com piores níveis socioeconômicos (média das escolas)')
fig.update_xaxes(title = 'Município')
fig.update_yaxes(title = 'Nível socioeconômico médio das escolas')
fig.show()

In [None]:
#plotagem do gráfico de barra dos 10 melhores INSE com Plotly
fig = px.bar(df2,
             x='name', y="nivel_socio_economico", height=500, width=700,
             barmode='stack', labels={"name": "Nome", 'nivel_socio_economico':"Nível socioeconômico "})
fig.update_layout(title = '10 municípios com melhores nível socioeconômico (média das escolas)')
fig.update_xaxes(title = 'Município')
fig.update_yaxes(title = 'Nível socioeconômico médio das escolas')
fig.show()

##  Índice de Desenvolvimento da Educação do Estado de São Paulo

A tabela usada, nesse caso, contém dados da nota do Índice de Desenvolvimento da Educação do Estado de São Paulo (IDESP) para cada escola da rede estadual do estado de São Paulo, estabelecendo metas que as escolas devem alcançar ano a ano e seus resultados. Disponibilizada pela Secretaria de Educação do Estado de São Paulo, a tabela identifica cada escola através de códigos nacionais e estaduais e disponibiliza variáveis que demonstram para aquela dada escola, seu aproveitamento no IDESP. O IDESP é um indicador que avalia a qualidade da escola, sendo composto por dois critérios: o desempenho dos alunos nos exames de proficiência do SARESP (o quanto aprenderam) e o fluxo escolar (em quanto tempo aprenderam).Assim, nesta avaliação, considera–se que uma boa escola é aquela em que a maior parte dos alunos aprende as competências e habilidades requeridas para a sua série/ano, num período de tempo ideal – o ano letivo. 

Para a realização das análises, novamente realizou-se uma limpeza nos dados e selecionou-se o ano de 2018.

In [None]:
#selecionando as colunas necessárias
sp_idesp = sp_idesp[["ano",'id_municipio','nota_idesp_ef_iniciais', "nota_idesp_ef_finais", "nota_idesp_em"]]
#tranformando em numéricos
sp_idesp['nota_idesp_ef_iniciais'] = pd.to_numeric(sp_idesp["nota_idesp_ef_iniciais"])
sp_idesp['nota_idesp_ef_finais'] = pd.to_numeric(sp_idesp["nota_idesp_ef_finais"])
sp_idesp['nota_idesp_em'] = pd.to_numeric(sp_idesp["nota_idesp_em"])
#mudando nome da coluna
sp_idesp.rename(columns={"id_municipio": "id"}, inplace = 1)
#selecionando os dados do ano de 2018
sp_idesp_2018_na = sp_idesp[sp_idesp["ano"] == 2018]
#agrupando por id e tirando a média
sp_idesp_2018_na=sp_idesp_2018_na.groupby("id").mean()
#juntando as tabelas dos dados e da geometria
sp_idesp_2018 = mapassp.join(sp_idesp_2018_na, on="id", how="left")
#tranformando NaN em 0
sp_idesp_2018.fillna(0, inplace = True)

sp_idesp_2018

No mapas a seguir, pode-se visualizar, inicialmente, que as escolas estaduais no estado de São Paulo, em geral, abordam o Ensino Médio, já as séries iniciais possuem muitos valores vazios por município, ou seja, não possuem avaliação do IDESP pois, provavelmente, são escolas municipais que fornecem esse nível de educação.

Ainda, até 2030, a meta é que as escolas alcancem índice 7 para o ciclo que vai do 1° ao 5° ano, índice 6 para o ciclo que vai do 6° ao 9° ano e índice 5 para o Ensino Médio. Pelas plotagens, a séries iniciais parecem estar mais próximas do objetivo, mesmo que tenham que alcançar notas mais altas.

In [None]:
#plotagem de gráficos do IDESP por nível de ensino
fig, axs = plt.subplots(3, figsize=(10, 12))

sp_idesp_2018.plot(ax=axs[0], column='nota_idesp_em', cmap='Oranges', legend=True, legend_kwds={'label': "Nota média IDESP", 'shrink': 0.5})
axs[0].set_title('Notas do IDESP no Ensino Médio (média das escolas) por município')

sp_idesp_2018.plot(ax=axs[1], column='nota_idesp_ef_finais', cmap='Oranges', legend=True, legend_kwds={'label': "Nota média IDESP", 'shrink': 0.5})
axs[1].set_title('Notas do IDESP no Ensino Fundamental - série finais - (média das escolas) por município')

sp_idesp_2018.plot(ax=axs[2], column='nota_idesp_ef_iniciais', cmap='Oranges', legend=True, legend_kwds={'label': "Nota média IDESP", 'shrink': 0.5})
axs[2].set_title('Notas do IDESP no Ensino Fundamental - série iniciais - (média das escolas) por município')

plt.tight_layout();

In [None]:
#análises dos IDESP médios do estado por nível
media_efi=sp_idesp_2018_na['nota_idesp_ef_iniciais'].dropna().mean()
media_eff=sp_idesp_2018_na['nota_idesp_ef_finais'].dropna().mean()
media_em=sp_idesp_2018_na['nota_idesp_em'].dropna().mean()

print ("Média IDESP para as séries iniciais:",media_efi)
print ("Média IDESP para as séries finais:",media_eff)
print ("Média IDESP para o Ensino Médio:",media_em)

Com as médias calculadas, observa-se que, realmente,  as séries iniciais, pela média, estão mais próximas de alcançar o objetivo. Contudo, existem munícipios que já alcançaram-no, como verificado pelas tabelas abaixo.

In [None]:
#analisando municípios que já atingiram a meta do IDESP para 2030
obj_efi=sp_idesp_2018[sp_idesp_2018["nota_idesp_ef_iniciais"] >= 7]
print("Munícipio que já atingiram a meta para séries iniciais (analisando a média):")
obj_efi[['name', "nota_idesp_ef_iniciais"]].sort_values('nota_idesp_ef_iniciais', ascending=False)

In [None]:
obj_efi=sp_idesp_2018[sp_idesp_2018["nota_idesp_ef_finais"] >= 6]
print("Munícipio que já atingiram a meta para séries finais (analisando a média):")
obj_efi[['name', "nota_idesp_ef_finais"]].sort_values('nota_idesp_ef_finais', ascending=False)

In [None]:
obj_efi=sp_idesp_2018[sp_idesp_2018["nota_idesp_em"] >= 5]
print("Munícipio que já atingiram a meta para o Ensino Médio (analisando a média):")
obj_efi[['name', "nota_idesp_em"]].sort_values('nota_idesp_em', ascending=False)

## Segurança no Estado de São Paulo

Nesse caso, usou-se uma base de dados com informações mensais das ocorrências registradas pela Secretaria de Segurança Publica de São Paulo (SSP). Fez-se a limpeza de dados e acrescentamos uma coluna de ocorrências totais com os dados que supomos relevantes.

In [None]:
#removendo coluna
df_seguranca.drop('id', axis='columns', inplace=True)
#renomeando coluna
df_seguranca.rename(columns={"id_municipio": "id"}, inplace = 1)
#selecionando dados do ano de 2018
df_seguranca_2018 = df_seguranca[df_seguranca["ano"] == 2018]
#agrupando por id e somando os valores
df_seguranca_2018 = df_seguranca_2018.groupby("id").sum()
#juntando as tabelas
df_seguranca_2018= mapassp.join(df_seguranca_2018,on="id", how="left")
#somando colunas com dados relevantes sobre ocorrências de criminalidade
df_seguranca_2018["total"]=df_seguranca_2018["homicidio_doloso"]+df_seguranca_2018["homicidio_culposo_por_acidente_de_transito"]+df_seguranca_2018["homicidio_culposo_outros"]+df_seguranca_2018["tentativa_de_homicidio"]+df_seguranca_2018["lesao_corporal_seguida_de_morte"]+df_seguranca_2018["lesao_corporal_dolosa"]+df_seguranca_2018["lesao_corporal_culposa_outras"]+df_seguranca_2018["homicidio_doloso"]+df_seguranca_2018["latrocinio"]+df_seguranca_2018["total_de_estupro"]+df_seguranca_2018["roubo_outros"]+df_seguranca_2018["roubo_de_veiculo"]+df_seguranca_2018["roubo_a_banco"]+df_seguranca_2018["roubo_de_carga"]+df_seguranca_2018["roubo_de_carga"]+df_seguranca_2018["furto_outros"]+df_seguranca_2018["furto_de_veiculo"]

In [None]:
#plotagem do mapa sobre o total de ocorrências
fig, ax = plt.subplots(figsize=(10, 10))
df_seguranca_2018.plot(ax=ax, column='total', cmap='coolwarm', legend=True, legend_kwds={'shrink': 0.3})
plt.title('Ocorrências de crimes no ano de 2018') 
ax.axis('off');

Na plotagem do mapa do estado com as ocorrências totais, é evidente o quanto São Paulo se destaca com um número de casos bastante elevado em relação aos outros municípios. Já Torre de Pedra é o município com o menor número de ocorrência, apenas 6.

In [None]:
#munícipio com menores números de ocorrências
menores_ocor=df_seguranca_2018.sort_values('total').reset_index().head(10)
menores_ocor[["name", "total"]]

Contudo, essa soma total de ocorrências pode ser muito influenciada pela quantidade de população do local. Portanto, vale a pena analisar os dados com as proporções. Para isso, fez-se uso de uma base de dados com a quantidade de população por município.

In [None]:
#selecionando os dados sobre a população no ano de 2018
sp_populacao_2018 =sp_populacao[sp_populacao["ano"]==2018]
sp_populacao_2018=sp_populacao_2018[["id_municipio", "populacao"]]
#renomeando coluna
sp_populacao_2018.rename(columns={"id_municipio": "id"}, inplace = 1)
#unindo bases de dados 
df_seg_pop=pd.merge(sp_populacao_2018, df_seguranca_2018, how = 'inner', on = 'id')
#criando coluna com as proporções
df_seg_pop["proporcao"]=df_seg_pop["total"]/df_seg_pop["populacao"]

In [None]:
from geopandas import GeoDataFrame
#plotagem do mapa sobre o total de ocorrências
df_seg_pop = GeoDataFrame(df_seg_pop)
fig, ax = plt.subplots(figsize=(10, 10))
df_seg_pop.plot(ax=ax, column='proporcao', cmap='coolwarm', legend=True, legend_kwds={'shrink': 0.3})
plt.title('Proporção entre ocorrências e população no ano de 2018') 
ax.axis('off');

In [None]:
#munícipios com maiores proporções números de ocorrências por população
menores_ocor=df_seg_pop.sort_values('proporcao', ascending=False).reset_index().head(10)
menores_ocor[["name", "proporcao"]]

Com as novas visualizações, fica notável o quanto ocorreram mudanças trabalhando com proporções. Neste caso, Torre de Pedra continua sendo o munícipio com menor registro de ocorrências. Contudo, Ilha Comprida, Mongaguá, Jeriquara e Itanhaém possuem proporções mais elevadas do que São Paulo, que se destacava no mapa anterior por disparar com o número de ocorrências em relação aos outros munícipios.

## Analíse do fluxo escolar do estado de SP 

   Essa analíse visa a explorar as diferenças no nível de formação escolar dos municipios de São Paulo.
   As tabelas contém dados do fluxo escolar agregado a nível de ensino de cada escola. Para quantificar o fluxo, utiliza-se 3 variáveis para cada nível de ensino: a proporção de alunos aprovados, a proporção de alunos reprovados e a proporção de alunos que abandonaram o ano escolar.

In [None]:
fluxo_escolar = fluxo_escolar[['id_municipio','prop_aprovados_em', 'prop_reprovados_em', 'prop_abandono_em']]
fluxo_escolar["prop_aprovados_em"] = pd.to_numeric(fluxo_escolar["prop_aprovados_em"])
fluxo_escolar["prop_reprovados_em"] = pd.to_numeric(fluxo_escolar["prop_reprovados_em"])
fluxo_escolar["prop_abandono_em"] = pd.to_numeric(fluxo_escolar["prop_abandono_em"])


fluxo_escolar.fillna(0, inplace = True)
fluxo_escolar.rename(columns={"id_municipio": "id"}, inplace = 1)

fluxo_escolar=fluxo_escolar.groupby("id").mean()

fluxo_escolar = mapassp.join(fluxo_escolar, on="id", how="left")
fluxo_escolar.head(15)

In [None]:
#Plotando a figura
fig = px.box(fluxo_escolar, y="prop_aprovados_em", points = "all", hover_data=['name'], labels={'y':'gdp'})
fig.update_layout(title_text="Proporção de concluintes do ensino médio no estado de SP")
fig.show()

Analisando os dados através do novo gráfico podemos ver que o nível de aprovação do ensino médio no estado de São Paulo não é tão baixo e tem uma média de aprovação no ensino médio entre os municípios superior a 77 %.   

In [None]:
# Plotando a figura
fig, ax = plt.subplots(figsize=(10, 10))
fluxo_escolar.plot( ax=ax, column='prop_aprovados_em', cmap='twilight_shifted', legend=True, legend_kwds={'shrink': 0.4})
ax.axis('off');
plt.title('Proporção de aprovados no ensino médio por munícipio no estado de SP', size=15); 

Podemos observar graças a esse gráfico que a maioria dos estados tem uma aprovação de alunos superior a 50 %, entretanto o que acontece com os alunos que não são aprovados ?

In [None]:
# Plotando a figura
fig, axs = plt.subplots(2, figsize=(14, 14))
fluxo_escolar.plot(ax=axs[0], column='prop_reprovados_em', cmap='twilight_shifted', legend=True, legend_kwds={'label': "Porcentagem de reprovados", 'shrink': 0.6})
axs[0].set_title('Mapa do estado de SP com a proporção de reprovados no ensino médio', fontsize=15)

fluxo_escolar.plot(ax=axs[1], column='prop_abandono_em', cmap='twilight_shifted', legend=True, legend_kwds={'label': "Porcentagem de abandonos", 'shrink': 0.6})
axs[1].set_title('Mapa do estado de SP com a proporção de abandonos no ensino médio', fontsize=15)

;

In [None]:
fluxo_escolar['prop_aprovados_em'].describe()
# 69.735006 é o primeiro quartil da prop_aprovados
flux_menor = fluxo_escolar[fluxo_escolar['prop_aprovados_em'] < 69.735006]
# otando a tabela comparativa
tab = flux_menor[['name', "prop_reprovados_em", "prop_abandono_em"]]
tab

Pela tabela e os dois gráficos acima podemos supor que entre os alunos do ensino médio houve mais alunos que foram reprovados do que alunos que abadoram a escola. Entretanto nem o gráfico e nem a tabela nos permitem de confirrmarr esta hipótese. 

In [None]:
#"Categorizando" a comparação entre a probabilidade de ser reprovado e abandonar.
razao = [tab['prop_reprovados_em'] > tab['prop_abandono_em'], 
        tab['prop_reprovados_em'] < tab['prop_abandono_em']]
valor = ['Reprovados :', 'Abandonos :']
tab['razao_saida'] = np.select(razao, valor, default='0.5')
print("Razão das saídas: \n",tab[['razao_saida']].value_counts())

Graças a tabela comparativa acima é possível afirmar que na maioria dos municipios com baixa taxa de aprovação, os alunos não completaram o ensino médio devido principalmente a reprovação. Entretanto o que causa essa reprovação?

## IDESP e INSE

Agora parte-se para as análises correlacionadas. Será que o Índice de nível socioeconômico das escolas (média) por munícipio está relacionado com as notas do IDESP?

Para respondermos essa pergunta, novamente criou-se uma nova tabela com os dados necessários.

In [None]:
#unindo tabelas do INSE e do IDESP por id
IDESP_INSE=sp_nse.join(sp_idesp_2018_na, on="id", how="left")
IDESP_INSE

Ao plotar um gráfico de dispersão, esperava que os dados seguissem uma tendência de quanto menor fossem os INSE (já que quanto mais próximo de 0 melhor), maior seriam as notas do IDESP. Contudo, não é o que acontece.

In [None]:
#plotando gráfico de dispersão relacionando IDESP e INSE
fig=px.scatter(IDESP_INSE, x = "nivel_socio_economico", y = "nota_idesp_em", labels={"nivel_socio_economico": "INSE", "nota_idesp_em":"IDESP" })
fig.update_traces(marker=dict(size = 8,line = dict(width = 2)),selector=dict(mode = 'markers'))
fig.update_layout(title = 'IDESP X INSE')
fig.update_xaxes(title = 'índice de nível socioeconômico')
fig.update_yaxes(title = 'Notas IDESP - Ensino Médio')
fig.show()

In [None]:
#Calculando a correlação dos dados
Correlação= IDESP_INSE['nivel_socio_economico'].corr(IDESP_INSE['nota_idesp_em'])
print(f"Correlação dos dados:", Correlação)

Ao analisar a correlação, ela é negativa (que até concordaria com a ideia de quanto melhor o INSE maior o IDESP) mas muita baixa (cerca de -0,11), portanto, não pode-se concluir que os dados possuem relação.

## Segurança no Estado de São Paulo e INSE

Já Índice de nível socioeconômico das escolas (média) por munícipio está relacionado com a Segurança Pública de São Paulo?

In [None]:
INSE_SSP=pd.merge(sp_nse, df_seg_pop, how = 'inner', on = 'id')

In [None]:
#plotando gráfico de dispersão relacionando IDESP e INSE
fig=px.scatter(INSE_SSP, x = "nivel_socio_economico", y = "proporcao", labels={"nivel_socio_economico": "INSE", "proporcao":"Proporção entre ocorrências e população" })
fig.update_traces(marker=dict(size = 8,line = dict(width = 2)),selector=dict(mode = 'markers'))
fig.update_layout(title = 'Segurança no Estado de São Paulo X INSE')
fig.update_xaxes(title = 'Índice de nível socioeconômico')
fig.update_yaxes(title = 'Segurança no Estado de São Paulo')
fig.show()

In [None]:
#Calculando a correlação dos dados
Correlação1= INSE_SSP['nivel_socio_economico'].corr(INSE_SSP['proporcao'])
print(f"Correlação dos dados:", Correlação1)

Novamente o que temos é um resultado inesperado, afinal, em geral, pensa-se que quanto maior a quantidade de ocorrências, pior seria o INSE, contudo, mesmo havendo uma correlação negativa, ela novamente é muito baixa para afirmar uma relação entre os dados. 

## Segurança no Estado de São Paulo e Fluxo escolar

Uma das possíveis hipóteses que podemos formular é que o nível de reprovamento e abandono são correlacionados com o total ou com a proporção de crimes nos municípios do estado.

In [None]:
# Coletando os dados
df_seguranca=df_seguranca.groupby("id").mean()
# Excluindo dados desnecessários
flux2 = fluxo_escolar[fluxo_escolar.columns.difference(['geometry', 'description', 'name'])]
df_seguranca = df_seguranca[df_seguranca.columns.difference(['ano', 'mes'])]

In [None]:
#Transformando tipos de dados
sp_populacao.rename(columns={"id_municipio": "id"}, inplace = 1)
sp_populacao["populacao"] = pd.to_numeric(sp_populacao["populacao"])
# Juntando as duas bases
df_seg_pop = pd.merge(sp_populacao, df_seguranca, how = 'inner', on = 'id')
df_seg_pop = df_seg_pop[df_seg_pop.columns.difference(['ano', 'sigla_uf', 'geometry'])]
df_seg_pop=df_seg_pop.groupby("id").mean()


In [None]:
# Selecionando dados específicos
df_seg_pop  = df_seg_pop[['populacao','estupro', 'furto_outros', 'homicidio_doloso', 'latrocinio','tentativa_de_homicidio','lesao_corporal_seguida_de_morte','lesao_corporal_dolosa','total_de_roubo_outros', 'roubo_de_veiculo']]
df2 = flux2.join(df_seg_pop, on="id", how="left")
# Normalizando os dados
abs_scaler = MaxAbsScaler()
abs_scaler.fit(df2)
abs_scaler.max_abs_
scaled_data = abs_scaler.transform(df2)
df_scaled = pd.DataFrame(scaled_data, columns=df2.columns)
df_scaled = df_scaled[df_scaled.columns.difference(['id'])]
df_scaled

In [None]:
# Plotando gráfico
corr = df_scaled.corr('spearman') 
f,ax = plt.subplots(figsize=(10, 10))
sns.heatmap(corr, cbar = True,  square = True, annot = True,
            xticklabels= True, yticklabels= True, linewidths=.5, ax=ax)

plt.title('Correlação entre total de ocorrências \n criminosas e fluxo escolar em SP', size=19);

In [None]:
# Calculando proporção de crimes
df_seg_pop2 = df_seg_pop.diff(axis  = 1)
# Juntando as duas bases
df3 = flux2.join(df_seg_pop2, on="id", how="left")
df3 = df3[df3.columns.difference(['populacao'])]
# Plotando gráfico
corr = df3.corr('spearman') 
f,ax = plt.subplots(figsize=(10, 10))
sns.heatmap(corr, cbar = True,  square = True, annot = True,
            xticklabels= True, yticklabels= True, linewidths=.5, ax=ax)

plt.title('Correlação entre proporção de ocorrências\n criminosas e fluxo escolar em SP ', size=19);

Ao plotar os dois gráficos é possível descobrir uma certa dependencia. O primeiro gráfico indica que a proporção de aprovação no ensino médio e as ocorências criminosas nos Municípios de SP tem uma correlação negativa abaixo de -0.31 para cada crime, isso evidência que há uma tendência de municípios com um total de crime menor a terem um número de aprovação maior.