# Importando as bibliotecas necessárias

In [460]:
import os
import sys
import time
import datetime
import numpy as np
import pandas as pd
import pandas.io.sql as psql
import pathlib
import getpass

import geopandas as gpd
import geoplot as gplt
import geoplot.crs as gcrs
#import contextily as ctx
from cartopy import crs as ccrs
import matplotlib.pyplot as plt


import pymysql
import sqlalchemy

# Criando a conexão

In [462]:
p = getpass.getpass()
connection = pymysql.connect(host='localhost', port=3306, user='root', passwd=p) #, db='mysql')
cursor = connection.cursor()
connection.autocommit(True)

········


# Importando e limpando os dados

## Geometria

In [463]:
geometria = gpd.read_file('.//bases_de_dados//geojs-35-mun.json')

#geometria.rename(columns={"geometry":"poligono"}, inplace = True)

geometria.set_index("id", drop=True, inplace=True)

print(geometria.dtypes)
geometria.head(3)


name             object
description      object
geometry       geometry
dtype: object


Unnamed: 0_level_0,name,description,geometry
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3500105,Adamantina,Adamantina,"POLYGON ((-51.05787 -21.39888, -51.05365 -21.4..."
3500204,Adolfo,Adolfo,"POLYGON ((-49.65478 -21.20607, -49.63847 -21.2..."
3500303,Aguaí,Aguaí,"POLYGON ((-47.20890 -21.97129, -47.20297 -21.9..."


Conferindo se as colunas nome e descrição são iguais

In [464]:
contador = 0
for row in geometria.iterrows():
    if row[1]["name"] != row[1]["description"]:
        print("Existe nome diferente da descrição")
        contador += 1
if contador == 0:
    print("As duas colunas são iguais")

As duas colunas são iguais


Verificando o nome de maior tamanho na coluna

In [465]:
geometria["name"].apply(lambda x: len(x)).max()

26

Removendo a coluna `description`

In [466]:
geometria.drop('description', axis='columns', inplace=True)
geometria.head(3)

Unnamed: 0_level_0,name,geometry
id,Unnamed: 1_level_1,Unnamed: 2_level_1
3500105,Adamantina,"POLYGON ((-51.05787 -21.39888, -51.05365 -21.4..."
3500204,Adolfo,"POLYGON ((-49.65478 -21.20607, -49.63847 -21.2..."
3500303,Aguaí,"POLYGON ((-47.20890 -21.97129, -47.20297 -21.9..."


## IDESP das Escolas

In [467]:
idesp = pd.read_csv('.//bases_de_dados//escola_IDESP.csv')
idesp = idesp[~np.isnan(idesp["id_municipio"])]
idesp["id_municipio"] = idesp["id_municipio"].apply(lambda x: int(x))
#idesp.index.name = "index"
#idesp.set_index("id_municipio", drop=True, inplace=True)

idesp.head(3)

Unnamed: 0,ano,id_municipio,id_escola,id_escola_sp,nota_idesp_ef_iniciais,nota_idesp_ef_finais,nota_idesp_em
0,2007,3550308,35000024,24,2.88,2.52,1.32
1,2007,3550308,35000048,48,,2.26,0.93
2,2007,3550308,35000061,61,3.02,,


In [468]:
# for i in idesp["id_municipio"]:
#     try:
#         abacate = int(i)
#     except:
#         print(np.isnan(i))

## Nível Sócio Economico das Escolas

In [469]:
escolas_nse = pd.read_csv('.//bases_de_dados//escola_nse.csv')
#escolas_nse.set_index("id_municipio", drop=True, inplace=True)

escolas_nse.head(3)

Unnamed: 0,id_municipio,rede,diretoria,id_escola,id_escola_sp,nivel_socio_economico
0,3550308,estadual,NORTE 1,35000012,12,2.71
1,3550308,estadual,NORTE 1,35000024,24,3.93
2,3550308,estadual,NORTE 1,35000036,36,4.02


## Fluxo Escolar

In [470]:
fluxo_escolar = pd.read_csv('.//bases_de_dados//fluxo_escolar.csv')
fluxo_escolar = fluxo_escolar[~np.isnan(fluxo_escolar["id_municipio"])]
fluxo_escolar["id_municipio"] = fluxo_escolar["id_municipio"].apply(lambda x: int(x))

fluxo_escolar = fluxo_escolar[~(fluxo_escolar["prop_aprovados_em"] > 100)]
fluxo_escolar = fluxo_escolar[~(fluxo_escolar["prop_reprovados_em"] > 100)]
fluxo_escolar = fluxo_escolar[~(fluxo_escolar["prop_abandono_em"] > 100)]

#fluxo_escolar.set_index("id_municipio", drop=True, inplace=True)

fluxo_escolar.head(3)

Unnamed: 0,ano,sigla_uf,rede,diretoria,id_municipio,id_escola,id_escola_sp,codigo_tipo_escola,prop_aprovados_anos_inciais_ef,prop_reprovados_anos_iniciais_ef,prop_abandono_anos_iniciais_ef,prop_aprovados_anos_finais_ef,prop_reprovados_anos_finais_ef,prop_abandono_anos_finais_ef,prop_aprovados_em,prop_reprovados_em,prop_abandono_em
0,2011,SP,estadual,NORTE 1,3550308,35910995,910995,,0.0,0.0,0.0,0.0,0.0,0.0,65.032257,32.774193,2.193548
1,2011,SP,estadual,NORTE 1,3550308,35910296,910296,,98.034935,0.655022,1.310044,0.0,0.0,0.0,0.0,0.0,0.0
2,2011,SP,estadual,NORTE 1,3550308,35923618,923618,,97.419357,0.967742,1.612903,0.0,0.0,0.0,0.0,0.0,0.0


## Ocorrências Registrasdas em São Paulo

In [471]:
ocorrencias_sp = pd.read_csv('.//bases_de_dados//ocorrencias_registradas.csv')
#ocorrencias_sp.set_index("id_municipio", drop=True, inplace=True)

ocorrencias_sp.head(3)

Unnamed: 0,ano,mes,id_municipio,regiao_ssp,homicidio_doloso,numero_de_vitimas_em_homicidio_doloso,homicidio_doloso_por_acidente_de_transito,numero_de_vitimas_em_homicidio_doloso_por_acidente_de_transito,homicidio_culposo_por_acidente_de_transito,homicidio_culposo_outros,...,total_de_estupro,estupro,estupro_de_vulneravel,total_de_roubo_outros,roubo_outros,roubo_de_veiculo,roubo_a_banco,roubo_de_carga,furto_outros,furto_de_veiculo
0,2002,1,3500105,Presidente Prudente,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,,,0.0,,0.0,0.0,0.0,21.0,0.0
1,2002,2,3500105,Presidente Prudente,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,,,0.0,,0.0,0.0,0.0,32.0,0.0
2,2002,3,3500105,Presidente Prudente,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,,,0.0,,0.0,0.0,0.0,36.0,0.0


In [472]:
# fluxo_escolar["prop_aprovados_anos_inciais_ef"].apply(lambda x: np.isnan(x)).sum()

### População

In [473]:
populacao_brasil = pd.read_csv('.//bases_de_dados//municipio.csv')
populacao_sp = populacao_brasil[populacao_brasil["id_municipio"].isin(geometria.index.astype(int))].copy()

populacao_sp.head(3)

Unnamed: 0,ano,sigla_uf,id_municipio,populacao
98994,1991,SP,3500105,32092.0
98995,1992,SP,3500105,32085.0
98996,1993,SP,3500105,32099.0


# Criando o banco de dados e as tabelas no MySQL

## Criando o banco de dados

Apagando a base de dados caso exista e criando de novo

In [502]:
cursor.execute("DROP DATABASE IF EXISTS educacao_sao_paulo;")
cursor.execute("create database educacao_sao_paulo;")

1

## Criando as tabelas

In [503]:
cursor.execute("use educacao_sao_paulo;")

0

### Geometria

Criando a tabela de geometria

In [504]:
cursor.execute("""CREATE TABLE geometria (
    id int NOT NULL,
    name varchar(40) NOT NULL,
    geometry polygon NOT NULL,
    CONSTRAINT geometria_pk PRIMARY KEY (id)
);""")

0

### Nível Sócio Econômico das Escolas

In [505]:
cursor.execute("""CREATE TABLE escola_nse (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    rede varchar(40) NOT NULL,
    diretoria varchar(40) NOT NULL,
    id_escola_sp int NOT NULL,
    id_escola int NOT NULL,
    nivel_socio_economico float(6,3) NULL,
    CONSTRAINT escola_nse_pk PRIMARY KEY (id)
);
                """)

0

### Fluxo Escolar

In [506]:
cursor.execute("""CREATE TABLE fluxo_escolar (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    ano int NOT NULL,
    sigla_uf varchar(2) NOT NULL,
    rede varchar(40) NULL,
    diretoria varchar(40) NOT NULL,
    id_escola int NOT NULL,
    id_escola_sp int NOT NULL,
    codigo_tipo_escola int NULL,
    prop_aprovados_anos_inciais_ef float(11,8) NULL,
    prop_reprovados_anos_iniciais_ef float(11,8) NULL,
    prop_abandono_anos_iniciais_ef float(11,8) NULL,
    prop_aprovados_anos_finais_ef float(11,8) NULL,
    prop_reprovados_anos_finais_ef float(11,8) NULL,
    prop_abandono_anos_finais_ef float(11,8) NULL,
    prop_aprovados_em float(11,8) NULL,
    prop_reprovados_em float(11,8) NULL,
    prop_abandono_em float(11,8) NULL,
    CONSTRAINT fluxo_escolar_pk PRIMARY KEY (id)
);
                """)

0

### IDESP das Escolas

In [507]:
cursor.execute("""CREATE TABLE idesp (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    ano int NOT NULL,
    id_escola int NOT NULL,
    id_escola_sp int NOT NULL,
    nota_idesp_ef_iniciais float(6,3) NULL,
    nota_idesp_ef_finais float(6,3) NULL,
    nota_idesp_em float(6,3) NULL,
    CONSTRAINT idesp_pk PRIMARY KEY (id)
);
                """)

0

### Ocorrências Registradas em São Paulo

In [508]:
cursor.execute("""CREATE TABLE ocorrencias_sp (
    id int NOT NULL AUTO_INCREMENT,
    id_municipio int NOT NULL,
    ano int NOT NULL,
    mes int NOT NULL,
    regiao_ssp varchar(40) NOT NULL,
    homicidio_doloso int NULL,
    numero_de_vitimas_em_homicidio_doloso int NULL,
    homicidio_doloso_por_acidente_de_transito int NULL,
    numero_de_vitimas_em_homicidio_doloso_por_acidente_de_transito int NULL,
    homicidio_culposo_por_acidente_de_transito int NULL,
    homicidio_culposo_outros int NULL,
    tentativa_de_homicidio int NULL,
    lesao_corporal_seguida_de_morte int NULL,
    lesao_corporal_dolosa int NULL,
    lesao_corporal_culposa_por_acidente_de_transito int NULL,
    lesao_corporal_culposa_outras int NULL,
    latrocinio int NULL,
    numero_de_vitimas_em_latrocinio int NULL,
    total_de_estupro int NULL,
    estupro int NULL,
    estupro_de_vulneravel int NULL,
    total_de_roubo_outros int NULL,
    roubo_outros int NULL,
    roubo_de_veiculo int NULL,
    roubo_a_banco int NULL,
    roubo_de_carga int NULL,
    furto_outros int NULL,
    furto_de_veiculo int NULL,
    CONSTRAINT ocorrencias_sp_pk PRIMARY KEY (id)
);
                """)

0

### População de São Paulo

In [509]:
cursor.execute("""
CREATE TABLE populacao_sp (
    id int NOT NULL AUTO_INCREMENT,
    ano int NOT NULL,
    sigla_uf varchar(2) NOT NULL,
    id_municipio int NOT NULL,
    populacao int NULL,
    CONSTRAINT populacao_sp_pk PRIMARY KEY (id)
);
                """)

0

# Populando as tabelas

## Geometria

In [510]:
for row in geometria.iterrows():
    
    data = (row[0], row[1]["name"], row[1]["geometry"].wkt)
    sql = """INSERT INTO geometria (id, name, geometry) VALUES (%s, %s, ST_GeomFromText(%s, 0))"""
    
    cursor.execute(sql,data)

In [511]:
# for row in geometria.iterrows():
    
#     data = (row[0], row[1]["name"], row[1]["description"], row[1]["geometry"].wkt)
#     sql = """INSERT INTO geometria (id, name, description, geometry) VALUES (%s, %s, %s, ST_GeomFromText(%s, 0))"""
    
#     cursor.execute(sql,data)

In [512]:
#sql = f"INSERT INTO geometria (id, name, description, poligono) VALUES ({data[0]}, {data[1]}, ST_GeomFromText('{data[2]}', 0), {data[3]})"
# print(sql)

## IDESP das Escolas

In [513]:
from sqlalchemy import create_engine
conectar = f'mysql+pymysql://root:{p}@localhost/educacao_sao_paulo'
engine = create_engine(conectar)

In [514]:
idesp.to_sql('idesp', con=engine, index=False, if_exists="append")

## Nível Sócio Economico das Escolas

In [515]:
escolas_nse.to_sql('escola_nse', con=engine, index=False, if_exists="append")

## Fluxo Escolar

In [516]:
fluxo_escolar.to_sql('fluxo_escolar', con=engine, index=False, if_exists="append")

## Ocorrências Registrasdas em São Paulo

In [517]:
ocorrencias_sp.to_sql('ocorrencias_sp', con=engine, index=False, if_exists="append")

## População de São Paulo

In [518]:
populacao_sp.to_sql('populacao_sp', con=engine, index=False, if_exists="append")

# Fazendo as querys e as visualizações

In [519]:
#from shapely import wkt
df_mysql = psql.read_sql('SELECT id, name, ST_AsWKT(geometry) as geometry FROM geometria;', con=connection)
#df_mysql["poligono"] = gpd.GeoSeries.from_wkt(df_mysql["poligono"])


#df_mysql["geometry"]

df_mysql['geometry'] = gpd.GeoSeries.from_wkt(df_mysql['geometry'])
gdf = gpd.GeoDataFrame(df_mysql, geometry="geometry")

print(gdf.dtypes)
gdf.head(3)

id             int64
name          object
geometry    geometry
dtype: object


Unnamed: 0,id,name,geometry
0,3500105,Adamantina,"POLYGON ((-51.05787 -21.39888, -51.05365 -21.4..."
1,3500204,Adolfo,"POLYGON ((-49.65478 -21.20607, -49.63847 -21.2..."
2,3500303,Aguaí,"POLYGON ((-47.20890 -21.97129, -47.20297 -21.9..."


# Adicionando as Foreign Keys

In [520]:
cursor.execute("""
ALTER TABLE escola_nse ADD CONSTRAINT escola_nse_geometria FOREIGN KEY escola_nse_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE fluxo_escolar ADD CONSTRAINT fluxo_escolar_geometria FOREIGN KEY fluxo_escolar_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE idesp ADD CONSTRAINT idesp_geometria FOREIGN KEY idesp_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE ocorrencias_sp ADD CONSTRAINT ocorrencias_sp_geometria FOREIGN KEY ocorrencias_sp_geometria (id_municipio)
    REFERENCES geometria (id);
""")

cursor.execute("""
ALTER TABLE populacao_sp ADD CONSTRAINT populacao_sp_geometria FOREIGN KEY populacao_sp_geometria (id_municipio)
    REFERENCES geometria (id);
""")

19842