# **Dados SiSU 2020**

---

# Instalações e importações de Bibliotecas

In [None]:
import pandas as pd

In [None]:
!pip install Pyspark



In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkConf
import pyspark.sql.functions as F
from pyspark.sql.types import *

# Pandas

In [None]:
df_sisu = pd.read_csv("/content/sisu_filtrado.csv", sep=";")

In [None]:
df_sisu.head()

Unnamed: 0.1,Unnamed: 0,SIGLA_IES,UF_IES,NOME_CURSO,CPF,INSCRICAO_ENEM,OPCAO,APROVADO,MATRICULA
0,0,UFPE,PE,TURISMO,058XXXXXX28,19XXXXXXXX84,1.0,N,PENDENTE
1,1,UFRJ,RJ,PSICOLOGIA,168XXXXXX11,19XXXXXXXX26,2.0,N,PENDENTE
2,2,UTFPR,PR,CIÊNCIA DA COMPUTAÇÃO,112XXXXXX45,19XXXXXXXX22,2.0,N,PENDENTE
3,3,UFSM,RS,ODONTOLOGIA,089XXXXXX09,19XXXXXXXX46,2.0,N,PENDENTE
4,4,UFG,GO,GEOGRAFIA,068XXXXXX41,19XXXXXXXX69,1.0,N,PENDENTE


In [None]:
#RENOMEAR COLUNA
#df_sisu.rename(columns={'Unnamed: 0':'ID'}).head(3)

In [None]:
# Seleção da Opção 1 do candidato
df_sisu_opcao1 = df_sisu[df_sisu["OPCAO"] == 1]

In [None]:
df_sisu_opcao1.head(1)

Unnamed: 0.1,Unnamed: 0,SIGLA_IES,UF_IES,NOME_CURSO,CPF,INSCRICAO_ENEM,OPCAO,APROVADO,MATRICULA
0,0,UFPE,PE,TURISMO,058XXXXXX28,19XXXXXXXX84,1.0,N,PENDENTE


In [None]:
# VERIFICAR SE EXITEM VALORES NULOS
total_nan_values = df_sisu_opcao1.isnull().sum().sum()
print(total_nan_values)
## Há apenas nan para SIGLA_IES

0


In [None]:
df_sisu_opcao1['UF_IES'].unique()

array(['PE', 'GO', 'RJ', 'BA', 'MG', 'SP', 'PB', 'MT', 'AL', 'SE', 'MA',
       'RN', 'CE', 'PR', 'RS', 'ES', 'DF', 'AM', 'PA', 'SC', 'PI', 'TO',
       'AC', 'RR', 'AP', 'MS'], dtype=object)

In [None]:
# VERIFICAÇÃO DOS STATUS DE MATRICULA
df_sisu_opcao1['MATRICULA'].unique()

array(['PENDENTE', 'EFETIVADA', 'NÃO COMPARECEU', 'NÃO CONVOCADO',
       'DOCUMENTACAO REJEITADA', 'CANCELADA'], dtype=object)

In [None]:
# Relação: UF  X  Quantidade de inscritos
#df_uf_num = df_sisu_opcao1.groupby(['UF_IES']).size()
df_uf_num_inscritos = df_sisu_opcao1[['UF_IES', 'Unnamed: 0']].groupby(['UF_IES']).count().reset_index()
df_uf_num_inscritos

Unnamed: 0.1,UF_IES,Unnamed: 0
0,AC,1665
1,AL,7608
2,AM,7020
3,AP,670
4,BA,19377
5,CE,9314
6,DF,3741
7,ES,4094
8,GO,5522
9,MA,5953


In [None]:
#Relação: UF  X  Quantidade de inscritos
df_uf_porcert = df_sisu_opcao1['UF_IES'].value_counts(normalize=True).map(' {:.2%}'.format)
df_uf_porcert

MG     18.80%
RJ     10.90%
BA      8.43%
SP      6.35%
PB      5.40%
PE      4.81%
CE      4.05%
RS      3.67%
MT      3.65%
AL      3.31%
AM      3.06%
PR      3.04%
PA      3.01%
PI      2.70%
RN      2.68%
MA      2.59%
GO      2.40%
SC      2.14%
SE      2.10%
ES      1.78%
DF      1.63%
MS      1.36%
TO      0.79%
AC      0.72%
RR      0.34%
AP      0.29%
Name: UF_IES, dtype: object

In [None]:
# Relação: Cursos X Qntdade inscritos
#df_cursos_num = df_sisu_opcao1.groupby(['NOME_CURSO']).size()
df_cursos_num_inscritos = df_sisu_opcao1[['NOME_CURSO', 'Unnamed: 0']].groupby(['NOME_CURSO']).count().reset_index()
df_cursos_num_inscritos

Unnamed: 0.1,NOME_CURSO,Unnamed: 0
0,ABI - ARTES CÊNICAS,113
1,ABI - CICLO BÁSICO MATERIAIS/METALÚRGICA,3
2,ABI - CIÊNCIAS BIOLÓGICAS,1164
3,ABI - CIÊNCIAS BIOMÉDICAS,24
4,ABI - CIÊNCIAS SOCIAIS,51
...,...,...
302,TRANSPORTE TERRESTRE,43
303,TURISMO,1671
304,TURISMO PATRIMONIAL E SOCIOAMBIENTAL,46
305,VITICULTURA E ENOLOGIA,20


In [None]:
# Relação: Cursos X Porcentagem Inscritos
df_cursos_porcent = df_sisu_opcao1['NOME_CURSO'].value_counts(normalize=True).map(' {:.2%}'.format)
df_cursos_porcent

MEDICINA                           12.04%
DIREITO                             5.99%
PSICOLOGIA                          5.13%
PEDAGOGIA                           4.40%
ADMINISTRAÇÃO                       3.25%
                                   ...   
PRODUÇÃO PUBLICITÁRIA               0.00%
CIÊNCIAS - MATEMÁTICA E FÍSICA      0.00%
MARKETING                           0.00%
LETRAS - ITALIANO                   0.00%
MÚSICA - COMPOSIÇÃO                 0.00%
Name: NOME_CURSO, Length: 307, dtype: object

In [None]:
df_sisu_opcao1.count()

Unnamed: 0        229773
SIGLA_IES         229773
UF_IES            229773
NOME_CURSO        229773
CPF               229773
INSCRICAO_ENEM    229773
OPCAO             229773
APROVADO          229773
MATRICULA         229773
dtype: int64

## DF contendo apenas cursos ligados a tecnologia de sistemas / da informaçãoe e correlatos

In [None]:
lista_cursos_tech = [
'CIÊNCIA DA COMPUTAÇÃO',
'CIÊNCIAS DE COMPUTAÇÃO',
'TECNOLOGIA DA INFORMAÇÃO',
'ENGENHARIA DE COMPUTAÇÃO',
'ENGENHARIA DE PRODUÇÃO E SISTEMAS',
'SISTEMAS PARA INTERNET',
'SISTEMAS DE TELECOMUNICAÇÕES',
'INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA',
'ANÁLISE E DESENVOLVIMENTO DE SISTEMAS',
'ENGENHARIA DE COMPUTAÇÃO E INFORMAÇÃO',
'INTERDISCIPLINAR EM MATEMÁTICA E COMPUTAÇÃO E SUAS TECNOLOGIAS',
'TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO',
'MATEMÁTICA APLICADA E COMPUTACIONAL',
'GESTÃO DA TECNOLOGIA DA INFORMAÇÃO',
'INTERDISCIPLINAR EM TECNOLOGIA DA INFORMAÇÃO - BI/LI'
]

In [None]:
filtro_cursos_tech = df_sisu_opcao1.NOME_CURSO.isin(lista_cursos_tech)

In [None]:
df_cursos_tech = df_sisu_opcao1.loc[filtro_cursos_tech]

In [None]:
# DATAFRAME CONSTANDO OS INSCRITOS EM CURSOS LIGADOS A TECNOLOGIA
df_cursos_tech

Unnamed: 0.1,Unnamed: 0,SIGLA_IES,UF_IES,NOME_CURSO,CPF,INSCRICAO_ENEM,OPCAO,APROVADO,MATRICULA
38,38,UFMT,MT,CIÊNCIA DA COMPUTAÇÃO,059XXXXXX16,19XXXXXXXX48,1.0,N,PENDENTE
39,39,UFRN,RN,TECNOLOGIA DA INFORMAÇÃO,112XXXXXX09,19XXXXXXXX13,1.0,S,EFETIVADA
88,88,UFC,CE,CIÊNCIA DA COMPUTAÇÃO,068XXXXXX39,19XXXXXXXX87,1.0,N,PENDENTE
194,194,IFCE,CE,CIÊNCIA DA COMPUTAÇÃO,020XXXXXX42,19XXXXXXXX34,1.0,N,PENDENTE
374,374,UFERSA,RN,INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA,096XXXXXX42,19XXXXXXXX61,1.0,N,PENDENTE
...,...,...,...,...,...,...,...,...,...
411866,411866,IFMA,MA,CIÊNCIA DA COMPUTAÇÃO,991XXXXXX72,19XXXXXXXX17,1.0,N,PENDENTE
411894,411894,UFG,GO,CIÊNCIA DA COMPUTAÇÃO,064XXXXXX67,19XXXXXXXX92,1.0,S,EFETIVADA
411987,411987,UFRJ,RJ,ENGENHARIA DE COMPUTAÇÃO E INFORMAÇÃO,116XXXXXX93,19XXXXXXXX65,1.0,N,PENDENTE
412033,412033,IFPB,PB,ANÁLISE E DESENVOLVIMENTO DE SISTEMAS,096XXXXXX30,19XXXXXXXX83,1.0,N,PENDENTE


## Criação de Coluna: Tipo de Curso (Tecnologia/Outros)

---

In [None]:
df_sisu_tech_outros = df_sisu_opcao1.copy()

In [None]:
df_sisu_tech_outros.head()

Unnamed: 0.1,Unnamed: 0,SIGLA_IES,UF_IES,NOME_CURSO,CPF,INSCRICAO_ENEM,OPCAO,APROVADO,MATRICULA
0,0,UFPE,PE,TURISMO,058XXXXXX28,19XXXXXXXX84,1.0,N,PENDENTE
4,4,UFG,GO,GEOGRAFIA,068XXXXXX41,19XXXXXXXX69,1.0,N,PENDENTE
5,5,UFG,GO,GEOGRAFIA,068XXXXXX41,19XXXXXXXX69,1.0,S,PENDENTE
7,7,UFRJ,RJ,PSICOLOGIA,201XXXXXX36,19XXXXXXXX15,1.0,N,PENDENTE
8,8,UFBA,BA,CIÊNCIAS CONTÁBEIS,861XXXXXX83,19XXXXXXXX31,1.0,N,PENDENTE


In [None]:
df_sisu_tech_outros = df_sisu_opcao1

In [None]:
df_sisu_tech_outros['TIPO_CURSO'] = 'NaN'

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
for index, row in df_sisu_tech_outros.iterrows():
  if row['NOME_CURSO'] in lista_cursos_tech:
    df_sisu_tech_outros.loc[index, 'TIPO_CURSO'] = "Tecnologia"
  else:
    df_sisu_tech_outros.loc[index, 'TIPO_CURSO'] = "Outros"

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_column(loc, value, pi)


KeyboardInterrupt: ignored

In [None]:
df_sisu_tech_outros.head(50)

Unnamed: 0.1,Unnamed: 0,SIGLA_IES,UF_IES,NOME_CURSO,CPF,INSCRICAO_ENEM,OPCAO,APROVADO,MATRICULA,TIPO_CURSO
0,0,UFPE,PE,TURISMO,058XXXXXX28,19XXXXXXXX84,1.0,N,PENDENTE,Outros
4,4,UFG,GO,GEOGRAFIA,068XXXXXX41,19XXXXXXXX69,1.0,N,PENDENTE,Outros
5,5,UFG,GO,GEOGRAFIA,068XXXXXX41,19XXXXXXXX69,1.0,S,PENDENTE,Outros
7,7,UFRJ,RJ,PSICOLOGIA,201XXXXXX36,19XXXXXXXX15,1.0,N,PENDENTE,Outros
8,8,UFBA,BA,CIÊNCIAS CONTÁBEIS,861XXXXXX83,19XXXXXXXX31,1.0,N,PENDENTE,Outros
9,9,UFBA,BA,CIÊNCIAS CONTÁBEIS,861XXXXXX83,19XXXXXXXX31,1.0,S,PENDENTE,Outros
10,10,UFU,MG,PSICOLOGIA,058XXXXXX99,19XXXXXXXX49,1.0,N,PENDENTE,Outros
13,13,UNIFESP,SP,CIÊNCIAS CONTÁBEIS,515XXXXXX44,19XXXXXXXX75,1.0,S,EFETIVADA,Outros
14,14,UFCG,PB,ENGENHARIA ELÉTRICA,123XXXXXX37,19XXXXXXXX17,1.0,N,PENDENTE,Outros
15,15,UFCG,PB,ENGENHARIA ELÉTRICA,123XXXXXX37,19XXXXXXXX17,1.0,S,PENDENTE,Outros


## Do total, quantos cursos são ligados a tecnologia (sistemas, da informação etc)? e quantos não são?

In [None]:
# QUANTIDADE DE CURSOS LIGADOS A TECNOLOGIA
len(lista_cursos_tech)

15

# Pyspark - (Não utilizado devido a limitação do DS)

In [None]:
'''spark = (
    SparkSession.builder
                .master('local')
                .appName('analise_sisu')
                .config('spark.ui.port',  '4050')
                .getOrCreate()
)'''

In [None]:
'''schema = ( StructType ([
    StructField('Unnamed: 0', IntegerType()),                 
    StructField('SIGLA_IES', StringType(), True),        
    StructField('UF_IES', StringType(), True),               
    StructField('NOME_CURSO', StringType(), True),  
    StructField('CPF', StringType(), True),             
    StructField('INSCRICAO_ENEM', StringType(), True),             
    StructField('OPCAO', StringType(), True),             
    StructField('APROVADO', StringType(), True),             
    StructField('MATRICULA', StringType(), True)]))'''

In [None]:
#df_sisu_spk = spark.createDataFrame(df_sisu, schema)

In [None]:
#df_sisu_spk.printSchema()

root
 |-- Unnamed: 0: integer (nullable = true)
 |-- SIGLA_IES: string (nullable = true)
 |-- UF_IES: string (nullable = true)
 |-- NOME_CURSO: string (nullable = true)
 |-- CPF: string (nullable = true)
 |-- INSCRICAO_ENEM: string (nullable = true)
 |-- OPCAO: string (nullable = true)
 |-- APROVADO: string (nullable = true)
 |-- MATRICULA: string (nullable = true)



In [None]:
#df_sisu_spk.show(5)

ERROR:root:KeyboardInterrupt while sending command.
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/usr/local/lib/python3.7/dist-packages/py4j/clientserver.py", line 475, in send_command
    answer = smart_decode(self.stream.readline()[:-1])
  File "/usr/lib/python3.7/socket.py", line 589, in readinto
    return self._sock.recv_into(b)
KeyboardInterrupt


KeyboardInterrupt: ignored

In [None]:
#df_sisu_spk = df_sisu_spk.withColumnRenamed("Unnamed: 0", "ID")

### Seleção da 1a Opção do candidato

In [None]:
#df_sisu_spk_op1 = df_sisu_spk.filter(F.col("OPCAO")== 1)

In [None]:
#df_sisu_spk_op1.groupBy('OPCAO').count().show()

+-----+------+
|OPCAO| count|
+-----+------+
|  1.0|157068|
+-----+------+



### Relação: UF  X  Quantidade de inscritos

In [None]:
#df_inscricoes_estado = df_sisu_spk_op1.groupBy('UF_IES').count()

In [None]:
#df_inscricoes_estado.show()

ERROR:root:KeyboardInterrupt while sending command.
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/usr/local/lib/python3.7/dist-packages/py4j/clientserver.py", line 475, in send_command
    answer = smart_decode(self.stream.readline()[:-1])
  File "/usr/lib/python3.7/socket.py", line 589, in readinto
    return self._sock.recv_into(b)
KeyboardInterrupt


KeyboardInterrupt: ignored

### Quantidade de Inscrições por curso. Matricula: Com Pendente e Não Pendente

In [None]:
#df_inscricoes_curso = df_sisu_spk_op1.groupBy('NOME_CURSO').count()
#df_inscricoes_curso.show()

+--------------------+-----+
|          NOME_CURSO|count|
+--------------------+-----+
|MEDICINA VETERINÁRIA|37860|
|ABI - CIÊNCIAS SO...| 2026|
|MODA, DESIGN E ES...|  377|
|INTERDISCIPLINAR ...|  137|
|LETRAS - ESPANHOL...|   63|
|    ENGENHARIA NAVAL|   33|
|PEDAGOGIA - EDUCA...|  660|
|ENGENHARIA DE CON...| 7161|
|LÍNGUA E LITERATU...|  132|
|ENGENHARIA ELÉTRI...|   54|
|             LUTERIA|   48|
|MANUTENÇÃO DE AER...|  266|
|CONSERVAÇÃO E RES...|   35|
|     EDUCAÇÃO FÍSICA|54310|
|INTELIGÊNCIA ARTI...|  219|
|ABI - LETRAS PORT...|   52|
|      SERVIÇO SOCIAL|17315|
|            ECOLOGIA| 1284|
|ENGENHARIA DE TEL...| 1023|
| CIÊNCIAS DO CONSUMO|  802|
+--------------------+-----+
only showing top 20 rows



### DF contendo apenas cursos ligados a tecnologia de sistemas / da informaçãoe e correlatos

In [None]:
'''lista_cursos_tech = [
'CIÊNCIA DA COMPUTAÇÃO',
'CIÊNCIAS DE COMPUTAÇÃO',
'TECNOLOGIA DA INFORMAÇÃO',
'ENGENHARIA DE COMPUTAÇÃO',
'ENGENHARIA DE PRODUÇÃO E SISTEMAS',
'SISTEMAS PARA INTERNET',
'SISTEMAS DE TELECOMUNICAÇÕES',
'INTERDISCIPLINAR EM CIÊNCIA E TECNOLOGIA',
'ANÁLISE E DESENVOLVIMENTO DE SISTEMAS',
'ENGENHARIA DE COMPUTAÇÃO E INFORMAÇÃO',
'INTERDISCIPLINAR EM MATEMÁTICA E COMPUTAÇÃO E SUAS TECNOLOGIAS',
'TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO',
'MATEMÁTICA APLICADA E COMPUTACIONAL',
'GESTÃO DA TECNOLOGIA DA INFORMAÇÃO',
'INTERDISCIPLINAR EM TECNOLOGIA DA INFORMAÇÃO - BI/LI'
]'''

In [None]:
#df_sisu_spk_op1.filter(df_sisu_spk_op1.NOME_CURSO.isin(lista_cursos_tech)).show()

ERROR:root:KeyboardInterrupt while sending command.
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/usr/local/lib/python3.7/dist-packages/py4j/clientserver.py", line 475, in send_command
    answer = smart_decode(self.stream.readline()[:-1])
  File "/usr/lib/python3.7/socket.py", line 589, in readinto
    return self._sock.recv_into(b)
KeyboardInterrupt


KeyboardInterrupt: ignored

In [None]:
#select(F.col('UF_IES')).count()

NameError: ignored

Criação de Coluna: Tipo de Curso (Tecnologia/Outros)

In [None]:
'''df_sisu_spk_tech_outros = (df_sisu_spk_op1.withColumn('Tipo_Curso', 
                     F.when(F.col('NOME_CURSO').isin(lista_cursos_tech) , F.lit('Tecnologia'))
                     .otherwise(F.lit('Outros'))
))'''

In [None]:
'''# Converter para Pandas
df_sisu_tech_outros = df_sisu_spk_tech_outros.toPandas()
'''

ERROR:root:KeyboardInterrupt while sending command.
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/usr/local/lib/python3.7/dist-packages/py4j/clientserver.py", line 475, in send_command
    answer = smart_decode(self.stream.readline()[:-1])
  File "/usr/lib/python3.7/socket.py", line 589, in readinto
    return self._sock.recv_into(b)
KeyboardInterrupt


KeyboardInterrupt: ignored

In [None]:
#df_sisu_spk_tech_outros.show(5)

ERROR:root:KeyboardInterrupt while sending command.
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/usr/local/lib/python3.7/dist-packages/py4j/clientserver.py", line 475, in send_command
    answer = smart_decode(self.stream.readline()[:-1])
  File "/usr/lib/python3.7/socket.py", line 589, in readinto
    return self._sock.recv_into(b)
KeyboardInterrupt


KeyboardInterrupt: ignored

# Envio do Dataset Pandas para Bucket

In [None]:
!pip install gcsfs

Collecting gcsfs
  Downloading gcsfs-2022.3.0-py2.py3-none-any.whl (25 kB)
Collecting aiohttp<4
  Downloading aiohttp-3.8.1-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 33.3 MB/s 
[?25hCollecting fsspec==2022.3.0
  Downloading fsspec-2022.3.0-py3-none-any.whl (136 kB)
[K     |████████████████████████████████| 136 kB 52.1 MB/s 
[?25hCollecting frozenlist>=1.1.1
  Downloading frozenlist-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (144 kB)
[K     |████████████████████████████████| 144 kB 51.3 MB/s 
[?25hCollecting yarl<2.0,>=1.0
  Downloading yarl-1.7.2-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (271 kB)
[K     |████████████████████████████████| 271 kB 52.4 MB/s 
[?25hCollecting asynctest==0.13.0
  Downloading asynctest-0.13.0-py3-none-any.whl (26 kB)
Collecting

In [None]:
from google.cloud import storage
import os

In [None]:
#BUCKET DAIANE
serviceAccount = '/content/brilliant-rhino-339219-3216114d2839.json'

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = serviceAccount

client = storage.Client()
bucket = client.get_bucket('projeto-final')


#bucket.blob('datasets-sisu/df_sisu_opcao1.csv').upload_from_string(df_sisu_opcao1.to_csv(index=False), 'big-query-aula/projeto_tratado_pandas_sisu/csv')
#bucket.blob('datasets-sisu/df_uf_num_inscritos.csv').upload_from_string(df_uf_num_inscritos.to_csv(index=False), 'big-query-aula/projeto_tratado_pandas_sisu/csv')
#bucket.blob('datasets-sisu/df_cursos_num_inscritos.csv').upload_from_string(df_cursos_num_inscritos.to_csv(index=False), 'big-query-aula/projeto_tratado_pandas_sisu/csv')
#bucket.blob('datasets-sisu/df_cursos_tech.csv').upload_from_string(df_cursos_tech.to_csv(index=False), 'big-query-aula/projeto_tratado_pandas_sisu/csv')
#bucket.blob('datasets-sisu/df_sisu_tech_outros.csv').upload_from_string(df_sisu_tech_outros.to_csv(index=False), 'big-query-aula/projeto_tratado_pandas_sisu/csv')

# **Mongo DB Atlas**

Importação Pymongo e Bibliotecas 

---



In [None]:
!pip install pymongo[srv]



In [None]:
import pymongo
from pymongo import MongoClient
import json 

In [None]:
#df_cursos_num_inscritos
#df_cursos_tech
#df_sisu_opcao1
#df_uf_num_inscritos
#df_sisu

Conectando ao Mongo DB Atlas

---



In [None]:
# SISU Original
# OK ENVIADO
#client = pymongo.MongoClient("mongodb+srv://soulcode:a1b2c3@daianeaula.jenql.mongodb.net/myFirstDatabase?retryWrites=true&w=majority")
#db = client['projeto_final']
#datacolec = db.df_sisu
#df_sisu_dici = df_sisu.to_dict("records")
#datacolec.insert_many(df_sisu_dici)

<pymongo.results.InsertManyResult at 0x7f8ffd95d410>

In [None]:
#client = pymongo.MongoClient("mongodb+srv://soulcode:a1b2c3@daianeaula.jenql.mongodb.net/myFirstDatabase?retryWrites=true&w=majority")
#db = client['projeto_final']


ConfigurationError: ignored

Coleções

---

In [None]:
#colec_cursos_num_inscritos = db.df_cursos_num_inscritos
#colec_cursos_tech = db.df_cursos_tech
#colec_sisu_opcao1 = db.df_sisu_opcao1
#colec_uf_num_inscritos = db.df_uf_num_inscritos
#colec_df_sisu_tech_outros = db.df_sisu_tech_outros

Transforma em dicionario

---

In [None]:
#df_cursos_num_inscritos_dici = df_cursos_num_inscritos.to_dict("records")
#df_cursos_tech_dici = df_cursos_tech.to_dict("records")
#df_sisu_opcao1_dici = df_sisu_opcao1.to_dict("records")
#df_uf_num_inscritos_dici = df_uf_num_inscritos.to_dict("records")
#df_sisu_tech_outros_dici = df_sisu_tech_outros.to_dict("records")

Inserção no BD Mongo

---

In [None]:
#colec_cursos_num_inscritos.insert_many(df_cursos_num_inscritos_dici)
#colec_cursos_tech.insert_many(df_cursos_tech_dici)
#colec_sisu_opcao1.insert_many(df_sisu_opcao1_dici)
#colec_uf_num_inscritos.insert_many(df_uf_num_inscritos_dici)
#colec_df_sisu_tech_outros.insert_many(df_sisu_tech_outros_dici)

OperationFailure: ignored

Extraindo do Mongo

---

In [None]:
#Extraindo direto do mongo Atlas
#extrator = colec_cursos_num_inscritos.find({})
#dfmongo = pd.DataFrame(list(extrator))

In [None]:
#dfmongo

# MySQL

In [None]:
!pip3 install mysql-connector-python-rf


from sqlalchemy import create_engine
ip = '34.136.45.74'
database = 'sisu_db'
user = 'root'
senha = 'soulcode123'


sqlEngine = create_engine(f'mysql+mysqlconnector://{user}:{senha}@{ip}/{database}', 
                            pool_recycle=3600,
                            pool_pre_ping=True
                            )
engine = create_engine("mysql+pymysql://user:pw@host/db", pool_pre_ping=True)
#bd-proj-final
#soulcode123



In [None]:
#df_sisu.to_sql('tb_sisu_2020', con=sqlEngine, if_exists = 'replace', chunksize=1000)
#df_cursos_num_inscritos.to_sql('tb_cursos_num_inscritos', con=sqlEngine, if_exists = 'replace', chunksize=1000)
#df_cursos_tech.to_sql('tb_cursos_tecnologia', con=sqlEngine, if_exists = 'replace', chunksize=1000)
#df_sisu_opcao1.to_sql('tb_sisu_1a_opcao', con=sqlEngine, if_exists = 'replace', chunksize=1000)
#df_uf_num_inscritos.to_sql('tb_uf_num_inscritos', con=sqlEngine, if_exists = 'replace', chunksize=1000)

#sqlEngine.execute("SELECT * FROM tb_sisu_2020").fetchall()
#sqlEngine.execute("SELECT * FROM tb_cursos_num_inscritos").fetchall()
#sqlEngine.execute("SELECT * FROM tb_cursos_tecnologia").fetchall()
#sqlEngine.execute("SELECT * FROM tb_sisu_1a_opcao").fetchall()
#sqlEngine.execute("SELECT * FROM tb_uf_num_inscritos").fetchall()

[(0, 'AC', 1665),
 (1, 'AL', 7608),
 (2, 'AM', 7020),
 (3, 'AP', 670),
 (4, 'BA', 19377),
 (5, 'CE', 9314),
 (6, 'DF', 3741),
 (7, 'ES', 4094),
 (8, 'GO', 5522),
 (9, 'MA', 5953),
 (10, 'MG', 43195),
 (11, 'MS', 3124),
 (12, 'MT', 8387),
 (13, 'PA', 6917),
 (14, 'PB', 12397),
 (15, 'PE', 11047),
 (16, 'PI', 6207),
 (17, 'PR', 6994),
 (18, 'RJ', 25046),
 (19, 'RN', 6160),
 (20, 'RR', 772),
 (21, 'RS', 8427),
 (22, 'SC', 4906),
 (23, 'SE', 4829),
 (24, 'SP', 14590),
 (25, 'TO', 1811)]