
# Diretórios


## Listando diretórios e arquivos

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formatos de lista, logo, não são tão amigáveis de visualizar

dbutils.fs.ls('/FileStore/tables/')

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formato de lista, porém, são mais amigáveis de visualizar
# Nesse método utilizamos um loop for para percorrer os diretórios

for item in dbutils.fs.ls('/FileStore/tables/'):
    print(item.path)

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formato de tabela, logo, são amigáveis de visualizar

display(dbutils.fs.ls('dbfs:/FileStore/tables/gov/prouni/arquivos/csv'))


## Criação de diretórios

In [None]:
%python

# Criação do diretório (prouni) dentro do diretório (gov)

dbutils.fs.mkdirs('/FileStore/tables/gov/prouni')

In [None]:
%python

# Criação do diretório (arquivos/csv) dentro do diretório (prouni)

dbutils.fs.mkdirs('/FileStore/tables/gov/prouni/arquivos/csv')

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formato de tabela, logo, são amigáveis de visualizar

display(dbutils.fs.ls('/FileStore/tables/gov/prouni/arquivos/csv/'))


## Excluindo arquivos

In [None]:
%python

# Remover (excluir) um arquivo do diretório
# Esse métido remove (excluir) um arquivo de um diretório, onde neste caso, nós apontamos o caminho completo e junto o nome do arquiv

dbutils.fs.rm('/FileStore/tables/gov/prouni/cursos_prouni.csv')

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formato de tabela, logo, são amigáveis de visualizar

display(dbutils.fs.ls('/FileStore/tables/gov/prouni/arquivos/csv/'))


## Consultando arquivo

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formato de tabela, logo, são amigáveis de visualizar

display(dbutils.fs.ls('/FileStore/tables/gov/prouni/arquivos/csv/'))

In [None]:
%python

# Consultar dados de um arquivo no dbfs
# Como estamos lidando com um módulo para interagir com diretórios e arquivos, a visualização ficará dessa maneira nesse caso
# Quando for utilizado um PySpark ou um SQL, será possível visualizar os dados de forma mais agradável

dbutils.fs.head('/FileStore/tables/gov/prouni/arquivos/csv/cursos_prouni.csv')




## Movendo arquivo

In [None]:
# Realizar a uma validação e posteriormente mover os arquivos se a condição for satisfatória
# Essa validação considera se o arquivo tiver tamanho igual a (0), e então e move o arquivo de diretório

for item in dbutils.fs.ls('/FileStore/tables/gov/pnsb/gzip'):
    if item.size!=0:
        dbutils.fs.mv(
            f'/FileStore/tables/gov/pnsb/gzip/{item.name}',
            '/FileStore/tables/bebidas/vinhos/json'
        )


## Removendo arquivos

In [None]:
%python

# Realizar uma validação e posteriormente remover os arquivos se a condição for satisfatória
# Essa validação considera se o arquivo tiver tamanho igual a (0), e então exclui o arquivo do diretório

for arquivo in dbutils.fs.ls('/FileStore/tables/gov/pnsb/compression/'):
    if arquivo.size == 0:
        dbutils.fs.rm(f'/FileStore/tables/gov/pnsb/compression/{arquivo.name}')
    else:
        print('Não existe arquivo de tamanho (0) para excluir')


# Criação de database


## Visualizar databases

In [None]:
%sql

-- Visualizar databases existentes

show databases;

databaseName
default



## Database (db_gov)

###### Criação de um database caso ele não exista

###### Se esse database existir, então não será criado

In [None]:
%sql

create database if not exists db_gov;


## Database (db_bebidas)

###### Criação de um database caso ele não exista

###### Se esse database existir, então não será criado

In [None]:
%sql

create database if not exists db_bebidas;


## Database (db_nutricao)

###### Criação de um database caso ele não exista

###### Se esse database existir, então não será criado

In [None]:
%sql

create database if not exists db_nutricao;


# Criação de tabela (vinho tinto)


## Consultar arquivo no dbfs

In [None]:
%python

dbutils.fs.head('/FileStore/tables/bebidas/vinhos/winequality-red.csv')

[Truncated to first 65536 bytes]
Out[5]: '"fixed acidity";"volatile acidity";"citric acid";"residual sugar";"chlorides";"free sulfur dioxide";"total sulfur dioxide";"density";"pH";"sulphates";"alcohol";"quality"\n7.4;0.7;0;1.9;0.076;11;34;0.9978;3.51;0.56;9.4;5\n7.8;0.88;0;2.6;0.098;25;67;0.9968;3.2;0.68;9.8;5\n7.8;0.76;0.04;2.3;0.092;15;54;0.997;3.26;0.65;9.8;5\n11.2;0.28;0.56;1.9;0.075;17;60;0.998;3.16;0.58;9.8;6\n7.4;0.7;0;1.9;0.076;11;34;0.9978;3.51;0.56;9.4;5\n7.4;0.66;0;1.8;0.075;13;40;0.9978;3.51;0.56;9.4;5\n7.9;0.6;0.06;1.6;0.069;15;59;0.9964;3.3;0.46;9.4;5\n7.3;0.65;0;1.2;0.065;15;21;0.9946;3.39;0.47;10;7\n7.8;0.58;0.02;2;0.073;9;18;0.9968;3.36;0.57;9.5;7\n7.5;0.5;0.36;6.1;0.071;17;102;0.9978;3.35;0.8;10.5;5\n6.7;0.58;0.08;1.8;0.097;15;65;0.9959;3.28;0.54;9.2;5\n7.5;0.5;0.36;6.1;0.071;17;102;0.9978;3.35;0.8;10.5;5\n5.6;0.615;0;1.6;0.089;16;59;0.9943;3.58;0.52;9.9;5\n7.8;0.61;0.29;1.6;0.114;9;29;0.9974;3.26;1.56;9.1;5\n8.9;0.62;0.18;3.8;0.176;52;145;0.9986;3.16;0.88;9.2;5\n8.9;


## Criação da tabela

###### Criação de uma tabela utilizando o database no script e inserção de dados de um diretório com um arquivo csv.

###### Normalmente recomendo utilizar esse método, garantindo que você está criando a tabela no local correto.

###### Aqui realizamos a inserção dos dados do arquivo csv chamado (winequality-red.csv), que está no diretório (/FileStore/tables/bebidas/vinhos/) e populamos a tabela (tb_wine_quality_red) com esses dados.

###### Resumindo, utilizamos dados de um arquivo csv do diretório para criação e população de dados em uma base do Hive.

In [None]:
%sql

create table db_bebidas.tb_wine_quality_red (
   fixed_acidity float
  ,volatile_acidity float
  ,citric_acid float
  ,residual_sugar float
  ,chlorides float
  ,free_sulfur_dioxide int
  ,total_sulfur_dioxide float
  ,density float
  ,ph float
  ,sulphates float
  ,alcohol float
  ,quality float
)
  using csv
    options (
      path '/FileStore/tables/bebidas/vinhos/winequality-red.csv',
      header 'true',
      delimiter ';'
);


## Consultar bases no database

In [None]:
%sql

use db_bebidas;

show tables;

database,tableName,isTemporary
db_bebidas,tb_wine_quality_red,False



## Consultar tabela (query)

In [None]:
%sql

select * from db_bebidas.tb_wine_quality_red limit 5;

fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,ph,sulphates,alcohol,quality
7.4,0.7,0.0,1.9,0.076,11,34.0,0.9978,3.51,0.56,9.4,5.0
7.8,0.88,0.0,2.6,0.098,25,67.0,0.9968,3.2,0.68,9.8,5.0
7.8,0.76,0.04,2.3,0.092,15,54.0,0.997,3.26,0.65,9.8,5.0
11.2,0.28,0.56,1.9,0.075,17,60.0,0.998,3.16,0.58,9.8,6.0
7.4,0.7,0.0,1.9,0.076,11,34.0,0.9978,3.51,0.56,9.4,5.0



## Consultar tabela (pyspark)

In [None]:
%python

import pyspark.pandas as ps

table_name = 'db_bebidas.tb_wine_quality_red'

df_spark_table = spark.table(table_name)

df_vinho_tinto = ps.DataFrame(df_spark_table)

df_vinho_tinto.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,ph,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11,34.0,0.9978,3.51,0.56,9.4,5.0
1,7.8,0.88,0.0,2.6,0.098,25,67.0,0.9968,3.2,0.68,9.8,5.0
2,7.8,0.76,0.04,2.3,0.092,15,54.0,0.997,3.26,0.65,9.8,5.0
3,11.2,0.28,0.56,1.9,0.075,17,60.0,0.998,3.16,0.58,9.8,6.0
4,7.4,0.7,0.0,1.9,0.076,11,34.0,0.9978,3.51,0.56,9.4,5.0



# Criação de tabela (vinho branco)


## Consultar arquivo no dbfs

In [None]:
dbutils.fs.head('/FileStore/tables/bebidas/vinhos/winequality-white.csv')

[Truncated to first 65536 bytes]
Out[10]: '"fixed acidity";"volatile acidity";"citric acid";"residual sugar";"chlorides";"free sulfur dioxide";"total sulfur dioxide";"density";"pH";"sulphates";"alcohol";"quality"\n7;0.27;0.36;20.7;0.045;45;170;1.001;3;0.45;8.8;6\n6.3;0.3;0.34;1.6;0.049;14;132;0.994;3.3;0.49;9.5;6\n8.1;0.28;0.4;6.9;0.05;30;97;0.9951;3.26;0.44;10.1;6\n7.2;0.23;0.32;8.5;0.058;47;186;0.9956;3.19;0.4;9.9;6\n7.2;0.23;0.32;8.5;0.058;47;186;0.9956;3.19;0.4;9.9;6\n8.1;0.28;0.4;6.9;0.05;30;97;0.9951;3.26;0.44;10.1;6\n6.2;0.32;0.16;7;0.045;30;136;0.9949;3.18;0.47;9.6;6\n7;0.27;0.36;20.7;0.045;45;170;1.001;3;0.45;8.8;6\n6.3;0.3;0.34;1.6;0.049;14;132;0.994;3.3;0.49;9.5;6\n8.1;0.22;0.43;1.5;0.044;28;129;0.9938;3.22;0.45;11;6\n8.1;0.27;0.41;1.45;0.033;11;63;0.9908;2.99;0.56;12;5\n8.6;0.23;0.4;4.2;0.035;17;109;0.9947;3.14;0.53;9.7;5\n7.9;0.18;0.37;1.2;0.04;16;75;0.992;3.18;0.63;10.8;5\n6.6;0.16;0.4;1.5;0.044;48;143;0.9912;3.54;0.52;12.4;7\n8.3;0.42;0.62;19.25;0.04;41;172;1.0002;2.98;0


## Criação da tabela

###### Criação de uma tabela utilizando o database no script e inserção de dados de um diretório com um arquivo csv.

###### Normalmente recomendo utilizar esse método, garantindo que você está criando a tabela no local correto.

###### Aqui realizamos a inserção dos dados do arquivo csv chamado (winequality-white.csv), que está no diretório (/FileStore/tables/bebidas/vinhos/) e populamos a tabela (tb_wine_quality_white) com esses dados.

###### Resumindo, utilizamos dados de um arquivo csv do diretório para criação e população de dados em uma base do Hive.

In [None]:
%sql

create table db_bebidas.tb_wine_quality_white (
   fixed_acidity float
  ,volatile_acidity float
  ,citric_acid float
  ,residual_sugar float
  ,chlorides float
  ,free_sulfur_dioxide int
  ,total_sulfur_dioxide float
  ,density float
  ,ph float
  ,sulphates float
  ,alcohol float
  ,quality float
)
  using csv
    options (
      path '/FileStore/tables/bebidas/vinhos/winequality-white.csv',
      header 'true',
      delimiter ';'
);


## Consultar bases no database

In [None]:
%sql

use db_bebidas;

show tables;

database,tableName,isTemporary
db_bebidas,tb_wine_quality_red,False
db_bebidas,tb_wine_quality_white,False



## Consultar tabela (query)

In [None]:
%sql

select * from db_bebidas.tb_wine_quality_white limit 5;

fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,ph,sulphates,alcohol,quality
7.0,0.27,0.36,20.7,0.045,45,170.0,1.001,3.0,0.45,8.8,6.0
6.3,0.3,0.34,1.6,0.049,14,132.0,0.994,3.3,0.49,9.5,6.0
8.1,0.28,0.4,6.9,0.05,30,97.0,0.9951,3.26,0.44,10.1,6.0
7.2,0.23,0.32,8.5,0.058,47,186.0,0.9956,3.19,0.4,9.9,6.0
7.2,0.23,0.32,8.5,0.058,47,186.0,0.9956,3.19,0.4,9.9,6.0



## Consultar tabela (pyspark)

In [None]:
%python

import pyspark.pandas as ps

table_name = 'db_bebidas.tb_wine_quality_white'

df_spark_table = spark.table(table_name)

df_vinho_branco = ps.DataFrame(df_spark_table)

df_vinho_branco.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,ph,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.700001,0.045,45,170.0,1.001,3.0,0.45,8.8,6.0
1,6.3,0.3,0.34,1.6,0.049,14,132.0,0.994,3.3,0.49,9.5,6.0
2,8.1,0.28,0.4,6.9,0.05,30,97.0,0.9951,3.26,0.44,10.1,6.0
3,7.2,0.23,0.32,8.5,0.058,47,186.0,0.9956,3.19,0.4,9.9,6.0
4,7.2,0.23,0.32,8.5,0.058,47,186.0,0.9956,3.19,0.4,9.9,6.0



#Pandas com Pyspark (Prouni)


## Leitura arquivo

In [None]:
%python

# Importação da biblioteca do pandas para uso com pyspark no databricks
# Leitura de arquivo

import pyspark.pandas as ps

df_reajuste = ps.read_csv('/FileStore/tables/gov/prouni/arquivos/csv/reajuste.csv')

df_reajuste.head()

Unnamed: 0,reajuste
0,100
1,50
2,100
3,50
4,100


In [None]:
%python

# Importação da biblioteca do pandas para uso com pyspark no databricks
# Leitura de arquivo

import pyspark.pandas as ps

df_cursos_prouni = ps.read_csv('/FileStore/tables/gov/prouni/arquivos/csv/cursos_prouni.csv')

df_cursos_prouni.head()

Unnamed: 0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_id,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
0,Bacharelado,Integral,9999.99,15,14.0,,,706710394154,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
1,Bacharelado,Noturno,9836.4,1,,,,104191210567043,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
2,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,1002328574024,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
3,Bacharelado,Noturno,9689.34,3,2.0,,,104191212798093,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
4,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,65899611932754,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26



## Leitura arquivo com var e index

In [None]:
%python

# Importação da biblioteca do pandas para uso com pyspark no databricks
# Criação de uma variável para alocar o caminho de um arquivo, onde será utilizada nos próximos scripts

import pyspark.pandas as ps

path_archive_one = ('/FileStore/tables/gov/prouni/arquivos/csv/reajuste.csv')
path_archive_two = ('/FileStore/tables/gov/prouni/arquivos/csv/cursos_prouni.csv')

In [None]:
%python

# Importação da biblioteca do pandas para uso com pyspark no databricks
# Leitura de arquivo

import pyspark.pandas as ps

df_reajuste = ps.read_csv(path_archive_one)

df_reajuste.head()

Unnamed: 0,reajuste
0,100
1,50
2,100
3,50
4,100


In [None]:
%python

# Importação da biblioteca do pandas para uso com pyspark no databricks
# Leitura de arquivo
# Neste caso inserimos um index para melhorar a perfomance de leitura do arquivo para o dataframe

import pyspark.pandas as ps

df_cursos_prouni = ps.read_csv(path_archive_two, index_col='curso_id')

df_cursos_prouni.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,curso_busca,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Medicina,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Enfermagem,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Medicina,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Psicologia,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Medicina,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26



## Estrutura dos dados

In [None]:
%python

# Visualizar a quantidade de linhas e de colunas na tabela

df_cursos_prouni.shape

Out[6]: (41447, 19)


## Comparação entre colunas

In [None]:
%python

# Realiza uma validação se duas colunas possuem os mesmos registros
# Nesse caso, é comparado se a coluna (curso_busca) tem os registros iguais da coluna (nome)

df_cursos_prouni['curso_busca'].equals(df_cursos_prouni['nome'])

Out[7]: curso_id
706710394154       True
104191210567043    True
1002328574024      True
104191212798093    True
65899611932754     True
65781564964        True
65788486984        True
65861111850254     True
658099184724       True
10505911785244     True
65921511844324     True
1055878921193      True
65881713994834     True
104123711716094    True
689693216461       True
6896933216461      True
105821211803184    True
699042726814       True
100369211074       True
6576768684         True
105887911921884    True
658119591744       True
105596711902804    True
25031009564        True
137380663614       True
405659244          True
256016294          True
699950009794       True
108119413996154    True
65941410292044     True
65886811637384     True
107783113635364    True
103635150009314    True
1004316634941      True
706703822244       True
1003235594144      True
2457651144         True
658670718594       True
105458350008124    True
702329994764       True
3349900844         True

In [None]:
%python

# Realiza uma validação se duas colunas possuem os mesmos registros
# Nesse caso, é comparado se a coluna (curso_busca) tem os registros iguais da coluna (nome)
# É inserido o (sum) para verificar a quantidade total de registros que retornaram (true), assim podemos comparar com o resultado do (df.shape) acima

df_cursos_prouni['curso_busca'].equals(df_cursos_prouni['nome']).sum()

Out[8]: 41447


## Remoção de colunas

In [None]:
%python

# Realiza a exclusão de uma coluna do dataframe

df_cursos_prouni_refactory = df_cursos_prouni.drop(['curso_busca'], axis=1)


## Renomeação de coluna

In [None]:
%python

# Realiza a renomeação de uma coluna no dataframe

df_cursos_prouni_rename_column = df_cursos_prouni_refactory.rename(columns={'nome':'nome_curso'})

In [None]:
%python

# Leitura de arquivo

df_cursos_prouni_rename_column.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26



## Renomeação de dataframe

In [None]:
%python

# Renomeação de dataframe

df_analytics_prouni = df_cursos_prouni_rename_column

df_analytics_prouni.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26



## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(df_analytics_prouni, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto é um DataFrame de Pandas-on-Spark



# Análise de dados com PySpark (Prouni)


## Leitura arquivo cursos prouni

In [None]:
%python

# Leitura de arquivo

df_analytics_prouni.head()

Unnamed: 0_level_0,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
curso_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
706710394154,Bacharelado,Integral,9999.99,15,14.0,,,Campo Grande,MS,NTAwMjAwNDAyNzA0,Universidade Anhanguera - UNIDERP,CAMPO GRANDE - SEDE - Miguel Couto,706710,Medicina,740.22,726.46,,
104191210567043,Bacharelado,Noturno,9836.4,1,,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Enfermagem,663.36,,,
1002328574024,Bacharelado,Integral,9715.61,2,5.0,6.0,10.0,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
104191212798093,Bacharelado,Noturno,9689.34,3,2.0,,,Crateus,CE,MjMwNDAxODA0MTAz,Faculdade Princesa do Oeste - FPO,UNIDADE SEDE - São Vicente,1041912,Psicologia,651.0,652.22,,
65899611932754,Bacharelado,Integral,9674.34,4,1.0,5.0,2.0,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26



## Contagem com filtro

In [None]:
%python

# Realizar uma contagem de registros do dataframe com um filtro aplicado em determinada coluna

df_analytics_prouni[df_analytics_prouni['nome_curso']=='Medicina']['nome_curso'].count()

Out[15]: 124


## Valores distintos de uma coluna

In [None]:
%python

# Realizar a leitura de valores distintos de uma determinada coluna

df_analytics_prouni['turno'].unique()

Out[16]: 0             Matutino
1    Curso a Distância
2           Vespertino
3             Integral
4              Noturno
Name: turno, dtype: object


## Contagem com dois filtros

In [None]:
%python

# Realizar uma contagem de registros do dataframe com dois filtros aplicados em determinadas colunas

df_analytics_prouni[(df_analytics_prouni['turno']=='Integral') & (df_analytics_prouni['nome_curso']=='Medicina')]['nome_curso'].count()

Out[17]: 123


## Contagem com dois filtros e condição

In [None]:
%python

# Realizar uma contagem de registros do dataframe com dois filtros aplicados em determinadas colunas e uma condição de (OR / OU)

df_analytics_prouni[(df_analytics_prouni['turno']=='Integral') & (df_analytics_prouni['nome_curso']=='Medicina') | (df_analytics_prouni['turno']=='Matutino') & (df_analytics_prouni['nome_curso']=='Medicina') ]['nome_curso'].count()

Out[18]: 124


## Leitura arquivo reajuste

In [None]:
%python

# Leitura de arquivo

df_analytics_reajuste = ps.read_csv(path_archive_one)

df_analytics_reajuste.head()

Unnamed: 0,reajuste
0,100
1,50
2,100
3,50
4,100



## Estrutura dos dados

In [None]:
%python

# Visualizar a quantidade de linhas e de colunas na tabela
# Temos o mesmo número de linhas entre o arquivo de (cursos do prouni) e (reajuste)

df_analytics_prouni.shape

Out[20]: (41447, 18)

In [None]:
%python

# Visualizar a quantidade de linhas e de colunas na tabela
# Temos o mesmo número de linhas entre o arquivo de (cursos do prouni) e (reajuste)

df_analytics_reajuste.shape

Out[21]: (41447, 1)


## Habilitar operações entre dataframes

O comando ps.set_option('compute.ops_on_diff_frames', True) está relacionado ao Pandas, uma biblioteca de manipulação de dados em Python, e mais especificamente ao Pandas-on-Spark (antigo Koalas), que é uma biblioteca para escalar a API do Pandas usando Apache Spark.

#### Explicação do Comando
Este comando configura uma opção para permitir operações entre DataFrames diferentes no Pandas-on-Spark. Vamos detalhar o que isso significa:

ps: Este é um alias comum para importar o Pandas-on-Spark. Normalmente, você veria algo como import pyspark.pandas as ps.

set_option: É uma função usada para configurar várias opções globais que controlam o comportamento do Pandas-on-Spark.

'compute.ops_on_diff_frames': Esta é a opção específica que estamos configurando. Ela controla se o Pandas-on-Spark deve permitir operações entre DataFrames que não compartilham o mesmo índice ou esquema de dados.

True: Este valor habilita a opção. Quando configurado para True, permite operações (como adição, subtração, mesclagem, etc.) entre DataFrames que podem ter índices ou esquemas diferentes.

#### Por Que Usar Esta Opção?
Em algumas situações, pode ser necessário realizar operações entre DataFrames diferentes. Por exemplo:

Operações Aritméticas: Pode ser necessário somar, subtrair ou executar outras operações entre colunas de DataFrames diferentes.
Mesclagens e Junções: Facilita a junção de DataFrames que podem ter estruturas diferentes.

#### Conclusão
O comando ps.set_option('compute.ops_on_diff_frames', True) é útil em Pandas-on-Spark para permitir operações entre DataFrames que não compartilham o mesmo índice ou esquema. Isso expande a flexibilidade e capacidade de manipulação de dados quando se trabalha com grandes volumes de dados distribuídos usando Spark.

#### Exemplo de Uso
Aqui está um exemplo simples de como isso pode ser usado, onde, a opção permite a soma das colunas A e C de DataFrames diferentes.

```python

import pyspark.pandas as ps

# Configurar a opção para permitir operações em DataFrames diferentes
ps.set_option('compute.ops_on_diff_frames', True)

# Criar dois DataFrames com diferentes esquemas
df1 = ps.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df2 = ps.DataFrame({'C': [7, 8, 9], 'D': [10, 11, 12]})

# Realizar uma operação entre os DataFrames
result = df1['A'] + df2['C']
print(result)


In [None]:
%python

# Habilitação de operações entre dataframes

ps.set_option('compute.ops_on_diff_frames', True)


## Remover índice de dataframe

In [None]:
%python

# Remoção de índice para conseguirmos mesclar os resultados de dataframes diferentes
# Se tivessemos dois dataframes com o mesmo índice, então não seria necessário essa ação
# Mas como temos um dataframe com índice e outro sem índice, teremos que habilitar essa ação para conseguir mesclar os resultados

df_analytics_prouni.reset_index(inplace=True)

In [None]:
%python

# Mesclar resultados de dataframes diferentes

df_analytics_prouni['mensalidade'] = df_analytics_prouni['mensalidade'] + df_reajuste['reajuste']


## Remoção de valores NaN

O comando df.dropna(inplace=True) é utilizado para remover quaisquer linhas (ou colunas, dependendo da configuração) que contenham valores ausentes (NaN) em um DataFrame do Pandas. No contexto do Databricks, onde frequentemente se usa Pandas ou Pandas-on-Spark para manipulação de dados, esse comando ajuda a limpar os dados, removendo registros incompletos.

#### Explicação Detalhada
df: Refere-se ao DataFrame que você está manipulando. Este DataFrame pode ter sido carregado anteriormente de uma fonte de dados como CSV, Parquet, ou outra tabela.

dropna: É um método do Pandas que remove valores ausentes (NaN) do DataFrame.

inplace=True: Este parâmetro, quando definido como True, modifica o DataFrame original em vez de retornar uma nova cópia com as mudanças. Se fosse inplace=False (ou omitido), o método retornaria um novo DataFrame sem as linhas com valores ausentes, e o DataFrame original permaneceria inalterado.

#### Como Funciona
Quando você executa df.dropna(inplace=True), o Pandas examina todas as linhas do DataFrame df. Qualquer linha que tenha pelo menos um valor ausente será removida. O DataFrame df será então atualizado para refletir essas remoções.

##### Impacto nos Dados: 
Remover linhas com valores ausentes pode ser útil para garantir que as análises subsequentes não sejam afetadas por dados faltantes, mas também pode resultar na perda de dados potencialmente importantes. Avalie cuidadosamente se a remoção de linhas é a abordagem correta ou se métodos de imputação (preenchimento de valores ausentes) seriam mais apropriados.

##### Parâmetros Adicionais: 
O método dropna tem vários parâmetros adicionais que permitem um controle mais refinado sobre quais dados são removidos. Por exemplo, axis=1 pode ser usado para remover colunas em vez de linhas, e thresh pode ser usado para especificar um limite de valores não ausentes necessários para manter uma linha ou coluna.

Esse comando é uma ferramenta poderosa para a limpeza de dados e é frequentemente usado em fluxos de trabalho de preparação de dados no Databricks e outras plataformas de análise de dados.

##### Exemplo
Vamos considerar um exemplo simples para ilustrar:

```python

Antes de dropna:
     A    B
0  1.0  NaN
1  2.0  2.0
2  NaN  3.0
3  4.0  4.0

Depois de dropna:
     A    B
1  2.0  2.0
3  4.0  4.0


In [None]:
%python

# Comando utilizado para remover quaisquer linhas (ou colunas, dependendo da configuração) que contenham valores ausentes (NaN) em um DataFrame do Pandas.
# inplace=True: Este parâmetro, quando definido como True, modifica o DataFrame original em vez de retornar uma nova cópia com as mudanças. 
# Se fosse inplace=False (ou omitido), o método retornaria um novo DataFrame sem as linhas com valores ausentes, e o DataFrame original permaneceria inalterado.

df_analytics_prouni.dropna(inplace=True)

df_analytics_prouni.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
1950,65982912800701,Bacharelado,Matutino,1561.29,1,1,1,30,Caucaia,CE,MjMwMzAxNjAzNzA5,Faculdade Terra Nordeste - FATENE,UNIDADE SEDE - Soledade,659829,Engenharia Civil,688.7,693.02,450.0,450.0
8440,65928650009893,Bacharelado,Noturno,980.0,1,1,3,2,Sao Gotardo,MG,MzEwNTAyMDYyMTA0,Faculdade de Ciências Gerenciais de São Gotard...,UNIDADE SEDE - Boa Esperança,659286,Direito,638.94,612.92,608.26,579.5
9458,658024423323,Bacharelado,Noturno,927.0,2,1,3,2,Dourados,MS,NTAwNDAxMDAzNzAy,Centro Universitário da Grande Dourados - Unig...,DOURADOS - Jardim,658024,Psicologia,631.32,609.34,618.58,557.68
11190,1072630671593,Bacharelado,Noturno,829.0,6,5,10,9,Juiz de Fora,MG,MzExMjA2NTM2NzAy,Faculdade Doctum de Juiz de Fora - DOCTUM,CAMPUS APOGEU - Centro,1072630,Direito,669.4,632.94,615.56,584.58
17979,69558711774842,Tecnológico,Vespertino,543.0,1,1,1,1,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade da Amazônia Ocidental - FAAO,CAMPUS - RIO BRANCO - JARDIM PRIMAVERA - Jardi...,695587,Análise e Desenvolvimento de Sistemas,615.54,574.42,582.66,623.22



## Gerar estatísticas descritivas

O comando df.describe() no Databricks é utilizado para gerar estatísticas descritivas de um DataFrame. Este comando é amplamente utilizado para obter um resumo estatístico rápido das colunas numéricas de um DataFrame. Aqui está uma explicação detalhada do que este comando faz:

#### O que df.describe() Faz:

1 - Sumário Estatístico: O método describe() retorna um DataFrame que inclui várias estatísticas descritivas para cada coluna numérica no DataFrame original.Estas estatísticas normalmente incluem:
- Count: O número de valores não nulos.
- Mean: A média dos valores.
- Std: O desvio padrão dos valores.
- Min: O valor mínimo.
- 25%: O 25º percentil (primeiro quartil).
- 50%: O 50º percentil (mediana).
- 75%: O 75º percentil (terceiro quartil).
- Max: O valor máximo.

##### Tipo de Dados: 
O método describe() é mais útil para colunas numéricas. Para colunas não numéricas, ele pode fornecer apenas algumas estatísticas básicas, como count, unique, top, e freq.

##### Aplicação Prática: 
df.describe() é frequentemente usado na fase inicial de análise de dados para obter uma compreensão rápida da distribuição dos dados e identificar quaisquer anomalias ou pontos de dados extremos.

#### Conclusão:
O comando df.describe() é uma ferramenta poderosa para obter rapidamente uma visão geral das principais estatísticas descritivas de um DataFrame. No Databricks, você pode usá-lo para analisar dados grandes e distribuídos com facilidade, aproveitando a infraestrutura escalável do Spark.

In [None]:
%python

# Gerar estatísticas descritivas para todo o dataframe

df_analytics_prouni.describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0,2203.0
mean,43766140000000.0,881.605556,1.891058,2.082161,3.387199,7.190649,751066.0,599.38039,574.097921,547.297204,521.452964
std,48622650000000.0,737.440291,1.969321,2.105756,4.020312,13.897084,420241.4,53.194117,59.868058,58.971101,56.371352
min,164961100.0,194.0,1.0,1.0,1.0,1.0,479.0,450.0,450.0,450.0,450.0
25%,658949600000.0,500.0,1.0,1.0,1.0,2.0,658205.0,569.52,542.22,507.16,450.0
50%,10023280000000.0,773.83,1.0,1.0,2.0,3.0,659695.0,602.04,583.32,555.24,526.54
75%,104006000000000.0,1049.0,2.0,2.0,4.0,6.0,1054619.0,634.6,614.34,588.16,563.62
max,200825400000000.0,9815.61,34.0,50.0,74.0,179.0,2008254.0,781.2,792.24,776.36,768.34


In [None]:
%python

# Gerar estatísticas descritivas filtrando somente uma determinada coluna

df_analytics_prouni[df_analytics_prouni['nome_curso']=='Medicina'].describe()

Unnamed: 0,curso_id,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,campus_id,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
count,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0,15.0
mean,44078750000000.0,8007.354667,2.8,2.266667,4.466667,3.866667,759941.7,753.249333,738.438667,746.453333,724.676
std,43496360000000.0,1096.173682,1.859339,1.533747,2.587516,2.669047,251045.8,13.109076,16.966989,14.295313,18.302904
min,137380700000.0,6113.0,1.0,1.0,1.0,1.0,137380.0,735.84,720.2,729.72,690.18
25%,658461900000.0,7130.0,1.0,1.0,1.0,2.0,658345.0,741.36,729.02,735.76,715.1
50%,65793650000000.0,8295.0,2.0,1.0,5.0,3.0,660079.0,754.98,737.88,743.14,721.08
75%,70703410000000.0,8608.54,4.0,3.0,6.0,5.0,1041237.0,762.74,741.1,750.44,732.46
max,105887900000000.0,9815.61,8.0,5.0,9.0,10.0,1079920.0,781.2,792.24,776.36,768.34



## Dropar colunas do dataframe

In [None]:
%python

# Criar um novo dataframe com base no anterior, que gera estatísticas descritivas filtrando somente uma determinada coluna

df_descricao = df_analytics_prouni[df_analytics_prouni['nome_curso']=='Medicina'].describe()

In [None]:
%python

# Dropar colunas de um dataframe
# O parâmetro (axis=1) indica que estamos removendo colunas do dataframe

df_descricao_bolsa = df_descricao.drop(['mensalidade', 'curso_id', 'campus_id', 'nota_integral_ampla', 'nota_integral_cotas', 'notar_parcial_ampla', 'nota_parcial_cotas'], axis=1)


## Dropar linhas do dataframe

In [None]:
%python

# Dropar linhas de um dataframe
# O parâmetro (axis=0) indica que estamos removendo linhas do dataframe

df_descricao_bolsa = df_descricao_bolsa.drop(['count'], axis=0)


## Estilizar dataframe

In [None]:
%python

# Estiliar o formato do dataframe
# O comando (format('{:,.2f}') é para que os valores das colunas sejam arredondadas para duas casas decimais depois do ponto
# O comando (background_gradient(axis=0) altera o estilo das linhas, onde, as cores mais fortes estão nos valores maiores, e cores claras em valores baixos

df_descricao_bolsa.style.format('{:,.2f}').background_gradient(axis=0)

Unnamed: 0,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_parcial_ampla
mean,2.8,2.27,4.47,3.87,746.45
std,1.86,1.53,2.59,2.67,14.3
min,1.0,1.0,1.0,1.0,729.72
25%,1.0,1.0,1.0,2.0,735.76
50%,2.0,1.0,5.0,3.0,743.14
75%,4.0,3.0,6.0,5.0,750.44
max,8.0,5.0,9.0,10.0,776.36



## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(df_descricao_bolsa, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto é um DataFrame de Pandas-on-Spark



# Análise dados querys método (Prouni)


## Leitura arquivo

In [None]:
%python

# Leitura de arquivo

df_medicina = df_analytics_prouni.query("nome_curso == 'Medicina'")

df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82



## Cálculo de média

In [None]:
%python

# Cálculo de média

df_medicina['mensalidade'].mean()

Out[34]: 8007.354666666666


## Leitura de arquivo com filtro

In [None]:
%python

# Leitura de arquivo com filtro

df_medicina.query("turno == 'Integral' and cidade_busca == 'Sao Paulo'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28


In [None]:
%python

# Leitura de arquivo com filtro

df_medicina.query("turno == 'Integral' or turno == 'Matutino'")

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82
120,658345863564,Bacharelado,Integral,6113.0,3,3,1,1,Vitoria,ES,MzIwMzAwOTA1MzA5,Faculdade Brasileira - MULTIVIX VITÓRIA,CAMPUS GOIABEIRAS - Goiabeiras,658345,Medicina,762.74,749.0,776.36,768.34
80,7052291076664,Bacharelado,Integral,7130.0,1,1,1,1,Montes Claros,MG,MzEwMjAwNzQzMzAy,Faculdades Integradas Pitágoras - FIP-MOC,UNIDADE SEDE - Ibituruna,705229,Medicina,765.76,741.1,774.96,750.64
2,1002328574024,Bacharelado,Integral,9815.61,2,5,6,10,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Universidade Cidade de São Paulo - UNICID,UNIVERSIDADE CIDADE DE SÃO PAULO - UNICID - SE...,1002328,Medicina,739.62,738.08,738.96,718.64
4,65899611932754,Bacharelado,Integral,9774.34,4,1,5,2,Rio Branco,AC,MTIwMjAwNDAwNDAx,Faculdade Barão do Rio Branco - FAB,CAMPUS - RIO BRANCO - JARDIM EUROPA II - Jard...,658996,Medicina,758.32,723.94,734.92,711.26
13,104123711716094,Bacharelado,Integral,8608.54,2,1,7,2,Belem,PA,MTUwMzAwNzAxNDAy,Faculdade Metropolitana da Amazônia - FAMAZ,FACULDADE METROPOLITANA DA AMAZÔNIA - FAMAZ - ...,1041237,Medicina,741.36,739.9,760.8,715.1



## Agrupamento de registros cálculo

In [None]:
%python

# Agrupamento de registros com cálculo

agrupado = df_medicina.query("turno == 'Integral' or turno == 'Matutino'").groupby('uf_busca')['mensalidade'].mean()

agrupado

Out[37]: uf_busca
RO    7009.970000
SP    8477.466667
ES    6113.000000
PB    7512.700000
MG    7712.500000
PA    8608.540000
RJ    9123.070000
MA    8381.375000
AC    9774.340000
PR    7174.275000
Name: mensalidade, dtype: float64


## Conversão para dataframe

In [None]:
%python

# Conversão para dataframe

df_agrupado = ps.DataFrame(agrupado)

df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
RO,7009.97
SP,8477.466667
ES,6113.0
PB,7512.7
MG,7712.5
PA,8608.54
RJ,9123.07
MA,8381.375
AC,9774.34
PR,7174.275



## Ordenação de registros

In [None]:
%python

# Ordenação de valores

df_agrupado.sort_values(by='mensalidade', inplace=True, ascending=False)

df_agrupado

Unnamed: 0_level_0,mensalidade
uf_busca,Unnamed: 1_level_1
AC,9774.34
RJ,9123.07
PA,8608.54
SP,8477.466667
MA,8381.375
MG,7712.5
PB,7512.7
PR,7174.275
RO,7009.97
ES,6113.0



## Remover índice de dataframe

In [None]:
%python

# Remoção de índice para conseguirmos plotar (criar gráficos)
# Se não realizarmos essa ação, não conseguirem indicar as colunas (x e y) para criar o gráfico
# Se você usasse somente (df.plot.bar()) sem declarar as colunas, ele também conseguirá criar e assumirá o indíce para a criação do gráfico

df_agrupado_plot = df_agrupado.reset_index()


## Validação de nome colunas

In [None]:
%python

# Validação do nome de colunas do dataframe

print("Colunas do DataFrame de plotagem:", df_agrupado_plot.columns)

Colunas do DataFrame de plotagem: Index(['uf_busca', 'mensalidade'], dtype='object')


In [None]:
%python

# Leitura de arquivo

df_agrupado_plot.head()

Unnamed: 0,uf_busca,mensalidade
0,AC,9774.34
1,RJ,9123.07
2,PA,8608.54
3,SP,8477.466667
4,MA,8381.375



## Criação de gráfico

In [None]:
%python

df_agrupado_plot.plot.bar(x='uf_busca', y='mensalidade')


## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(df_agrupado, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto é um DataFrame de Pandas-on-Spark



# Análise dados querys nativo (Prouni)


## Leitura arquivo

In [None]:
%python

## Leitura arquivo

ps.sql('''
    select
         bolsa_integral_cotas
        ,uf_busca
    from {DF}
        where nome_curso = 'Medicina'
    limit 5
''', DF=df_analytics_prouni)

Unnamed: 0,bolsa_integral_cotas,uf_busca
0,2,SP
1,2,SP
2,4,RO
3,1,PR
4,4,RJ



## Cálculo de soma

In [None]:
%python

# Cálculo de soma

cotas_ordenadas = ps.sql('''
    select
         uf_busca
        ,sum(bolsa_integral_cotas) as total_cotas
    from {DF}       
        where nome_curso = 'Medicina'
    group by
        uf_busca
    order by total_cotas desc
''', DF=df_analytics_prouni)

cotas_ordenadas

Unnamed: 0,uf_busca,total_cotas
0,PB,8
1,MA,7
2,SP,6
3,RO,4
4,RJ,4
5,AC,4
6,ES,3
7,MG,2
8,PA,2
9,PR,2



## Criação de gráfico

In [None]:
%python

# Criação de gráfico

cotas_ordenadas.plot.bar(x='uf_busca' , y='total_cotas')


## Valores distintos de uma coluna

In [None]:
%python

# Realizar a leitura de valores distintos de uma determinada coluna

df_medicina['cidade_busca'].unique()

Out[48]: 0          Sao Luis
1       Joao Pessoa
2             Belem
3         Itaperuna
4           Vitoria
5            Franca
6         Sao Paulo
7        Guarapuava
8      Campo Mourao
9     Montes Claros
10       Rio Branco
11       Imperatriz
12       Vespasiano
13      Porto Velho
Name: cidade_busca, dtype: object


## Criação de dicionário

In [None]:
%python

# Criação de um dicionário, onde, a partir da lista de valores distintos do dataframe, incidamos se a cidade é uma capital ou município

nomes_cidades = {
     'Sao Luis': 'Capital'
    ,"Sao Luis": "Capital"
    ,"Joao Pessoa": "Município"
    ,"Belem": "Capital"
    ,"Itaperuna": "Município"
    ,"Vitoria": "Município"
    ,"Franca": "Município"
    ,"Sao Paulo": "Capital"
    ,"Guarapuava": "Município"
    ,"Campo Mourao": "Município"
    ,"Montes Claros": "Município"
    ,"Rio Branco": "Município"
    ,"Imperatriz": "Município"
    ,"Vespasiano": "Município"
    ,"Porto Velho": "Município"
}

nomes_cidades

Out[49]: {'Sao Luis': 'Capital',
 'Joao Pessoa': 'Município',
 'Belem': 'Capital',
 'Itaperuna': 'Município',
 'Vitoria': 'Município',
 'Franca': 'Município',
 'Sao Paulo': 'Capital',
 'Guarapuava': 'Município',
 'Campo Mourao': 'Município',
 'Montes Claros': 'Município',
 'Rio Branco': 'Município',
 'Imperatriz': 'Município',
 'Vespasiano': 'Município',
 'Porto Velho': 'Município'}


## Mapeamento entre colunas

In [None]:
%python

# Utilizamos o método (.map) para processar e transformar dados em um iterável, aplicando a mesma operação a cada elemento
# Pode ser utilizado com (listas, tuplas, dicionários)

capitais = df_medicina['cidade_busca'].map(nomes_cidades)

capitais

Out[50]: 22       Capital
71     Município
87     Município
107    Município
10     Município
120    Município
80     Município
2        Capital
4      Município
13       Capital
21       Capital
42     Município
20     Município
60     Município
24     Município
Name: cidade_busca, dtype: object


## Insert de dados do mapeamento

In [None]:
%python

# Leitura de arquivo

df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82


In [None]:
%python

# Inserção dos dados de mapeamento para enriquecer o dataframe analisado

df_medicina.insert(loc=8, column='tipo_cidade', value=capitais)


## Validação insert do mapeamento

In [None]:
%python

# Leitura de arquivo

df_medicina.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82



## Criação de df para gráfico

In [None]:
%python

# Criação de um novo dataframe para criação de um novo gráfico

cotas_ordenadas = ps.sql('''
    select
         tipo_cidade
        ,sum(bolsa_integral_cotas) as total_cotas
    from {DF}       
        where nome_curso = 'Medicina'
    group by
        tipo_cidade
    order by total_cotas desc
''', DF=df_medicina)

cotas_ordenadas

Unnamed: 0,tipo_cidade,total_cotas
0,Município,32
1,Capital,10



## Criação de gráfico

In [None]:
%python

# Criação de gráfico

cotas_ordenadas.plot.bar(x='tipo_cidade' , y='total_cotas')


## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(cotas_ordenadas, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto é um DataFrame de Pandas-on-Spark



# Análise de dados pyspark e querys (Fies)


## Criação de diretórios

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formato de tabela, logo, são amigáveis de visualizar

display(dbutils.fs.ls('/FileStore/tables/gov/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/gov/fies/,fies/,0,0
dbfs:/FileStore/tables/gov/pnsb/,pnsb/,0,0
dbfs:/FileStore/tables/gov/prouni/,prouni/,0,0


In [None]:
%python

# Criação do diretório (arquivos/csv) dentro do diretório (prouni)

dbutils.fs.mkdirs('/FileStore/tables/gov/fies/arquivos/csv/')

Out[58]: True

In [None]:
%python

# Listar diretórios e arquivos
# Esse método lista os nomes em formato de tabela, logo, são amigáveis de visualizar

display(dbutils.fs.ls('/FileStore/tables/gov/fies/arquivos/csv'))

path,name,size,modificationTime
dbfs:/FileStore/tables/gov/fies/arquivos/csv/tb_relatorio_inscricao_dados_abertos_fies_22021.csv,tb_relatorio_inscricao_dados_abertos_fies_22021.csv,132534412,1721574214000



## Leitura arquivo com var e index

In [None]:
%python

# Importação da biblioteca do pandas para uso com pyspark no databricks
# Criação de uma variável para alocar o caminho de um arquivo, onde será utilizada nos próximos scripts

import pyspark.pandas as ps

path_archive = ('/FileStore/tables/gov/fies/arquivos/csv/tb_relatorio_inscricao_dados_abertos_fies_22021.csv')

In [None]:
%python

# Leitura de arquivo

df_programa_fies = ps.read_csv(path_archive, sep=';', index_col='ID do estudante')

df_programa_fies.head()

Unnamed: 0_level_0,Ano do processo seletivo,Semestre do processo seletivo,Sexo,Data de Nascimento,UF de resid�ncia,Municipio de resid�ncia,Etnia/Cor,Pessoa com defici�ncia?,Tipo de escola no ensino m�dio,Ano conclus�o ensino m�dio,Concluiu curso superior?,Professor rede p�blica ensino?,N� de membros Grupo Familiar,Renda familiar mensal bruta,Renda mensal bruta per capita,Regi�o grupo de prefer�ncia,UF,Cod.Microrregi�o,Microrregi�o,Cod.Mesorregi�o,Mesorregi�o,Conceito de curso do GP,�rea do conhecimento,Sub�rea do conhecimento,Cod. do Grupo de prefer�ncia,Nota Corte Grupo Prefer�ncia,Op��es de cursos da inscri��o,Nome mantenedora,Natureza Jur�dica Mantenedora,CNPJ da mantenedora,C�digo e-MEC da Mantenedora,Nome da IES,C�digo e-MEC da IES,Organiza��o Acad�mica da IES,Munic�pio da IES,UF da IES,Nome do Local de oferta,C�digo do Local de Oferta,Mun�cipio do Local de Oferta,UF do Local de Oferta,C�digo do curso,Nome do curso,Turno,Grau,Conceito,M�dia nota Enem,Ano do Enem,Reda��o,Matem�tica e suas Tecnologias,"Linguagens, C�digos e suas Tec",Ci�ncias Natureza e suas Tec,Ci�ncias Humanas e suas Tec,Situa��o Inscri��o Fies,Percentual de financiamento,Semestre do financiamento,Qtde semestre financiado
ID do estudante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1
281805657,2021,2,M,2000-05-15,PR,COLOMBO,PARDA,N�O,SIM,2017,N�O,N�O,2,425303.0,141768,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,1,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,NOTURNO,SEMESTRAL,5,6241,2020,640,6754,6432,5397,6222,N�O CONTRATADO,,,
281805657,2021,2,M,2000-05-15,PR,COLOMBO,PARDA,N�O,SIM,2017,N�O,N�O,2,425303.0,141768,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,2,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,MATUTINO,SEMESTRAL,5,6241,2020,640,6754,6432,5397,6222,N�O CONTRATADO,,,
351067941,2021,2,M,2094-07-10,PR,CURITIBA,BRANCA,N�O,N�O,2011,SIM,N�O,0,,1600,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,2,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,NOTURNO,SEMESTRAL,5,70182,2011,900,7581,6469,5984,6057,PARTICIPACAO CANCELADA PELO CANDIDATO,,,
205906170,2021,2,M,2089-09-25,PR,CURITIBA,BRANCA,N�O,SIM,2004,N�O,N�O,1,157407.0,78704,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,2,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,MATUTINO,SEMESTRAL,5,59854,2020,540,6098,6107,586,6462,OP��O N�O CONTRATADA,,,10.0
351067085,2021,2,F,2099-07-20,PR,PARANAGU�,BRANCA,N�O,SIM,2016,N�O,N�O,2,2500.0,83333,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,1,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,NOTURNO,SEMESTRAL,5,51216,2017,680,4086,4998,4845,4879,N�O CONTRATADO,,,



## Criação de dataframe com query

In [None]:
%python

# Criação de um novo dataframe utilizando querys nativas de sql

df_genero = ps.sql('''
    select
         count(*) as qtd_genero
        ,sexo

    from {DF}
    
    group by
        sexo

    limit 10

''', DF=df_programa_fies)

df_genero

Unnamed: 0,qtd_genero,sexo
0,164247,F
1,73718,M



## Criação de gráfico

In [None]:
%python

# Criação de gráfico

df_genero.plot.bar(x='sexo', y='qtd_genero')


## Remoção de valores NaN

O comando df.dropna(inplace=True) é utilizado para remover quaisquer linhas (ou colunas, dependendo da configuração) que contenham valores ausentes (NaN) em um DataFrame do Pandas. No contexto do Databricks, onde frequentemente se usa Pandas ou Pandas-on-Spark para manipulação de dados, esse comando ajuda a limpar os dados, removendo registros incompletos.

#### Explicação Detalhada
df: Refere-se ao DataFrame que você está manipulando. Este DataFrame pode ter sido carregado anteriormente de uma fonte de dados como CSV, Parquet, ou outra tabela.

dropna: É um método do Pandas que remove valores ausentes (NaN) do DataFrame.

inplace=True: Este parâmetro, quando definido como True, modifica o DataFrame original em vez de retornar uma nova cópia com as mudanças. Se fosse inplace=False (ou omitido), o método retornaria um novo DataFrame sem as linhas com valores ausentes, e o DataFrame original permaneceria inalterado.

#### Como Funciona
Quando você executa df.dropna(inplace=True), o Pandas examina todas as linhas do DataFrame df. Qualquer linha que tenha pelo menos um valor ausente será removida. O DataFrame df será então atualizado para refletir essas remoções.

##### Impacto nos Dados: 
Remover linhas com valores ausentes pode ser útil para garantir que as análises subsequentes não sejam afetadas por dados faltantes, mas também pode resultar na perda de dados potencialmente importantes. Avalie cuidadosamente se a remoção de linhas é a abordagem correta ou se métodos de imputação (preenchimento de valores ausentes) seriam mais apropriados.

##### Parâmetros Adicionais: 
O método dropna tem vários parâmetros adicionais que permitem um controle mais refinado sobre quais dados são removidos. Por exemplo, axis=1 pode ser usado para remover colunas em vez de linhas, e thresh pode ser usado para especificar um limite de valores não ausentes necessários para manter uma linha ou coluna.

Esse comando é uma ferramenta poderosa para a limpeza de dados e é frequentemente usado em fluxos de trabalho de preparação de dados no Databricks e outras plataformas de análise de dados.

##### Exemplo
Vamos considerar um exemplo simples para ilustrar:

```python

Antes de dropna:
     A    B
0  1.0  NaN
1  2.0  2.0
2  NaN  3.0
3  4.0  4.0

Depois de dropna:
     A    B
1  2.0  2.0
3  4.0  4.0


In [None]:
%python

# Comando utilizado para remover quaisquer linhas (ou colunas, dependendo da configuração) que contenham valores ausentes (NaN) em um DataFrame do Pandas.
# inplace=True: Este parâmetro, quando definido como True, modifica o DataFrame original em vez de retornar uma nova cópia com as mudanças. 
# Se fosse inplace=False (ou omitido), o método retornaria um novo DataFrame sem as linhas com valores ausentes, e o DataFrame original permaneceria inalterado.

df_programa_fies.dropna(inplace=True)

df_programa_fies.head()

Unnamed: 0_level_0,Ano do processo seletivo,Semestre do processo seletivo,Sexo,Data de Nascimento,UF de resid�ncia,Municipio de resid�ncia,Etnia/Cor,Pessoa com defici�ncia?,Tipo de escola no ensino m�dio,Ano conclus�o ensino m�dio,Concluiu curso superior?,Professor rede p�blica ensino?,N� de membros Grupo Familiar,Renda familiar mensal bruta,Renda mensal bruta per capita,Regi�o grupo de prefer�ncia,UF,Cod.Microrregi�o,Microrregi�o,Cod.Mesorregi�o,Mesorregi�o,Conceito de curso do GP,�rea do conhecimento,Sub�rea do conhecimento,Cod. do Grupo de prefer�ncia,Nota Corte Grupo Prefer�ncia,Op��es de cursos da inscri��o,Nome mantenedora,Natureza Jur�dica Mantenedora,CNPJ da mantenedora,C�digo e-MEC da Mantenedora,Nome da IES,C�digo e-MEC da IES,Organiza��o Acad�mica da IES,Munic�pio da IES,UF da IES,Nome do Local de oferta,C�digo do Local de Oferta,Mun�cipio do Local de Oferta,UF do Local de Oferta,C�digo do curso,Nome do curso,Turno,Grau,Conceito,M�dia nota Enem,Ano do Enem,Reda��o,Matem�tica e suas Tecnologias,"Linguagens, C�digos e suas Tec",Ci�ncias Natureza e suas Tec,Ci�ncias Humanas e suas Tec,Situa��o Inscri��o Fies,Percentual de financiamento,Semestre do financiamento,Qtde semestre financiado
ID do estudante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1
351412708,2021,2,M,2001-02-02,PR,CURITIBA,BRANCA,N�O,N�O,2018,N�O,N�O,2,352424,117475,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,1,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,NOTURNO,SEMESTRAL,5,72826,2018,840,7447,6449,6852,7265,CONTRATADA,7456,1�,10
205956741,2021,2,M,2003-08-21,PR,CURITIBA,PARDA,N�O,N�O,2020,N�O,N�O,2,8400,2800,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,1,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,MATUTINO,SEMESTRAL,5,56184,2020,700,5996,5465,4697,4934,CONTRATADA,50,2�,9
205958155,2021,2,M,2098-03-07,PR,COLOMBO,BRANCA,N�O,SIM,2015,N�O,N�O,1,155667,77834,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,1,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,NOTURNO,SEMESTRAL,5,64158,2020,800,6728,4255,6063,7033,CONTRATADA,8582,1�,10
353015727,2021,2,M,2003-08-14,PR,CURITIBA,BRANCA,N�O,N�O,2020,N�O,N�O,3,867801,21695,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,1,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,MATUTINO,SEMESTRAL,5,61966,2020,620,6397,5669,6041,6676,CONTRATADA,50,1�,10
351073514,2021,2,F,2099-02-01,PR,CURITIBA,BRANCA,N�O,N�O,2016,N�O,N�O,3,822895,205724,SUL,PARAN�,41037,CURITIBA,4110,METROPOLITANA DE CURITIBA,5,CURSOS NAO PRIORITARIOS,"DIREITO, COM�RCIO EXTERIOR, BIBLIOTECONOMIA E ...",125824,62072,1,ASSOCIACAO PARANAENSE DE CULTURA - APC,PESSOA JUR�DICA DE DIREITO PRIVADO - SEM FINS ...,76659820000151,10,PONTIF�CIA UNIVERSIDADE CAT�LICA DO PARAN�,10,UNIVERSIDADE,CURITIBA,PR,PUCPR - CAMPUS CURITIBA,657676,CURITIBA,PR,857,DIREITO,MATUTINO,SEMESTRAL,5,74846,2020,940,8184,6408,6765,6666,CONTRATADA,50,2�,9



## Criação de df (após limpeza df)

In [None]:
%python

# Criação de um novo dataframe utilizando querys nativas de sql

df_genero = ps.sql('''
    select
         count(*) as qtd_genero
        ,sexo

    from {DF}
    
    group by
        sexo

    limit 10

''', DF=df_programa_fies)

df_genero

Unnamed: 0,qtd_genero,sexo
0,14675,F
1,6199,M



## Criação de gráfico (após limpeza df)

In [None]:
%python

# Criação de gráfico

df_genero.plot.bar(x='sexo', y='qtd_genero')


## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(df_genero, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto é um DataFrame de Pandas-on-Spark



# Correlação e linhas de tendência (Prouni)


## Leitura arquivo

In [None]:
%python

df_medicina_new = df_medicina

df_medicina_new.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82



## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(df_medicina_new, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto é um DataFrame de Pandas-on-Spark



## Declaração de varíavel auxiliar

In [None]:
%python

import pyspark.pandas as ps

auxiliar = df_medicina_new[['mensalidade', 'bolsa_integral_cotas', 'bolsa_integral_ampla', 'bolsa_parcial_cotas', 'bolsa_parcial_ampla', 'nota_integral_ampla', 'nota_integral_cotas', 'nota_parcial_ampla', 'nota_parcial_cotas']]


## Matriz de correlação (corr)

In [None]:
%python

auxiliar.corr()


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0



## Matriz de correlação estilizada (corr)

In [None]:
%python

auxiliar.corr().style.background_gradient(cmap='Reds')


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0


In [None]:
%python

auxiliar.corr().style.background_gradient(cmap='Reds', vmin=1, vmax=1)


toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabled' is set to true; however, failed by the reason below:
  Unable to convert the field pearson(__correlation_output__). If this column is not necessary, you may consider dropping it or converting to primitive type before the conversion.
Direct cause: Unsupported type in conversion to Arrow: MatrixUDT()
Attempting non-optimization as 'spark.sql.execution.arrow.pyspark.fallback.enabled' is set to true.



Unnamed: 0,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
mensalidade,1.0,0.080124,0.085915,0.462838,0.281507,-0.438041,-0.042471,-0.49001,-0.556348
bolsa_integral_cotas,0.080124,1.0,0.520982,0.45134,-0.120903,-0.155176,-0.360329,-0.247502,-0.064
bolsa_integral_ampla,0.085915,0.520982,1.0,0.182384,0.620009,-0.489539,-0.293681,-0.218251,0.084619
bolsa_parcial_cotas,0.462838,0.45134,0.182384,1.0,0.195821,-0.468888,-0.253827,-0.546129,-0.469743
bolsa_parcial_ampla,0.281507,-0.120903,0.620009,0.195821,1.0,-0.549894,-0.270162,-0.534464,-0.266389
nota_integral_ampla,-0.438041,-0.155176,-0.489539,-0.468888,-0.549894,1.0,0.420823,0.409216,0.563932
nota_integral_cotas,-0.042471,-0.360329,-0.293681,-0.253827,-0.270162,0.420823,1.0,0.402048,0.237963
nota_parcial_ampla,-0.49001,-0.247502,-0.218251,-0.546129,-0.534464,0.409216,0.402048,1.0,0.702974
nota_parcial_cotas,-0.556348,-0.064,0.084619,-0.469743,-0.266389,0.563932,0.237963,0.702974,1.0



## Mensalidade x bolsas parciais (scatter)

In [None]:
%python

df_medicina_new.plot.scatter(x='mensalidade', y='bolsa_parcial_cotas')

In [None]:
%python

df_medicina_new.plot.scatter(x='mensalidade', y='bolsa_parcial_cotas', trendline='ols', trendline_color_override='Red')


## Nota parcial ampla x cotas (scatter)

In [None]:
%python

df_medicina_new.plot.scatter(x='nota_parcial_ampla', y='nota_parcial_cotas', trendline='ols', trendline_color_override='Red')


## Mensalidade cursos turnos (boxplot)

In [None]:
%python

df_cursos_prouni['mensalidade'].plot.box()


## Mensalidade turno integral (boxplot)

In [None]:
%python

df_cursos_prouni[df_cursos_prouni['turno']=='Integral']['mensalidade'].plot.box()


## Mensalidade cursos matutino (boxplot)

In [None]:
%python

df_cursos_prouni[df_cursos_prouni['turno']=='Matutino']['mensalidade'].plot.box()


## Mensalidade medicina (boxplot)

In [None]:
%python

df_cursos_prouni[df_cursos_prouni['nome']=='Medicina']['mensalidade'].plot.box(fillcolor='red')


## Mensalidade enfermagem (boxplot)

In [None]:
%python

df_cursos_prouni[df_cursos_prouni['nome']=='Enfermagem']['mensalidade'].plot.box(fillcolor='red')


# Métodos de string


## Leitura de arquivo

In [None]:
%python

df_medicina_new.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82



## Valores distintos de uma coluna

In [None]:
%python

df_medicina_new['universidade_nome'].unique()

Out[83]: 0             Faculdades Integradas Pitágoras - FIP-MOC
1          Faculdade da Saúde e Ecologia Humana - FASEH
2                          Faculdade das Américas - FAM
3           Faculdade Metropolitana da Amazônia - FAMAZ
4     Faculdade de Ciências Médicas da Paraíba - FCM-PB
5                      Faculdade Redentor - FACREDENTOR
6                   Faculdade Barão do Rio Branco - FAB
7             Universidade Cidade de São Paulo - UNICID
8        Centro Universitário Integrado de Campo Mourão
9                     Faculdade Campo Real - CAMPO REAL
10               Centro Universitário São Lucas - UniSL
11              Faculdade Brasileira - MULTIVIX VITÓRIA
12          Universidade do Ceuma - Uniceuma - UNICEUMA
13                     Universidade de Franca - UNIFRAN
Name: universidade_nome, dtype: object


## Textos que contenham (contains)

Buscar de textos que contenham somente a palavra (universidade)

In [None]:
%python

df_selecao_texto_contem = df_medicina_new[df_medicina_new['universidade_nome'].str.contains('Universidade')][['universidade_nome']]

df_selecao_texto_contem

Unnamed: 0,universidade_nome
2,Universidade Cidade de São Paulo - UNICID
20,Universidade do Ceuma - Uniceuma - UNICEUMA
21,Universidade do Ceuma - Uniceuma - UNICEUMA
71,Universidade de Franca - UNIFRAN



## Alterar um texto existente (loc)

In [None]:
%python

df_medicina_new['universidade_nome'].loc[42] = 'Centro Universitário Integrado de Campo Mourão - CUICM'

df_medicina_new['universidade_nome'].loc[42]

Out[85]: 'Centro Universitário Integrado de Campo Mourão - CUICM'

In [None]:
%python

df_medicina_new['universidade_nome'].unique()

Out[86]: 0             Faculdades Integradas Pitágoras - FIP-MOC
1          Faculdade da Saúde e Ecologia Humana - FASEH
2                          Faculdade das Américas - FAM
3           Faculdade Metropolitana da Amazônia - FAMAZ
4     Centro Universitário Integrado de Campo Mourão...
5     Faculdade de Ciências Médicas da Paraíba - FCM-PB
6                      Faculdade Redentor - FACREDENTOR
7                   Faculdade Barão do Rio Branco - FAB
8             Universidade Cidade de São Paulo - UNICID
9                     Faculdade Campo Real - CAMPO REAL
10               Centro Universitário São Lucas - UniSL
11              Faculdade Brasileira - MULTIVIX VITÓRIA
12          Universidade do Ceuma - Uniceuma - UNICEUMA
13                     Universidade de Franca - UNIFRAN
Name: universidade_nome, dtype: object


## Separação de textos (split)

In [None]:
%python

df_separador_texto = df_medicina_new['universidade_nome'].str.split(' - ', n=1, expand=True)

df_separador_texto

Unnamed: 0,0,1
22,Faculdade das Américas,FAM
71,Universidade de Franca,UNIFRAN
87,Centro Universitário São Lucas,UniSL
107,Faculdade Campo Real,CAMPO REAL
10,Faculdade Redentor,FACREDENTOR
120,Faculdade Brasileira,MULTIVIX VITÓRIA
80,Faculdades Integradas Pitágoras,FIP-MOC
2,Universidade Cidade de São Paulo,UNICID
4,Faculdade Barão do Rio Branco,FAB
13,Faculdade Metropolitana da Amazônia,FAMAZ



## Adicionar coluna em dataframe

In [None]:
%python

df_medicina_new.insert(loc=13, column='sigla', value=df_separador_texto[1])

In [None]:
%python

df_medicina_new.head()

Unnamed: 0,curso_id,grau,turno,mensalidade,bolsa_integral_cotas,bolsa_integral_ampla,bolsa_parcial_cotas,bolsa_parcial_ampla,tipo_cidade,cidade_busca,uf_busca,cidade_filtro,universidade_nome,sigla,campus_nome,campus_id,nome_curso,nota_integral_ampla,nota_integral_cotas,nota_parcial_ampla,nota_parcial_cotas
22,105596711902804,Bacharelado,Integral,8300.0,2,3,4,7,Capital,Sao Paulo,SP,MzUxNTA2MTUwMzA4,Faculdade das Américas - FAM,FAM,RUA AUGUSTA - Consolação,1055967,Medicina,735.84,724.7,738.42,723.28
71,65793650009334,Bacharelado,Integral,7316.79,2,3,4,8,Município,Franca,SP,MzUwMjAxMjE2MjAw,Universidade de Franca - UNIFRAN,UNIFRAN,POLO NA SEDE - Parque Universitário,657936,Medicina,744.88,730.88,741.36,721.08
87,658461856524,Bacharelado,Integral,7009.97,4,3,9,5,Município,Porto Velho,RO,MTEwMTAwMTAwMjA1,Centro Universitário São Lucas - UniSL,UniSL,CAMPUS - PORTO VELHO - AREAL - Areal,658461,Medicina,742.72,720.2,729.72,711.68
107,66007913994844,Bacharelado,Integral,6498.55,1,1,1,4,Município,Guarapuava,PR,NDEwODAyOTA5NDAx,Faculdade Campo Real - CAMPO REAL,CAMPO REAL,BLOCO 1 - Santa Cruz,660079,Medicina,781.2,731.04,745.06,741.0
10,65921511844324,Bacharelado,Integral,9123.07,4,4,5,5,Município,Itaperuna,RJ,MzMwMTAwMTAyMjA1,Faculdade Redentor - FACREDENTOR,FACREDENTOR,CAMPUS - ITAPERUNA - PRESIDENTE COSTA E SILVA...,659215,Medicina,741.06,729.02,730.98,722.82



## Cálculo de nota média c/ gráfico

In [None]:
%python

df_notas_ordenadas = ps.sql('''
   select
         sigla
        ,mean(nota_integral_ampla) as nota_media
    from {DF}

    group by
        sigla

    order by
        nota_media desc

''', DF=df_medicina_new)

df_notas_ordenadas.plot.bar(x='sigla', y='nota_media')


# Pandas para o spark


## Criar df manualmente (pandas)

In [None]:
%python

import pandas as pd

data = {
    'Ano': [2021, 2020],
    'Bolsas_Integrais': [146.3, 182.9],
    'Bolsas_Parciais': [150.0, 237.4],
    'Bolsas_Total': [296.3, 420.3]
}



In [None]:
%python

df_pandas = pd.DataFrame(data)

df_pandas

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3



## Converter df pandas para spark

In [None]:
%python

df_bolsas_spark = ps.from_pandas(df_pandas)

df_bolsas_spark

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3



## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(df_bolsas_spark, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto é um DataFrame de Pandas-on-Spark



## Criação de gráfico (bar)

In [None]:
%python

df_bolsas_spark.plot.bar(x='Ano', y=['Bolsas_Integrais', 'Bolsas_Parciais'], barmode='group')


# Leitura de página em html


## Declaração de variável com url

In [None]:
%python

path_url = 'https://pt.wikipedia.org/wiki/Ensino_superior_no_Brasil'


## Instalação de biblioteca

In [None]:
%python

!pip install lxml

You should consider upgrading via the '/local_disk0/.ephemeral_nfs/envs/pythonEnv-aaf830cc-bf5a-491d-94a7-fc3a330aa4e2/bin/python -m pip install --upgrade pip' command.[0m



## Declaração de variável

In [None]:
%python

lista = ps.read_html(path_url)


## Tamanho dos objetos da variável

In [None]:
%python

len(lista)

Out[104]: 5


## Consultar dados do site na variável

In [None]:
%python

lista[0]

Unnamed: 0,Classificação Nacional,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização
0,1,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo
1,2,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo
2,3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro
3,4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais
4,5,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo
5,6,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina
6,7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal
7,8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná
8,9,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro
9,10,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo



## Criar dataframe a partir da variável

In [None]:
df_publicas = lista[0]

df_publicas

Unnamed: 0,Classificação Nacional,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização
0,1,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo
1,2,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo
2,3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro
3,4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais
4,5,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo
5,6,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina
6,7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal
7,8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná
8,9,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro
9,10,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo



## Consultar tipo do objeto (df)

In [None]:
%python

type(df_publicas)

Out[110]: pyspark.pandas.frame.DataFrame


## Ordenação de registros

In [None]:
%python

df_publicas.sort_values(by=['Classificação Nacional'], inplace=True, ascending=False)

df_publicas

Unnamed: 0,Classificação Nacional,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização
9,10,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo
8,9,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro
7,8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná
6,7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal
5,6,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina
4,5,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo
3,4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais
2,3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro
1,2,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo
0,1,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo



## Criação de gráfico

In [None]:
%python

graph = df_publicas.plot.bar(x='sigla', y='Classificação Nacional', color=range(10))

graph.layout.coloraxis.showscale = False

graph.show()


# Saída e salvamento de arquivos

In [None]:
%python




## Criar df manualmente (pandas)

In [None]:
%python

import pandas as pd

data_novo = {
    'Ano': [2021, 2020],
    'Bolsas_Integrais': [146.3, 182.9],
    'Bolsas_Parciais': [150.0, 237.4],
    'Bolsas_Total': [296.3, 420.3]
}

In [None]:
%python

df_pandas_novo = pd.DataFrame(data_novo)

df_pandas_novo

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3



## Converter df pandas para spark

pyspark.sql.DataFrame: Este é o tipo de DataFrame usado em operações padrão do PySpark.

pyspark.pandas.DataFrame: Este é o tipo de DataFrame usado no Pandas-on-Spark, que emula a API do Pandas, mas funciona sobre o Spark.

In [None]:
%python

df_bolsas_spark_novo = ps.from_pandas(df_pandas_novo)

df_bolsas_spark_novo

Unnamed: 0,Ano,Bolsas_Integrais,Bolsas_Parciais,Bolsas_Total
0,2021,146.3,150.0,296.3
1,2020,182.9,237.4,420.3



## Converter (df spark pandas) para (df spark nativo)

pyspark.sql.DataFrame: Este é o tipo de DataFrame usado em operações padrão do PySpark.

pyspark.pandas.DataFrame: Este é o tipo de DataFrame usado no Pandas-on-Spark, que emula a API do Pandas, mas funciona sobre o Spark.

In [None]:
%python

df_bolsas_spark_sql = df_bolsas_spark_novo.to_spark()

df_bolsas_spark_sql.show()

+----+----------------+---------------+------------+
| Ano|Bolsas_Integrais|Bolsas_Parciais|Bolsas_Total|
+----+----------------+---------------+------------+
|2021|           146.3|          150.0|       296.3|
|2020|           182.9|          237.4|       420.3|
+----+----------------+---------------+------------+




## Validar se o objeto é um df spark

###### Realizamos essa ação para garantir que o objeto é um DataFrame, pois caso não seja, quando formos gerar o gráfico e estilizar, provavelmente não será possível devido a erro de conversão de colunas, visto que o objeto não é um DataFrame.

###### Explicação sobre a segunda forma:

1 - isinstance: A função isinstance é uma função embutida do Python que verifica se um objeto é uma instância de uma classe ou de uma tupla de classes. 
- A sintaxe é isinstance(obj, class_or_tuple).

2 - Parâmetros: 
- obj: O objeto que você deseja verificar. No nosso caso, df_medicina.
- class_or_tuple: A classe ou uma tupla de classes contra a qual você deseja verificar. No nosso caso, se é um DataFrame.

3 - Condicional: O if verifica se df_medicina é uma instância da classe DataFrame.
- Se a condição for verdadeira (df_medicina é um DataFrame), e imprime "O objeto é um DataFrame".
- Caso contrário, imprime "O objeto não é um DataFrame".

In [None]:
%python

import pyspark.pandas as ps

# Verificar se df_ps é um DataFrame de Pandas-on-Spark
if isinstance(df_bolsas_spark_sql, ps.DataFrame):
    print("O objeto é um DataFrame de Pandas-on-Spark")
else:
    print("O objeto não é um DataFrame de Pandas-on-Spark")

O objeto não é um DataFrame de Pandas-on-Spark



## Tipo do objeto

In [None]:
%python

type(df_bolsas_spark_sql)

Out[124]: pyspark.sql.dataframe.DataFrame


## Listando diretórios e arquivos

In [None]:
%python

display(dbutils.fs.ls('/FileStore/tables/gov/prouni/arquivos/parquet/'))

path,name,size,modificationTime
dbfs:/FileStore/tables/gov/prouni/arquivos/parquet/publicas.parquet/,publicas.parquet/,0,0



## Criação de diretórios

In [None]:
%python

dbutils.fs.mkdirs('/FileStore/tables/gov/prouni/arquivos/parquet')

Out[128]: True


## Localização de arquivo com var

Esse comando foi só para relembrar da variável declarada, mas não foi utilizado nesse tópico de (Saída de arquivos)

In [None]:
%python

import pyspark.pandas as ps

path_archive = ('/FileStore/tables/gov/prouni/arquivos/csv/cursos_prouni.csv')


## Salvar df em formato parquet

In [None]:
%python

df_publicas.to_parquet('/FileStore/tables/gov/prouni/arquivos/parquet/publicas.parquet', partition_cols='Classificação Nacional')


## Leitura de arquivo parquet completo

In [None]:
%python

ps.read_parquet('/FileStore/tables/gov/prouni/arquivos/parquet/publicas.parquet')

Unnamed: 0,Classificação Mundial,Universidade,Logo,sigla,tipo,web,Localização,Classificação Nacional
0,236,Universidade Estadual de Campinas,,UNICAMP,Pública Estadual,www.unicamp.br/,São Paulo,2
1,667,Universidade Federal de São Carlos,,UFSCAR,Pública federal,www.ufscar.br/,São Paulo,10
2,427,Universidade Federal de Santa Catarina,,UFSC,Pública federal,ufsc.br/,Santa Catarina,6
3,278,Universidade Federal do Rio de Janeiro,,UFRJ,Pública federal,ufrj.br/,Rio de Janeiro,3
4,298,Universidade Federal de Minas Gerais,,UFMG,Pública federal,ucb.edu.bo,Minas Gerais,4
5,596,Universidade Federal Fluminense,,UFF,Pública federal,www.uff.br/,Rio de Janeiro,9
6,345,Universidade Estadual Paulista,,UNESP,Pública Estadual,www.unesp.br,São Paulo,5
7,592,Universidade de Brasília,,UNB,Pública Estadual,www.unb.br/,Distrito Federal,7
8,593,Universidade Federal do Paraná,,UFPR,Pública federal,www.ufpr.br/,Paraná,8
9,72,Universidade de São Paulo,,USP,Pública Estadual,www5.usp.br/,São Paulo,1
