# PySpark - Alcoolismo no Ensino Médio e Desempenho Acadêmico


## Instalando o pyspark

In [None]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.0.tar.gz (316.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m316.9/316.9 MB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.0-py2.py3-none-any.whl size=317425345 sha256=10de5fc08acc6d84755e352c3406f759a555f0d103516079056e606b9bbceda2
  Stored in directory: /root/.cache/pip/wheels/41/4e/10/c2cf2467f71c678cfc8a6b9ac9241e5e44a01940da8fbb17fc
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.0


## Importando as libs

In [None]:
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import (StructField,
                               StructType,
                               StringType,
                               IntegerType)
from pyspark.sql import functions as F
import pandas as pd

## Criando a Sessão

In [None]:
spark = (
    SparkSession\
    .builder\
    .master('local')\
    .appName('school_analysis')\
    .getOrCreate()
)

## Criando o Schema

In [None]:
schema_ = StructType([
    StructField('escola', StringType(), nullable = True),
    StructField('sexo', StringType(), nullable = True),
    StructField('idade', IntegerType(), nullable = True),
    StructField('tp_moradia', StringType(), nullable = True),
    StructField('tamanho_familia', StringType(), nullable = True),
    StructField('situacao_pais', StringType(), nullable = True),
    StructField('educacao_mae', StringType(), nullable = True),
    StructField('educacao_pai', StringType(), nullable = True),
    StructField('trabalho_mae', StringType(), nullable = True),
    StructField('trabalho_pai', StringType(), nullable = True),
    StructField('motivo_escolha_escolar', StringType(), nullable = True),
    StructField('responsavel_legal', StringType(), nullable = True),
    StructField('tempo_ida_escola', StringType(), nullable = True),
    StructField('tempo_estudo_semanal', StringType(), nullable = True),
    StructField('apoio_educacao_extra', StringType(), nullable = True),
    StructField('apoio_educacao_pais', StringType(), nullable = True),
    StructField('aulas_particulares', StringType(), nullable = True),
    StructField('atividade_extracurricular', StringType(), nullable = True),
    StructField('frequentou_creche', StringType(), nullable = True),
    StructField('quer_fazer_graduacao', StringType(), nullable = True),
    StructField('tem_internet', StringType(), nullable = True),
    StructField('namorando', StringType(), nullable = True),
    StructField('boa_convivencia_familiar', StringType(), nullable = True),
    StructField('tempo_livre_apos_escola', StringType(), nullable = True),
    StructField('tempo_com_amigos', StringType(), nullable = True),
    StructField('alcool_dia_util', StringType(), nullable = True),
    StructField('alcool_fim_semana', StringType(), nullable = True),
    StructField('estado_saude', StringType(), nullable = True),
    StructField('falta_escolar', IntegerType(), nullable = True),
    StructField('nota_1semestre', IntegerType(), nullable = True),
    StructField('nota_2semestre', IntegerType(), nullable = True)
])

## Importando o dataset

In [None]:
df = spark\
    .read\
    .format('csv')\
    .option('header', 'true')\
    .schema(schema_)\
    .load('/content/lpor_explorer.csv')

## Tratamento dos Dados

### Verificando os dados 5 primeiros dados

In [None]:
df.show(5)

+---------------+------+-----+----------+---------------+--------------+--------------------+--------------------+------------+------------+----------------------+-----------------+----------------+--------------------+--------------------+-------------------+------------------+-------------------------+-----------------+--------------------+------------+---------+------------------------+-----------------------+----------------+---------------+-----------------+------------+-------------+--------------+--------------+
|         escola|  sexo|idade|tp_moradia|tamanho_familia| situacao_pais|        educacao_mae|        educacao_pai|trabalho_mae|trabalho_pai|motivo_escolha_escolar|responsavel_legal|tempo_ida_escola|tempo_estudo_semanal|apoio_educacao_extra|apoio_educacao_pais|aulas_particulares|atividade_extracurricular|frequentou_creche|quer_fazer_graduacao|tem_internet|namorando|boa_convivencia_familiar|tempo_livre_apos_escola|tempo_com_amigos|alcool_dia_util|alcool_fim_semana|estado_s

### Verificando a quantidade de dados únicos de cada coluna

#### Exemplo 1

In [None]:
(
    df
    .select(F.col('escola'))
    .groupBy('escola')
    .count()
    .show()
)

+--------------------+-----+
|              escola|count|
+--------------------+-----+
|Mousinho da Silveira|  226|
|     Gabriel Pereira|  423|
+--------------------+-----+



#### Exemplo 2

In [None]:
(
    df
    .groupBy('escola')
    .agg(F.count('escola').alias('qtd. alunos'))
).show()

+--------------------+-----------+
|              escola|qtd. alunos|
+--------------------+-----------+
|Mousinho da Silveira|        226|
|     Gabriel Pereira|        423|
+--------------------+-----------+



#### Exemplo 3

In [None]:
for coluna in df.columns:
    '''Retorna um DataFrame com o nome e a qtd. de dados únicos
    coluna: str
    '''
    print('*' * 10, coluna.upper(), '*' * 10)
    (
        df
        .groupBy(coluna)
        .agg(F.count(coluna).alias(f'qtd'))
    ).show()

********** ESCOLA **********
+--------------------+---+
|              escola|qtd|
+--------------------+---+
|Mousinho da Silveira|226|
|     Gabriel Pereira|423|
+--------------------+---+

********** SEXO **********
+------+---+
|  sexo|qtd|
+------+---+
| Homem|266|
|Mulher|383|
+------+---+

********** IDADE **********
+-----+---+
|idade|qtd|
+-----+---+
|   22|  1|
|   16|177|
|   20|  6|
|   19| 32|
|   15|112|
|   17|179|
|   21|  2|
|   18|140|
+-----+---+

********** TP_MORADIA **********
+----------+---+
|tp_moradia|qtd|
+----------+---+
|    Urbano|452|
|     Rural|197|
+----------+---+

********** TAMANHO_FAMILIA **********
+---------------+---+
|tamanho_familia|qtd|
+---------------+---+
|          Até 3|192|
|     Acima de 3|457|
+---------------+---+

********** SITUACAO_PAIS **********
+--------------+---+
| situacao_pais|qtd|
+--------------+---+
|     Separados| 80|
|Morando Juntos|569|
+--------------+---+

********** EDUCACAO_MAE **********
+--------------------+--

#### Alterando os valores de algumas colunas

In [None]:
df.show(1)

+---------------+------+-----+----------+---------------+-------------+---------------+---------------+------------+------------+----------------------+-----------------+----------------+--------------------+--------------------+-------------------+------------------+-------------------------+-----------------+--------------------+------------+---------+------------------------+-----------------------+----------------+---------------+-----------------+------------+-------------+--------------+--------------+
|         escola|  sexo|idade|tp_moradia|tamanho_familia|situacao_pais|   educacao_mae|   educacao_pai|trabalho_mae|trabalho_pai|motivo_escolha_escolar|responsavel_legal|tempo_ida_escola|tempo_estudo_semanal|apoio_educacao_extra|apoio_educacao_pais|aulas_particulares|atividade_extracurricular|frequentou_creche|quer_fazer_graduacao|tem_internet|namorando|boa_convivencia_familiar|tempo_livre_apos_escola|tempo_com_amigos|alcool_dia_util|alcool_fim_semana|estado_saude|falta_escolar|not

In [None]:
df = df.withColumn('sexo',
                  F.when(F.col('sexo') == 'Mulher', 'M')
                  .when(F.col('sexo') == 'Homem', 'H')
                  .when(F.col('sexo').isNull(), "O")
                  .otherwise(F.col('sexo')))\
      .withColumn('situacao_pais',
                  F.when(F.col('situacao_pais') == 'Morando Juntos', 'Juntos')
                  .otherwise(F.col('situacao_pais')))\
      .withColumn('trabalho_mae',
                  F.when(F.col('trabalho_mae') == 'other', 'Outros')
                  .otherwise(F.col('trabalho_mae')))\
      .withColumn('trabalho_pai',
                  F.when(F.col('trabalho_pai') == 'other', 'Outros')
                  .otherwise(F.col('trabalho_pai')))\
      .withColumn('tempo_estudo_semanal',
                  F.when(F.col('tempo_estudo_semanal') == 'Até 2h,', 'Até 2h')
                  .otherwise(F.col('tempo_estudo_semanal')))


## Análise dos Dados

### 1. Qual é o total de escolas registradas na tabela?

In [None]:
(
    df
    .select('escola')
    .groupBy('escola')
    .count()
    .show()
)

+--------------------+-----+
|              escola|count|
+--------------------+-----+
|Mousinho da Silveira|  226|
|     Gabriel Pereira|  423|
+--------------------+-----+



### 2. Quantos alunos do sexo masculino foram entrevistados?

In [None]:
(
    df
    .filter(
        F.col('sexo') == 'M'
    )
    .count()
)

383

### 3. Qual é a média de idade dos alunos entrevistados?

In [None]:
(
    df
    .select(
        F.mean('idade')
        .alias('Média (idade)')
    )
    .show()
    #.agg({'idade': 'mean'})
)

+----------------+
|   Média (idade)|
+----------------+
|16.7442218798151|
+----------------+



### 4. Quantos alunos moram em áreas urbanas?

In [None]:
(
    df
    .filter(
        F.col('tp_moradia') == 'Urbano'
    )
    .count()
)

452

### 5. Qual é a proporção de alunos com tamanho de família acima de 3?

In [None]:
total_alunos = df.count()

acima_de_3 = (
    df.filter(
        F.col('tamanho_familia') == 'Acima de 3'
    )
    .count()
)

proporcao = acima_de_3 / total_alunos
print(f'{proporcao * 100:.2f}%')

70.42%


### 6. Quantos alunos têm pais separados?

In [None]:
(
    df
    .filter(
        F.col('situacao_pais') == 'Separados'
    )
    .count()
)

80

### 7. Qual é a categoria de educação da maioria das mães dos alunos?

In [None]:
(
    df
    .select(
        F.col('educacao_mae')
    )
    .groupBy(F.col('educacao_mae'))
    .count()
    .orderBy(F.desc('count'))
    .show(1)
)

+--------------------+-----+
|        educacao_mae|count|
+--------------------+-----+
|Ensino Fundamental 2|  186|
+--------------------+-----+
only showing top 1 row



### 8. Qual é a categoria de educação do pai com menor representação?

In [None]:
(
    df
    .select(
        F.col('educacao_pai')
    )
    .groupBy(F.col('educacao_pai'))
    .count()
    .orderBy('educacao_pai', ascending = False)
    .show(1)
)

+------------+-----+
|educacao_pai|count|
+------------+-----+
|     Nenhuma|    7|
+------------+-----+
only showing top 1 row



### 9. Quantos alunos têm as mães trabalhando na área de saúde?

In [None]:
(
    df
    .filter(
        F.col('trabalho_mae') == 'Saúde'
    )
    .count()
)

48

### 10. Qual é o motivo mais comum para a escolha da escola pelos alunos?

In [None]:
(
    df
    .select(
        F.col('motivo_escolha_escolar')
    )
    .groupby(F.col('motivo_escolha_escolar'))
    .count()
    .orderBy(F.desc('count'))
    .show(1, truncate=False)
)

+----------------------+-----+
|motivo_escolha_escolar|count|
+----------------------+-----+
|Preferência pelo Curso|285  |
+----------------------+-----+
only showing top 1 row



### 11. Quem é o responsável legal pela maioria dos alunos?

In [None]:
(
    df
    .select(
        F.col('responsavel_legal')
    )
    .groupBy('responsavel_legal')
    .count()
    .orderBy('responsavel_legal', ascending=True)
    .show(1)
)

+-----------------+-----+
|responsavel_legal|count|
+-----------------+-----+
|              Mãe|  455|
+-----------------+-----+
only showing top 1 row



### 12. Quantos alunos gastam mais de 30 minutos para ir à escola?

In [None]:
(
    df
    .filter(
        ~F.col('tempo_ida_escola')
        .isin(['Até 15 min', '15 a 30 min'])
    )
    .count()
)

70

### 13. Quantos alunos recebem apoio de educação extra?

In [None]:
(
    df
    .filter(
        F.col('apoio_educacao_extra') == 'Sim'
    )
    .count()
)

68

### 14. Quantos alunos frequentaram creche?

In [None]:
(
    df
    .filter(
        F.col('frequentou_creche') == 'Sim'
    )
    .count()
)

521

### 15. Qual é a porcentagem de alunos que desejam fazer graduação?
    

In [None]:
(
    round(
        df
        .filter(
            F.col('quer_fazer_graduacao') == 'Sim'
        )
        .count() / (total_alunos / 100), 2
    )
)

89.37

### 16. Qual é a distribuição dos alunos em termos de convivência familiar?

In [None]:
(
    df
    .select(
        F.col('boa_convivencia_familiar')
    )
    .groupBy(F.col('boa_convivencia_familiar'))
    .count()
    .orderBy(F.desc('count'))
    .show()
)

+------------------------+-----+
|boa_convivencia_familiar|count|
+------------------------+-----+
|                     Bom|  317|
|               Excelente|  180|
|                Razoavel|  101|
|                    Ruim|   29|
|              Muito Ruim|   22|
+------------------------+-----+



### 17. Quantos alunos têm uma boa convivência familiar e também possuem uma nota acima da média (considerando as notas do 1º e 2º semestres)?





In [None]:
df = df.withColumn('media_geral', (F.col('nota_1semestre') + F.col('nota_2semestre')) / 2)

media_geral_media = df.agg(F.avg('media_geral')).first()[0]

(
    df
    .filter(
        F.col('boa_convivencia_familiar').isin(['Bom', 'Excelente'])
    )
    .filter(
        F.col('media_geral') > media_geral_media
    ).count()
)

273

### 18. Qual é a média de falta escolar entre os alunos do sexo masculino e do sexo feminino?

In [None]:
(
    df
    .filter(
        F.col('sexo')
        .isin(['M', 'H'])
    )
    .agg(
        F.avg('falta_escolar')
        .alias('Média - Falta Escolar')
    )
    .show()
)

+---------------------+
|Média - Falta Escolar|
+---------------------+
|   3.6594761171032357|
+---------------------+



### 19. Quais são as cinco escolas com o maior número de alunos que desejam fazer graduação?




In [None]:
(
    df
    .filter(
        F.col('quer_fazer_graduacao') == 'Sim'
    )
    .groupBy('escola')
    .agg(
        F.count('quer_fazer_graduacao')
        .alias('total')
    )
    .orderBy(F.desc('total'))
    .show(5)
)

+--------------------+-----+
|              escola|total|
+--------------------+-----+
|     Gabriel Pereira|  391|
|Mousinho da Silveira|  189|
+--------------------+-----+



### 20. Calcule a porcentagem de alunos que frequentaram creche entre aqueles que têm uma boa convivência familiar.

In [None]:
(
    df
    .filter(
        (F.col('frequentou_creche') == 'Sim') &
        (F.col('boa_convivencia_familiar')
        .isin(['Bom','Excelente']))
    )
    .count() / total_alunos * 100

)


62.40369799691834

### 25. Crie uma consulta que retorne a distribuição de notas para cada tempo de estudo semanal. Ou seja, para cada intervalo de tempo de estudo semanal, mostre a quantidade de alunos que obteve cada nota no 1º semestre.

In [None]:
(
    df
    .filter(
        F.col('nota_1semestre').isNotNull()
    )
    .groupBy(F.col('tempo_estudo_semanal'), F.col('nota_1semestre'))
    .count()
    .orderBy('tempo_estudo_semanal', 'nota_1semestre')
    .show()
)

+--------------------+--------------+-----+
|tempo_estudo_semanal|nota_1semestre|count|
+--------------------+--------------+-----+
|              2 a 5h|             0|    1|
|              2 a 5h|             4|    1|
|              2 a 5h|             5|    2|
|              2 a 5h|             6|    3|
|              2 a 5h|             7|   14|
|              2 a 5h|             8|   21|
|              2 a 5h|             9|   25|
|              2 a 5h|            10|   40|
|              2 a 5h|            11|   42|
|              2 a 5h|            12|   46|
|              2 a 5h|            13|   36|
|              2 a 5h|            14|   32|
|              2 a 5h|            15|   16|
|              2 a 5h|            16|   17|
|              2 a 5h|            17|    8|
|              2 a 5h|            18|    1|
|             5 a 10h|             7|    3|
|             5 a 10h|             8|    2|
|             5 a 10h|             9|    4|
|             5 a 10h|          