In [2]:
from pyspark.sql import SparkSession

In [None]:
spark = SparkSession.builder \
        .appName("SparkSample") \
        .getOrCreate() # .master("spark://localhost:8088")

In [None]:
data_raw = spark.read.options(delimiter=";", header=True, encoding="latin1", dateFormat="dd/MM/yyyy", inferSchema=True).csv("/user/ivan/input/bweb.csv")
data_raw.show(5)

## 2. Exploração Inicial dos Dados:

<ul>
    <li>Baixar e carregar os dados para o HDFS no cluster. </li>
    <li>Realizar uma exploração inicial dos dados, utilizando operações sobre DataFrames, como show(), count(), describe(), entre outras.</li>
    <li>Identificar a estrutura dos registros, os tipos de dados presentes, entre outras informações relevantes</li>
</ul>

## 3. Limpeza e Transformação dos Dados:

<ul>
    <li>Realizar a limpeza e transformação dos dados, eliminando registros inválidos ou inconsistentes, e convertendo os tipos de dados, se necessário.</li>
    <li>Utilizar as transformações disponíveis em DataFrames, como select(), filter(), withColumn(), etc.</li>
</ul>

### 4. Análise Exploratória:

Realizar uma análise exploratória dos resultados das eleições, utilizando DataFrames no PySpark:<ul>
    <li>Calcular a taxa de comparecimento às eleições por município, zona eleitoral ou seção eleitoral.</li>
    <li>Identificar os municípios com maior e menor taxa de comparecimento.</li>
    <li>Determinar o desempenho de cada partido, calculando a quantidade de votos recebidos por partido.</li>
    <li>Comparar o desempenho dos partidos em diferentes municípios ou estados.</li>
    <li>Identificar os candidatos mais votados para cada cargo.</li>
    <li>Identificar regiões com maior concentração de votos em determinados partidos ou candidatos.</li>
    <li>Análise da participação eleitoral por faixa etária ou gênero.</li>
    <li>Comparar a proporção de votos brancos e nulos com o total de votos válidos.</li>
    <li>Utilização de funções de agregação, como sum(), avg(), count(), etc., para obter insights estatísticos.</li>
</ul>

### 5. Visualização de Resultados (extra)
<ul>
    <li>Como sugestão utilizar bibliotecas de visualização de dados, como Matplotlib ou Plotly, em conjunto com os DataFrames do PySpark, para criar gráficos e visualizações que representem os resultados das análises.</li>
</ul>

### 6. Conclusão:
<ul>
    <li>
Destacar os insights obtidos durante a análise dos resultados das eleições</li>
</ul>

In [None]:
import findspark
from pyspark import SparkContext
from pyspark.sql import SparkSession
import random

findspark.init()

sc = SparkContext(appName="EstimatePi")
def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1
NUM_SAMPLES = 1000000
count = sc.parallelize(range(0, NUM_SAMPLES)) \
             .filter(inside).count()
print("Pi is roughly %f" % (4.0 * count / NUM_SAMPLES))
sc.stop()