# <strong>Formação Cientista de Dados</strong>
## <font color=blue><strong>Explorando a Base de Dados com Python, Usando `pyspark`</strong></font>

### <strong>Importar as bibliotecas importantes</strong>

* No código a seguir, está sendo utilizado o **pyspark**, uma biblioteca para processamento de dados distribuído. Uma sessão do Spark é iniciada com o **SparkSession**, e as funções do **pyspark.sql.functions** são importadas como **Func**. Esse script, provavelmente parte de um projeto de análise de dados, aproveita a capacidade de processamento paralelo do Spark para realizar operações eficientes em conjuntos de dados extensos.

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as Func

### <strong>Carregar e exibir a base de dados</strong>

* No código a seguir, está sendo utilizado o **SparkSession** para iniciar uma aplicação Spark chamada "Aplicação". Em seguida, é feita a leitura de um arquivo CSV chamado "Carros.csv" utilizando a função **read.csv** do Spark, onde as opções como **header=True**, **sep=";"** e **inferSchema=True** são especificadas. Os dados lidos são armazenados na variável **carros**. Por fim, a função **show()** é utilizada para exibir uma amostra dos dados na console. Esse trecho de código é fundamental para carregar e visualizar dados de um arquivo CSV utilizando o Spark.

In [2]:
spark = SparkSession.builder.appName("Aplicação").getOrCreate()

carros = spark.read.csv("Carros.csv", header=True, sep=";", inferSchema=True)
carros.show()

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     21|        6|        160|             39| 262| 1646|        0|          1|      4|          4|110|
|     21|        6|        160|             39|2875| 1702|        0|          1|      4|          4|110|
|    228|        4|        108|            385| 232| 1861|        1|          1|      4|          1| 93|
|    214|        6|        258|            308|3215| 1944|        1|          0|      3|          1|110|
|    187|        8|        360|            315| 344| 1702|        0|          0|      3|          2|175|
|    181|        6|        225|            276| 346| 2022|        1|          0|      3|          1|105|
|    143|        8|        360|            321| 357| 15

### <strong>Exibir a estrutura da base de dados com `.schema`</strong>

* No código a seguir, está sendo utilizado um arquivo chamado "`carros.schema`". Esse arquivo contém a definição de esquema de dados para a entidade "`carros`". Pode conter informações sobre a estrutura do banco de dados, como **tabelas**, **campos**, e **relacionamentos**. A extensão "`.schema`" sugere que seja usado para descrever a estrutura, facilitando a compreensão e manutenção do banco de dados.

In [24]:
carros.schema

StructType([StructField('Consumo', IntegerType(), True), StructField('Cilindros', IntegerType(), True), StructField('Cilindradas', IntegerType(), True), StructField('RelEixoTraseiro', IntegerType(), True), StructField('Peso', IntegerType(), True), StructField('Tempo', IntegerType(), True), StructField('TipoMotor', IntegerType(), True), StructField('Transmissao', IntegerType(), True), StructField('Marchas', IntegerType(), True), StructField('Carburadors', IntegerType(), True), StructField('HP', IntegerType(), True)])

### <strong>Exibir a quantidade total de itens</strong>

* No código a seguir, está sendo utilizado o método **count()** em um objeto chamado **carros**. Este método pertence à linguagem Python e é utilizado para contar o número de ocorrências de elementos dentro do objeto ao qual é aplicado, no caso, os carros. Essa função é útil para obter a quantidade total de itens em uma lista, por exemplo.

In [21]:
carros.count()

32

### <strong>Exibir uma lista com os nomes das colunas</strong>

* No código a seguir, está sendo utilizado o método columns no objeto carros, que provavelmente é um DataFrame do pandas. Esse método retorna uma lista com os nomes das colunas presentes no DataFrame, fornecendo uma visão rápida e clara das variáveis disponíveis no conjunto de dados de carros.

In [22]:
carros.columns

['Consumo',
 'Cilindros',
 'Cilindradas',
 'RelEixoTraseiro',
 'Peso',
 'Tempo',
 'TipoMotor',
 'Transmissao',
 'Marchas',
 'Carburadors',
 'HP']

### <strong>Selecionar e exibir colunas específicas</strong>

* No código a seguir, está sendo utilizado o método select no objeto "`carros`", que representa um conjunto de dados. A função show() é aplicada para exibir as colunas específicas "`Consumo`" e "`Cilindros`".

In [7]:
carros.select("Consumo","Cilindros").show()

+-------+---------+
|Consumo|Cilindros|
+-------+---------+
|     21|        6|
|     21|        6|
|    228|        4|
|    214|        6|
|    187|        8|
|    181|        6|
|    143|        8|
|    244|        4|
|    228|        4|
|    192|        6|
|    178|        6|
|    164|        8|
|    173|        8|
|    152|        8|
|    104|        8|
|    104|        8|
|    147|        8|
|    324|        4|
|    304|        4|
|    339|        4|
+-------+---------+
only showing top 20 rows



### <strong>Selecionar e exibir colunas específicas de forma condicional e filtrada</strong>

* No código a seguir, está sendo utilizado o método `select` no dataframe de carros para escolher as colunas "Consumo" e "Cilindros". Em seguida, é aplicado o filtro utilizando a função `where`, destacando a condição de seleção com a variável `Cilindros` maior que 6. Por fim, o resultado é apresentado com o método `show()`. Esse trecho de código em Python, utilizando a biblioteca **Pyspark**, busca informações específicas sobre consumo e cilindros de carros, filtrando aqueles com mais de 6 cilindros.

In [8]:
carros.select("Consumo","Cilindros").where(Func.col("Cilindros") > 6).show()

+-------+---------+
|Consumo|Cilindros|
+-------+---------+
|    187|        8|
|    143|        8|
|    164|        8|
|    173|        8|
|    152|        8|
|    104|        8|
|    104|        8|
|    147|        8|
|    155|        8|
|    152|        8|
|    133|        8|
|    192|        8|
|    158|        8|
|     15|        8|
+-------+---------+



### <strong>Ordenar e exibir os dados com base em uma coluna específica</strong>

* No código a seguir, está sendo realizado um processo de ordenação dos carros com base na coluna "HP" (horsepower) de forma ascendente. A função **orderBy** é utilizada para esse propósito, indicando a ordenação pela variável de potência (HP). O método **show()** é aplicado para exibir os resultados dessa ordenação na saída.

In [9]:
carros.orderBy("HP").show()

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|    304|        4|        757|            493|1615| 1852|        1|          1|      4|          2| 52|
|    244|        4|       1467|            369| 319|   20|        1|          0|      4|          2| 62|
|    339|        4|        711|            422|1835|  199|        1|          1|      4|          1| 65|
|    324|        4|        787|            408|  22| 1947|        1|          1|      4|          1| 66|
|    273|        4|         79|            408|1935|  189|        1|          1|      4|          1| 66|
|     26|        4|       1203|            443| 214|  167|        0|          1|      5|          2| 91|
|    228|        4|        108|            385| 232| 18

### <strong>Ordenar e exibir os dados com base em uma coluna específica de forma decrescente</strong>

No código a seguir, está sendo realizado uma ordenação descendente da coluna **HP** de um DataFrame chamado **carros**. Essa operação é feita utilizando a função **orderBy** do PySpark, onde **Func.col("HP").desc()** especifica que a ordenação deve ser feita com base na coluna **HP** em ordem decrescente. O resultado é então exibido utilizando o método **show()**, revelando os dados ordenados conforme a especificação.

In [10]:
carros.orderBy(Func.col("HP").desc()).show()

+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|Consumo|Cilindros|Cilindradas|RelEixoTraseiro|Peso|Tempo|TipoMotor|Transmissao|Marchas|Carburadors| HP|
+-------+---------+-----------+---------------+----+-----+---------+-----------+-------+-----------+---+
|     15|        8|        301|            354| 357|  146|        0|          1|      5|          8|335|
|    158|        8|        351|            422| 317|  145|        0|          1|      5|          4|264|
|    143|        8|        360|            321| 357| 1584|        0|          0|      3|          4|245|
|    133|        8|        350|            373| 384| 1541|        0|          0|      3|          4|245|
|    147|        8|        440|            323|5345| 1742|        0|          0|      3|          4|230|
|    104|        8|        460|              3|5424| 1782|        0|          0|      3|          4|215|
|    104|        8|        472|            293| 525| 17