<a href="https://colab.research.google.com/github/PENROG21/PySark/blob/main/DataFrame_PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install pyspark



Схема DataFrame

**2. `StructType` и `StructField`**

* Импортируются из `pyspark.sql.types`.
* `StructType` используется для определения схемы DataFrame, а `StructField` используется для определения отдельных полей в схеме.
* В примере кода `StructType` используется для создания схемы с полями `name` и `age`, каждый из которых имеет тип `StringType` и `IntegerType` соответственно.

**3. `StringType` и `IntegerType`**

* Импортируются из `pyspark.sql.types`.
* `StringType` и `IntegerType` представляют собой встроенные типы данных PySpark, которые используются для определения типов полей в схеме DataFrame.
* В приведенном выше коде поле `name` имеет тип `StringType`, а поле `age` имеет тип `IntegerType`.

In [18]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

spark = SparkSession.builder \
.appName('schema').config("spark.master", "local").getOrCreate()

Первй способ как создать DataFrame

Этот способ стредует создание схемы, которую вы сами пишети.

In [19]:
# Список кортежей с данными
data = [('Alice', 25),
        ('Artem', 26),
        ("Ivan", 48)]

# Определение схемы DataFrame
# True = это значит поле может быть None
schema = StructType([
    StructField("name", StringType(), True),  # Поле "name" типа String (строка)
    StructField("age", IntegerType(), True),  # Поле "age" типа Integer (целое число)
])

# Создание DataFrame из данных и схемы
df = spark.createDataFrame(data, schema)

# Вывод схемы DataFrame
df.printSchema()

root
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)



Вывод данных можно делать через легендарный метод в Spark и мой самый любимый .show

Синтаксис

n - необязательный элемент. Колличество первых строк которые надо вывести.
Максимум строк, который этот метод может вывести это 20.

```
DataFrame.show(n)
```



In [20]:
df.show()

+-----+---+
| name|age|
+-----+---+
|Alice| 25|
|Artem| 26|
| Ivan| 48|
+-----+---+



Второй способо.

Он не требует создание от вас схемы. Метод createDataFrame сам создаёт схему и определяет тип данных.

In [21]:
# Список словарей с данными
data = [
    {"name": "Alice", "age": 29},
    {"name": "Bob", "age": 22},
    {"name": "George", "age": 30}
]

# Создание DataFrame из списка словарей
# Spark автоматически выведет схему DataFrame
df = spark.createDataFrame(data)

# Вывод схемы DataFrame
df.printSchema()

root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)



Выодим таблицу

In [15]:
df.show()

+---+------+
|age|  name|
+---+------+
| 29| Alice|
| 22|   Bob|
| 30|George|
+---+------+



Третий способ.

Этот способ просто преобразовыввает RDD в DataFrame.


In [16]:
# Создание RDD из списка словарей
rdd = spark.sparkContext.parallelize(data)

# Преобразование RDD в DataFrame с использованием имен столбцов
df = rdd.toDF(['name', 'age'])

# Вывод схемы DataFrame
df.printSchema()

root
 |-- name: long (nullable = true)
 |-- age: string (nullable = true)



In [17]:
df.show()

+----+------+
|name|   age|
+----+------+
|  29| Alice|
|  22|   Bob|
|  30|George|
+----+------+

