# Работа с дата фреймом
# Travailler avec le cadre de date

## Создание новой сессии и подключение файла с данными
## Création d'une nouvelle session et connexion d'un fichier de données

In [1]:
# установить библиотеку pyspark
# installer la bibliothèque payspark
!pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyspark
  Downloading pyspark-3.3.0.tar.gz (281.3 MB)
[K     |████████████████████████████████| 281.3 MB 48 kB/s 
[?25hCollecting py4j==0.10.9.5
  Downloading py4j-0.10.9.5-py2.py3-none-any.whl (199 kB)
[K     |████████████████████████████████| 199 kB 60.5 MB/s 
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.3.0-py2.py3-none-any.whl size=281764026 sha256=11108bd2d198aa4f97acd9548e9fa5e3eaa9ce86a02e327e8fb6428f20a87387
  Stored in directory: /root/.cache/pip/wheels/7a/8e/1b/f73a52650d2e5f337708d9f6a1750d451a7349a867f928b885
Successfully built pyspark
Installing collected packages: py4j, pyspark
Successfully installed py4j-0.10.9.5 pyspark-3.3.0


In [2]:
# подключить библиотеку pyspark
# connecter la bibliothèque pyspark
import pyspark

In [3]:
# подключить библиотеку pandas
# connecter la bibliothèque pandas
import pandas as pd

In [4]:
# создать новую сессию
# créer une nouvelle session
from pyspark.sql import SparkSession

In [5]:
# создать переменную сессии
# créer une variable de session
spark = SparkSession.builder.appName('Practic').getOrCreate()

In [6]:
# вывести на экран параметры сессии
# afficher les paramètres de session
spark

In [7]:
# загрузить csv-файл в локальный каталог проекта
# télécharger le fichier csv dans le répertoire de projet local
from google.colab import files
uploaded = files.upload()

Saving test1.csv to test1.csv


## Прочитать данные как строки
## Lire les données sous forme de chaînes

In [8]:
# прочитать данные как набор строк файла, первая строка = название столбцов
# lire les données comme un ensemble de lignes de fichier
df_pyspark  = spark.read.option('header', 'true').csv('test1.csv')
df_pyspark.show()

+---------+---+----------+------+
|     Name|age|Experience|Salary|
+---------+---+----------+------+
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+



In [9]:
# проверить схему дата фрейма (имя, возраст, опыт работы, зарплата), все данные строки
# vérifier le schéma de cadre de date (nom, âge, expérience de travail, salaire) , toutes les données de ligne
df_pyspark.printSchema()

root
 |-- Name: string (nullable = true)
 |-- age: string (nullable = true)
 |-- Experience: string (nullable = true)
 |-- Salary: string (nullable = true)



## Прочитать данные с учетом типов (строки, числа и прочее)
## Lire les données en tenant compte des types (chaînes, nombres, etc.)

In [10]:
# прочитать данные как набор строк файла, первая строка = название столбцов
# lire les données comme un ensemble de lignes de fichier
df_pyspark  = spark.read.option('header', 'true').csv('test1.csv', inferSchema=True)
df_pyspark.show()

+---------+---+----------+------+
|     Name|age|Experience|Salary|
+---------+---+----------+------+
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+



In [11]:
# проверить схему дата фрейма (имя, возраст, опыт работы, зарплата), типы данных прочитаны верно
# vérifier le schéma cadre date (nom, âge ,expérience de travail, salaire) , les types de données sont lus correctement
df_pyspark.printSchema()

root
 |-- Name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- Experience: integer (nullable = true)
 |-- Salary: integer (nullable = true)



## Прочитать данные с учетом типов (строки, числа и прочее) и вывести заголовок
## Lire les données en tenant compte des types (chaînes, nombres, etc.) et afficher l'en-tête

In [12]:
# прочитать данные как набор строк файла, первая строка = название столбцов
# lire les données comme un ensemble de lignes de fichier
df_pyspark  = spark.read.option('header', 'true').csv('test1.csv', inferSchema=True, header=True)
df_pyspark.show()

+---------+---+----------+------+
|     Name|age|Experience|Salary|
+---------+---+----------+------+
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+



In [13]:
# проверить схему дата фрейма (имя, возраст, опыт работы, зарплата), типы данных прочитаны верно
# vérifier le schéma cadre date (nom, âge ,expérience de travail, salaire) , les types de données sont lus correctement
df_pyspark.printSchema()

root
 |-- Name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- Experience: integer (nullable = true)
 |-- Salary: integer (nullable = true)



In [14]:
# тип дата фреймы = дата фрейм sparks (структура данных для выполнения операций внутри нее)
# type date frames = date Frame sparks (structure de données pour effectuer des opérations à l'intérieur)
type(df_pyspark)

pyspark.sql.dataframe.DataFrame

## Работа со строками и столбцами
## Utilisation de lignes et de colonnes

In [15]:
# вывести список столбцов дата фрейма
# afficher la liste des colonnes date Frame
df_pyspark.columns

['Name', 'age', 'Experience', 'Salary']

In [16]:
# вывести три первых записи дата фрейма
# afficher les trois premières entrées date Frame
df_pyspark.head(3)

[Row(Name='Krish', age=31, Experience=10, Salary=30000),
 Row(Name='Sudhanshu', age=30, Experience=8, Salary=25000),
 Row(Name='Sunny', age=29, Experience=4, Salary=20000)]

In [17]:
# вывести все записи первого столбца (имя)
# afficher tous les enregistrements de la première colonne (nom)
df_pyspark.select('Name').show()

+---------+
|     Name|
+---------+
|    Krish|
|Sudhanshu|
|    Sunny|
|     Paul|
|   Harsha|
|  Shubham|
+---------+



In [18]:
# тип данной записи есть pyspark дата фрейм (не pandas дата фрейм)
# le type de cette entrée est pyspark date Frame (pas pandas date Frame)
type(df_pyspark.select('Name'))

pyspark.sql.dataframe.DataFrame

In [19]:
# вывести все записи первого и третьего столбца (имя, опыт работы)
# afficher tous les enregistrements de la première et de la troisième colonne (nom, expérience)
df_pyspark.select(['Name','Experience']).show()

+---------+----------+
|     Name|Experience|
+---------+----------+
|    Krish|        10|
|Sudhanshu|         8|
|    Sunny|         4|
|     Paul|         3|
|   Harsha|         1|
|  Shubham|         2|
+---------+----------+



In [20]:
# получить столбец (нельзя получить данные, это способ pandas, тут так не сработает)
# obtenir la colonne (vous ne pouvez pas obtenir les données, c'est la façon dont pandas, ici cela ne fonctionnera pas)
df_pyspark['Name']

Column<'Name'>

## Проверка типов данных дата фрейма
## Vérification des types de données date de trame

In [24]:
# прочитать названия полей и типы полей
# lire les noms de champs et les types de champs
df_pyspark.dtypes

[('Name', 'string'), ('age', 'int'), ('Experience', 'int'), ('Salary', 'int')]

In [23]:
# прочитать сводку про поля и их типы
# lire le résumé sur les champs et leurs types
df_pyspark.describe().show()

+-------+------+------------------+-----------------+------------------+
|summary|  Name|               age|       Experience|            Salary|
+-------+------+------------------+-----------------+------------------+
|  count|     6|                 6|                6|                 6|
|   mean|  null|26.333333333333332|4.666666666666667|21333.333333333332|
| stddev|  null| 4.179314138308661|3.559026084010437| 5354.126134736337|
|    min|Harsha|                21|                1|             15000|
|    max| Sunny|                31|               10|             30000|
+-------+------+------------------+-----------------+------------------+



## Добавление, удаление полей дата сета
## Ajouter, supprimer des champs date du set

In [28]:
# добавить новое поле, данные в котором = опыт + 2 года
# ajouter un nouveau champ de données dans lequel = expérience + 2 ans
df_pyspark.withColumn('Experience after 2 year', df_pyspark['Experience']+2).show()

+---------+---+----------+------+-----------------------+
|     Name|age|Experience|Salary|Experience after 2 year|
+---------+---+----------+------+-----------------------+
|    Krish| 31|        10| 30000|                     12|
|Sudhanshu| 30|         8| 25000|                     10|
|    Sunny| 29|         4| 20000|                      6|
|     Paul| 24|         3| 20000|                      5|
|   Harsha| 21|         1| 15000|                      3|
|  Shubham| 23|         2| 18000|                      4|
+---------+---+----------+------+-----------------------+



In [29]:
# лучше делать так, чтобы новый дата фрейм стал копией старого + еще одно поле
# il est préférable de faire en sorte que le nouveau cadre de date devienne une copie de l'ancien + un autre champ
df_pyspark = df_pyspark.withColumn('Experience after 2 year', df_pyspark['Experience']+2)

In [31]:
# показать содержимое нового дата фрейма
# afficher le contenu du nouveau cadre date
df_pyspark.show()

+---------+---+----------+------+-----------------------+
|     Name|age|Experience|Salary|Experience after 2 year|
+---------+---+----------+------+-----------------------+
|    Krish| 31|        10| 30000|                     12|
|Sudhanshu| 30|         8| 25000|                     10|
|    Sunny| 29|         4| 20000|                      6|
|     Paul| 24|         3| 20000|                      5|
|   Harsha| 21|         1| 15000|                      3|
|  Shubham| 23|         2| 18000|                      4|
+---------+---+----------+------+-----------------------+



In [34]:
# удалить из текущего дата сета столбец и сохранить это в дата сете
# supprimer de la date actuelle set colonne et l'enregistrer dans la date set
df_pyspark = df_pyspark.drop('Experience after 2 year')
df_pyspark.show()

+---------+---+----------+------+
|     Name|age|Experience|Salary|
+---------+---+----------+------+
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+



In [38]:
# переименование колонки дата сета и сохранить это в дата сете
# renommer la colonne date set et enregistrez-le dans la date set
df_pyspark = df_pyspark.withColumnRenamed('Name', 'New name')
df_pyspark.show()

+---------+---+----------+------+
| New name|age|Experience|Salary|
+---------+---+----------+------+
|    Krish| 31|        10| 30000|
|Sudhanshu| 30|         8| 25000|
|    Sunny| 29|         4| 20000|
|     Paul| 24|         3| 20000|
|   Harsha| 21|         1| 15000|
|  Shubham| 23|         2| 18000|
+---------+---+----------+------+

