## Урок 4. Библиотека pandas. Basic


### 1. Подключение библиотеки и обзор данных 

Библиотека — коллекция модулей и пакетов, которые предоставляют готовые функции и инструменты для выполнения различных задач. 

Библиотеки упрощают разработку программ, поскольку они предоставляют готовые решения для типовых задач, таких как работа с базами данных, обработка данных, создание графиков, обработка изображений, веб-разработка и многое другое.

**Библиотека pandas** — самый популярный инструмент Python для работы с таблицами.

Библиотека pandas умеет:
- извлекать данные из разных источников: от текстовых файлов до баз данных;
- устранять проблемы в данных — например повторяющиеся и пропущенные значения;
- добавлять, удалять и менять табличные данные;
- объединять данные в группы и вычислять для них агрегированные показатели: сумму, среднее, количество значений и так далее;
- одновременно работать с данными из нескольких файлов.

**Документация pandas:** https://pandas.pydata.org/docs/user_guide/index.html

Установка:

In [None]:
pip install pandas

conda install pandas

Подключение:

In [43]:
from pandas import DataFrame 

In [46]:
import pandas as pd

In [47]:
pd.Series()

Series([], dtype: object)

In [44]:
DataFrame()

In [2]:
# присваиваем краткое название библиотеки для удобства в использовании
import pandas as pd

In [48]:
# список в список выступает в качестве основных (строчных) данных
data = [
    ['Таджикистан', 'Душанбе'],  
    ['Франция','Париж'],  
    ['Россия','Москва'],  
    ['Китай','Пекин'],  
    ['Мексика','Мехико'],  
    ['Египет','Каир']  
] 

# данные должны иметь названия, в виде столбцов
columns_name = ['country', 'capital']

In [51]:
data

[['Таджикистан', 'Душанбе'],
 ['Франция', 'Париж'],
 ['Россия', 'Москва'],
 ['Китай', 'Пекин'],
 ['Мексика', 'Мехико'],
 ['Египет', 'Каир']]

In [52]:
columns_name

['country', 'capital']

In [50]:
# создадим таблицу при помощи функции 'pd.DataFrame'
world_df = pd.DataFrame(data=data, columns=columns_name) 

world_df

Unnamed: 0,country,capital
0,Таджикистан,Душанбе
1,Франция,Париж
2,Россия,Москва
3,Китай,Пекин
4,Мексика,Мехико
5,Египет,Каир


In [53]:
# пример со списком кортежей 
data = [('Таджикистан', 'Душанбе'), ('Франция','Париж'), ('Россия','Москва')]
columns = ('country', 'capital')

df = pd.DataFrame(data=data, columns=columns)

df

Unnamed: 0,country,capital
0,Таджикистан,Душанбе
1,Франция,Париж
2,Россия,Москва


In [64]:
# пример со словарем
data = {'Name': ['Zarofat', 'Mino', 'Azim'],
        'Age': [55, 25, 25],
        'City': ['Dushanbe', 'New York', 'Moscow'],
        'Time': [None, '2024-01-01', '2025-01-02']}

people_info = pd.DataFrame(data)

people_info

Unnamed: 0,Name,Age,City,Time
0,Zarofat,55,Dushanbe,
1,Mino,25,New York,2024-01-01
2,Azim,25,Moscow,2025-01-02


Датафрейм хранит не только сами данные, но и общую информацию об этих данных. Примеры атрибутов:

In [None]:
print(people_info.dtypes, '\n')    # тип данных каждого столбца, где 'object' - это 'str'
print(people_info.columns, '\n')   # название колонок
print(people_info.shape, '\n')     # размер таблицы где (кол-во строк, кол-во столбцов)
print(people_info.info())          # запрос всех атрибутов
print(people_info.head())          # вывод строк с НАЧАЛА в зависимости от заданного аргумента
print(people_info.tail())          # вывод строк с КОНЦА в зависимости от заданного аргумента

In [55]:
people_info.dtypes

Name    object
Age      int64
City    object
dtype: object

In [56]:
people_info.columns

Index(['Name', 'Age', 'City'], dtype='object')

In [62]:
people_info.shape[0]

3

In [68]:
people_info.tail(1)

Unnamed: 0,Name,Age,City,Time
2,Azim,25,Moscow,2025-01-02


In [None]:
print(people_info.dtypes)    # тип данных каждого столбца, где 'object' - это 'str'

In [None]:
print(people_info.columns)

In [None]:
print(world_df.shape)

In [None]:
people_info.info()

In [None]:
world_df

In [None]:
world_df.tail(1)

### 2. Индексация в DataFrame

In [69]:
people_info

Unnamed: 0,Name,Age,City,Time
0,Zarofat,55,Dushanbe,
1,Mino,25,New York,2024-01-01
2,Azim,25,Moscow,2025-01-02


In [70]:
people_info.loc[1, 'Age']  

25

In [72]:
people_info.iloc[1, 1]  

25

In [74]:
people_info.iloc[:, 2]  

0    Dushanbe
1    New York
2      Moscow
Name: City, dtype: object

In [75]:
people_info

Unnamed: 0,Name,Age,City,Time
0,Zarofat,55,Dushanbe,
1,Mino,25,New York,2024-01-01
2,Azim,25,Moscow,2025-01-02


In [None]:
people_info.loc[:, ['Name', 'Age']] 

In [84]:
people_info.iloc[:, :-1]

Unnamed: 0,Name,Age,City
0,Zarofat,55,Dushanbe
1,Mino,25,New York
2,Azim,25,Moscow


In [None]:
people_info.loc[1, 'Age']               # Одна ячейка 
people_info.loc[:, 'Age']               # Один столбец
people_info.loc[:, ['Name', 'Age']]     # Несколько столбцов
people_info.loc[:, 'Name': 'City']      # Несколько столбцов подряд

In [None]:
people_info.loc[:, 'Name']

In [None]:
people_info.loc[:, ['Name', 'City']]

In [None]:
people_info.loc[:, 'Name': 'City'] 

In [None]:
people_info.loc[1]                      # Одна строка
people_info.loc[1:]                     # Все строки начиная с заданной
people_info.loc[:3]                     # Все строки до заданной
people_info.loc[2:5]                    # Несколько строк подряд (срез)

In [None]:
people_info.iloc[1]

In [None]:
people_info.loc[2]

In [None]:
people_info.loc[0:]

In [None]:
people_info.loc[:0]

In [None]:
world_df.iloc[2:5]

### 3. Добавление данных в DataFrame

In [89]:
# новая строка для добавления
new_row = {'Name': 'Malika', 'Age': 7000, 'City': 'Valencia', 'Time': '2017-12-17'}

# используем метод loc[]
people_info.loc[3] = new_row

In [103]:
people_info['Surname'] = people_info['Name'] + 'ov' 

In [107]:
people_info['xsxsx'] = None

In [104]:
people_info = people_info[['Name', 'Surname', 'Age', 'City', 'Time']]

In [None]:
people_info.drop(columns='xsxsx', inplace=True)

In [118]:
people_info

Unnamed: 0,Name,Surname,Age,City,Time
0,Zarofat,Zarofatov,55,Dushanbe,
1,Mino,Minoov,25,New York,2024-01-01
2,Azim,Azimov,25,Moscow,2025-01-02
3,Malika,Malikaov,7000,Valencia,2017-12-17


In [134]:
people_info[people_info['Age'].lt(7000)]

Unnamed: 0,Name,Surname,Age,City,Time
0,Zarofat,Zarofatov,55,Dushanbe,
1,Mino,Minoov,25,New York,2024-01-01
2,Azim,Azimov,25,Moscow,2025-01-02


In [119]:
for_del = people_info[people_info['Name'].eq('Malika')]

In [121]:
x = people_info[~people_info.isin(for_del)]

In [123]:
not (5 != 6)

False

In [122]:
x

Unnamed: 0,Name,Surname,Age,City,Time
0,Zarofat,Zarofatov,55.0,Dushanbe,
1,Mino,Minoov,25.0,New York,2024-01-01
2,Azim,Azimov,25.0,Moscow,2025-01-02
3,,,,,


In [67]:
#-----------------------------------------------------------------------------------
# добавление нового столбца
people_info.loc[:,'Birth_Year'] = 2024 - people_info.loc[:, 'Age']       

In [None]:
people_info

### 4. pd.Series

In [137]:
a = [100, 700, 'azim']

my_var = pd.Series(a)

# type(a)

In [139]:
people_info

Unnamed: 0,Name,Surname,Age,City,Time
0,Zarofat,Zarofatov,55,Dushanbe,
1,Mino,Minoov,25,New York,2024-01-01
2,Azim,Azimov,25,Moscow,2025-01-02
3,Malika,Malikaov,7000,Valencia,2017-12-17


In [138]:
my_var

0     100
1     700
2    azim
dtype: object

In [None]:
print(my_var)

In [None]:
my_var[2]

In [None]:
people_info

In [141]:
new_column = [False, True, False, True]
people_info['Is_student'] = new_column

In [145]:
people_info['Age'] > 25

0     True
1    False
2    False
3     True
Name: Age, dtype: bool

In [143]:
people_info['is_worker'] = people_info['Age'] > 25

In [149]:
people_info['is_worker']

0     True
1    False
2    False
3     True
Name: is_worker, dtype: bool

In [147]:
people_info[~people_info.is_worker]

Unnamed: 0,Name,Surname,Age,City,Time,Is_student,is_worker
1,Mino,Minoov,25,New York,2024-01-01,True,False
2,Azim,Azimov,25,Moscow,2025-01-02,False,False


In [None]:
people_info.loc[:,'Is_student'] = new_column 

In [150]:
# cоздаем pd.Series для каждого столбца
name_series = pd.Series(['Zarofat', 'Mino', 'Azim'], name='Name')
age_series = pd.Series([55, 25, 25], name='Age')
city_series = pd.Series(['Dushanbe', 'New York', 'Moscow'], name='City')

# cоздаем pd.DataFrame из pd.Series
df = pd.DataFrame([name_series, age_series, city_series])

# транспонируем DataFrame для правильного представления
# df = df.T

# df

In [152]:
df.T

Unnamed: 0,Name,Age,City
0,Zarofat,55,Dushanbe
1,Mino,25,New York
2,Azim,25,Moscow


In [160]:
people_info.sort_values(['Age', 'Time'], ascending=[False, True])

Unnamed: 0,Name,Surname,Age,City,Time,Is_student,is_worker
3,Malika,Malikaov,7000,Valencia,2017-12-17,True,True
0,Zarofat,Zarofatov,55,Dushanbe,,False,True
1,Mino,Minoov,25,New York,2024-01-01,True,False
2,Azim,Azimov,25,Moscow,2025-01-02,False,False


In [161]:
from datetime import date, datetime

In [162]:
people_info['Time'] = people_info['Time'].astype('datetime64[ns]') 

In [None]:
people_info['Age'] = people_info['Age'].astype('int64') 

In [173]:
people_info['Age'] = people_info['Age'].astype('Int64') 

In [165]:
import numpy as np

In [170]:
people_info.loc[len(people_info)] = np.nan

  people_info.loc[len(people_info)] = np.nan


In [179]:
people_info.dropna(inplace=True)

In [182]:
from loguru import logger

In [190]:
columns

('country', 'capital')

### Классная работа: Создать `DataFrame` 10x10. В данном `DataFrame` должны присутствовать дубликаты и нулевые значения. Выведите кросс-чек (проверку), которая позволит вам определить:
- Выведите краткую информацию об: кол-во строк и колонок, название колонок, краткая сводка по таблице + типы данных;
- Дубликаты (вывод ошибки и самих дублирующихся строк);
- Нулевые значение (вывод ошибки и самих нулевых строк);
- Проверку на пустоту вашего `DataFrame`.

In [None]:
if people_info[columns].duplicated().any():
    # logger.error("Database don't any data")
    raise Warning('Pls check your DB')

In [None]:
people_info['Age'].duplicated().any()

In [177]:
people_info[people_info.dropna()]

KeyError: "None of [Index(['Dushanbe', 'New York', 'Moscow', 'Valencia'], dtype='object')] are in the [columns]"

In [169]:
# people_info.drop(columns=4, inplace=True)

In [None]:
df.sort_values(by='Name', ascending=True)

In [None]:
bank_data = {
            'Name': ['Said', 'Umed', 'Firuz', 'Qosim', 'Azim', 'Malika', 'Aziza', 'Azamat'],
            'Salary':[2000, 1500, 3000, 10000, 2000, 1500, 3000, 10000],
            'Gender':['Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Female', 'Female'],
            'City':['Dushanbe', 'Dushanbe', 'Dushanbe', 'Kulob', 'Dushanbe', 'Hisor', 'Khujand', 'Kulob'],
            'Married':[True, False, False, True, False, False, True, True],
             'Age':[25, 27, 31, None, 33, 87, 15, 60]
            }

bank_df = pd.DataFrame(bank_data)

bank_df

In [114]:
bank_df.rename(columns={'Age':'возраст'}, inplace=True)

In [None]:
bank_df.loc[3:]

In [None]:
bank_df.sort_values('Salary', ascending=False)

In [128]:
bank_df['возраст'] = bank_df['возраст'].astype('object')

In [None]:
bank_df.info()