#pandas
pandas - библиотека, которая позволяет работать с табличными данными

In [1]:
!pip install pandas # если pandas не установлен, следует запустить эту ячейку



In [2]:
import pandas as pd # теперь импортируем pandas в тетрадку / .py файл с кодом

документация для pandas [лежит здесь](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)

Основные элементы "табличек в pandas" - это Series и Dataframe

Series - это объект, похожий на одномерный массив (как обычный список в питоне) с элементами и  индексами вдоль каждого элемента из списка. 

DataFrame "собирается" из таких Series

<img alt="Series vs DataFrame" height="300" width="700" src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" >

# Создание датафрейма

Создать датафрейм можно двумя способами:
- из словаря методом pd.DataFrame.from_dict()
- прочитав .csv файл

попробуем оба способа

### Первый

In [3]:
# шаг 1 создадим словарь

data = {
    "Maria":["London",37],
    "Lorenzo":["Milan",28],
    "Oleg":["Canberra",31],
    "Hans":["Calgary",80],
    "Mark":["Milan",55],
    "Alex":["Krakow",35],
    "Julia":["Murmansk",43]
    
}

# шаг 2 используем метод pd.DataFrame.from_dict()
# аргументом подадим созданный словарь

postcards = pd.DataFrame.from_dict(data, orient="columns").T.rename(columns={0:"city", 1:"age"})

In [4]:
print(postcards)

             city age
Maria      London  37
Lorenzo     Milan  28
Oleg     Canberra  31
Hans      Calgary  80
Mark        Milan  55
Alex       Krakow  35
Julia    Murmansk  43


In [5]:
display(postcards)
# в PyChram не работает функция display()

Unnamed: 0,city,age
Maria,London,37
Lorenzo,Milan,28
Oleg,Canberra,31
Hans,Calgary,80
Mark,Milan,55
Alex,Krakow,35
Julia,Murmansk,43


Создание из словаря списка списков, чтобы числа были int64

In [3]:
import pandas as pd
data = {
    "Maria":["London",37],
    "Lorenzo":["Milan",28],
    "Oleg":["Canberra",31],
    "Hans":["Calgary",80],
    "Mark":["Milan",55],
    "Alex":["Krakow",35],
    "Julia":["Murmansk",43]
    
}
names = list(data.keys()) # индекс таблицы
v = list(data.values()) # столбцы
#print(v)
postcards = pd.DataFrame(v, index=names, columns=['city', 'age'])
postcards
print(postcards.age)

Maria      37
Lorenzo    28
Oleg       31
Hans       80
Mark       55
Alex       35
Julia      43
Name: age, dtype: int64


In [2]:
data_2 = {'index': [('a', 'b'), ('a', 'c')],
        'columns': [('x', 1), ('y', 2)],
        'data': [[1, 3], [2, 4]],
        'index_names': ['n1', 'n2'],
        'column_names': ['z1', 'z2']}

pd.DataFrame.from_dict(data_2, orient='tight')

NameError: name 'pd' is not defined

In [23]:
postcards_2 = pd.DataFrame(data)
print(postcards_2.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Maria    2 non-null      object
 1   Lorenzo  2 non-null      object
 2   Oleg     2 non-null      object
 3   Hans     2 non-null      object
 4   Mark     2 non-null      object
 5   Alex     2 non-null      object
 6   Julia    2 non-null      object
dtypes: object(7)
memory usage: 240.0+ bytes
None


### Второй способ

In [26]:
# прочитаем .csv файл методом pd.read_csv()

recipes = pd.read_csv("christmas_recipes.csv", encoding="utf-8", sep=',') # есть другие аргументы: sep, decimal и др.

### Как посмотреть на часть датафрейма

понадобятся методы ```.head()```, ```.tail()``` или индексация

In [27]:
print(recipes.head(2)) # по умолчанию показывает 5 строк

                         Title  Time       Servings  \
0         Perfect roast turkey   180  10 serving(s)   
1  Stuffed roast turkey breast   180   8 serving(s)   

                                         Ingredients  \
0  ['20ml/¾fl oz rapeseed oil', '1 x 5kg/11lb goo...   
1  ['1 tbsp sunflower oil', '1 onion, finely chop...   

                                        Instructions  \
0  Remove the turkey from the fridge and bring to...   
1  To make the stuffing, heat the oil and gently ...   

                                               Image  
0  https://ichef.bbci.co.uk/food/ic/food_16x9_832...  
1  https://ichef.bbci.co.uk/food/ic/food_16x9_832...  


In [28]:
# первые строки
recipes.head(2)

# для PyCharm
# print(recipes.head(2))

Unnamed: 0,Title,Time,Servings,Ingredients,Instructions,Image
0,Perfect roast turkey,180,10 serving(s),"['20ml/¾fl oz rapeseed oil', '1 x 5kg/11lb goo...",Remove the turkey from the fridge and bring to...,https://ichef.bbci.co.uk/food/ic/food_16x9_832...
1,Stuffed roast turkey breast,180,8 serving(s),"['1 tbsp sunflower oil', '1 onion, finely chop...","To make the stuffing, heat the oil and gently ...",https://ichef.bbci.co.uk/food/ic/food_16x9_832...


In [11]:
# последние строки
recipes.tail(3)

# для PyCharm
# print(recipes.tail(3))

Unnamed: 0,Title,Time,Servings,Ingredients,Instructions,Image
39,Sticky cranberry sausages,30,10 serving(s),"['2 red onions, sliced', '2 tbsp olive oil', '...",Fry the sliced red onions in a pan with the oi...,https://ichef.bbci.co.uk/food/ic/food_16x9_832...
40,Easy bread sauce,30,8 serving(s),"['1 large onion, peeled', '6 cloves', '1 bay l...",Press all the cloves into the whole peeled oni...,https://ichef.bbci.co.uk/food/ic/food_16x9_832...
41,Slow cooker honey roast ham,150,10 serving(s),"['1.6kg/3lb 8oz boneless, rolled smoked or uns...","Put the gammon, onion and 100ml/3½fl oz water ...",https://ichef.bbci.co.uk/food/ic/food_16x9_832...


In [12]:
# часть датафрейма по  индексам строчек
recipes[15:18]

# для PyCharm
# print(rrecipes[15:18])

Unnamed: 0,Title,Time,Servings,Ingredients,Instructions,Image
15,Slow cooked gammon with mustard sauce,150,12 serving(s),"['3kg/6lb 8oz unsmoked gammon joint, off the b...",Preheat the oven to 160C/140C Fan/Gas 3.\nTo m...,https://ichef.bbci.co.uk/food/ic/food_16x9_832...
16,Christmas roast duck,180,6 serving(s),"['1.5kg/3lb 5oz potatoes, peeled and thinly sl...",Arrange the shelves of your oven so that there...,https://ichef.bbci.co.uk/food/ic/food_16x9_832...
17,Roast goose,150,6 serving(s),"['1 x 5kg/11lb oven-ready goose', '1 onion, pe...",Preheat the oven to 200C/180C Fan/Gas 6.\nPlac...,https://ichef.bbci.co.uk/food/ic/food_16x9_832...


# Характеристики датафрейма

In [15]:
#размеры датафрейма

print(postcards.shape)
print(recipes.shape)

(7, 2)
(42, 6)


In [16]:
# описание датафрейма

print(postcards.info())
print(recipes.info())

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Maria to Julia
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   city    7 non-null      object
 1   age     7 non-null      object
dtypes: object(2)
memory usage: 168.0+ bytes
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Title         42 non-null     object
 1   Time          42 non-null     int64 
 2   Servings      42 non-null     object
 3   Ingredients   42 non-null     object
 4   Instructions  42 non-null     object
 5   Image         42 non-null     object
dtypes: int64(1), object(5)
memory usage: 2.1+ KB
None


In [17]:
# изменим тип колонки age на числовой методом .astype()

postcards["age"] = postcards["age"].astype("int64")
print(postcards.info())

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Maria to Julia
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   city    7 non-null      object
 1   age     7 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 168.0+ bytes
None


### Как посмотреть, где живет конкретный человек?

Чтобы найти нужную строку, нам нужны индексы. 
Посмотрим на примере датасета с людьми и городами. У нашего датафрейма есть две оси: по строкам(нулевая, она же  index) и столбцам(первая, она же columns)


In [24]:
print(postcards.index)

Index(['Maria', 'Lorenzo', 'Oleg', 'Hans', 'Mark', 'Alex', 'Julia'], dtype='object')


In [19]:
print(postcards.columns)

Index(['city', 'age'], dtype='object')


In [25]:
print(recipes.index)

NameError: name 'recipes' is not defined

In [22]:
# пересечение индексов выдаст конкретную ячейку: ищем где живет Мария

postcards.loc['Maria']["city"]

'London'

**Получить строку по индексу** можно двумя способами:

- именной индекс, по "названию" строки в колонке "Index", (первая колонка датафрейма, у нас это имена людей)
- порядковый индекс, по номеру строки в датафрейме (нумерация с 0)

Для именного поиска понадобится метод ```.loc[]```, для порядкового -- ```.iloc[]```

In [23]:
print(postcards.iloc[3], "\n")

print(postcards.loc["Hans"])

city    Calgary
age          80
Name: Hans, dtype: object 

city    Calgary
age          80
Name: Hans, dtype: object


**Указав название колонки**,  можно аналогично посмотреть все значения в ней

In [24]:
print(postcards["age"])

Maria      37
Lorenzo    28
Oleg       31
Hans       80
Mark       55
Alex       35
Julia      43
Name: age, dtype: int64


In [25]:
# напечатайте города
print(postcards["city"])

Maria        London
Lorenzo       Milan
Oleg       Canberra
Hans        Calgary
Mark          Milan
Alex         Krakow
Julia      Murmansk
Name: city, dtype: object


# Операции с датафреймами

### Добавление колонок и строк в датафрейм

В датафрейм можно добавить новые колонки: понадобится метод ```.assign()```

In [28]:
postcards = postcards.assign(job=['Artist',"Teacher","Chef","Artist","Manager","Chef","Engineer"])

display(postcards)
print(postcards)

Unnamed: 0,city,age,job
Maria,London,37,Artist
Lorenzo,Milan,28,Teacher
Oleg,Canberra,31,Chef
Hans,Calgary,80,Artist
Mark,Milan,55,Manager
Alex,Krakow,35,Chef
Julia,Murmansk,43,Engineer


             city  age       job
Maria      London   37    Artist
Lorenzo     Milan   28   Teacher
Oleg     Canberra   31      Chef
Hans      Calgary   80    Artist
Mark        Milan   55   Manager
Alex       Krakow   35      Chef
Julia    Murmansk   43  Engineer


In [29]:
# 2 способ - похож на добавление ключей в словарь
degrees = ['BA', 'MA', 'MA', 'PhD', 'Postdoc', 'BA', 'PhD']
postcards["degree"] = degrees

display(postcards)
# print(postcards)

Unnamed: 0,city,age,job,degree
Maria,London,37,Artist,BA
Lorenzo,Milan,28,Teacher,MA
Oleg,Canberra,31,Chef,MA
Hans,Calgary,80,Artist,PhD
Mark,Milan,55,Manager,Postdoc
Alex,Krakow,35,Chef,BA
Julia,Murmansk,43,Engineer,PhD


Добавить строки тоже можно: методом ```.append()```

In [30]:
df = pd.DataFrame.from_dict({"Alice":["NY", 36, "Engineer", "MA"]},
                           orient="index",
                           columns=postcards.columns)

display(df)
# print(df)

Unnamed: 0,city,age,job,degree
Alice,NY,36,Engineer,MA


In [31]:
# шаг2 добавим новый df к старому
postcards = postcards.append(df)
postcards

# что будет, если запустить .append() несколько раз?

  postcards = postcards.append(df)


Unnamed: 0,city,age,job,degree
Maria,London,37,Artist,BA
Lorenzo,Milan,28,Teacher,MA
Oleg,Canberra,31,Chef,MA
Hans,Calgary,80,Artist,PhD
Mark,Milan,55,Manager,Postdoc
Alex,Krakow,35,Chef,BA
Julia,Murmansk,43,Engineer,PhD
Alice,NY,36,Engineer,MA


### что делать, если добавились ненужные строки? 

Если есть дубликаты уже существующих строк, понадобится метод ```.drop_duplicates()```

In [32]:
postcards.drop_duplicates(inplace=True)
display(postcards)
# print(postcards)

Unnamed: 0,city,age,job,degree
Maria,London,37,Artist,BA
Lorenzo,Milan,28,Teacher,MA
Oleg,Canberra,31,Chef,MA
Hans,Calgary,80,Artist,PhD
Mark,Milan,55,Manager,Postdoc
Alex,Krakow,35,Chef,BA
Julia,Murmansk,43,Engineer,PhD
Alice,NY,36,Engineer,MA


Если удалить нужно любую строку или столбец, понадобится метод ```.drop()``` 
- axis=0 если нужно удалить строку
- axis=1 если нужно удалить колонку

In [35]:
postcards.drop("Mark",axis=0, inplace=True)

In [36]:
postcards.drop("city", axis=1)

Unnamed: 0,age,job,degree
Maria,37,Artist,BA
Lorenzo,28,Teacher,MA
Oleg,31,Chef,MA
Hans,80,Artist,PhD
Alex,35,Chef,BA
Julia,43,Engineer,PhD
Alice,36,Engineer,MA


In [37]:
display(postcards)
# print(postcards)

Unnamed: 0,city,age,job,degree
Maria,London,37,Artist,BA
Lorenzo,Milan,28,Teacher,MA
Oleg,Canberra,31,Chef,MA
Hans,Calgary,80,Artist,PhD
Alex,Krakow,35,Chef,BA
Julia,Murmansk,43,Engineer,PhD
Alice,NY,36,Engineer,MA


Чтобы изменения вошли в силу, реультат выражения нужно сохранить в переменную, либо добавить аргумент inplace=True 

In [40]:
postcards = postcards.drop("city", axis=1)
# в этой ячейке можете попробовать

KeyError: "['city'] not found in axis"

### Сохранение датафрейма в файл 

In [None]:
# сохраним в .csv файл

postcards.to_csv('postcards.csv') 
# postcards.to_excel('postcards.csv') 

### Фильтры и прочие манипуляции

In [None]:
# посмотрим, кто работает шеф-поваром
# квадратные скобки создают подвыборку из датасета, удовлетворяющую условиям

postcards[ postcards["job"] == "Chef" ]

# print(postcards[ postcards["job"] == "Chef" ])

In [None]:
# поищем всех людей старше 40

postcards[ postcards["age"] > 40 ]

In [None]:
# условия можно компоновать логическими операторами
# синтаксис: df[(условие1) оператор (условие2)]

#ищем, кто старше 30 и не работает шеф-поваром

postcards[ (postcards["age"] > 30) & (postcards["job"] != "Chef")]

Над значениями в колонках можно производить различные операции:
* например, арифметические (если данные количественные):

In [None]:
# postcards.age.sum()
# postcards.age.mean()
# postcards.age.min()
# postcards.age.max()

Если данные категориальные, можно искать уникальные значения, упорядочивать по алфавиту и тд

In [None]:
# postcards.job.values # все значения 
# postcards.job.value_counts() # число повторов
# postcards.job.sort_values() # сортировка

# postcards.job.unique() # все уникальные в колонке
# postcards.job.nunique() # сколько уникальных в колонке

### Дополнительное задание: колонии

Вы работаете с датасетом от Гарвардского университета, в котором хранится информация о государствах - бывших колониях. Посчитайте:
* количество этих государств (Country Name)
* среднюю продолжительность колониального периода (COLYEARS)
* максимальную продолжительность зависимости (COLYEARS)

Скачать данные можно здесь: https://raw.githubusercontent.com/AnnSenina/Python_for_CL/main/data/Colonial.csv

### Дополнительное задание 2: тревожность и телевидение

Вы изучаете взаимосвязь тревожности и просмотра телевиденья. Вам необходимо расчитать следующие характеристики:

* Сколько человек приняло участие в исследовании?
* Каков минимальный и максимальный возраст участников?
* Сколько в выборке женщин?
* Какое среднее значение тревожности наблюдается в данных?

Скачать данные можно здесь: https://raw.githubusercontent.com/AnnSenina/Python_for_CL/main/data/socio.scv