<a href="https://colab.research.google.com/github/AnnSenina/Python_for_CL/blob/main/notebooks/Python_8_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#pandas
pandas - библиотека, которая позволяет работать с табличными данными

In [3]:
!pip install pandas # если pandas не установлен, следует запустить эту ячейку

In [4]:
import pandas as pd # теперь импортируем pandas в тетрадку / .py файл с кодом

документация для pandas [лежит здесь](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)

Основные элементы "табличек в pandas" - это Series и Dataframe

Series - это объект, похожий на одномерный массив (как обычный список в питоне) с элементами и  индексами вдоль каждого элемента из списка. 

DataFrame "собирается" из таких Series

<img alt="Series vs DataFrame" height="300" width="700" src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" >

# Создание датафрейма

Создать датафрейм можно двумя способами:
- из словаря методом pd.DataFrame.from_dict()
- прочитав .csv файл

попробуем оба способа

### Первый

In [5]:
# шаг 1 создадим словарь

data = {
    "Maria":["London",37],
    "Lorenzo":["Milan",28],
    "Oleg":["Canberra",31],
    "Hans":["Calgary",80],
    "Mark":["Milan",55],
    "Alex":["Krakow",35],
    "Julia":["Murmansk",43]
    
}

# шаг 2 используем метод pd.DataFrame.from_dict()
# аргументом подадим созданный словарь

postcards = pd.DataFrame.from_dict(data, orient="columns").T.rename(columns={0:"city", 1:"age"})

In [None]:
print(postcards)

In [None]:
display(postcards)
# в PyChram не работает функция display()

### Второй способ

In [9]:
# прочитаем .csv файл методом pd.read_csv()

recipes = pd.read_csv("christmas_recipes.csv", encoding="utf-8") # есть другие аргументы: sep, decimal и др.

### Как посмотреть на часть датафрейма

понадобятся методы ```.head()```, ```.tail()``` или индексация

In [None]:
print(recipes.head(2)) # по умолчанию показывает 5 строк

In [None]:
# первые строки
recipes.head(2)

# для PyCharm
# print(recipes.head(2))

In [None]:
# последние строки
recipes.tail(3)

# для PyCharm
# print(recipes.tail(3))

In [None]:
# часть датафрейма по  индексам строчек
recipes[15:18]

# для PyCharm
# print(rrecipes[15:18])

# Характеристики датафрейма

In [13]:
#размеры датафрейма

print(postcards.shape)
# print(recipes.shape)

(7, 2)


In [None]:
# описание датафрейма

print(postcards.info())
# print(recipes.info())

In [None]:
# изменим тип колонки age на числовой методом .astype()

postcards["age"] = postcards["age"].astype("int64")
print(postcards.info())

### Как посмотреть, где живет конкретный человек?

Чтобы найти нужную строку, нам нужны индексы. 
Посмотрим на примере датасета с людьми и городами. У нашего датафрейма есть две оси: по строкам(нулевая, она же  index) и столбцам(первая, она же columns)


In [18]:
print(postcards.index)

Index(['Maria', 'Lorenzo', 'Oleg', 'Hans', 'Mark', 'Alex', 'Julia'], dtype='object')

In [None]:
print(postcards.columns)

In [None]:
# пересечение индексов выдаст конкретную ячейку: ищем где живет Мария

postcards.loc['Maria']["city"]

**Получить строку по индексу** можно двумя способами:

- именной индекс, по "названию" строки в колонке "Index", (первая колонка датафрейма, у нас это имена людей)
- порядковый индекс, по номеру строки в датафрейме (нумерация с 0)

Для именного поиска понадобится метод ```.loc[]```, для порядкового -- ```.iloc[]```

In [None]:
print(postcards.iloc[3], "\n")

print(postcards.loc["Hans"])

**Указав название колонки**,  можно аналогично посмотреть все значения в ней

In [None]:
print(postcards["age"])

In [None]:
# напечатайте города


# Операции с датафреймами

### Добавление колонок и строк в датафрейм

В датафрейм можно добавить новые колонки: понадобится метод ```.assign()```

In [None]:
postcards = postcards.assign(job=['Artist',"Teacher","Chef","Artist","Manager","Chef","Engineer"])

# display(postcards)
# print(postcards)

In [24]:
# 2 способ - похож на добавление ключей в словарь
degrees = ['BA', 'MA', 'MA', 'PhD', 'Postdoc', 'BA', 'PhD']
postcards["degree"] = degrees

# display(postcards)
# print(postcards)

Добавить строки тоже можно: методом ```.append()```

In [34]:
df = pd.DataFrame.from_dict({"Alice":["NY", 36, "Engineer", "MA"]},
                           orient="index",
                           columns=postcards.columns)

# display(df)
# print(df)

In [None]:
# шаг2 добавим новый df к старому
postcards = postcards.append(df)
postcards

# что будет, если запустить .append() несколько раз?

### что делать, если добавились ненужные строки? 

Если есть дубликаты уже существующих строк, понадобится метод ```.drop_duplicates()```

In [None]:
postcards.drop_duplicates(inplace=True)
# display(postcards)
# print(postcards)

Если удалить нужно любую строку или столбец, понадобится метод ```.drop()``` 
- axis=0 если нужно удалить строку
- axis=1 если нужно удалить колонку

In [None]:
postcards.drop("Mark",axis=0)

In [None]:
postcards.drop("city", axis=1)

In [None]:
# display(postcards)
# print(postcards)

Чтобы изменения вошли в силу, реультат выражения нужно сохранить в переменную, либо добавить аргумент inplace=True 

In [None]:
postcards = postcards.drop("city", axis=1)
# в этой ячейке можете попробовать

### Сохранение датафрейма в файл 

In [None]:
# сохраним в .csv файл

postcards.to_csv('postcards.csv') 

### Фильтры и прочие манипуляции

In [None]:
# посмотрим, кто работает шеф-поваром
# квадратные скобки создают подвыборку из датасета, удовлетворяющую условиям

postcards[ postcards["job"] == "Chef" ]

# print(postcards[ postcards["job"] == "Chef" ])

In [None]:
# поищем всех людей старше 40

postcards[ postcards["age"] > 40 ]

In [None]:
# условия можно компоновать логическими операторами
# синтаксис: df[(условие1) оператор (условие2)]

#ищем, кто старше 30 и не работает шеф-поваром

postcards[ (postcards["age"] > 30) & (postcards["job"] != "Chef")]

Над значениями в колонках можно производить различные операции:
* например, арифметические (если данные количественные):

In [None]:
# postcards.age.sum()
# postcards.age.mean()
# postcards.age.min()
# postcards.age.max()

Если данные категориальные, можно искать уникальные значения, упорядочивать по алфавиту и тд

In [None]:
# postcards.job.values # все значения 
# postcards.job.value_counts() # число повторов
# postcards.job.sort_values() # сортировка

# postcards.job.unique() # все уникальные в колонке
# postcards.job.nunique() # сколько уникальных в колонке

### Дополнительное задание: колонии

Вы работаете с датасетом от Гарвардского университета, в котором хранится информация о государствах - бывших колониях. Посчитайте:
* количество этих государств (Country Name)
* среднюю продолжительность колониального периода (COLYEARS)
* максимальную продолжительность зависимости (COLYEARS)

Скачать данные можно здесь: https://raw.githubusercontent.com/AnnSenina/Python_for_CL/main/data/Colonial.csv

### Дополнительное задание 2: тревожность и телевидение

Вы изучаете взаимосвязь тревожности и просмотра телевиденья. Вам необходимо расчитать следующие характеристики:

* Сколько человек приняло участие в исследовании?
* Каков минимальный и максимальный возраст участников?
* Сколько в выборке женщин?
* Какое среднее значение тревожности наблюдается в данных?

Скачать данные можно здесь: https://raw.githubusercontent.com/AnnSenina/Python_for_CL/main/data/socio.scv