<a href="https://colab.research.google.com/github/AnnSenina/Python_DH_2023/blob/main/notebooks/Python_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#pandas
pandas - библиотека, которая позволяет работать с табличными данными

[[1, 2], [3, 4]]

In [None]:
!pip install pandas # если pandas не установлен, следует запустить эту ячейку

In [None]:
import pandas as pd # теперь импортируем pandas в тетрадку / .py файл с кодом

документация для pandas [лежит здесь](https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html)

Основные элементы "табличек в pandas" - это Series и Dataframe

Series - это объект, похожий на одномерный массив (как обычный список в питоне) с элементами и  индексами вдоль каждого элемента из списка. 

DataFrame "собирается" из таких Series

<img alt="Series vs DataFrame" height="300" width="700" src="https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png" >

# Создание датафрейма

Создать датафрейм можно двумя способами:
- из словаря методом pd.DataFrame.from_dict()
- прочитав .csv файл

попробуем оба способа

### Первый способ

In [None]:
b = [[1, 2.1], [3, 4.444]]
b_df = pd.DataFrame(b) # краткий способ
b_df

In [None]:
b_df.info()

In [None]:
b_df

In [None]:
# напрямую из словаря

data = {
    "Maria":["London",37], 
    "Lorenzo":["Milan",28],
    "Oleg":["Canberra",31],
    "Hans":["Calgary",80],
    "Mark":["Milan",55],
    "Alex":["Krakow",35],
    "Julia":["Murmansk",43]  
}

# шаг 2 используем метод pd.DataFrame.from_dict()
# аргументом подадим созданный словарь
# Но! тип данных нужно будет исправить

postcards = pd.DataFrame.from_dict(data, orient="columns").T.rename(columns={0:"city", 1:"age"})

In [None]:
names = list(data.keys()) # индекс таблицы
v = list(data.values()) # столбцы таблицы

postcards = pd.DataFrame(v, index=names, columns=['city', 'age'])
# postcards = pd.DataFrame(v) - основа таблицы
# аргумент index - задает индекс датафрейма (имя строки) 
# аргумент columns - задает названия столбцов
postcards

In [None]:
postcards

### Второй способ

In [None]:
# прочитаем .csv файл методом pd.read_csv()

recipes = pd.read_csv("christmas_recipes.csv", encoding="utf-8", sep=",") # есть другие аргументы: sep, decimal и др.

### Как посмотреть на часть датафрейма

понадобятся методы ```.head()```, ```.tail()``` или индексация

In [None]:
recipes.head(2) # по умолчанию показывает первые 5 строк

In [None]:
recipes.tail(3) # последние строки (по умолчанию их тоже 5)

In [None]:
recipes[15:18] # часть датафрейма по  индексам строчек

# Характеристики датафрейма

In [None]:
#размеры датафрейма

print(postcards.shape)
print(recipes.shape)

In [None]:
# описание датафрейма

print(postcards.info())
print(recipes.info())

In [None]:
# object - текст (аналог в Python str)
# int64 - число (аналог в Python int)

In [None]:
# изменим тип колонки age на числовой методом .astype()

postcards["age"] = postcards["age"].astype("int64")
print(postcards.info())

### Как посмотреть, где живет конкретный человек?

Чтобы найти нужную строку, нам нужны индексы. 
Посмотрим на примере датасета с людьми и городами. У нашего датафрейма есть две оси: по строкам(нулевая, она же  index) и столбцам(первая, она же columns)


In [None]:
print(postcards.index) # смотрим на индексы = имена строк (если они есть)

Index(['Maria', 'Lorenzo', 'Oleg', 'Hans', 'Mark', 'Alex', 'Julia'], dtype='object')


In [None]:
print(recipes.index)

In [None]:
print(postcards.columns) # смотрим на столбцы

In [None]:
# пересечение индексов выдаст конкретную ячейку: ищем где живет Мария

postcards.loc['Maria']["city"]

**Получить строку по индексу** можно двумя способами:

- именной индекс, по "названию" строки в колонке "Index", (первая колонка датафрейма, у нас это имена людей)
- порядковый индекс, по номеру строки в датафрейме (нумерация с 0)

Для именного поиска понадобится метод ```.loc[]```, для порядкового -- ```.iloc[]```

In [None]:
print(postcards.iloc[3], "\n")

print(postcards.loc["Hans"]) # только если индексы в датасете есть!

**Указав название колонки**,  можно аналогично посмотреть все значения в ней

In [None]:
postcards["age"] # аналог получения значения по ключу словаря

In [None]:
# посмотрите на все города



# Операции с датафреймами

### Добавление колонок и строк в датафрейм

В датафрейм можно добавить новые колонки: понадобится метод ```.assign()```

In [None]:
postcards = postcards.assign(job=['Artist',"Teacher","Chef","Artist","Manager","Chef","Engineer"])
postcards

In [None]:
# 2 способ - похож на добавление ключей в словарь
degrees = ['BA', 'MA', 'MA', 'PhD', 'Postdoc', 'BA', 'PhD']
postcards["degree"] = degrees

postcards

Добавить строки тоже можно: методом ```.append()```

In [None]:
df = pd.DataFrame.from_dict({"Alice":["NY", 36, "Engineer", "MA"]},
                           orient="index",
                           columns=postcards.columns)
df

In [None]:
# шаг2 добавим новый df к старому
postcards = postcards.append(df)
postcards

# что будет, если запустить .append() несколько раз?

### что делать, если добавились ненужные строки? 

Если есть дубликаты уже существующих строк, понадобится метод ```.drop_duplicates()```

In [None]:
postcards.drop_duplicates(inplace=True)
postcards

Если удалить нужно любую строку или столбец, понадобится метод ```.drop()``` 
- axis=0 если нужно удалить строку
- axis=1 если нужно удалить колонку

In [None]:
postcards.drop("Mark",axis=0)

In [None]:
postcards.drop("city", axis=1)

In [None]:
postcards # не удалилось?

Чтобы изменения вошли в силу, реультат выражения нужно сохранить в переменную, либо добавить аргумент inplace=True 

In [None]:
postcards = postcards.drop("city", axis=1, inplace=True)
# в этой ячейке можете попробовать

### Сохранение датафрейма в файл 

In [None]:
# сохраним в .csv файл

postcards.to_csv('postcards.csv', encoding='utf-8') 

# postcards.to_excel('postcards.xlsx')

### Фильтры и прочие манипуляции

In [None]:
# посмотрим, кто работает шеф-поваром
# квадратные скобки создают подвыборку из датасета, удовлетворяющую условиям

postcards[  postcards["job"] == "Chef"  ]

In [None]:
# поищем всех людей старше 40

postcards[ postcards["age"] > 40 ]

In [None]:
# условия можно компоновать логическими операторами
# синтаксис: df[(условие1) оператор (условие2)]

#ищем, кто старше 30 и не работает шеф-поваром

postcards[ (postcards["age"] > 30) & (postcards["job"] != "Chef")  ]

# & | из темы множества

Unnamed: 0,city,age,job
Maria,London,37,Artist
Hans,Calgary,80,Artist
Mark,Milan,55,Manager
Julia,Murmansk,43,Engineer


Над значениями в колонках можно производить различные операции:
* например, арифметические (если данные количественные):

In [None]:
print(postcards["age"].sum()) # работает всегда
print(postcards.age.sum()) # краткая запись, работает с простыми названиями из 1 слова без пробелов

In [None]:
print(postcards.age.sum())
print(postcards.age.mean())
print(postcards.age.min())
print(postcards.age.max())

Если данные категориальные, можно искать уникальные значения, упорядочивать по алфавиту и тд

In [None]:
print(postcards.job.values) # все значения 
print(postcards.job.value_counts()) # число повторов
print(postcards.job.sort_values()) # сортировка

print(postcards.job.unique()) # все уникальные в колонке
print(postcards.job.nunique()) # сколько уникальных в колонке

### Дополнительное задание 1: колонии

Вы работаете с датасетом от Гарвардского университета, в котором хранится информация о государствах - бывших колониях. Посчитайте:
* количество этих государств (Country Name)
* среднюю продолжительность колониального периода (COLYEARS)
* максимальную продолжительность зависимости (COLYEARS)

Скачать данные можно здесь: https://raw.githubusercontent.com/AnnSenina/Python_for_CL/main/data/Colonial.csv

In [None]:
# ваш код здесь


### Дополнительное задание 2: тревожность и телевидение

Вы изучаете взаимосвязь тревожности и просмотра телевиденья. Вам необходимо расчитать следующие характеристики:

* Сколько человек приняло участие в исследовании?
* Каков минимальный и максимальный возраст участников?
* Сколько в выборке женщин?
* Какое среднее значение тревожности наблюдается в данных?

Скачать данные можно здесь: https://raw.githubusercontent.com/AnnSenina/Python_for_CL/main/data/socio.csv

In [None]:
# ваш код здесь


###Бонус! raw-файлы в GitHub

In [None]:
# по raw-ссылке с GitHub csv-файлы тоже можно открывать

import pandas as pd
data = pd.read_csv('https://raw.githubusercontent.com/AnnSenina/AnnSenina/main/2022.csv', decimal=',') # попробуйте без аргумента decimal, что не так?
data.head()