# Библиотека pandas

In [None]:
from google.colab import output

# Задача
В рамках выполнения домашнего проекта вам придётся анализировать выбранный набор данных.
На предыдущих семинарах мы обсуждали, как это можно сделать средствами языка Python.

Библиотека numpy позволила нам во многом упростить себе работу.
Предлагаем рассмотреть новую библиотеку, которая позволяет работать с данными еще проще. Это библиотека pandas.

Снова рассмотрим набор данных про пассажиров Титаника.

Ваша задача - выполнить его предобработку и предварительный анализ:
1. Дать описание признаков (столбцов), которые в нём содержатся.
2. Указать все названия колонок, где содержались пропуски, и подумать, как их можно исправить.

### Решение

In [None]:
!wget -O "titanic_corrupted.csv" "https://raw.githubusercontent.com/legas377/TestRepository/main/titanic_corrupted.csv"
output.clear()

In [None]:
import pandas as pd

Считываем набор данных в специальный объект df - датафрейм:

In [None]:
df = pd.read_csv('titanic_corrupted.csv')
print(df)

     PassEngEr_Id  PclaSS;-  ... cabin Embarked::
0           892.0       3.0  ...   NaN          Q
1           893.0       3.0  ...   NaN          S
2           894.0       NaN  ...   NaN          Q
3           895.0       3.0  ...   NaN          S
4           896.0       3.0  ...   NaN          S
..            ...       ...  ...   ...        ...
413        1305.0       3.0  ...   NaN          S
414        1306.0       1.0  ...  C105          C
415        1307.0       3.0  ...   NaN          S
416        1308.0       NaN  ...   NaN          S
417        1309.0       3.0  ...   NaN          C

[418 rows x 11 columns]


Выводим названия колонок:

In [None]:
print(df.columns)

Index(['PassEngEr_Id', 'PclaSS;-', 'NAME', 'SEX', 'age .', 'Sib_Sp', 'PaRch__',
       'TickEt', 'Fare', 'cabin', 'Embarked::'],
      dtype='object')


Мы видим, что pandas хранит названия колонок не в виде обычного списка. А в виде некоторого хитрого объекта Index. Это - особый вид итерируемого объекта.

Мы можем преобразовать его к списку:

In [None]:
print(list(df.columns))

['PassEngEr_Id', 'PclaSS;-', 'NAME', 'SEX', 'age .', 'Sib_Sp', 'PaRch__', 'TickEt', 'Fare', 'cabin', 'Embarked::']


In [None]:
# Предобрабатываем названия колонок
def column_name_preprocess(col_name):
    for char in ['_', ';', '-', ' ', '.', ':']:
        col_name = col_name.replace(char, '')
    return col_name

column_names = df.columns
print("Old column's names: {}\n".format(column_names))
print("New column's names: {}\n".format([column_name_preprocess(col_name).title() for col_name in column_names]))
df.columns = [column_name_preprocess(col_name).title() for col_name in column_names]
print(df.columns)

Old column's names: Index(['Passengerid', 'Pclass', 'Name', 'Sex', 'Age', 'Sibsp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

New column's names: ['Passengerid', 'Pclass', 'Name', 'Sex', 'Age', 'Sibsp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

Index(['Passengerid', 'Pclass', 'Name', 'Sex', 'Age', 'Sibsp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


Теперь давайте посмотрим на содержимое колонок - выведем первые 10 строк:

In [None]:
print(df.head(10))

   Passengerid  Pclass  ... Cabin Embarked
0        892.0     3.0  ...   NaN        Q
1        893.0     3.0  ...   NaN        S
2        894.0     NaN  ...   NaN        Q
3        895.0     3.0  ...   NaN        S
4        896.0     3.0  ...   NaN        S
5        897.0     3.0  ...   NaN        S
6        898.0     3.0  ...   NaN        Q
7        899.0     2.0  ...   NaN        S
8        900.0     3.0  ...   NaN        C
9          NaN     3.0  ...   NaN        S

[10 rows x 11 columns]


Мы видим, что pandas выводит не все колонки - вместо части данных выводятся "..."

Исправим это, попросив pandas выводить все колонки. Для этого нужно использовать метод set_option, задав значение параметра display.max_columns как None:

In [None]:
pd.set_option('display.max_columns', None)

In [None]:
print(df.head(10))

   Passengerid  Pclass                                          Name     Sex  \
0        892.0     3.0                              Kelly; Mr. James    male   
1        893.0     3.0              Wilkes; Mrs. James (Ellen Needs)  female   
2        894.0     NaN                     Myles; Mr. Thomas Francis     NaN   
3        895.0     3.0                                           NaN    male   
4        896.0     3.0  Hirvonen; Mrs. Alexander (Helga E Lindqvist)  female   
5        897.0     3.0                    Svensson; Mr. Johan Cervin    male   
6        898.0     3.0                          Connolly; Miss. Kate  female   
7        899.0     2.0                                           NaN    male   
8        900.0     3.0     Abrahim; Mrs. Joseph (Sophie Halaut Easu)  female   
9          NaN     3.0                       Davies; Mr. John Samuel    male   

    Age  Sibsp  Parch     Ticket     Fare Cabin Embarked  
0  34.5      0      0     330911   7.8292   NaN        Q  
1

Мы видим, что теперь выводятся все колонки. При этом колонок много, поэтому pandas выводит их в виде двух таблиц. Помимо строк, которые хранятся в исходном файле, pandas автоматически добавляет отдельный столбец без имени - индекс. Он отображается слева от таблицы.

Чтобы понять, к какой строке относятся те или иные значения в таблицах, нужно смотреть на этот индекс.
Например, данные по пассажиру с именем "Kelly; Mr. James" содержатся в строках таблиц с индексом 0.

Чтобы вывести описание отдельной колонки, можно указать ее в квадратных скобках после имени датафрейма:

In [None]:
df.columns

Index(['Passengerid', 'Pclass', 'Name', 'Sex', 'Age', 'Sibsp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [None]:
print(df['Passengerid'])

0       892.0
1       893.0
2       894.0
3       895.0
4       896.0
        ...  
413    1305.0
414    1306.0
415    1307.0
416    1308.0
417    1309.0
Name: Passengerid, Length: 418, dtype: float64


Аналогичным образом можно вывести содержимое только нужных нам колонок:

In [None]:
print(df[df.columns[:3]])

     Passengerid  Pclass                                          Name
0          892.0     3.0                              Kelly; Mr. James
1          893.0     3.0              Wilkes; Mrs. James (Ellen Needs)
2          894.0     NaN                     Myles; Mr. Thomas Francis
3          895.0     3.0                                           NaN
4          896.0     3.0  Hirvonen; Mrs. Alexander (Helga E Lindqvist)
..           ...     ...                                           ...
413       1305.0     3.0                            Spector; Mr. Woolf
414       1306.0     1.0                  Oliva y Ocana; Dona. Fermina
415       1307.0     3.0                  Saether; Mr. Simon Sivertsen
416       1308.0     NaN                           Ware; Mr. Frederick
417       1309.0     3.0                      Peter; Master. Michael J

[418 rows x 3 columns]


А сейчас выведем типы каждой колонки:

In [None]:
for column in df.columns:
  print(column, df[column].dtype, sep=': ')

Passengerid: float64
Pclass: float64
Name: object
Sex: object
Age: float64
Sibsp: int64
Parch: int64
Ticket: object
Fare: float64
Cabin: object
Embarked: object


Тип int64 говорит нам о том, что содержимое колонки - целое число,
float64 - вещественное число.
Тип object указывается в тех ситуациях, где pandas не может автоматически распознать тип (например, если содержимое столбца - строка).

Попробуем посмотреть описание числовых признаков для считанного набора данных:

In [None]:
df.describe()

Unnamed: 0,Passengerid,Pclass,Age,Sibsp,Parch,Fare
count,376.0,376.0,295.0,418.0,418.0,375.0
mean,1101.808511,2.271277,30.271763,0.447368,0.392344,34.457245
std,121.234431,0.842741,13.904076,0.89676,0.981429,55.089213
min,892.0,1.0,0.17,0.0,0.0,0.0
25%,997.75,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,3.0,27.0,0.0,0.0,13.8625
75%,1207.25,3.0,39.0,1.0,0.0,30.94375
max,1309.0,3.0,76.0,8.0,9.0,512.3292


Чтобы понять, какие признаки являются категориальными, можно использовать set:

In [None]:
print(set(df['Pclass']))

{nan, nan, 2.0, 3.0, 1.0, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan}


Но как вы видите, в наших данных были пропущенные значения (nan). В множестве они все считаются различными (т.к. их значения не определены).
Чтобы обойти эту ситуацию, можем использовать стандартный метод unique:

In [None]:
print(df['Pclass'].unique())

[ 3. nan  2.  1.]


Мы видим, что в колонке Pclass у нас всего 4 различных значения: 1, 2, 3 и nan (неопределенное значение). Такой признак можно считать категориальным.

Попробуем посчитать для каждой колонки количество уникальных значений:

In [None]:
df[df.columns[:4]].nunique()

Passengerid    376
Pclass           3
Name           376
Sex              2
dtype: int64

In [None]:
print(df.nunique())

Passengerid    376
Pclass           3
Name           376
Sex              2
Age             74
Sibsp            7
Parch            8
Ticket         363
Fare           160
Cabin           76
Embarked         3
dtype: int64


Мы видим, что логично считать категориальными признаками Pclass, Sex, Sibsp, Parch, Embarked - потому что в данных колонках присутствует не много различных значений (меньше 50).

Выведем для признака Sex различные значения, которые могут встречаться, и укажем количество их упоминаний:

In [None]:
print(df['Sex'].value_counts())

male      240
female    136
Name: Sex, dtype: int64


Определим, в каких колонках содержатся пропуски. Для этого используем метод isna():

In [None]:
df.isna()

Unnamed: 0,Passengerid,Pclass,Name,Sex,Age,Sibsp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,True,False
2,False,True,False,True,True,False,False,False,False,True,False
3,False,False,True,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...
413,False,False,False,False,True,False,False,False,False,True,False
414,False,False,False,False,False,False,False,False,False,False,False
415,False,False,False,False,False,False,False,False,False,True,False
416,False,True,False,False,True,False,False,False,False,True,False


Он формирует новый набор данных, где автоматически для каждой ячейки таблицы получает логическое значение: True - если значение пропущено, False - если значение есть.
Теперь надо пройтись по каждой колонке этого набора данных и сказать, встречается ли в данной колонке значение True: 

In [None]:
df.isna().any()

Passengerid     True
Pclass          True
Name            True
Sex             True
Age             True
Sibsp          False
Parch          False
Ticket         False
Fare            True
Cabin           True
Embarked       False
dtype: bool

Мы видим, что пропущены значения в колонках Passengerid, Pclass, Name, Sex, Age, Fare, Cabin.

Таким образом, мы провели предварительный анализ данных, определив числовые и категориальные признаки. Также мы дали описание признакам.

In [None]:
print(df['Pclass'].value_counts())
total = 198 + 96 + 82
print("High: {:.4f}, medium: {:.4f}, econom: {:.4f}".format(96/total, 82/total, 198/total))

print(len(df) - total)

3.0    198
1.0     96
2.0     82
Name: Pclass, dtype: int64
High: 0.2553, medium: 0.2181, econom: 0.5266
42


# Задача


Теперь начнём работу с выбранными вами наборами данных.

1. Создайте новый ноутбук (если этого ещё не сделали).
2. Загрузите в ноутбук ВСЕ файлы со своим набором данных.
3. Считайте данные в датафрейм (pandas.read_csv()) (если файлов несколько, считайте пока один любой).
4. Отобразите содержимое первых 15 строк.
5. Выведите названия всех колонок с указанием типа содержащихся данных.
6. Постройте описательные характеристики числовых признаков (pandas.describe()).
7.  Определите, какие признаки можно считать категориальными.
8. Для **каждого** категориального признака выведите уникальные значения с указанием количества повторений.
9. Определите, какие признаки содержат пропущенные значения. Подумайте, как можно будет эти пропущенные значения заполнить.