## Получение данных


Знакомому формату электронной таблицы Excel в Pandas соответствует структура данных DataFrame. Аналитики обычно называют такие объекты просто DataFrame.
В рабочей практике вы столкнётесь с тем, что данные хранят в файлах разных форматов. Из них самый распространённый – CSV (от англ. Comma-Separated Values, «значения, разделённые запятой»). Каждая строка такого файла представляет собой одну строку таблицы, где данные разделены запятыми. В первой строке собраны заголовки столбцов (если они есть).

Файлы CSV удобнее всего открывать вызовом метода read_csv() из библиотеки Pandas.
Команда для открыия файла имеет вид:
**import pandas as pd
df = pd.read_csv('music_log.csv') # аргумент - путь к файлу**

Теперь все данные из файла можно напечатать на экране командой **print(df)**, но это не всегда нужно делать — не исключено, что таблица огромна и неудобна для изучения. Для знакомства с данными запрашивают несколько строк из начала или конца таблицы, вызывая специальные методы **head()** и **tail()**. По умолчанию **head()** возвращает первые 5 строк набора данных, а метод **tail()** – последние 5 строк. Когда нужно не 5, количество строк передаётся этим методам как аргумент. Например, **head(10)** вернёт первые 10 строк.

1. Загрузите базу данных по пассажирам “Титаника”.  https://raw.githubusercontent.com/allatambov/Py-programming-3/master/28-05/Titanic.csv.
2. Выведите на печать первые десять строк таблицы.




In [None]:
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/allatambov/Py-programming-3/master/28-05/Titanic.csv')
print(df.head(10))

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   
5            6         0       3   
6            7         0       1   
7            8         0       3   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   
5                                   Moran, Mr. James    male   NaN      0   
6                            McCarthy, Mr. Timothy J    male  54

## Объект DataFrame

Таблица, которую мы получили, хранится в структуре данных DataFrame. DataFrame — это двумерная структура данных Pandas, где у каждого элемента есть две координаты: по строке и по столбцу. Вы видите две оси, которые формируют объект DataFrame. Первая ось называется индексы, вторая ось — столбцы. По умолчанию индексация в DataFrame начинается с нуля.
Каждая строка — это одно наблюдение, запись об объекте исследования. А столбцы — признаки объектов. В нашем случае одна строка — это информация об одном пассажире, включая класс, фамилию-имя, возраст и т.д.
Подробнее об этом датасете можно почитать здесь http://campus.lakeforest.edu/frank/FILES/MLFfiles/Bio150/Titanic/TitanicMETA.pdf.
Для лучшего понимания данных полезно получить доступ к их описанию. Это либо документация со сведениями о содержании каждого столбца, либо – не самый лучший вариант – рассказ человека, который предоставил вам эту информацию.
Такое описание поможет нам ставить себе корректные задачи.

У DataFrame есть неотъемлемые свойства, значения которых можно запросить. Они называются атрибуты. Например, атрибут columns содержит информацию о названиях столбцов в наборе данных.
**print(df.columns)**


In [None]:
print(df.columns)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


В данном случае атрибут **columns** вернул список названий столбцов и сообщил, что каждое из них имеет тип данных **object**.
Вообще типы данных могут быть разные. Для просмотра типа данных каждого столбца лучше всего использовать атрибут **dtypes**.


In [None]:
print(df.dtypes)

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


Типы данных, о которых сообщают нам атрибуты — это типы данных библиотеки Pandas. Каждому из них соответствует определённый тип данных языка Python.
Так, для **int** таким «двойником» в Pandas будет **int64**. Тип данных object используется, когда данные не подходят ни под одну категорию или соответствуют в Python типу «строка». Вот таблица соответствия типов данных Pandas и Python:
PANDASDTYPE    PYTHON TYPE	     ЗНАЧЕНИЕ
object	          str 	         Строка
int64	          int	         Целые числа
float64	         float	         Вещественные числа
bool	          bool	         Логический тип данных
О размерах таблицы с данными сообщает её атрибут **shape**. В результате получается кортеж (неизменяемый список) из двух чисел: первое – количество строк, второе – количество столбцов.


In [None]:
print(df.shape)

(891, 12)


Всю информацию, которую предоставляют разные атрибуты **DataFrame**, можно получить вызовом одного-единственного метода **info()**. Изучив результаты, которые этот метод возвращает, аналитик выбирает тактику дальнейшей работы с таблицей.

In [None]:
print(df.info)

<bound method DataFrame.info of      PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                   

Например, здесь в рахных стольцах разное количество элементов с определёнными значениями (non-null). Следовательно, в таблице есть пропущенные значения (null). Прежде чем анализировать такие данные, их нужно обработать. Это одна из самых интересных задач аналитика, и мы поговорим о ней подробнее в следующей теме.

## Задачи
1. Прочитайте файл **student-mat.csv** и сохраните его в переменной **df**. Выведите на экран первые 10 строк таблицы, изучите данныи и описание к таблице. Создайте переменную **shape_table** и сохраните в ней размеры таблицы **student-mat.csv**. Напечатайте на экране размер таблицы в таком виде:
Размер таблицы: ...
2. Сколько наблюдений в наборе данных? В переменной **shape_table** хранится кортеж. Его первый элемент — количество наблюдений, который надо сохранить в переменной **observations_table** (не забывайте, что индексация элементов идёт с 0). Напечатайте на экране ответ в таком виде:
Количество наблюдений: ...
3. Найдите в информации, которую вернул метод **info()**, число наблюдений. Вручную присвойте это число как значение переменной **observations_info_table**.
4. Поскольку в ходе работы аналитик объявляет разные переменные и сохраняет в них добытую разными способами информацию, запутаться очень легко. Именно поэтому необходимо проверять себя и текущие результаты. Сравните полученные результаты в переменных observations_info_table и observations_table. Если значения переменных совпадают, то выведите количество наблюдений и сообщение:
'Решение верно, количество наблюдений равно', observations_table   
Если значения переменных не совпадают, то выведите сообщение:
'Решение неверно, проверьте ещё раз!'


In [None]:
df = pd.read_csv('/student-mat.csv')
print(df.head(10))

  school sex  age address famsize Pstatus  Medu  Fedu      Mjob      Fjob  \
0     GP   F   18       U     GT3       A     4     4   at_home   teacher   
1     GP   F   17       U     GT3       T     1     1   at_home     other   
2     GP   F   15       U     LE3       T     1     1   at_home     other   
3     GP   F   15       U     GT3       T     4     2    health  services   
4     GP   F   16       U     GT3       T     3     3     other     other   
5     GP   M   16       U     LE3       T     4     3  services     other   
6     GP   M   16       U     LE3       T     2     2     other     other   
7     GP   F   17       U     GT3       A     4     4     other   teacher   
8     GP   M   15       U     LE3       A     3     2  services     other   
9     GP   M   15       U     GT3       T     3     4     other     other   

   ... famrel freetime  goout  Dalc  Walc health absences  G1  G2  G3  
0  ...      4        3      4     1     1      3        6   5   6   6  
1  ...  

In [None]:
shape_table = df.shape
print(f'Размер таблицы: {shape_table}')

Размер таблицы: (395, 33)


In [None]:
observations_table = shape_table[0]
print(f'Количество наблюдений: {observations_table}')

Количество наблюдений: 395


In [None]:
observations_info_table = 395
print(observations_info_table)

395


In [None]:
if observations_table == observations_info_table: print(f'Решение верно, количество наблюдений равно {observations_table}')
else: print('Решение неверно, проверьте ещё раз!')

Решение верно, количество наблюдений равно 395


## Идексация в DataFrame
К каждой ячейке с данными в **DataFrame** можно обратиться по её индексу и названию столбца. Мы можем получать различные срезы данных в зависимости от того, какой запрос к **DataFrame** мы сформулируем. Этот процесс называется индексация. Для **DataFrame** она проводится разными способами.
Атрибут **loc[строка, столбец]** даёт доступ к элементу по строке и столбцу.

ВИД	                                                  РЕАЛИЗАЦИЯ
Одна ячейка	                                         .loc[7, 'genre']
Один столбец	                                     .loc[:, 'genre']
Несколько столбцов                                   .loc[:, ['genre', 'Artist']]
Несколько столбцов подряд (срез)	                 .loc[:, 'user_id': 'genre']
Одна строка	                                         .loc[1]
Все строки, начиная с заданной	                     .loc[1:]
Все строки до заданной	                             .loc[:3]
Несколько строк подряд (срез)	                     .loc[2:5]

Также вы могли заметить, что запрос к атрибуту loc[] использует квадратные скобки, это напоминает списки в Python. Индексация здесь очень похожа на индексацию списков.
Важное замечание: когда мы используем срезы в списках, то конец среза не включается в результат. А вот атрибут .loc[] тем и выделяется, что включает и начало, и конец среза.
Например, есть список исполнителей:

**artist = ['Marina Rei', 'Stive Morgan','Rixton','Henry Hall & His Gleneagles Hotel Band', 'Andrew Paul Woodworth', 'Pillar Point','Steve Campbell','David Civera','Lumipa Beats', 'Henning Wehland']**
Элементы с 2 по 4 получают запросом:
**print(artist[2:5])**
['Rixton', 'Henry Hall & His Gleneagles Hotel Band', 'Andrew Paul Woodworth']
Последним в запросе указан индекс 5 — именно для того, чтобы в срез попал элемент с индексом 4. Запрос на получение со 2 по 4 строки в таблице будет выглядеть вот так:

**print(df.loc[2:4])**
Самые ходовые запросы, которые вам предстоит делать как аналитику данных это запрашивать один столбец, одну строку, диапазон столбцов и диапазон строк.
Для подсчета количества определенных значений в срезе данных в  Pandas для этого есть метод count().
Например, на нужно подсчитать количество детей, младше трех лет на Титанике. Для столбца 'Age' таблицы  такие ячейки отвечают логическому условию df.loc[:,Age']<3.
Поскольку в указании, какие именно значения считать, нужен логический оператор, такой доступ к значению ячейки называют логическая индексация.



In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/allatambov/Py-programming-3/master/28-05/Titanic.csv')
print(df.loc[:,'Age']<3)

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool


ВИД	                                                  РЕАЛИЗАЦИЯ	                       СОКРАЩЁННАЯ ЗАПИСЬ
Все строки, удовлетворяющие условию	    battle.loc[battle.loc[:,'В'] == 'X']	        battle[battle['В'] == 'X']
Столбец, удовлетворяющий условию	   battle.loc[battle.loc[:,'В'] == 'X']['В']	    battle[battle['В'] == 'X']['В']
Применение метода	              battle.loc[battle.loc[:,'В'] == 'X']['В'].count()	    battle[battle['В'] == 'X']['В'].count()


## Задачи
1. Получите таблицу, состоящую из столбцов Medu и Fedu. Сохраните её в переменной parents. Выведите на экран превые 20 строк.
2. Посчитайте число матерей студентов с высшим образованием. Для этого лучше всего использовать логическое условие parents ['Medu'] == 4. Сохраните результат в переменной mother_hight. Напечатайте ответ на экране в таком виде:
Число матерей с высшим образованием равно ...

3. Теперь посчитайте число отцов студентов с высшим образованием. Допишите в код подсчёт, похожий на предыдущий, только с логическим условием parents ['Fedu'] == 4.. Сохраните результат в переменной father_hight. Напечатайте ответ на экране в таком виде:
Число отцов с высшим образованием равно ...
4. Напишите условную конструкцию, которая сравнивает полученные значения и выводит информацию о победителе в этом бою!))

In [None]:
import pandas as pd
df = pd.read_csv('/content/student-mat.csv')
parents = df.loc[:,['Medu', 'Fedu']]
print(parents.head(20))

    Medu  Fedu
0      4     4
1      1     1
2      1     1
3      4     2
4      3     3
5      4     3
6      2     2
7      4     4
8      3     2
9      3     4
10     4     4
11     2     1
12     4     4
13     4     3
14     2     2
15     4     4
16     4     4
17     3     3
18     3     2
19     4     3


In [None]:
mother_hight = parents['Medu']==4
print(f'Число матерей с высшим образованием равно {mother_hight.sum()}')

Число матерей с высшим образованием равно 131


In [None]:
father_hight = parents['Fedu']==4
print(f'Число отцов с высшим образованием равно {father_hight.sum()}')

Число отцов с высшим образованием равно 96


## Объект Series

В таблице, которую мы рассматривали весь прошлый урок, каждый столбец сам по себе — вовсе не структура данных DataFrame.

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/allatambov/Py-programming-3/master/28-05/Titanic.csv')
type(df) #Таблица всё так же имеет тип DataFrame.

In [None]:
survivos = df.loc[(df['Survived']==1) & df['Age'].between(20,40)].shape[0]
print(survivos)

156


In [None]:
type(df['Age']) #Но если мы возьмём отдельный столбец таблицы, то он представляет собой совсем иную структуру данных — Series.

Series — одномерная таблица, и её элементы можно получить по индексу. Каждый индекс — это номер отдельного наблюдения, и поэтому несколько различных Series вместе составляют DataFrame. В Series хранятся данные одного типа. У каждой Series есть имя (Name), информация о количестве данных в столбце (Length) и тип данных, которые хранятся в ней (dtype).

In [None]:
print(df['Age'])

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64


Индексация в Series аналогична индексации элементов столбца в DataFrame. Давайте рассмотрим на примере. Сохраним столбец Age в переменной age.

In [None]:
age=df.loc[:,'Age']

In [None]:
#Для получения шестого по индексу элемента укажем 6 в квадратных скобках.
print(age[6])

54.0


In [None]:
#Если надо получить диапазон ячеек, запросите атрибут loc с границами среза в квадратных скобках.
print(age.loc[10:20])

10     4.0
11    58.0
12    20.0
13    39.0
14    14.0
15    55.0
16     2.0
17     NaN
18    31.0
19     NaN
20    35.0
Name: Age, dtype: float64


ВИД	                              РЕАЛИЗАЦИЯ	                                         СОКРАЩЁННАЯ ЗАПИСЬ
Один элемент	                    total_play.loc[7]	                                      total_play[7]
Несколько элементов	                total_play.loc[[5, 7, 10]]	                          total_play[[5, 7, 10]]
Несколько элементов подряд (срез)	total_play.loc[5:10] включая 10                       total_play[5:10] не включая 10
Все элементы, начиная с заданного	total_play.loc[1:]	                                  total_play[1:]
Все элементы до заданного	        total_play.loc[:3] включая 3	                      total_play[:3] не включая 3


Для Series также возможна логическая индексация. Рассмотрим такие примеры. Подсчитаем количествщ выживших мужчин и женщин на корабле.

1. Получим таблицу только с женщинами и сохраним ее в переменной women.

In [None]:
women=df.loc[df['Sex']=='female']
print(women.head(10))

    PassengerId  Survived  Pclass  \
1             2         1       1   
2             3         1       3   
3             4         1       1   
8             9         1       3   
9            10         1       2   
10           11         1       3   
11           12         1       1   
14           15         0       3   
15           16         1       2   
18           19         0       3   

                                                 Name     Sex   Age  SibSp  \
1   Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                              Heikkinen, Miss. Laina  female  26.0      0   
3        Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
8   Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)  female  27.0      0   
9                 Nasser, Mrs. Nicholas (Adele Achem)  female  14.0      1   
10                    Sandstrom, Miss. Marguerite Rut  female   4.0      1   
11                           Bonnell, Miss. El

Выделим информацию с выжившими женщинами в особую структуру данных. Сохраним столбец Survived таблицы women в переменной women_life

In [None]:
women_life=women.loc[:,'Survived']
print(women_life)

1      1
2      1
3      1
8      1
9      1
      ..
880    1
882    0
885    0
887    1
888    0
Name: Survived, Length: 314, dtype: int64


Обратимся к новой переменной women_life и подсчитаем количество выживших женщин

In [None]:
quantity_women=women_life.loc[women_life==1].count()
print('Количество выживших женщин равно', quantity_women)

Количество выживших женщин равно 233


## Задачи
1. Теперь по аналогии создайте Series, где хранятся данные только о выживаемости мужчин. Назовите его men_life и сохраните в нем данные столбца Survived.
2. Обратитесь к созданной переменной для подсчета выживших мужчин. Сохраните результат в переменной quantity_men и напечатайте на экране в виде **Количество выживших женщин равно...**.
3. Для обои полов посчитайте долю выживших в процентах. Разделите количество выживших на общее количество мужчин и женщин. Выведите значения новых переменных в процентах с точностью до одного знака после запятой.

In [None]:
# Получение таблицы только с мужчинами
men = df.loc[df['Sex']=='male']

In [None]:
men_life=men.loc[:,'Survived']
print(men_life)

0      0
4      0
5      0
6      0
7      0
      ..
883    0
884    0
886    0
889    1
890    0
Name: Survived, Length: 577, dtype: int64


In [None]:
quantity_men=men_life.loc[men_life==1]

print(quantity_men)

17     1
21     1
23     1
36     1
55     1
      ..
838    1
839    1
857    1
869    1
889    1
Name: Survived, Length: 109, dtype: int64


In [None]:
quantity_men=men_life.loc[men_life==0].count()

print('Количество выживших мужчин равно', quantity_men)

Количество выживших мужчин равно 109


In [None]:
# Количество всех мужчин и женщин
total_quantity= women_life.shape[0] + men_life.shape[0]

In [None]:
# Доля выживших мужчин в процентах
survival_rate = (quantity_men/total_quantity)*100
print(f'Доля выживших мужчин: {survival_rate}%')

Доля выживших мужчин: 17     0.112233
21     0.112233
23     0.112233
36     0.112233
55     0.112233
         ...   
838    0.112233
839    0.112233
857    0.112233
869    0.112233
889    0.112233
Name: Survived, Length: 109, dtype: float64%


In [None]:
# Доля выживших женщин в процентах
survival_rate = (quantity_women/total_quantity)*100
print(f'Доля выживших женщин: {survival_rate:.1f}%')

Доля выживших женщин: 26.2%
