In [37]:
import pandas as pd 

# data = pd.read_csv('D:\Python_all\ml_test\\nba.csv',sep='\t')
data = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
})
data

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [38]:
data.columns

Index(['country', 'population', 'square'], dtype='object')

In [39]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [40]:
dataWithIndex = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
}, index=['KZ', 'RU', 'BY', 'UA'])
dataWithIndex

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [41]:
dataWithIndex['country']

KZ    Kazakhstan
RU        Russia
BY       Belarus
UA       Ukraine
Name: country, dtype: object

In [42]:
# Доступ к строкам по индексу возможен несколькими способами:

# .loc - используется для доступа по строковой метке
# .iloc - используется для доступа по числовому значению (начиная от 0)
dataWithIndex.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [43]:
dataWithIndex.iloc[1]

country         Russia
population       143.5
square        17125191
Name: RU, dtype: object

In [44]:
# Можно делать выборку по индексу и интересующим колонкам
dataWithIndex.loc[['KZ', 'RU'], 'population']

KZ     17.04
RU    143.50
Name: population, dtype: float64

In [45]:
# Как можно заметить, .loc в квадратных скобках принимает 2 аргумента: интересующий индекс, в том числе поддерживается слайсинг и колонки
dataWithIndex.loc['KZ':'BY', :]

Unnamed: 0,country,population,square
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600


In [46]:
# Фильтровать DataFrame с помощью т.н. булевых массивов #
# Кстати, к столбцам можно обращаться, используя атрибут или нотацию словарей Python, т.е. df.population и df['population'] это одно и то же
dataWithIndex[dataWithIndex.population > 10][['country', 'square']]

Unnamed: 0,country,square
KZ,Kazakhstan,2724902
RU,Russia,17125191
UA,Ukraine,603628


In [50]:
# Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:
dataWithIndex['density'] = dataWithIndex['population'] / dataWithIndex['square'] * 1000000
dataWithIndex

Unnamed: 0,country,population,square,density
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [61]:
# Не нравится новый столбец? Не проблема, удалим его:
dataWithIndex.drop(['density'], axis='columns')

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


In [59]:
dataWithIndex.index = ['KZ', 'RU', 'BY', 'UA']
dataWithIndex.index.name = 'Country Code'
dataWithIndex

Unnamed: 0_level_0,country,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [65]:
# Переименовывать столбцы нужно через метод rename:
dataWithIndex = dataWithIndex.rename(columns={'Country Code': 'country_code'})
dataWithIndex
# Заметим, что нет никакого эффекта! А всё потому что не сброшены индексы !!

Unnamed: 0_level_0,country,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


In [71]:
# Сбросим индексы и секонд трай:
dataWithoutIndex = dataWithIndex.reset_index()
dataWithoutIndex = dataWithoutIndex.rename(columns={'Country Code': 'country_code'})
dataWithoutIndex

Unnamed: 0,country_code,country,population,square,density
0,KZ,Kazakhstan,17.04,2724902,6.253436
1,RU,Russia,143.5,17125191,8.379469
2,BY,Belarus,9.5,207600,45.761079
3,UA,Ukraine,45.5,603628,75.37755


In [72]:
# Можно сохранить данную шнягу в ексель:
dataWithIndex.to_csv('dataWithIndex.csv')

In [78]:
#Считать данные из csv-файла и превратить в DataFrame можно функцией read_csv.
df = pd.read_csv('dataWithIndex.csv', sep=',')
df

Unnamed: 0,Country Code,country,population,square,density
0,KZ,Kazakhstan,17.04,2724902,6.253436
1,RU,Russia,143.5,17125191,8.379469
2,BY,Belarus,9.5,207600,45.761079
3,UA,Ukraine,45.5,603628,75.37755


In [80]:
########################################################################################################################################################################

titanic_df = pd.read_csv('titanic.csv')
print(titanic_df)

      PassengerID                                           Name PClass  \
0               1                   Allen, Miss Elisabeth Walton    1st   
1               2                    Allison, Miss Helen Loraine    1st   
2               3            Allison, Mr Hudson Joshua Creighton    1st   
3               4  Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st   
4               5                  Allison, Master Hudson Trevor    1st   
...           ...                                            ...    ...   
1308         1309                             Zakarian, Mr Artun    3rd   
1309         1310                         Zakarian, Mr Maprieder    3rd   
1310         1311                               Zenni, Mr Philip    3rd   
1311         1312                               Lievens, Mr Rene    3rd   
1312         1313                                 Zimmerman, Leo    3rd   

        Age     Sex  Survived  SexCode  
0     29.00  female         1        1  
1      2.00  fema

In [81]:
print(titanic_df.head())

   PassengerID                                           Name PClass    Age  \
0            1                   Allen, Miss Elisabeth Walton    1st  29.00   
1            2                    Allison, Miss Helen Loraine    1st   2.00   
2            3            Allison, Mr Hudson Joshua Creighton    1st  30.00   
3            4  Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st  25.00   
4            5                  Allison, Master Hudson Trevor    1st   0.92   

      Sex  Survived  SexCode  
0  female         1        1  
1  female         0        1  
2    male         0        0  
3  female         0        1  
4    male         1        0  


In [82]:
# Необходимо подсчитать, сколько женщин и мужчин выжило, а сколько нет. В этом нам поможет метод .groupby
print(titanic_df.groupby(['Sex', 'Survived'])['PassengerID'].count())

Sex     Survived
female  0           154
        1           308
male    0           709
        1           142
Name: PassengerID, dtype: int64


In [83]:
# А теперь проанализируем в разрезе класса кабины:
print(titanic_df.groupby(['PClass', 'Survived'])['PassengerID'].count())

PClass  Survived
*       0             1
1st     0           129
        1           193
2nd     0           160
        1           119
3rd     0           573
        1           138
Name: PassengerID, dtype: int64


In [84]:
# Сводные таблицы в pandas
# Термин "сводная таблица" хорошо известен тем, кто не по наслышке знаком с инструментом Microsoft Excel или любым иным, предназначенным для обработки и анализа данных. В pandas сводные таблицы строятся через метод .pivot_table. За основу возьмём всё тот же пример с Титаником. Например, перед нами стоит задача посчитать сколько всего женщин и мужчин было в конкретном классе корабля:

titanic_df = pd.read_csv('titanic.csv')
pvt = titanic_df.pivot_table(index=['Sex'], columns=['PClass'], values='Name', aggfunc='count')
pvt

# В качестве индекса теперь у нас будет пол человека, колонками станут значения из PClass, 
# функцией агрегирования будет count (подсчёт количества записей) по колонке Name.

PClass,*,1st,2nd,3rd
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,,143.0,107.0,212.0
male,1.0,179.0,172.0,499.0


In [88]:
print(pvt.loc['female', ['1st', '2nd', '3rd']])

PClass
1st    143.0
2nd    107.0
3rd    212.0
Name: female, dtype: float64
