# Pandas

In [79]:
import numpy as np
import pandas as pd

In [80]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

#### 0. Создать датафрейм.

In [81]:
df = pd.DataFrame(data=data, index=labels)

#### 1. Вывести информацию о датафрейме.

In [82]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, a to j
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   animal    10 non-null     object 
 1   age       8 non-null      float64
 2   visits    10 non-null     int64  
 3   priority  10 non-null     object 
dtypes: float64(1), int64(1), object(2)
memory usage: 400.0+ bytes


#### 2. Вернуть первые 3 строки DataFrame `df`.

In [83]:
df.iloc[:3, :]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


#### 3. Выберите только столбцы 'animal' и 'age' из DataFrame `df`.

In [84]:
df[['animal', 'age']]

Unnamed: 0,animal,age
a,cat,2.5
b,cat,3.0
c,snake,0.5
d,dog,
e,dog,5.0
f,cat,2.0
g,snake,4.5
h,cat,
i,dog,7.0
j,dog,3.0


#### 4. Выберите данные в строках `[3, 4, 8]` * и * в столбцах `['animal', 'age']`.

In [85]:
df.iloc[[3, 4, 8]][['animal', 'age']]

Unnamed: 0,animal,age
d,dog,
e,dog,5.0
i,dog,7.0


#### 5. Выберите строки где количество посещений больше 3.

In [86]:
df[df['visits'] > 3]

Unnamed: 0,animal,age,visits,priority


#### 6. Выберите строки, в которых отсутствует возраст.

In [87]:
df[df['age'].isna()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


#### 7. Выберите строки, в которых животное является кошкой * и * возраст составляет менее 3 лет.

In [88]:
df[(df['animal'] == 'cat') & (df['age'] < 3)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
f,cat,2.0,3,no


#### 8. Выберите строки в которых возраст от 2 до 4 (включительно).

In [89]:
df[(df['age'] >= 2) & (df['age'] <= 4)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


#### 9. Измените возраст в строке 'f' на 1,5.

In [90]:
df.loc['f', 'age'] = 1.5

#### 10. Рассчитать общее количество всех посещений.

In [91]:
print(df['visits'].sum())

19


#### 11. Расчитайте суммарный возраст животных

In [92]:
print(df['age'].sum())

27.0


#### 12. Добавьте новую строку `k` к `df` со значениями по вашему желанию. Затем удалите ее.

In [93]:
df.loc['k'] = ['fox', 1, 10, 'yes']
df.tail()

Unnamed: 0,animal,age,visits,priority
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no
k,fox,1.0,10,yes


In [94]:
df = df.drop(index=['k'])
df.tail()

Unnamed: 0,animal,age,visits,priority
f,cat,1.5,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


#### 13. Подсчитайте количество животных каждого типа в `df`.

In [95]:
df.groupby("animal").count()['age']

animal
cat      3
dog      3
snake    2
Name: age, dtype: int64

#### 14. Сортируйте `df` сначала по значениям в 'age' в * возрастающем * порядке, затем по значениям в столбце 'visits' в * возрастающем * порядке.

In [96]:
df.sort_values(by=['age', 'visits'], ascending=["True", "True"])

Unnamed: 0,animal,age,visits,priority
c,snake,0.5,2,no
f,cat,1.5,3,no
a,cat,2.5,1,yes
j,dog,3.0,1,no
b,cat,3.0,3,yes
g,snake,4.5,1,no
e,dog,5.0,2,no
i,dog,7.0,2,no
h,cat,,1,yes
d,dog,,3,yes


#### 15. В столбце приоритет замените значения на `Yes` и `No`

In [97]:
df['priority'] = df['priority'].apply(lambda x : x.capitalize())
df.head()

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,Yes
b,cat,3.0,3,Yes
c,snake,0.5,2,No
d,dog,,3,Yes
e,dog,5.0,2,No


#### 16. В столбце «animal» измените записи «snake» на «python».

In [109]:
df.loc[df.index[(df['animal'] == 'snake')], 'animal'] = 'python'
df.head(6)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,Yes
b,cat,3.0,3,Yes
c,python,0.5,2,No
d,dog,,3,Yes
e,dog,5.0,2,No
f,cat,1.5,3,No


#### 17. Удалите все повторения строк из таблицы
```python
df = pd.DataFrame ({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
```

In [111]:
df = pd.DataFrame ({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
df.drop_duplicates(inplace=True)
df

Unnamed: 0,A
0,1
1,2
3,3
4,4
5,5
8,6
9,7


#### 20. Предположим, у вас есть DataFrame с 10 столбцами действительных чисел, например:

```python
df = pd.DataFrame (np.random.random (size = (5, 10)), columns = список ('abcdefghij'))
```
#### Какой столбец имеет наименьшую сумму? Найдите метку этого столбца.

In [132]:
df = pd.DataFrame (np.random.random (size = (5, 10)), columns = list('abcdefghij'))
print('column label with the smallest sum:', df.sum(axis=0).sort_values().index[0])

column label with the smallest sum: h


#### 21. Замените все пропущенные значения, на среднее по столбцу
```python
df = pd.DataFrame({'group': list('aabbabbbabab'),
                       'value': [1, 2, 3, np.nan, 2, 3, 
                                 np.nan, 1, 7, 3, np.nan, 8]})
```

In [134]:
df = pd.DataFrame({'group': list('aabbabbbabab'),
                       'value': [1, 2, 3, np.nan, 2, 3, 
                                 np.nan, 1, 7, 3, np.nan, 8]})
values = {"value" : df['value'].mean()}
df.fillna(value=values, inplace=True)
df

Unnamed: 0,group,value
0,a,1.0
1,a,2.0
2,b,3.0
3,b,3.333333
4,a,2.0
5,b,3.0
6,b,3.333333
7,b,1.0
8,a,7.0
9,b,3.0


#### 22. Создайте два новых столбца, для From и To. Приведите названия городов к нормальному виду.

```python
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})
```



In [135]:
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm', 
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )', 
                               '12. Air France', '"Swiss Air"']})
df

Unnamed: 0,From_To,FlightNumber,RecentDelays,Airline
0,LoNDon_paris,10045.0,"[23, 47]",KLM(!)
1,MAdrid_miLAN,,[],<Air France> (12)
2,londON_StockhOlm,10065.0,"[24, 43, 87]",(British Airways. )
3,Budapest_PaRis,,[13],12. Air France
4,Brussels_londOn,10085.0,"[67, 32]","""Swiss Air"""


In [136]:
df['From'] = df['From_To'].apply(lambda x : x.split("_")[0].capitalize())
df['To'] = df['From_To'].apply(lambda x : x.split("_")[1].capitalize())
df.head()

Unnamed: 0,From_To,FlightNumber,RecentDelays,Airline,From,To
0,LoNDon_paris,10045.0,"[23, 47]",KLM(!),London,Paris
1,MAdrid_miLAN,,[],<Air France> (12),Madrid,Milan
2,londON_StockhOlm,10065.0,"[24, 43, 87]",(British Airways. ),London,Stockholm
3,Budapest_PaRis,,[13],12. Air France,Budapest,Paris
4,Brussels_londOn,10085.0,"[67, 32]","""Swiss Air""",Brussels,London
