**Введение в Pandas**

---



Pandas — это библиотека Python, используемая для работы с наборами данных.

Она имеет функции для анализа, очистки, изучения и манипулирования данными.

Название «Pandas» расшифровывается как «Panel Data», так и к «Python Data Analysis» и было создано Уэсом МакКинни в 2008 году.

Pandas позволяет нам анализировать большие данные и делать выводы на основе статистики.

Pandas может очищать беспорядочные наборы данных и делать их более читабельными и релевантными.

Чистые и релевантные данные очень важны в науке о данных.

Функционал Pandas позволяет выяснить:
Есть ли корреляция между двумя или более столбцами?
Каково среднее значение?
Каково Максимальное значение?
Каково Минимальное значение?
Pandas также может удалять нерелевантные строки или строки которые содержат неправильные значения, например пустые или значения NULL. Это называется очисткой данных.

In [None]:
import pandas

In [None]:
mydataset = {
  'cars': ["BMW", "Volvo", "Ford"],
  'speed': [300, 170, 200]
}

df = pandas.DataFrame(data = mydataset)

In [None]:
df

Обычно, pandas используют в сокращенном виде pd после импорта

In [None]:
import pandas as pd

In [None]:
mydataset = {
  'cars': ["BMW", "Volvo", "Ford"],
  'passings': [3, 7, 2]
}

df = pd.DataFrame(mydataset)

In [None]:
df

In [None]:
!pip install pandas

Проверка версии pandas:

In [None]:
print(pd.__version__)

**Ряды(серии) в pandas**


Ряды Pandas похожы на столбцы в таблице Excel.

Это одномерный массив, содержащий данные любого типа.

In [None]:
a = [1, 7, 2]

s1 = pd.Series(data = a)

In [None]:
s1

Первое значение имеет индекс 0, второе значение имеет индекс 1 и т. д.

Индекс может использоваться для доступа к указанному значению.

In [None]:
s1[0]

С помощью аргумента index вы можете задавать свои собственные индексы.

In [None]:
a = [1, 7, 2]

s1 = pd.Series(a, index = ["x", "y", "z"])

In [None]:
s1

In [None]:
print(s1["z"])

Вы также можете использовать объект ключ/значение, например словарь, при создании серии.

In [None]:
calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories)

print(myvar)

In [None]:
myvar['day3']

Чтобы выбрать только некоторые элементы в словаре, используйте аргумент индекса и укажите только элементы, которые вы хотите включить в серию.

In [None]:
calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories, index = ["day1", "day2"])

print(myvar)

Упражнения:

---



Задание 1. Используйте метод Pandas, чтобы создать серию s1 из списка list_1.

In [None]:
import pandas as pd

In [None]:
list_1 = [10, 100, 200, 290, 120, 90]

In [None]:
s1 = pd.Series(list_1)

In [None]:
s1

Задание 2. Верните первое и второе значение серии Pandas s1, которую вы создали в прошлом задании

In [None]:
s1[0], s1[1]

Задание 3. Используйте Pandas, чтобы добавить индексы «a», «b» и «c» и т.д. к  серии s1

In [None]:
s1 = pd.Series(list_1, index=['a', 'b', 'c', 'd', 'e', 'f'])

In [None]:
s1



---



Наборы данных в Pandas обычно представляют собой многомерные таблицы, называемые DataFrames.

Серия похожа на столбец, а DataFrame — это вся таблица.

In [None]:
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data)

In [None]:
df

Как видно из приведенного выше результата, DataFrame похож на таблицу со строками и столбцами.

Можно использовать метод loc для возврата одной или нескольких указанных строк.

In [None]:
df.loc[2]

In [None]:
df.loc[1:2]

In [None]:
df.loc[[0, 2]]

С помощью аргумента index вы можете задавать свои собственные индексы.

In [None]:
df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

In [None]:
df

In [None]:
df.loc[["day1","day3"]]

Если ваши данных хранятся в файле, Pandas может загрузить их в DataFrame.

In [None]:
df = pd.read_csv('/content/sample_data/california_housing_test.csv')

In [None]:
df

Анализ данных в Pandas

In [None]:
df.head(5)

In [None]:
df.tail(2)

In [None]:
df.info()



---



Упражнения:

Используйте правильный метод Pandas для создания DataFrame df1 из словаря data.

In [None]:
data = {
  "calories": [420, 380, 390, 400],
  "duration": [50, 40, 45, 30],
  "steps":[3000, 4000, 3200, 5000]
}

In [None]:
df1 = pd.DataFrame(data = data)

In [None]:
df1

Используйте правильный синтаксис, чтобы вернуть первую строку DataFrame df1.

In [None]:
df1.loc[0]

https://drive.google.com/file/d/1rVriAK68v5_7qEcZ_agHy6ndobSigmGi/view?usp=sharing

Скачать файл. Загрузить в питон как датафрейм. Вывести первые 15 строк датафрейма. Вывести информацию о датафрейме на экран.


In [None]:
df2 = pd.read_csv('/content/GooglePlayStore_wild (2).csv')

In [None]:
df2.info()

In [None]:
df2.head(15)



---



Добавление столбцов в пандас

In [None]:
df_rating_reviews = df2.copy()

In [None]:
df_rating_reviews.columns

In [None]:
df_rating_reviews['test_column']=0.0

In [None]:
df_rating_reviews.head(5)

In [None]:
df_rating_reviews['Rating']

In [None]:
df_rating_reviews.Rating

Удаление столбцов и строк в пандас

In [None]:
df_rating_reviews.columns

In [None]:
df_rating_reviews.drop(columns = ['Unnamed: 0', 'test_column'], inplace = True)

In [None]:
df_rating_reviews.columns

In [None]:
df_rating_reviews.index[0:4]

In [None]:
df_rating_reviews.drop(df_rating_reviews.index[0:4], inplace = True)

In [None]:
df_rating_reviews

Операции со столбцами и данными в Pandas:


In [None]:
df_rating_reviews['Rating']

In [None]:
df_rating_reviews['Rating'].mean().round(1)

In [None]:
df_rating_reviews['Rating'].fillna(df_rating_reviews['Rating'].mean().round(1), inplace = True)

In [None]:
df_rating_reviews_filna_0 = df_rating_reviews.fillna(0.0)

In [None]:
df_rating_reviews_filna_0.info()

In [None]:
df_rating_reviews['Rating'].mean().round(1)

In [None]:
df_rating_reviews['Rating'].median()

In [None]:
df_rating_reviews['Rating'].mode()[0]

In [None]:
df_rating_reviews_filna_mean = df_rating_reviews.fillna(df_rating_reviews['Rating'].mean().round(1))

In [None]:
df_rating_reviews_filna_median = df_rating_reviews.fillna(df_rating_reviews['Rating'].median())

In [None]:
df_rating_reviews_filna_median = df_rating_reviews.fillna(df_rating_reviews['Rating'].mode()[0])

In [None]:
df_rating_reviews_filna_median.Rating.head(10)

In [None]:
df_rating_reviews_filna_median['Rating'].loc[200:210]

In [None]:
df_rating_reviews_filna_median['Rating'].loc[200:210]=5.0

In [None]:
df_rating_reviews_filna_median['Rating'].loc[200:210]

In [None]:
df_rating_reviews_filna_median['Rating'].loc[10]=1.0

In [None]:
df_rating_reviews_filna_median['Rating'].loc[10]

In [None]:
df_rating_reviews_dropna = df_rating_reviews.dropna()

In [None]:
df_rating_reviews_dropna.info()

In [None]:
df_clean = df_rating_reviews_dropna.drop_duplicates(subset=['Rating','Category'])

In [None]:
df_clean.info()

In [None]:
df_clean

In [None]:
df_clean.reset_index(drop = True, inplace = True)

In [None]:
df_clean

In [None]:
df1

In [None]:
df1.T

In [None]:
df1.transpose()