In [None]:
import pandas as pd
import numpy as np

# import os
# os.getcwd() # просмотр текущей директории
# os.chdir("...") # изменение рабочей директории на другую

In [None]:
# Как создать пустую DataFrame
df = pd.DataFrame()

In [None]:
# Cпособ 1 - создать Dataframe из нескольких элементов типа Series

s1 = pd.Series([1, 3, 5, np.nan, 6, 8], index=range(1,7))
s2 = pd.Series([11, 13, 15, np.nan, 16, 18], index=range(1,7))

#df = pd.DataFrame(s1, s2)
df = pd.DataFrame({'s1': s1,'s2':s2}) #, index=s1.index)

In [None]:
# Способ 2: Создаем Pandas Dataframe из списка словарей

p1 = {'Name' : 'Angelina', 'Last Name' : 'Gerbolt', 'Age' : 27, 'Gender': 'Female', 'Occupation': 'Student'}
p2 = {'Name' : 'Johny', 'Last Name' : 'Depp', 'Age' : 56, 'Gender': 'Male', 'Occupation' : 'Actor'}
p3 = {'Name' : 'Billie', 'Last Name' : 'Eilish', 'Age' : 18, 'Gender': 'Female', 'Occupation' : 'Singer'}

people = [p1, p2, p3]


# Если у вас имеются строки(ряды) с пустыми значениями, их можно удалить при помощи
# Будьте осторожны с этой командой - если во всех строках имеется хоть по одному NaN, 
# то ваша DataFrame останется пустой
# df.dropna()

df1 = pd.DataFrame(people)

# К колонкам, в названии которых НЕТ пробелов, можно обращаться ДВУМЯ способами:
df1.Name
df1['Name']

df1.Age
df1['Age']


# К колонкам, в названии которых ЕСТЬ пробелы, можно обращаться только ОДНИМ способом:
#df1.Last Name # Ошибка
df1['Last Name']

In [None]:
# Способ 3 - Создаем Pandas Dataframe из словаря, ключи (keys) которого - названия колонок,
# а значения (values) - списки (lists) со значениями для этой колонки

people2 = {"Name": ['Brad', 'Leonardo', 'Margot', 'Quentin'],
          "Surname": ['Pitt', 'DiCaprio', 'Robbie', 'Tarantino'],
          "Age": [56, 45, 29, 57],
          "Gender": ['male','male', 'female', 'male'],
          "Occupation": ['actor', 'actor', 'actress', 'director']}

df2 = pd.DataFrame(people2)

In [None]:
# Способ 4 - Считать Dataframe из файла

# Библиотека Pandas может читать множество форматов файлов - 
# Comma-separated values (CSV), XLSX, ZIP, Plain Text (txt), JSON, XML (Extensible Markup Language), HTML, Images, Hierarchical Data Format, PDF
# DOCX, MP3, MP4, SQL и др. 
# но самыми часто используемыми являются CSV, txt, XLSX

# Прочитать  csv-file
actors = pd.read_csv("Actors.csv")

# Смотрим  базовую информацию по датасету
# Info provides the essential details about your dataset, 
# such as the number of rows and columns, the number of non-null values, 
# what type of data is in each column, and how much memory your DataFrame is using.
actors.info()

# Смотрим числовую статистику по датасету
actors.describe()


In [None]:
# Узнать размерность таблицы
print("Shape of the dataframe: ", actors.shape)

# Показать первые 5 результатов
actors.head()

# Показать первые 20 результатов
actors.head(20)

# Показать последние 5 результатов
actors.tail()

# Показать первые 15 результатов
actors.tail(3)

In [None]:
# Распечатать названия колонок
actors.columns

# Распечатать названия индексов
actors.index

# Переименовать некоторые колонки - оформляется в виде dictionary и подается как параметр для columns
# где старое значение - key, a новое - value
actors.rename(columns={'Total Gross': 'tGross', 
                        'Number of Movies': 'nMovies',
                        'Average per Movie': 'avMovie',
                        '#1 Movie': 'TopMovie'}, inplace=True)

# Если переименовать нужно все колонки, то можно присвоить list c новыми названиями для всех колонок
actors.columns = ['name', 'tGross', 'nMovies', 'avMovie', 'topMovie', 'gross']


In [None]:
# Узнать тип данных колонки - по умолчанию, все отдельные колонки должны быть типа Series
print(type(actors.nMovies))

# Изменить данные в одной из колонок inplace = в той же самой Dataframe
actors.tGross = actors.tGross*1000000
actors.gross = actors.gross*1e6
actors.avMovie = actors.avMovie*1e6

In [None]:
actors

In [None]:
# Находим максимум и минимум определенных колонок
print(actors.tGross.max())
print(np.max(actors.tGross))

print(actors['gross'].min())
print(np.min(actors['gross']))

# Находим среднее арифметическое
print("Mean: ", actors.gross.mean())

# Находим среднее арифметическое
print("Standard Deviation: ", actors.gross.std())

In [None]:
# Используем фильтр по условию
actors[actors.topMovie=='The Avengers']

# Двойное условие - логическая операция AND
# Актер снимался в Avengers И его состояние больше 3.5млрд
actors[(actors.topMovie=='The Avengers') & (actors.tGross > 3.5e9)] 

# Двойное условие - логическая операция OR
# Актер или снимался в Avengers ИЛИ его состояние больше 3.5млрд (или оба верны)
actors[(actors.topMovie=='The Avengers') | (actors.tGross > 3.5e9)] 

# условие - логическая операция NOT
# Все, кроме тех, кто снимался в Avengers
actors[~(actors.topMovie=='The Avengers')]

In [None]:
# Многострадальный Samuel L Jackson
actors.name[actors.tGross == actors.tGross[actors.topMovie == 'The Avengers'].max()]