# Pandas DataFrame

Pandas DataFrame  — це двовимірна, що змінює розмір, потенційно неоднорідна таблична структура даних із позначеними осями (рядки та стовпці).

Data frame — це двовимірна структура даних, тобто дані вирівнюються в табличному вигляді в рядках і стовпцях.

Pandas DataFrame складається з трьох основних компонентів:  data, rows, and columns.

**Creating a Pandas DataFrame**

Pandas DataFrame буде створено шляхом завантаження наборів даних із наявного сховища, сховищем може бути база даних SQL, файл CSV і файл Excel.

Pandas DataFrame можна створити зі списків, словника, зі списку словника тощо.

Ось кілька способів створення фрейму даних:

`Creating a dataframe using List`:  DataFrame можна створити за допомогою одного списку або списку списків.

In [18]:
import pandas as pd

# list of strings
lst = ['Geeks', 'For', 'Geeks', 'is',
            'portal', 'for', 'Geeks']

# Calling DataFrame constructor on list
df = pd.DataFrame(lst)
print(df)

        0
0   Geeks
1     For
2   Geeks
3      is
4  portal
5     for
6   Geeks


In [19]:
df

Unnamed: 0,0
0,Geeks
1,For
2,Geeks
3,is
4,portal
5,for
6,Geeks


`Creating DataFrame from dict of ndarray/lists`: Щоб створити DataFrame з dict narray/list, увесь narray має бути однакової довжини.

Якщо передається індекс, то індекс довжини має дорівнювати довжині масивів.

Якщо індекс не передано, то за замовчуванням індекс буде діапазоном (n), де n — довжина масиву.

In [20]:
# DataFrame from dict narray / lists
# By default addresses.

# intialise data of lists.
data = {'Name':['Tom', 'nick', 'krish', 'jack'],
        'Age':[20, 21, 19, 18]}

# Create DataFrame
df = pd.DataFrame(data)

# Print the output.
print(df)

    Name  Age
0    Tom   20
1   nick   21
2  krish   19
3   jack   18


In [21]:
df

Unnamed: 0,Name,Age
0,Tom,20
1,nick,21
2,krish,19
3,jack,18


`Creating an Empty DataFrame`: Порожній DataFrame у pandas — це таблиця без даних, але може мати визначені назви стовпців та індекси.

Це корисно для налаштування структури перед динамічним додаванням даних.

Порожній DataFrame можна створити, просто викликавши конструктор dataframe.

In [22]:
df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


`Creating DataFrame from dict of Numpy Array`: Ми можемо створити Pandas DataFrame за допомогою словника масивів NumPy.

 Кожен ключ у словнику представляє назву стовпця, а відповідний масив NumPy надає значення для цього стовпця.

In [23]:
import numpy as np

data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
print(df)

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


In [24]:
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


`Creating a DataFrame from a List of Dictionaries`: Ми також можемо створити фрейм даних за допомогою списку словників.

Він представляє дані, де кожен словник відповідає рядку.

Цей метод корисний для обробки структурованих даних з API або файлів JSON.

Він зазвичай використовується для веб-скопіювання та обробки даних API, оскільки відповіді JSON часто містять списки словників.

In [25]:
dict_ = {'name':["aparna", "pankaj", "sudhir", "Geeku"],
        'degree': ["MBA", "BCA", "M.Tech", "MBA"],
        'score':[90, 40, 80, 98]}

df = pd.DataFrame(dict_)

print(df)

     name  degree  score
0  aparna     MBA     90
1  pankaj     BCA     40
2  sudhir  M.Tech     80
3   Geeku     MBA     98


In [26]:
df

Unnamed: 0,name,degree,score
0,aparna,MBA,90
1,pankaj,BCA,40
2,sudhir,M.Tech,80
3,Geeku,MBA,98


## Pandas Create Dataframe Syntax

#### `pandas.DataFrame(data, index, columns)`

Parameters:
* `data`: Це набір даних, з якого буде створено DataFrame. Це може бути список, словник, скалярне значення, ряди та масиви тощо.
* `index`: Необов’язковий, за замовчуванням індекс DataFrame починається з 0 і закінчується останнім значенням даних (n-1). Він явно визначає мітку рядка.
* `columns`: Цей параметр використовується для надання імен стовпців у DataFrame. Якщо назва стовпця не визначена за замовчуванням, воно прийматиме значення від 0 до n-1.

Returns:
* `DataFrame` object

`Creating a DataFrame from Lists or Arrays`:

In [27]:
# initialize list of lists
data = [['tom', 10], ['nick', 15], ['juli', 14]]

# Create the pandas DataFrame
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)

   Name  Age
0   tom   10
1  nick   15
2  juli   14


In [28]:
df

Unnamed: 0,Name,Age
0,tom,10
1,nick,15
2,juli,14


**Пояснення**: щоб створити Pandas DataFrame зі списку списків, ви можете використати функцію pd.DataFrame(). Ця функція приймає список списків як вхідні дані та створює DataFrame з тією ж кількістю рядків і стовпців, що й у вхідному списку.

`Create DataFrame from List of Dictionaries`

In [29]:
# Initialize data to lists.
data = [{'a': 1, 'b': 2, 'c': 3},
        {'a': 10, 'b': 20, 'c': 30}]

# Creates DataFrame.
df = pd.DataFrame(data)
print(df)

    a   b   c
0   1   2   3
1  10  20  30


**Пояснення**: Pandas DataFrame можна створити шляхом передачі списків словників як вхідних даних. За замовчуванням ключі словника будуть прийняті як стовпці.

Іншим прикладом є створення Pandas DataFrame шляхом передачі списків словників та **індексів рядків**.

In [30]:
# Initialize data of lists
data = [{'b': 2, 'c': 3}, {'a': 10, 'b': 20, 'c': 30}]

# Creates pandas DataFrame by passing
# Lists of dictionaries and row index.
df = pd.DataFrame(data, index=['first', 'second'])
print(df)

         b   c     a
first    2   3   NaN
second  20  30  10.0


`Creating a DataFrame from Another DataFrame`

In [31]:
original_df = pd.DataFrame({
    'Name': ['Tom', 'Nick', 'Krish', 'Jack'],
    'Age': [20, 21, 19, 18]
})

new_df = original_df[['Name']]
print(new_df)

    Name
0    Tom
1   Nick
2  Krish
3   Jack


**Пояснення**: ви можете створити новий DataFrame на основі існуючого DataFrame, вибравши певні стовпці або рядки.

`Create DataFrame from a Dictionary of Series`

In [32]:
# Initialize data to Dicts of series.
d = {'one': pd.Series([10, 20, 30, 40],
                      index=['a', 'b', 'c', 'd']),
     'two': pd.Series([10, 20, 30, 40],
                      index=['a', 'b', 'c', 'd'])}

# creates Dataframe.
df = pd.DataFrame(d)
print(df)

   one  two
a   10   10
b   20   20
c   30   30
d   40   40


**Пояснення**: щоб створити фрейм даних у Python зі словника `series`, можна передати словник для формування DataFrame. Результуючий індекс є об'єднанням усіх серій пройдених індексованих.

https://www.geeksforgeeks.org/python-pandas-series/

`Create DataFrame using the zip() function`

In [33]:
# List1
Name = ['tom', 'krish', 'nick', 'juli']

# List2
Age = [25, 30, 26, 22]

# get the list of tuples from two lists.
# and merge them by using zip().
list_of_tuples = list(zip(Name, Age))

# Assign data to tuples.
list_of_tuples

[('tom', 25), ('krish', 30), ('nick', 26), ('juli', 22)]

In [34]:
# Converting lists of tuples into
# pandas Dataframe.
df = pd.DataFrame(list_of_tuples,
                  columns=['Name', 'Age'])

print(df)

    Name  Age
0    tom   25
1  krish   30
2   nick   26
3   juli   22


**Пояснення**: два списки можна об’єднати за допомогою функції `zip()`. Тепер створіть Pandas DataFrame, викликавши функцію pd.DataFrame().

`Create a DataFrame by Proving the Index Label Explicitly`

In [35]:
# initialize data of lists.
data = {'Name': ['Tom', 'Jack', 'nick', 'juli'],
        'marks': [99, 98, 95, 90]}
# Creates pandas DataFrame.
df = pd.DataFrame(data, index=['rank1',
                               'rank2',
                               'rank3',
                               'rank4'])
# print the data
print(df)

       Name  marks
rank1   Tom     99
rank2  Jack     98
rank3  nick     95
rank4  juli     90


**Пояснення**: щоб створити DataFrame шляхом явного надання мітки індексу, ви можете використати параметр index конструктора pd.DataFrame(). Параметр index приймає список міток індексу як вхідні дані, і DataFrame використовуватиме ці мітки для рядків DataFrame.

## Dealing with Rows and Columns in Pandas DataFrame
https://www.geeksforgeeks.org/python-pandas-dataframe/