# DataFrame




DataFrame é uma estrutura de dados bidimensional com os dados alinhados de forma tabular em linhas e colunas, mutável em tamanho e potencialmente heterogênea. 
Nos Dataframes os nomes das colunas e os índices das linhas são conhecidos como índices.
Os DataFrames são objetos extremamente flexíveis, neles pode - se armazenar, listas, vetores e até outros dataframes.
Ou seja, DataFrames são um conjunto de dados organizado em forma bidimensional e neles podemos guardar vários tipos de dados. No Python é a geralmente o objeto mais utilizado.

# Situações de uso dos DataFrames

## 1.  Criação de tabelas

In [9]:
import pandas as pd
data = {
        'name': ['Xavier', 'Ann', 'Jana', 'Yi', 'Robin', 'Amal', 'Nori'],
        'city': ['Mexico City', 'Toronto', 'Prague', 'Shanghai','Manchester', 'Cairo', 'Osaka'],
        'sex': ['Male', 'Non-Binary', 'Female', 'Non-Binary', 'Male', 'Male', 'Female'],
        'age': [41, 28, 33, 34, 38, 31, 37],
        'score': [88.0, 79.0, 81.0, 80.0, 68.0, 61.0, 84.0]
        }

row_labels = [101, 102, 103, 104, 105, 106, 107]

df = pd.DataFrame(data=data, index=row_labels)
df

Unnamed: 0,name,city,sex,age,score
101,Xavier,Mexico City,Male,41,88.0
102,Ann,Toronto,Non-Binary,28,79.0
103,Jana,Prague,Female,33,81.0
104,Yi,Shanghai,Non-Binary,34,80.0
105,Robin,Manchester,Male,38,68.0
106,Amal,Cairo,Male,31,61.0
107,Nori,Osaka,Female,37,84.0


## 2. Descrição dos dados contidos na tabelas

In [10]:
df.describe()

Unnamed: 0,age,score
count,7.0,7.0
mean,34.571429,77.285714
std,4.429339,9.446592
min,28.0,61.0
25%,32.0,73.5
50%,34.0,80.0
75%,37.5,82.5
max,41.0,88.0


## 3. Agrupamento de dados para auxiliar na aplicação de uma função

In [11]:
df.groupby(['sex'])['age'].agg(['max', 'min', 'mean', 'median'])

Unnamed: 0_level_0,max,min,mean,median
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,37,33,35.0,35.0
Male,41,31,36.666667,38.0
Non-Binary,34,28,31.0,31.0


## 4. Aplicação de uma função em toda uma coluna particular do DataFrame

In [12]:
def plus_10(x):
    return x + 10

df['age'].apply(plus_10)

101    51
102    38
103    43
104    44
105    48
106    41
107    47
Name: age, dtype: int64

## 5. Junção de dois dataframes através de uma informação em comum

In [13]:
data = {
        'name': ['Xavier', 'Ann', 'Jana', 'Yi', 'Robin', 'Amal', 'Nori'],
        'weight': [47.9, 67.1, 32.8, 51.2, 72.3, 60, 48.5],
        }
df2 = pd.DataFrame(data=data)
df2

Unnamed: 0,name,weight
0,Xavier,47.9
1,Ann,67.1
2,Jana,32.8
3,Yi,51.2
4,Robin,72.3
5,Amal,60.0
6,Nori,48.5


In [14]:
joined_df = pd.merge(df,df2, on=["name"])
joined_df

Unnamed: 0,name,city,sex,age,score,weight
0,Xavier,Mexico City,Male,41,88.0,47.9
1,Ann,Toronto,Non-Binary,28,79.0,67.1
2,Jana,Prague,Female,33,81.0,32.8
3,Yi,Shanghai,Non-Binary,34,80.0,51.2
4,Robin,Manchester,Male,38,68.0,72.3
5,Amal,Cairo,Male,31,61.0,60.0
6,Nori,Osaka,Female,37,84.0,48.5
