# Pandas - Dataframes

DataFrames são estruturas bidimensionais de tamanho mutável, com eixos rotulados (linhas e colunas). As operações matemáticas podem ser feitas considerando ambos os eixos.

De forma geral, DataFrames podem ser pensadas como containers semelhantes a dicionários para guardar objetos do tipo Séries. É a estrutura principal do pandas.

In [None]:
import pandas as pd

Podemos criar um dataframe a partir de um dicionário de Séries.

O pandas tem um conjunto de funções que facilitam a visualização dos dados, tornando a estrutura muito mais "bonita" visualmente do que um Numpy array.

In [None]:
data = {
    'valores': pd.Series([1,2,3]),
    'categorias': pd.Series(['A', 'B', 'C'])
}
pd.DataFrame(data)

O pandas também contém diversas funções para ler arquivos complexos, como csv, excel, etc. 

Chega da biblioteca CSV! O pandas deixa isso pronto pra você :)

In [None]:
df = pd.read_csv('HR_comma_sep.csv')

## Pegando informações sobre o dataframe

Quando se lê um arquivo csv, ele entende que existem colunas nomeadas e já traz isso para você. Vamos ver as primeiras cinco linhas de um dataframe?

In [None]:
df.head()

In [None]:
df.tail(3)

Algumas vezes, é relevante pegar informações sobre os metadados:

In [None]:
print('Colunas: ', df.columns.values)
print('Tamanho da matriz: ', df.shape)

In [None]:
df.describe()

## Trabalhando com colunas

Como cada coluna funciona como uma Series, podemos fazer as mesmas funções, chamando as colunas pelo seu nome:

In [None]:
df['last_evaluation'].mean()

Podemos fazer slices semelhante ao que fazemos em Series, porém, considerando o dicionário todo:

In [None]:
high_evaluations = df[df['last_evaluation'] > 0.7]
high_evaluations.shape

In [None]:
median_evaluations = df[(df['last_evaluation'] <= 0.7) & (df['last_evaluation'] > 0.5)]
median_evaluations.shape

In [None]:
good_evaluations = df[(df['last_evaluation'] > 0.7) | (df['satisfaction_level'] > 0.7)]
good_evaluations.shape

Podemos entender o comportamento padrão de uma variável fazendo counts rápidos:

In [None]:
df['salary'].value_counts()

Podemos apagar colunas denecessárias do DataFrame:

In [None]:
df.drop("left", axis=1).head()

## Conceito de inplace

In [None]:
df.rename(columns={'number_project': 'num_project'})

In [None]:
df.head()

In [None]:
df.rename(columns={'number_project': 'num_project'}, inplace=True)
df.head()

## Acessando valores

In [None]:
df.iloc[99]

In [None]:
df.iloc[99, 0]

## Iterando sobre valores

In [None]:
for item, row in df.iterrows():
    print('.', end='')

## Trabalhando com múltiplos dataframes

In [None]:
df1 = pd.DataFrame({'id': range(5), 
                           'valor1': ['a', 'b', 'c', 'd', 'e']})
df2 = pd.DataFrame({'id': range(2, 7), 
                           'valor2': ['f', 'g', 'h', 'i', 'j']})

print(df1)
print('')
print(df2)

In [None]:
pd.merge(df1, df2, on='id', how='inner')

In [None]:
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2], ignore_index=True)