# DataFrame

**Arquivos utilizados**:  
- *exemplo_notas_alunos.xlsx (exemplo_notas_alunos.csv)*
- *exemplo_faltas_alunos.xlsx (exemplo_faltas_alunos.csv)*
- *exemplo_dados_alunos.xlsx (exemplo_dados_alunos.csv)*

**Fonte: https://pandas.pydata.org/pandas-docs/stable/index.html**


## Criando um *dataframe*

#### Lendo um arquivo .csv

In [None]:
import numpy as np
import pandas as pd
pd.read_csv('exemplo_notas_alunos.csv',sep=';')

#### Lendo um arquivo Excel

In [None]:
#Instalando as bibliotecas necessária para ler e escrever arquivos do Excel.
! pip install xlrd
! pip install openpyxl

In [None]:
#Lendo a tabela Excel
df = pd.read_excel('exemplo_notas_alunos.xlsx', sheet_name='exemplo_notas_alunos')
df

In [None]:
colunas = ['Matricula','Nome']
df[colunas]

In [None]:
print(df.head())
print('\n. . . \n')
print(df.tail())

In [None]:
df.describe()

In [None]:
print(df.sum())
print(df.shape)

In [None]:
df.set_index('Matricula', inplace=True)
df.head(10)

In [None]:
df.sort_index(inplace=True)
df.head(10)

In [None]:
df.sort_values(by=['Nome'], inplace=True)
df.head(10)

In [None]:
df = pd.read_excel('exemplo_notas_alunos.xlsx', index_col=0)
# df = pd.read_csv('exemplo_notas_alunos.csv', sep=';', index_col=0)
df.head()

In [None]:
df['Nota1'].head()

# #Alternativamene
# df.Nota1.head()

In [None]:
df[['Nome', 'Nota1']].head()

# #Alternativamente:
# colunas = ['Nome', 'Nota1'] 
# df[colunas].head()

In [None]:
for i in df.index: print(i)

Uma **série** é basicamente um dataframe de coluna única. Uma **série** tem um índice, que desaparece caso você converta a série em uma lista. 
Sempre que escrevemos algo como `` df ['column'] `` ou `` df.column``, o retorno é uma **série**.

In [None]:
nota1 = df.Nota1
print(nota1)
print(type(nota1))

In [None]:
nota1 = list(df.Nota1)
print(nota1)
type(nota1)

In [None]:
nota1 = np.array(df.Nota1)
print(nota1)
type(nota1)

In [None]:
df = df.rename(columns={'Nome':'Aluno'})
df.head()

# # Alternativamente
# df.rename(columns={'Nome':'Aluno'}, inplace=True)

In [None]:
colunas = list(df.columns)
print(colunas)

# #Alternativamente
# colunas =[]
# for i in df.columns:
#     colunas.append(i)
# print(colunas) 

In [None]:
df.head()

In [None]:
df.to_excel('exemplo_notas_alunos_sem_colunas.xlsx', sheet_name='Plan1', header=False)
# df.to_csv('exemplo_notas_alunos_sem_colunas.csv', header=False)

In [None]:
pd.read_excel('exemplo_notas_alunos_sem_colunas.xlsx',index_col=None).head()
# pd.read_csv('exemplo_notas_alunos_sem_colunas.csv', index_col=0).head()

In [None]:
df = pd.read_excel('exemplo_notas_alunos_sem_colunas.xlsx', index_col=0, header=None, names=colunas)
df.index = df.index.set_names('Matricula')
df.head()
# df = pd.read_csv('exemplo_notas_alunos_sem_colunas.csv', index_col=0, names=colunas)

## Combinando Dataframes

As formas de combinar dataframes são: *merging*, *joining*, *concatenation* e *appending*.

### Merging

In [None]:
df = pd.read_excel('exemplo_notas_alunos.xlsx')
df_faltas = pd.read_excel('exemplo_faltas_alunos.xlsx')
# df_ = pd.read_csv('exemplo_notas_alunos.csv', sep=';')
# df_faltas_ = pd.read_csv('exemplo_faltas_alunos.csv', sep=';')

print(df.head(),'\n')
print(df_faltas.head())

In [None]:
df2 = pd.merge(df,df_faltas, on='Matricula')
df2.head()

In [None]:
df2 = pd.merge(df,df_faltas, on=['Matricula','Nome'])
df2.head()

In [None]:
df.set_index('Matricula', inplace=True)
df_faltas.set_index('Matricula', inplace=True)

In [None]:
print(df.head(),'\n\n',df_faltas.head())

In [None]:
df2 = pd.merge(df,df_faltas, left_index=True, right_index=True)
print(df2.head())

In [None]:
print(df_faltas.head())

df_faltas.reset_index(level=0, inplace=True)
print('\n',df_faltas.head())

# #Alternativamente
# df_faltas['Matricula'] = df_faltas.index
# df_faltas.index = np.arange(len(df_faltas.Matricula))
# print(df_faltas.head())

In [None]:
df_dados = pd.read_excel('exemplo_dados_alunos.xlsx')
# df_dados = pd.read_csv('exemplo_dados_alunos.csv', sep=';')

print(df_dados.head())
print('\n',50*'-','\n')
print(df_dados.tail())

In [None]:
print(df_dados.Curso.describe(),'\n')
print(df_dados.Curso.unique())

In [None]:
df = pd.read_excel('exemplo_notas_alunos.xlsx')
df2 = pd.merge(df,df_faltas, on=['Matricula','Nome'])
df3 = pd.merge(df2,df_dados, on=['Matricula','Nome'], how='left')

In [None]:
print(df.head(),'\n')
print(df2.head(),'\n')
print(df3.head(),'\n')

### Alternativamente: ``DataFrame.join``

Junta os dataframes com base nos **índices**.

In [None]:
df.set_index('Matricula', inplace=True)
df_faltas.set_index('Matricula', inplace=True)
df_dados.set_index('Matricula', inplace=True)
print(df.head(),'\n\n',df_faltas.head(),'\n\n',df_dados.head())

In [None]:
df = df.join(df_faltas.Faltas)
dados = ['Curso','Ingresso']
df = df.join(df_dados[dados])
df.head()

In [None]:
df = df[['Nome','Curso','Ingresso','Faltas','Nota1','Nota2']]

In [None]:
df.head()

### Appending

You may want to "append" to them, where you may be adding to the end, basically adding more rows.

In [None]:
mais_alunos = {'Nome':['Juliana Lima','Carlos Brito','Carla Gomes'],
               'Curso':['Administração','Administração','Administração'],
               'Ingresso':[2015,2016,2017],
               'Faltas':[0.0, 0.0, 0.0],
               'Nota1':[4.5, 8.6, 9.0], 
               'Nota2':[7.0, 7.5, 9.0]}

df_mais_alunos = pd.DataFrame(mais_alunos, index = [423320,455553,337566])

In [None]:
print(df_mais_alunos.head())

In [None]:
df_mais_alunos = df_mais_alunos[['Nome','Curso','Ingresso','Faltas','Nota1','Nota2']]
print(df_mais_alunos.head())

In [None]:
print(df.describe())
print('\n',50*'-','\n')
df = df.append(df_mais_alunos)
print(df.describe())

In [None]:
print(df.describe())
df

outra forma...

In [None]:
pd.concat([df, df_mais_alunos], join='inner')