# DataFrame

**Arquivo utilizado**:  *exemplo_alunos.xlsx*

**Fonte de consulta: https://pandas.pydata.org/pandas-docs/stable/index.html**


## Selecionando dados

Nesta seção, nos concentraremos em como fatiar e obter subconjuntos de um DataFrame.
Para selecionar fatias de um objeto pandas (uma série ou um dataframe), utilizamos `[]` de acordo com a tabela abaixo:

| Tipo de objeto | Seleção | Valor de retorno |
| --- | --- | --- |
|Série | série \[rótulo\] | valor escalar |
| DataFrame | frame \[colname\] | Série correspondente a colname|

In [None]:
import pandas as pd
import numpy as np
df = pd.read_excel('exemplo_alunos.xlsx')

In [None]:
s = df['Faltas']
s[20:25]

In [None]:
df[20:25]

In [None]:
df[20:21]

In [None]:
df.Curso=='Atuária'

In [None]:
df[df.Curso=='Atuária']

In [None]:
df[df.index >= 600000]

In [None]:
a = df[df.index==322664]
print(type(a))
a

In [None]:
df[df.Ingresso < 2016][['Nome', 'Curso']]

In [None]:
colunas = ['Nome','Curso']
df[(df.Ingresso < 2016) & (df.Curso=='Administração')][colunas]

**Usando o operador `isin`**

In [None]:
df[df.Ingresso.isin([2014,2015]) & df.Curso.isin(['Administração','Secretariado'])][colunas]

In [None]:
df[~df.Ingresso.isin([2016,2017]) & ~df.Curso.isin(['Atuária'])][colunas]

### Seleção sobre índices com ``.loc`` e com ``.iloc``

``.loc`` trabalha com **rótulos** do índice, retornando os valores da coluna para a(s) linha(s) especificada(s). Aceita um único rótulo, uma lista (ou matriz) de rótulos ou uma fatia de rótulos.

In [None]:
b = df.loc[322664]
print(type(b))
b

In [None]:
df.loc[335566:337419]

In [None]:
df.loc[:322664]

In [None]:
df_adm = df[df.Curso=='Administração']
df_adm.reset_index(level=0, inplace=True)
df_adm.set_index('Nome', inplace=True)
df_adm = df_adm.rename(columns={'index':'Matricula'})
df_adm

In [None]:
df_adm.loc['Juliana Lima']

In [None]:
df_adm[df_adm.index=='Juliana Lima']

In [None]:
lista_alunos = ['Tairine Ferraço', 'Juliana Lima']
df_adm.loc[lista_alunos]

Podemos selecionar resultados específicos para uma ou mais colunas escrevendo:
`df.loc[row_indexer,column_indexer]`

In [None]:
df_adm.loc[lista_alunos,['Curso','Ingresso']]

# #Alternativamente:
# colunas = ['Curso','Ingresso']
# df_adm.loc[lista_alunos][colunas]

Podemos apresentar resultados para algumas colunas com base em critérios aplicados a outras colunas.

In [None]:
df.loc[(df['Curso']=='Administração') & (df['Ingresso']<=2016 ), 'Nome']

In [None]:
df.loc[(df['Curso']=='Administração') & (df['Ingresso']<=2016 ), 'Nome'].index

In [None]:
df.loc[(df['Curso']=='Administração') & (df['Ingresso']<=2016 ), 'Nome'].values

``.iloc``, trabalha com as **posições** dos índices para selecionar linhas específicas.

In [None]:
df.iloc[[0, 2, 7]]

In [None]:
df.reset_index(inplace=True)
df.head()

In [None]:
df.rename(columns={'index':'Matricula'}, inplace=True)
df.head()

In [None]:
df.iloc[0:50:5]

#### Selecionando registros com dados faltantes (missing data)

In [None]:
df[df.Nota2.isnull()]

In [None]:
Nota2 = df[df.Nota2.notnull()].Nota2
Nota2.describe()

In [None]:
df.dropna().describe()

### Modificando dados 

In [None]:
df = pd.read_excel('exemplo_alunos.xlsx')
df.index.set_names('Matricula', inplace=True)
df.head()

In [None]:
# Modificando a segunda nota do aluno Lázaro Espírito Santo
df.loc[322664, 'Nota2'] = 6.5
df.head()

# # Veja o que acontece se não utilizarmos '.loc'
# df[322664, 'Nota2'] = 6.5
# print(df.head())
# df.drop(columns=[(322664, 'Nota2')], inplace=True)

In [None]:
df.Nota2 = df.Nota2 + 1
df.loc[df.Nota2>10]

In [None]:
df.Nota2 = df.Nota2-1

In [None]:
df.loc[(df.Nota2<=9), 'Nota2'] = df.Nota2 + 1
df.loc[(df.Nota2>9), 'Nota2'] = 10

In [None]:
df.loc[df.Nota2>10]

### Criando novas colunas a partir das existentes

In [None]:
# Calculando a nota média
df['Media'] = (df.Nota1 + df.Nota2)/2
df['Media2'] = df[['Nota1', 'Nota2']].mean(axis=1)
df[df.Nota2.isnull()]

In [None]:
alunos_sem_nota2 = list(df[df.Nota2.isnull()].index)
alunos_sem_nota2

In [None]:
df.loc[df.Nota2.isnull(), 'Nota2'] = 0
df.loc[alunos_sem_nota2]

In [None]:
df['Media'] = (df.Nota1 + df.Nota2)/2            # Calculando pela fórmula
df['Media2'] = df[['Nota1', 'Nota2']].mean(axis=1)  # Usando a função do pandas
df.loc[alunos_sem_nota2]

In [None]:
df.loc[(df.Faltas>8), 'Media'] = np.nan
df.loc[(df.Faltas>8)]

In [None]:
df.drop(columns='Media2', inplace=True)
df.head()

In [None]:
df['Resultado'] = 'Aprovado'
df.loc[df.Media<7 ,'Resultado'] = 'Recuperação'
df.loc[df.Media<4 ,'Resultado'] = 'Reprovado'
df.loc[df.Media.isnull() ,'Resultado'] = 'Reprovado por falta'

In [None]:
df.sort_values('Media',ascending=False)

In [None]:
df.to_excel('exemplo_alunos_final.xlsx')