## Pandas I

**Nesta aula:**
- Pandas: por que e como usar?
- O que é um _pandas.Dataframe_, por que importa?
- O que é um _pandas.Series_, por que importa?
- Operações básicas: _describe, meam, sum_
- Acessando e manipulando dados: índices e _labels_
- Acessando e manipulando dados: colunas, _masks_ e _slices_
- Dados ausentes e duplicados
- Operações com colunas e vetorização
- Conclusão e recursos adicionais

### Panda: por que e como usar?
O Pandas é uma biblioteca que permite a organização, análise e manipulação de dados tabulares com ótimo desempenho.

É bastante intuitivo, fácil de usar e dialoga com diversas outras biblitoecas do Python, como **Numpy** e **Matplotlib**, ou programas de planilhas.

Sua versatilidade e eficiência o têm tornado uma ferramenta essencial para Análise de Dados.

No Pnadas, essa tabela ou planilha é chamada de ***Dataframe***.

|Nome|Sexo|P1|P2|Frequência|
|---|---|---|---|---|
|Aluno 1|Masculino|1,6|4,5|50%|
|Aluno 2|Feminino|7,5|6,5|80%|
|Aluno 3|Masculino|9|8|90%|

In [1]:
# Instalar o pandas

!pip install pandas



In [2]:
# Importar o pandas
# Deve ser feita a importação toda vez que for utilizar

import pandas as pd 

### _Series_ e _Dataframes_: a estrutura geral do Pandas

In [3]:
# Analisando a organização dos dados
# Estrutura de um dataframe

ex_dict = {'Nome': ['Aluno 1', 'Aluno 2', 'Aluno 3', 'Aluno 4'], 'P1': [1.6, 7.5, 9, 5.5], 'P2': ['-', 6.5, 8, 8]}

print(ex_dict)

{'Nome': ['Aluno 1', 'Aluno 2', 'Aluno 3', 'Aluno 4'], 'P1': [1.6, 7.5, 9, 5.5], 'P2': ['-', 6.5, 8, 8]}


In [4]:
# É possível gerar Dataframes a partir de dicionários
df = pd.DataFrame.from_dict(ex_dict)
print(df)

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8


In [5]:
# É possível gerar Dataframes a partir de uma lista de listas

ex_lista = [['Aluno 1', 1.6, '-'], ['Aluno 2', 7.5, 6.5], ['Aluno 3', 9, 8], ['Aluno 4', 5.5, 8]]

df2 = pd.DataFrame(ex_lista, columns=['Nome', 'P1', 'P2'])
print(df2)

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8


In [6]:
print(f"Dataframe gerado a partir de dicionários:\n\n{df}\n\nDataframe gerado a partir de listas:\n\n{df2}\n")

Dataframe gerado a partir de dicionários:

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8

Dataframe gerado a partir de listas:

      Nome   P1   P2
0  Aluno 1  1.6    -
1  Aluno 2  7.5  6.5
2  Aluno 3  9.0    8
3  Aluno 4  5.5    8



**Series**: é um conjunto unidimensional contendo dados em diversas formas (int, float, objetos, etc.). É bastante similar ao array do numpy.

**Dataframes**: é um conjunto bidimensional de dados. Pode ser entendido como um conjunto de _Series_.

In [7]:
# Series - Estrutura semelhante a um array. Uma unica coluna
series = pd.Series(ex_dict['Nome'])
print(series)

0    Aluno 1
1    Aluno 2
2    Aluno 3
3    Aluno 4
dtype: object


### Entendendo a estrutura e organização dos dados: operações básicas

In [8]:
# Importar arquivo
df = pd.read_csv('expandascsv.csv', sep=';')

In [9]:
# shape - Retornar o número de colunas e linhas
print(df.shape)

(16, 5)


In [10]:
# head() - Retornar para leitura apenas as 5 primeiras linhas
print(df.head())

     Nome       Sexo   P1   P2 Frequência
0  Aluno1  Masculino  1,6    -        50%
1  Aluno2   Feminino  7,5  6,5        80%
2  Aluno3  Masculino    9    8        90%
3  Aluno4  Masculino  5,5    8        70%
4  Aluno5  Masculino    7    8       100%


In [11]:
# tail() - Retornar para leitura apenas as últimas linhas (como parâmetro pode ser passado a quantidade desejada)
print(df.tail(10))

       Nome       Sexo   P1   P2 Frequência
6    Aluno7  Masculino    5  5,5        90%
7    Aluno8  Masculino    4  3,5        90%
8    Aluno9   Feminino    5    4        70%
9   Aluno10   Feminino    7  7,5        80%
10  Aluno11  Masculino    8    9        70%
11  Aluno12   Feminino   10    -        70%
12  Aluno13  Masculino  9,5    9       100%
13  Aluno14   Feminino    8    9        80%
14  Aluno15   Feminino    7    7        80%
15  Aluno15   Feminino    7    7        80%


In [12]:
# columns - Verificar as colunas do dataset
print(df.columns)

Index(['Nome', 'Sexo', 'P1', 'P2', 'Frequência'], dtype='object')


In [13]:
# describe() - Retornar informações estatísticas de cada coluna (geralmente, retornará mais inforamações estatísticas
# quando existem colunas quantitativas)
print(df.describe())

           Nome       Sexo  P1  P2 Frequência
count        16         16  16  16         16
unique       15          2  10   9          5
top     Aluno15  Masculino   7   8        80%
freq          2          8   4   3          6


In [14]:
# sum() - Retorna a soma dos dados (nesse caso, os tipos de dados estão formatados como string, e a função .sum() faz a
# concatenação dos dados)
print(df.sum())

Nome          Aluno1Aluno2Aluno3Aluno4Aluno5Aluno6Aluno7Alun...
Sexo          MasculinoFemininoMasculinoMasculinoMasculinoFe...
P1                                    1,67,595,57854578109,5877
P2                                     -6,588875,53,547,59-9977
Frequência    50%80%90%70%100%80%90%90%70%80%70%70%100%80%80...
dtype: object


In [15]:
# Corrigir as colunas P1 e P2 que deveriam ser dados numéricos (inteiros ou float) substituindo a vírgulo (,) por ponto (.)
# regex=True - permite que a virgula possa ser substituída mesmo no interior da string
# astype() - converte toda a coluna para o tipo 'float'

df['P1'] = df['P1'].str.replace(',', '.', regex=True).astype('float', errors='ignore')
df['P2'] = df['P2'].str.replace(',', '.', regex=True).astype('float', errors='ignore')

# Como a coluna P2 contém dados ausentes (no caso, preenchidos com '-'), será substituído por NaN (not a number)
# errors='coerce' - faz com que o erro seja substituído por um NaN
df['P2'] = pd.to_numeric(df['P2'], errors='coerce')

In [16]:
# Corrigir a coluna Frequência que possui o caractere '%' transformando em float
df['Frequência'] = df['Frequência'].str.rstrip('%').astype('float', errors='ignore') / 100

In [17]:
# Agora o método describe() retornará a estatística descritiva das colunas numéricas corretamente
print(df.describe())

             P1         P2  Frequência
count  16.00000  14.000000   16.000000
mean    6.81875   7.071429    0.800000
std     2.16617   1.730464    0.126491
min     1.60000   3.500000    0.500000
25%     5.37500   6.625000    0.700000
50%     7.00000   7.250000    0.800000
75%     8.00000   8.000000    0.900000
max    10.00000   9.000000    1.000000


In [18]:
# Assim sendo, também é possível realizar a operação numérica sum() com as colunas corrigidas
print(df.sum())

Nome          Aluno1Aluno2Aluno3Aluno4Aluno5Aluno6Aluno7Alun...
Sexo          MasculinoFemininoMasculinoMasculinoMasculinoFe...
P1                                                        109.1
P2                                                         99.0
Frequência                                                 12.8
dtype: object


In [19]:
# mean() - Retornar a média das colunas (incluindo as não numéricas, o que retornará um aviso)
print(df.mean())

P1            6.818750
P2            7.071429
Frequência    0.800000
dtype: float64


  print(df.mean())


In [20]:
# Para retornar a média apenas das colunas numéricas
print(df.mean(numeric_only=True))

P1            6.818750
P2            7.071429
Frequência    0.800000
dtype: float64


In [21]:
# display() - Método semelhante ao print(), mas retornará o DataFrame formatado para uma melhor visualização
display(df)

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,Aluno1,Masculino,1.6,,0.5
1,Aluno2,Feminino,7.5,6.5,0.8
2,Aluno3,Masculino,9.0,8.0,0.9
3,Aluno4,Masculino,5.5,8.0,0.7
4,Aluno5,Masculino,7.0,8.0,1.0
5,Aluno6,Feminino,8.0,7.0,0.8
6,Aluno7,Masculino,5.0,5.5,0.9
7,Aluno8,Masculino,4.0,3.5,0.9
8,Aluno9,Feminino,5.0,4.0,0.7
9,Aluno10,Feminino,7.0,7.5,0.8


### Índices e localização dos dados no _DataFrame_
De forma similar às listas, os dados num DataFrame podem ser acessados por um localizador.
<br>É um endereço para indicar a linha e a coluna em que os dados se encontram.
<br>No geral, as linhas são indicadas por um 'índice' que aparece no canto esquerdo da impressão do dataframe. Já as colunas, costumam estar associadas a algum nome.

In [22]:
print(df)

       Nome       Sexo    P1   P2  Frequência
0    Aluno1  Masculino   1.6  NaN         0.5
1    Aluno2   Feminino   7.5  6.5         0.8
2    Aluno3  Masculino   9.0  8.0         0.9
3    Aluno4  Masculino   5.5  8.0         0.7
4    Aluno5  Masculino   7.0  8.0         1.0
5    Aluno6   Feminino   8.0  7.0         0.8
6    Aluno7  Masculino   5.0  5.5         0.9
7    Aluno8  Masculino   4.0  3.5         0.9
8    Aluno9   Feminino   5.0  4.0         0.7
9   Aluno10   Feminino   7.0  7.5         0.8
10  Aluno11  Masculino   8.0  9.0         0.7
11  Aluno12   Feminino  10.0  NaN         0.7
12  Aluno13  Masculino   9.5  9.0         1.0
13  Aluno14   Feminino   8.0  9.0         0.8
14  Aluno15   Feminino   7.0  7.0         0.8
15  Aluno15   Feminino   7.0  7.0         0.8


Os dados de uma coluna (ou uma lista de colunas) podem ser acessados da seguinte forma:

```python
nome_dataframe['Nome da Coluna']
```

In [23]:
df['P1']

0      1.6
1      7.5
2      9.0
3      5.5
4      7.0
5      8.0
6      5.0
7      4.0
8      5.0
9      7.0
10     8.0
11    10.0
12     9.5
13     8.0
14     7.0
15     7.0
Name: P1, dtype: float64

In [24]:
# mean() - Retornar a média aritmética de uma coluna específica
media_col1 = df['P1'].mean()
print(media_col1, type(media_col1))

# std() - Retornar o desvio padrão de uma coluna específica
dp_col1 = df['P1'].std()

print(f'A prova 1 teve média {media_col1:.2f} e desvio padrão de {dp_col1:.2f}')

6.81875 <class 'float'>
A prova 1 teve média 6.82 e desvio padrão de 2.17


In [25]:
# max() e min() - Retornar o máximo e o mínimo
maximo_col1 = df['P1'].max()
minimo_col1 = df['P1'].min()
print(f"A maior nota da prova 1 foi {maximo_col1} e a menor nota foi {minimo_col1}.")

A maior nota da prova 1 foi 10.0 e a menor nota foi 1.6.


In [26]:
# É possível acessar também um conjunto de colunas (é feito passando a uma lista de colunas, atenção ao uso dos colchetes)
print(df[['P1', 'P2']])

      P1   P2
0    1.6  NaN
1    7.5  6.5
2    9.0  8.0
3    5.5  8.0
4    7.0  8.0
5    8.0  7.0
6    5.0  5.5
7    4.0  3.5
8    5.0  4.0
9    7.0  7.5
10   8.0  9.0
11  10.0  NaN
12   9.5  9.0
13   8.0  9.0
14   7.0  7.0
15   7.0  7.0


In [None]:
# rename() - Renomear o nome de uma coluna (os nomes devem ser inseridos em formato de dicionário)
# rename(columns={'nome_antigo1':'nome_novo1', 'nome_antigo2':'nome_novo2'})
df2 = df.rename(columns={'Frequência':'Freq'})
print(df2.head())

**Slicing**

In [29]:
# Slicing de um subconjunto de linhas
print(df2[0:3])

     Nome       Sexo   P1   P2  Freq
0  Aluno1  Masculino  1.6  NaN   0.5
1  Aluno2   Feminino  7.5  6.5   0.8
2  Aluno3  Masculino  9.0  8.0   0.9


In [30]:
# Para indicar que todos os dados serão incluídos, se usa apenas um índice antes ou depois do ':'
# N: é 'a partir do N'
# :N é 'até o N'
print(df2[5:])
print(df2[:3])

       Nome       Sexo    P1   P2  Freq
5    Aluno6   Feminino   8.0  7.0   0.8
6    Aluno7  Masculino   5.0  5.5   0.9
7    Aluno8  Masculino   4.0  3.5   0.9
8    Aluno9   Feminino   5.0  4.0   0.7
9   Aluno10   Feminino   7.0  7.5   0.8
10  Aluno11  Masculino   8.0  9.0   0.7
11  Aluno12   Feminino  10.0  NaN   0.7
12  Aluno13  Masculino   9.5  9.0   1.0
13  Aluno14   Feminino   8.0  9.0   0.8
14  Aluno15   Feminino   7.0  7.0   0.8
15  Aluno15   Feminino   7.0  7.0   0.8
     Nome       Sexo   P1   P2  Freq
0  Aluno1  Masculino  1.6  NaN   0.5
1  Aluno2   Feminino  7.5  6.5   0.8
2  Aluno3  Masculino  9.0  8.0   0.9


In [31]:
# drop() - Remover uma coluna
# 'inplace' mantém o objeto "df2", apenas remove as colunas dele
# ''axis' indica se devem ser removidas linhas ou colunas, 0 = linhas / 1 = colunas
df2.drop(['Nome', 'Sexo'], axis=1, inplace=True)
print(df2)

      P1   P2  Freq
0    1.6  NaN   0.5
1    7.5  6.5   0.8
2    9.0  8.0   0.9
3    5.5  8.0   0.7
4    7.0  8.0   1.0
5    8.0  7.0   0.8
6    5.0  5.5   0.9
7    4.0  3.5   0.9
8    5.0  4.0   0.7
9    7.0  7.5   0.8
10   8.0  9.0   0.7
11  10.0  NaN   0.7
12   9.5  9.0   1.0
13   8.0  9.0   0.8
14   7.0  7.0   0.8
15   7.0  7.0   0.8


**Máscara**

In [34]:
# Máscara é uma condição que retornar verdadeiro ou falso e permite retirar um subconjunto dos dados
#Vamos ver o subconjunto de notas que foram maiores que 7 na P1

mascara = df2['P1'] > 7
print(df2[mascara])

      P1   P2  Freq
1    7.5  6.5   0.8
2    9.0  8.0   0.9
5    8.0  7.0   0.8
10   8.0  9.0   0.7
11  10.0  NaN   0.7
12   9.5  9.0   1.0
13   8.0  9.0   0.8


### Dados ausentes e duplicados

In [35]:
# isna() - Procurar por dados ausentes
df.isna()

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,False,False,False,True,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False
8,False,False,False,False,False
9,False,False,False,False,False


In [36]:
# isnull() - Procurar por dados nulos
df.isnull()

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,False,False,False,True,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False
8,False,False,False,False,False
9,False,False,False,False,False


In [37]:
# dropna() - Eliminar os dados ausentes
sem_na = df.dropna()
print(sem_na)

       Nome       Sexo   P1   P2  Frequência
1    Aluno2   Feminino  7.5  6.5         0.8
2    Aluno3  Masculino  9.0  8.0         0.9
3    Aluno4  Masculino  5.5  8.0         0.7
4    Aluno5  Masculino  7.0  8.0         1.0
5    Aluno6   Feminino  8.0  7.0         0.8
6    Aluno7  Masculino  5.0  5.5         0.9
7    Aluno8  Masculino  4.0  3.5         0.9
8    Aluno9   Feminino  5.0  4.0         0.7
9   Aluno10   Feminino  7.0  7.5         0.8
10  Aluno11  Masculino  8.0  9.0         0.7
12  Aluno13  Masculino  9.5  9.0         1.0
13  Aluno14   Feminino  8.0  9.0         0.8
14  Aluno15   Feminino  7.0  7.0         0.8
15  Aluno15   Feminino  7.0  7.0         0.8


In [39]:
# fillna() - Substituir valores ausentes
df.fillna(0, inplace=True)
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,Aluno1,Masculino,1.6,0.0,0.5
1,Aluno2,Feminino,7.5,6.5,0.8
2,Aluno3,Masculino,9.0,8.0,0.9
3,Aluno4,Masculino,5.5,8.0,0.7
4,Aluno5,Masculino,7.0,8.0,1.0
5,Aluno6,Feminino,8.0,7.0,0.8
6,Aluno7,Masculino,5.0,5.5,0.9
7,Aluno8,Masculino,4.0,3.5,0.9
8,Aluno9,Feminino,5.0,4.0,0.7
9,Aluno10,Feminino,7.0,7.5,0.8


In [40]:
# duplicated() - Verificar presença de valores duplicados
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15     True
dtype: bool

In [41]:
# Retornar o registro em específico a partir da estrutura Dataframe[Dataframe.duplicated()]
print(df[df.duplicated()])

       Nome      Sexo   P1   P2  Frequência
15  Aluno15  Feminino  7.0  7.0         0.8


In [43]:
# drop_duplicates() - Remover valores duplicados
df.drop_duplicates(inplace=True)
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,Aluno1,Masculino,1.6,0.0,0.5
1,Aluno2,Feminino,7.5,6.5,0.8
2,Aluno3,Masculino,9.0,8.0,0.9
3,Aluno4,Masculino,5.5,8.0,0.7
4,Aluno5,Masculino,7.0,8.0,1.0
5,Aluno6,Feminino,8.0,7.0,0.8
6,Aluno7,Masculino,5.0,5.5,0.9
7,Aluno8,Masculino,4.0,3.5,0.9
8,Aluno9,Feminino,5.0,4.0,0.7
9,Aluno10,Feminino,7.0,7.5,0.8


### Operações com colunas e vetorização

In [44]:
# Criar colunas a partir da seguinte estrutura
# Dataframe['Nome da nova coluna'] = operação
df['Média Final'] = (df['P1']+df['P2'])/2

In [46]:
display(df)

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final
0,Aluno1,Masculino,1.6,0.0,0.5,0.8
1,Aluno2,Feminino,7.5,6.5,0.8,7.0
2,Aluno3,Masculino,9.0,8.0,0.9,8.5
3,Aluno4,Masculino,5.5,8.0,0.7,6.75
4,Aluno5,Masculino,7.0,8.0,1.0,7.5
5,Aluno6,Feminino,8.0,7.0,0.8,7.5
6,Aluno7,Masculino,5.0,5.5,0.9,5.25
7,Aluno8,Masculino,4.0,3.5,0.9,3.75
8,Aluno9,Feminino,5.0,4.0,0.7,4.5
9,Aluno10,Feminino,7.0,7.5,0.8,7.25


In [47]:
#Vetorização é uma operação com toda a coluna, em conjunto

#Já havíamos utilizado anteriormente
#Vamos analisar a estrutura
#   df['P2'] = df['P2'].str.replace(',','.', regex=True).astype('float', errors='ignore')

#df['P2'].str contém um conjunto de funções aplicáveis a string para toda a coluna
#.astype() converte todos os valores em conjunto

import math

#Series.apply() é outra função que permite modificar colunas inteiras
#.round() é usada da mesma forma
df['N_P2'] = df['P2'].apply(lambda x: math.sqrt(x * 9+4)).round(1)

In [48]:
display(df)

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final,N_P2
0,Aluno1,Masculino,1.6,0.0,0.5,0.8,2.0
1,Aluno2,Feminino,7.5,6.5,0.8,7.0,7.9
2,Aluno3,Masculino,9.0,8.0,0.9,8.5,8.7
3,Aluno4,Masculino,5.5,8.0,0.7,6.75,8.7
4,Aluno5,Masculino,7.0,8.0,1.0,7.5,8.7
5,Aluno6,Feminino,8.0,7.0,0.8,7.5,8.2
6,Aluno7,Masculino,5.0,5.5,0.9,5.25,7.3
7,Aluno8,Masculino,4.0,3.5,0.9,3.75,6.0
8,Aluno9,Feminino,5.0,4.0,0.7,4.5,6.3
9,Aluno10,Feminino,7.0,7.5,0.8,7.25,8.5


In [49]:
df['N_P1'] = df['P1'].apply(lambda x: math.sqrt(x * 9+4)).round(1)

In [50]:
display(df)

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final,N_P2,N_P1
0,Aluno1,Masculino,1.6,0.0,0.5,0.8,2.0,4.3
1,Aluno2,Feminino,7.5,6.5,0.8,7.0,7.9,8.5
2,Aluno3,Masculino,9.0,8.0,0.9,8.5,8.7,9.2
3,Aluno4,Masculino,5.5,8.0,0.7,6.75,8.7,7.3
4,Aluno5,Masculino,7.0,8.0,1.0,7.5,8.7,8.2
5,Aluno6,Feminino,8.0,7.0,0.8,7.5,8.2,8.7
6,Aluno7,Masculino,5.0,5.5,0.9,5.25,7.3,7.0
7,Aluno8,Masculino,4.0,3.5,0.9,3.75,6.0,6.3
8,Aluno9,Feminino,5.0,4.0,0.7,4.5,6.3,7.0
9,Aluno10,Feminino,7.0,7.5,0.8,7.25,8.5,8.2


In [51]:
df['N_Media Final'] = (df['N_P1'] + df['N_P2'])/2
display(df)

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final,N_P2,N_P1,N_Media Final
0,Aluno1,Masculino,1.6,0.0,0.5,0.8,2.0,4.3,3.15
1,Aluno2,Feminino,7.5,6.5,0.8,7.0,7.9,8.5,8.2
2,Aluno3,Masculino,9.0,8.0,0.9,8.5,8.7,9.2,8.95
3,Aluno4,Masculino,5.5,8.0,0.7,6.75,8.7,7.3,8.0
4,Aluno5,Masculino,7.0,8.0,1.0,7.5,8.7,8.2,8.45
5,Aluno6,Feminino,8.0,7.0,0.8,7.5,8.2,8.7,8.45
6,Aluno7,Masculino,5.0,5.5,0.9,5.25,7.3,7.0,7.15
7,Aluno8,Masculino,4.0,3.5,0.9,3.75,6.0,6.3,6.15
8,Aluno9,Feminino,5.0,4.0,0.7,4.5,6.3,7.0,6.65
9,Aluno10,Feminino,7.0,7.5,0.8,7.25,8.5,8.2,8.35


In [52]:
# np.select() para atribuir um valor a cada condição
# Condição: média final acima de 5 e frequência maior que 70%
import numpy as np

condicao = [(df['N_Media Final'] >= 5) & (df['Frequência'] >= 0.7), (df['N_Media Final'] < 5), df['Frequência'] < 0.7]
valores = ['Aprovado', 'Reprovado', 'Reprovado']

df['Status Aprovação'] = np.select(condicao, valores)

In [53]:
display(df)

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final,N_P2,N_P1,N_Media Final,Status Aprovação
0,Aluno1,Masculino,1.6,0.0,0.5,0.8,2.0,4.3,3.15,Reprovado
1,Aluno2,Feminino,7.5,6.5,0.8,7.0,7.9,8.5,8.2,Aprovado
2,Aluno3,Masculino,9.0,8.0,0.9,8.5,8.7,9.2,8.95,Aprovado
3,Aluno4,Masculino,5.5,8.0,0.7,6.75,8.7,7.3,8.0,Aprovado
4,Aluno5,Masculino,7.0,8.0,1.0,7.5,8.7,8.2,8.45,Aprovado
5,Aluno6,Feminino,8.0,7.0,0.8,7.5,8.2,8.7,8.45,Aprovado
6,Aluno7,Masculino,5.0,5.5,0.9,5.25,7.3,7.0,7.15,Aprovado
7,Aluno8,Masculino,4.0,3.5,0.9,3.75,6.0,6.3,6.15,Aprovado
8,Aluno9,Feminino,5.0,4.0,0.7,4.5,6.3,7.0,6.65,Aprovado
9,Aluno10,Feminino,7.0,7.5,0.8,7.25,8.5,8.2,8.35,Aprovado


### Resumo
- Pandas: versatilidade e eficiência na análise e manipulação de dados
- Series: formato unidimensional, diversos tipos de dados
- Dataframe: bidimensional - linhas e colunas
- Operações básicas: .shape( ), .describe( ), .mean( ), .sum( ), .columns
- Índices e labels: os endereços dos dados
- Coluna: Dataframe['Nome']
- Linhas: Dataframe[0:4]
- Dados ausentes - .isnull( ), .isna( ) e .dropna()
- Dados duplicados - .duplicated( ) e .drop_duplicates( )
- Vetorização: operando com toda a coluna