# Pandas
Assim como foi feito com ```numpy```, para utilizar o ```pandas``` também se faz necessário realizar a importação da biblioteca 

In [1]:
import pandas as pd # importando a biblioteca Pandas
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [2]:
lista = [4, 6, 3, 7, 25]
pd.Series(lista)

0     4
1     6
2     3
3     7
4    25
dtype: int64

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [3]:
dic = {"a": 50, "b" : 42}
pd.Series(dic)

a    50
b    42
dtype: int64

Trabalhando com índices

In [7]:
lista = [4, 6, 3, 7, 25]
indices = ["a", "b", "c", "d", "e"]

serie_pandas = pd.Series(data=lista, index=indices, name='valores_em_reais')
serie_pandas

a     4
b     6
c     3
d     7
e    25
Name: valores_em_reais, dtype: int64

Podemos realizar o slicing na nossa Pandas Series da mesma forma como fizemos em listas e arrays, mas veja que agora os índices são letras, podemos utilizá-las para realizar o slicing ou a busca.

In [9]:
print(serie_pandas['a'])
print(serie_pandas[0])

4
4


Da mesma forma como vimos anteriormente, é possível realizar máscaras booleanas dentro da minha série.

In [15]:
np.random.seed(42)

notas = pd.Series(np.random.randint(3, 12, 10))

# Máscara booleana simples
notas[notas > 6]

0     9
2    10
3     7
4     9
6     9
7    10
8     7
dtype: int32

In [16]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o E (AND)
notas[(notas > 5) & (notas < 10)]

0    9
1    6
3    7
4    9
6    9
8    7
9    6
dtype: int32

In [17]:
# Podemos utiilzar mais de um critério ao mesmo tempo com o OU (OR)
notas[(notas < 5) | (notas == 10)]

2    10
7    10
dtype: int32

In [20]:
# E também fazer o inverso
notas[~((notas < 5) | (notas == 10))]

0    9
1    6
3    7
4    9
5    5
6    9
8    7
9    6
dtype: int32

É possivel também ordenar os dados a partir de uma coluna com o **.sort_values()**

In [24]:
notas.sort_values(ascending=False) # ascending = True -> crescente e ascending = False -> decrescente

2    10
7    10
0     9
4     9
6     9
3     7
8     7
1     6
9     6
5     5
dtype: int32

Para encontrar valores únicos podemos utilizar o atributo **.unique()**

In [25]:
notas.unique()

array([ 9,  6, 10,  7,  5])

Podemos mostrar a frequência absoluta com o atributo **.value_counts()**

In [26]:
notas.value_counts()

9     3
6     2
10    2
7     2
5     1
dtype: int64

In [27]:
# frequencia relativa
notas.value_counts(normalize=True)

9     0.3
6     0.2
10    0.2
7     0.2
5     0.1
dtype: float64

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [28]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

np.random.seed(42)

m = np.random.randint(-100, 100, (5, 3))

m

array([[  2,  79,  -8],
       [-86,   6, -29],
       [ 88, -80,   2],
       [ 21, -26, -13],
       [ 16,  -1,   3]])

In [29]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [30]:
df_nome_linhas = pd.DataFrame(m,
                              index = ['obs1', 'obs2', 'obs3', 'obs4', 'obs5'],
                              columns = ['Variável 1', 'Variável 2', 'Variável 3'])

df_nome_linhas

Unnamed: 0,Variável 1,Variável 2,Variável 3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


A partir de um arquivo

In [37]:
df_dados_religiao = pd.read_table('./dados/dados_religiao_income.txt', sep=' ')

In [38]:
df_dados_religiao

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovah’s Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [40]:
df_dados_religiao.columns

Index(['religion', '<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k',
       '$50-75k'],
      dtype='object')

In [43]:
# Veja que podemos trabalhar como listas normalmente
value_col = [col for col in df_dados_religiao.columns if col != 'religion']
value_col

['<$10k', '$10-20k', '$20-30k', '$30-40k', '$40-50k', '$50-75k']

## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [46]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe
df_melt = pd.melt(df_dados_religiao,
                  id_vars=['religion'],
                  value_vars=value_col,
                  var_name='income',
                  value_name='freq')

df_melt

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


## Manipulação de dados

Nesta parte apresentaremos algumas funções importantes na manipulação dos dados a fim de obter insights importantes e iniciarmos nossa análise exploratória de dados (EDA - Exploratory Data Analysis).

### Pivot Table

Trabalha semelhante à tablea dinâmica conhecida pelo excel.

In [47]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.
df_melt.pivot_table(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [48]:
df_melt.pivot(index='religion', columns='income', values='freq')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [49]:
# Criação de DataFrames por meio de dicionários
df1 = pd.DataFrame({'nome': ['eu', 'tu', 'ela/ele'],
                    'val': [1, 1, 1]})

# Criação de DataFrames por meio de listas
lista_valores = [['nós', 2],
                 ['vós', 2],
                 ['eles/elas', 2]]
df2 = pd.DataFrame(lista_valores, columns=['nome', 'val'])
df2

Unnamed: 0,nome,val
0,nós,2
1,vós,2
2,eles/elas,2


In [52]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos
df_empilhado = pd.concat([df1, df2])
df_empilhado

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ela/ele,1
0,nós,2
1,vós,2
2,eles/elas,2


In [58]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe
new_df2 = df2.copy()

# O atributo .index do dataframe chama os índices
new_df2.index = [3, 4, 5]

In [59]:
new_df2

Unnamed: 0,nome,val
3,nós,2
4,vós,2
5,eles/elas,2


In [60]:
pd.concat([df1, new_df2])

Unnamed: 0,nome,val
0,eu,1
1,tu,1
2,ela/ele,1
3,nós,2
4,vós,2
5,eles/elas,2


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [63]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge
pd.concat([df1, df2], axis=1)

Unnamed: 0,nome,val,nome.1,val.1
0,eu,1,nós,2
1,tu,1,vós,2
2,ela/ele,1,eles/elas,2


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [64]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave o valor antigo e valor o novo
df1.rename(columns={'nome': 'nome_alterado'})

Unnamed: 0,nome_alterado,val
0,eu,1
1,tu,1
2,ela/ele,1


In [66]:
df1.columns = ['nome_modificado', 'valor']
df1

Unnamed: 0,nome_modificado,valor
0,eu,1
1,tu,1
2,ela/ele,1


## Exploração de dados

Em estatística, a análise exploratória de dados (EDA - Exploratory Data Analysis) é uma abordagem de análise de conjuntos de dados para resumir suas principais características, muitas vezes usando gráficos estatísticos e outros métodos de visualização de dados. Neste módulo vamos nos ater ao uso de tabelas e estatísticas para este trabalho, principalmente usando o ```pandas```.

In [2]:
import pandas as pd

df = pd.read_table('./dados/dados_parciais.txt', sep=';', decimal=',')
df

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0
7,Nordeste,MA,333366,2711557.0,2511008.0,5222565.0
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0
9,Nordeste,Litígio*,2977,,,


### Head

In [3]:
# O head é utilizado para observarmos o início de um dataframe
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0


### Tail

In [74]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2235832.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0
28,,Ilhas***,10,,,


### Describe

In [76]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


In [77]:
type(df.describe())

pandas.core.frame.DataFrame

In [78]:
df_statistics = df.describe()
df_statistics['pop_urbana']

count    2.700000e+01
mean     4.558599e+06
std      6.443718e+06
min      1.742770e+05
25%      1.580216e+06
50%      2.176006e+06
75%      5.095113e+06
max      3.176922e+07
Name: pop_urbana, dtype: float64

### Outras estatísticas

In [79]:
# calculando uma estatística por vez
df.mean()

  df.mean()


superficie    4.006556e+05
pop_urbana    4.558599e+06
pop_rural     1.259163e+06
total         5.817762e+06
dtype: float64

In [80]:
# mediana
df.median()

  df.median()


superficie     199709.0
pop_urbana    2176006.0
pop_rural      715174.0
total         2802707.0
dtype: float64

In [83]:
df.quantile([0.1, 0.25, 0.5])

Unnamed: 0,superficie,pop_urbana,pop_rural,total
0.1,18804.4,576841.4,152872.4,822675.6
0.25,53307.0,1580216.5,475874.5,1874890.0
0.5,199709.0,2176006.0,715174.0,2802707.0


In [85]:
df.min(numeric_only=True)

superficie        10.0
pop_urbana    174277.0
pop_rural      48869.0
total         247131.0
dtype: float64

In [87]:
df.max(numeric_only=True)

superficie     3412895.0
pop_urbana    31769219.0
pop_rural      4714902.0
total         34120886.0
dtype: float64

In [90]:
df.agg(['min', 'max'])

  df.agg(['min', 'max'])


Unnamed: 0,uf,superficie,pop_urbana,pop_rural,total
min,AC,10,174277.0,48869.0,247131.0
max,TO,3412895,31769219.0,4714902.0,34120886.0


### Bora praticar!
  
1) Importe o arquivo ```csv``` **alunos3.csv** que se encontra na pasta dados com nome ```df_notas```.

In [4]:
df_notas = pd.read_csv('./dados/alunos3.csv', sep=';', decimal=',')

2. Mostre os 10 primeiros e os 10 últimos registros deste DataFrame importado

In [5]:
df_notas.head(10)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [6]:
df_notas.tail(10)

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [100]:
display('10 primeiras linhas', df_notas.head(10)) 
display('10 ultimas linhas', df_notas.tail(10))

'10 primeiras linhas'

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


'10 ultimas linhas'

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


3. Renomeie as colunas de notas de provas (ex: Prova_1 para Prova1).

In [7]:
df_notas = df_notas.rename(columns={'Prova_1': 'Prova1','Prova_2': 'Prova2','Prova_3': 'Prova3','Prova_4': 'Prova4'})
# Outra forma de fazer
# df_notas.rename(columns={'Prova_1': 'Prova1','Prova_2': 'Prova2','Prova_3': 'Prova3','Prova_4': 'Prova4'}, inplace=True)
df_notas.head()

Unnamed: 0,RA,Nome,Frequencia,Prova1,Prova2,Prova3,Prova4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7


4. Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

In [12]:
df_notas['Media_provas'] = (df_notas['Prova1'] + df_notas['Prova2'] + df_notas['Prova3'] + df_notas['Prova4'])/4
df_notas

Unnamed: 0,RA,Nome,Frequencia,Prova1,Prova2,Prova3,Prova4,Media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


In [102]:
df_notas['Media_provas'] = df_notas[df_notas.columns[3:]].mean(axis=1)
df_notas

Unnamed: 0,RA,Nome,Frequencia,Prova1,Prova2,Prova3,Prova4,Media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


In [None]:
df_notas['Media_provas'] = df_notas.iloc[:, -4:].mean(axis=1)

In [None]:
df_notas['Media_provas_manual'] = [row[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4']].mean() for _, row in df_notas.iterrows()]

5) Mostre o DataFrame ```df_notas``` ordenado em ordem alfabética. 

In [10]:
df_notas.sort_values(by='Nome')

Unnamed: 0,RA,Nome,Frequencia,Prova1,Prova2,Prova3,Prova4
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7


6. Filtre apenas os alunos aprovados, ou seja, aqueles que obtiveram média a partir de 7.

In [14]:
df_notas[df_notas['Media_provas'] >= 7]

Unnamed: 0,RA,Nome,Frequencia,Prova1,Prova2,Prova3,Prova4,Media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


In [16]:
df_notas.loc[df_notas['Media_provas'] >= 7]

Unnamed: 0,RA,Nome,Frequencia,Prova1,Prova2,Prova3,Prova4,Media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


## Mini tarefa

Filtrando apenas os alunos cujo RA é maior que 110270, responda no [link](https://forms.gle/jeK4AexM1ArLFGL89), qual a média da coluna ```Media_provas```?