**Relembrando**  
  
A biblioteca **Pandas** proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [None]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

## Exploração de dados

Em estatística, a análise exploratória de dados (EDA - Exploratory Data Analysis) é uma abordagem de análise de conjuntos de dados para resumir suas principais características, muitas vezes usando gráficos estatísticos e outros métodos de visualização de dados. Neste módulo vamos nos ater ao uso de tabelas e estatísticas para este trabalho, principalmente usando o ```pandas```.

In [None]:
df = pd.read_table('./dados/dados_parciais.txt', sep=';', decimal=',')

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe
df.head()

In [None]:
df[df['uf']=='PI']

### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail()

### Describe

### info

In [None]:
# .info() 
df.info()

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

In [None]:
df_statiscics = df.describle()

### Outras estatísticas

In [None]:
# Obtendo uma estatística por vez
# Calculando a média
df.mean()

In [22]:
numeric_columns = df.select_dtypes(include='number')
mean_numeric = numeric_columns.mean()
mean_numeric

superficie    4.006556e+05
pop_urbana    4.558599e+06
pop_rural     1.259163e+06
total         5.817762e+06
dtype: float64

In [None]:
# Calculando a mediana
df.median

In [None]:
# Calculando os quantis
df.quantile

In [None]:
# Obtendo valor mínimo de cada variável
df.min()

In [None]:
# se quisermos estatísticas separadas por região
# group by
df.groupby('regiao').mean()

In [18]:
df.groupby('regiao').sum()

Unnamed: 0_level_0,uf,superficie,pop_urbana,pop_rural,total
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Centro-Oeste,MSMTGODF,4683683,8865836.0,1635644.0,10501480.0
Nordeste,MAPILitígio*CERNPBPE**ALSEBA,1561178,29192696.0,15575505.0,44768201.0
Norte,ROACAMRRPAAPTO,3869639,7039324.0,4250766.0,11290093.0
Sudeste,MGESRJSP,927287,59825958.0,7177111.0,67003069.0
Sul,PRSCRS,577214,18158350.0,5358380.0,23516730.0


In [20]:
df[df['regiao']=='Centro-Oeste']

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2235832.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0


### Importando novo Dataframe

In [29]:
# importando o dataframe de municípios
df_muni = pd.read_table('./dados/populacao_brasileira_por_municipio.txt', sep = ';', thousands = '.')

In [30]:
df_muni.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [34]:
df_muni['UF']

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object

In [36]:
df_muni.UF
# faz o mesmo que acima.

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object

In [37]:
type(df_muni.UF)

pandas.core.series.Series

In [40]:
# terceira forma - retorna um dataframe
# Neste caso eu estou trazendo uma lista de dados.
#df_muni[['UF', 'COD. MUNIC']] Trazer mais de uma coluna
df_muni[['UF']]

Unnamed: 0,UF,COD. MUNIC
0,RO,15
1,RO,23
2,RO,31
3,RO,49
4,RO,56
...,...,...
5565,GO,22005
5566,GO,22054
5567,GO,22203
5568,GO,22302


In [41]:
type(df_muni[['UF']])

pandas.core.frame.DataFrame

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [48]:
df_muni.rename(columns={'POPULAÇÃO ESTIMADA': 'populacao_estimada'}, inplace=True)


In [None]:
# quero saber quais cidades tem população urbana > 500000
# A query tem que estar em string
df_muni.query('populacao_estimada > 500000')

In [None]:
# podemos usar uma variável

limite = 500000
df_muni.query('populacao_estimada > @limite')  # O @ serve para indicar que é uma variável ja estabelecida

### .loc e .iloc

In [54]:
# .loc usado para pesquisar índices e colunas explicitamente | o loc. é para localizar. Usa a logica da mascara boleaana

# quero a população urbana da segunda linha do dataset
df_muni.loc[1, 'populacao_estimada'] # Eu uso como argumento a posição do indice que eu quero e em qual coluna eu quero

111148

In [56]:
# qual estado corresponde à segunda linha do dataset
df_muni.loc[1,:] # Assim ele acessa a segunda linha e me traz tudo dela, igualmente a slice [linhas, colunas]

UF                           RO
COD. UF                      11
COD. MUNIC                   23
NOME DO MUNICÍPIO     Ariquemes
populacao_estimada       111148
Name: 1, dtype: object

In [58]:
# Ou seja eu consigo usar como no numpy com  linhas e colunas e posso tirar slices como eu bem entender
# [da linha 0 até a 10, coluna tal ]
df_muni.loc[ :10, 'populacao_estimada']

0      22516
1     111148
2       5067
3      86416
4      16088
5      15213
6       7052
7      19255
8      33009
9      46930
10     51469
Name: populacao_estimada, dtype: int64

In [59]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?
df_muni.loc[df_muni['UF'] == 'SP', 'populacao_estimada']

3267     35153
3268      3545
3269     36981
3270      8262
3271     18908
         ...  
3907    124468
3908     96106
3909      2784
3910     12418
3911     11507
Name: populacao_estimada, Length: 645, dtype: int64

In [61]:
# Se eu quiser trazer todas as colunas.
df_muni.loc[df_muni['UF'] == 'SP', :]

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,populacao_estimada
3267,SP,35,105,Adamantina,35153
3268,SP,35,204,Adolfo,3545
3269,SP,35,303,Aguaí,36981
3270,SP,35,402,Águas da Prata,8262
3271,SP,35,501,Águas de Lindóia,18908
...,...,...,...,...,...
3907,SP,35,57006,Votorantim,124468
3908,SP,35,57105,Votuporanga,96106
3909,SP,35,57154,Zacarias,2784
3910,SP,35,57204,Chavantes,12418


In [62]:
# Funciona tambem com os nomes

df_muni.loc[df_muni['UF'] == 'SP', 'COD. MUNIC':'populacao_estimada']

Unnamed: 0,COD. MUNIC,NOME DO MUNICÍPIO,populacao_estimada
3267,105,Adamantina,35153
3268,204,Adolfo,3545
3269,303,Aguaí,36981
3270,402,Águas da Prata,8262
3271,501,Águas de Lindóia,18908
...,...,...,...
3907,57006,Votorantim,124468
3908,57105,Votuporanga,96106
3909,57154,Zacarias,2784
3910,57204,Chavantes,12418


In [63]:
# quais estados pertencem à região NE e N?

df_muni.loc[(df_muni['UF'] == 'SP') | (df_muni['UF'] == 'RJ'), 'COD. MUNIC':'populacao_estimada']

Unnamed: 0,COD. MUNIC,NOME DO MUNICÍPIO,populacao_estimada
3175,100,Angra dos Reis,210171
3176,159,Aperibé,12036
3177,209,Araruama,136109
3178,225,Areal,12763
3179,233,Armação dos Búzios,35060
...,...,...,...
3907,57006,Votorantim,124468
3908,57105,Votuporanga,96106
3909,57154,Zacarias,2784
3910,57204,Chavantes,12418


In [64]:
# iloc faz a referência aos índices e colunas de forma implícita
df_muni.iloc[2, 2]  # O iloc. usa somente os indices

31

In [68]:
# definir a coluna uf como a coluna de índice

df_muni1 = df_muni.set_index(['UF'])
df_muni1.head()

Unnamed: 0_level_0,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,populacao_estimada
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
RO,11,15,Alta Floresta D'Oeste,22516
RO,11,23,Ariquemes,111148
RO,11,31,Cabixi,5067
RO,11,49,Cacoal,86416
RO,11,56,Cerejeiras,16088


In [69]:
df_muni2 = df_muni.set_index(['NOME DO MUNICÍPIO'])

In [71]:
# desejo obter a população rural do AC

# loc (explícito)  # Ou seja como coloquei as unidades federativas como indice eu consigo usar eles direto.
print(df_muni2.loc['Cabixi', 'populacao_estimada'])

# iloc (implícito)
print(df_muni2.iloc[2,3])

5067
5067


In [73]:
# queremos as cidades que têm menos de 500000 habitantes (total)


# [df_muni2.populacao_estimada < 500000, :] df_muni2.populacao_estimada < 500000 =  linhas ,  : = trazer todas as colunas
df_muni2.loc[df_muni2.populacao_estimada < 500000, :]

Unnamed: 0_level_0,UF,COD. UF,COD. MUNIC,populacao_estimada
NOME DO MUNICÍPIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alta Floresta D'Oeste,RO,11,15,22516
Ariquemes,RO,11,23,111148
Cabixi,RO,11,31,5067
Cacoal,RO,11,49,86416
Cerejeiras,RO,11,56,16088
...,...,...,...,...
Varjão,GO,52,21908,3848
Vianópolis,GO,52,22005,14088
Vicentinópolis,GO,52,22054,9002
Vila Boa,GO,52,22203,6451


### Operações matemáticas

In [77]:
# quero saber a razão entre as população urbana e a população rural

df['razao_urbana_rural'] = df['pop_urbana']/df['pop_rural']
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136


In [None]:
# se eu chamar uma coluna inexiste em modo de leitura
df['nome_não_existe']
# vai trazer keyerror

In [80]:
# calcular a fração da população urbana sobre a geral
df['razao_urbana_total'] = df['pop_urbana']/df['total']
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,razao_urbana_total
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129


In [81]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário

for linha in df.index:
    if df.loc[linha, 'razao_urbana_total'] > 0.7:
        df.loc[linha, 'indicador'] = 1
    else:
        df.loc[linha, 'indicador'] = 0
        
# Criei um indicador sobre a coluna 'razao_urbana_total' para dizer se ele tem muita população urbana ou não

In [82]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,razao_urbana_total,indicador
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1.0
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0.0


### Apply

In [84]:
# Uma outra forma de realizar isso é utilizando o apply
# O apply tambem cria um critério e ele pode usar uma lambda para fazer o que fizemos acima ou uma função.

df['indicador'] = df['razao_urbana_total'].apply(lambda x: 1 if x > 0.7 else 0)
df.head()

# Diferente do que fizemos anteriormente aqui ele vem como int.

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,razao_urbana_total,indicador
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0


In [86]:
# Também é possível criar funções
def soma_quadrados(row):
  # Esta é uma função que calcula a divisão da soma dos quadrados das populações urbana e rural, pelo total
  soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)

  return soma

In [87]:
# usando o apply em múltiplas colunas
df['indicador2'] = df.apply(soma_quadrados, axis=1) # O axis indica que é nas linhas
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,razao_urbana_total,indicador,indicador2
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,0.52866
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,0.546218
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,0.614438
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,0.584215
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,0.502468


### map

In [89]:
ponto_cardeal = {
    'Norte': 'N',
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

# podemos fazer transformações com dicionários
df['região_cardeal'] = df['regiao'].map(ponto_cardeal)
df.head()


Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,razao_urbana_total,indicador,indicador2,região_cardeal
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,0.52866,N
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,0.546218,N
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,0.614438,N
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,0.584215,N
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,0.502468,N


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [90]:
lista_on_left = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista_on_right = [1, 3, 5, 7, 9, 11]

In [93]:
dict_left = {'coluna_on': lista_on_left, 'valores_esquerda': lista_on_left}
dict_right = {'coluna_on': lista_on_right, 'valores_esquerda': lista_on_right}

df_left = pd.DataFrame(dict_left)
df_left

Unnamed: 0,coluna_on,valores_esquerda
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


In [96]:
df_left = pd.DataFrame(dict_right)
df_left

Unnamed: 0,coluna_on,valores_esquerda
0,1,1
1,3,3
2,5,5
3,7,7
4,9,9
5,11,11


In [None]:
df_left.merge(df_left, how = 'outner')

utilizando dataframes

In [98]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,razao_urbana_total,indicador,indicador2,região_cardeal
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,0.52866,N
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,0.546218,N
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,0.614438,N
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,0.584215,N
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,0.502468,N


In [100]:
df_muni.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,populacao_estimada
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


In [101]:
# retirar o uf dos índices
df_muni = df_muni.reset_index()
df_muni.head()

Unnamed: 0,index,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,populacao_estimada
0,0,RO,11,15,Alta Floresta D'Oeste,22516
1,1,RO,11,23,Ariquemes,111148
2,2,RO,11,31,Cabixi,5067
3,3,RO,11,49,Cacoal,86416
4,4,RO,11,56,Cerejeiras,16088


In [109]:
df_reg = df_muni.merge(df, how = 'left', left_on = ['UF'], right_on = ['uf'])
df_reg

Unnamed: 0,index,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,populacao_estimada,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,razao_urbana_total,indicador,indicador2,região_cardeal
0,0,RO,11,15,Alta Floresta D'Oeste,22516,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
1,1,RO,11,23,Ariquemes,111148,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
2,2,RO,11,31,Cabixi,5067,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
3,3,RO,11,49,Cacoal,86416,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
4,4,RO,11,56,Cerejeiras,16088,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5565,5565,GO,52,22005,Vianópolis,14088,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO
5566,5566,GO,52,22054,Vicentinópolis,9002,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO
5567,5567,GO,52,22203,Vila Boa,6451,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO
5568,5568,GO,52,22302,Vila Propício,5941,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO


Explorando os dados criados

In [None]:
# quero a média e o desvio padrão da população estimada por região

df_reg.groupby('regiao').mean()[['populacao_estimada']]

In [113]:
# Outro jeito por agg(agragate)

df_reg.groupby('regiao').agg({'populacao_estimada': ['mean', 'std']})

Unnamed: 0_level_0,populacao_estimada,populacao_estimada
Unnamed: 0_level_1,mean,std
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2
Centro-Oeste,35775.880086,172714.901533
Nordeste,29827.873835,117781.50581
Norte,42015.471111,140141.406672
Sudeste,53736.757794,364442.832617
Sul,25526.941226,88461.904412


In [114]:
df_reg.pivot_table(index = 'regiao', values = 'populacao_estimada', aggfunc = ['mean', 'std'])

Unnamed: 0_level_0,mean,std
Unnamed: 0_level_1,populacao_estimada,populacao_estimada
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2
Centro-Oeste,35775.880086,172714.901533
Nordeste,29827.873835,117781.50581
Norte,42015.471111,140141.406672
Sudeste,53736.757794,364442.832617
Sul,25526.941226,88461.904412


### Bora praticar!

Importe novamente o DataFrame **alunos3.csv** usado nos exercícios da aula passada para responder às questões abaixo:

In [115]:
df_notas = pd.read_csv('./dados/alunos3.csv', sep = ';', decimal = ',')

Primeiramente utilize o mesmo código da aula passada para calcular a média das 4 provas.

In [117]:
df_notas['media_provas'] = (df_notas['Prova_1'] + df_notas['Prova_2'] + df_notas['Prova_3'] + df_notas['Prova_4'])/ 4

1) Quem foram os alunos que obtiveram a maior e a menor média

In [120]:
df_notas.head()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0


In [121]:
#df_muni.loc[df_muni['UF'] == 'SP', :]

df_notas_ordenado = df_notas.sort_values(by='media_provas')

aluno_min_nota = df_notas_ordenado.iloc[0]['Nome']
aluno_max_nota = df_notas_ordenado.iloc[-1]['Nome']

print(f'Aluno com a maior nota: {aluno_max_nota}\nAluno com a menor nota: {aluno_min_nota}')

Aluno com a maior nota: José Valente
Aluno com a menor nota: Joao Galo


2. Crie uma coluna de ```status``` que possui o status de aprovação dos alunos seguindo os seguintes critérios, a partir da média das provas.
- até 5: Reprovado 
- acima de 5 e até 7: Recuperacao
- acima de 7: Aprovado

3) Importe o arquivo ```cadastro_alunos.xlsx``` em um DataFrame ```df_cadastro``` e una este dataframe com o ```df_notas``` chamando de ```df_escola```

4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

6) Faça um código para mostrar a médias da coluna Media_provas entre as cidades, mostrando o valor para cada uma bem como ordenando de forma decrescente? 

## Mini tarefa

A partir do dataframe df_escola é possível obter as médias de notas de cada cidade a partir da coluna Media_provas. Realizando este calculo e ordenando de forma decrescente, responda no [link](https://forms.gle/a7Lzb7cxN4d2FzK16), qual cidade possui maior média? E qual é esta média?