**Relembrando**  
  
A biblioteca **Pandas** proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [2]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

## Exploração de dados

Em estatística, a análise exploratória de dados (EDA - Exploratory Data Analysis) é uma abordagem de análise de conjuntos de dados para resumir suas principais características, muitas vezes usando gráficos estatísticos e outros métodos de visualização de dados. Neste módulo vamos nos ater ao uso de tabelas e estatísticas para este trabalho, principalmente usando o ```pandas```.

In [3]:
df = pd.read_table('../Pasta Geral/dados/dados_parciais.txt', sep=';', decimal=',')

### Head

In [4]:
# O head é utilizado para observarmos o início de um dataframe
df.head(7)

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
0,Norte,RO,238513,762864.0,468143.0,1231007.0
1,Norte,AC,153150,315401.0,168322.0,483726.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0
3,Norte,RR,225116,174277.0,72854.0,247131.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0
5,Norte,AP,143454,330590.0,48869.0,379459.0
6,Norte,TO,278421,741009.0,307633.0,1048642.0


In [5]:
#Explorando dados de uma cidade
df[df['uf'] == 'PI']

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
8,Nordeste,PI,252379,1556115.0,1117061.0,2673176.0


### Tail

In [6]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2235832.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0
28,,Ilhas***,10,,,


### Describe

In [7]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

Unnamed: 0,superficie,pop_urbana,pop_rural,total
count,29.0,27.0,27.0,27.0
mean,400655.6,4558599.0,1259163.0,5817762.0
std,689414.6,6443718.0,1162186.0,7084996.0
min,10.0,174277.0,48869.0,247131.0
25%,53307.0,1580216.0,475874.5,1874890.0
50%,199709.0,2176006.0,715174.0,2802707.0
75%,333366.0,5095113.0,2024133.0,7104462.0
max,3412895.0,31769220.0,4714902.0,34120890.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29 entries, 0 to 28
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   regiao      28 non-null     object 
 1   uf          29 non-null     object 
 2   superficie  29 non-null     int64  
 3   pop_urbana  27 non-null     float64
 4   pop_rural   27 non-null     float64
 5   total       27 non-null     float64
dtypes: float64(3), int64(1), object(2)
memory usage: 1.5+ KB


In [9]:
df_statistics = df.describe()
type(df_statistics)

pandas.core.frame.DataFrame

In [10]:
df_statistics['pop_rural']

count    2.700000e+01
mean     1.259163e+06
std      1.162186e+06
min      4.886900e+04
25%      4.758745e+05
50%      7.151740e+05
75%      2.024133e+06
max      4.714902e+06
Name: pop_rural, dtype: float64

### Outras estatísticas

In [11]:
# Obtendo uma estatística por vez
# Calculando a média

df.mean(numeric_only=True)

superficie    4.006556e+05
pop_urbana    4.558599e+06
pop_rural     1.259163e+06
total         5.817762e+06
dtype: float64

In [12]:
# Calculando a mediana
df.median(numeric_only=True)

superficie     199709.0
pop_urbana    2176006.0
pop_rural      715174.0
total         2802707.0
dtype: float64

In [13]:
# Calculando os quantis
df.quantile(0.1, numeric_only=True)

superficie     18804.4
pop_urbana    576841.4
pop_rural     152872.4
total         822675.6
Name: 0.1, dtype: float64

In [14]:
df.quantile([0.1, 0.99], numeric_only=True)

Unnamed: 0,superficie,pop_urbana,pop_rural,total
0.1,18804.4,576841.4,152872.4,822675.6
0.99,2899074.0,26908525.76,4424729.0,29584460.86


In [15]:
# Obtendo valor mínimo de cada variável
df.min(numeric_only=True)

superficie        10.0
pop_urbana    174277.0
pop_rural      48869.0
total         247131.0
dtype: float64

In [16]:
# se quisermos estatísticas separadas por região
df.groupby('regiao').mean()

  df.groupby('regiao').mean()


Unnamed: 0_level_0,superficie,pop_urbana,pop_rural,total
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Oeste,1170921.0,2216459.0,408911.0,2625370.0
Nordeste,156117.8,3243633.0,1730612.0,4974245.0
Norte,552805.6,1005618.0,607252.3,1612870.0
Sudeste,231821.8,14956490.0,1794278.0,16750770.0
Sul,192404.7,6052783.0,1786127.0,7838910.0


In [17]:
df.groupby('regiao').sum()

  df.groupby('regiao').sum()


Unnamed: 0_level_0,superficie,pop_urbana,pop_rural,total
regiao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Centro-Oeste,4683683,8865836.0,1635644.0,10501480.0
Nordeste,1561178,29192696.0,15575505.0,44768201.0
Norte,3869639,7039324.0,4250766.0,11290093.0
Sudeste,927287,59825958.0,7177111.0,67003069.0
Sul,577214,18158350.0,5358380.0,23516730.0


In [18]:
df[df['regiao'] == 'Centro-Oeste']

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total
24,Centro-Oeste,MS,358159,1604318.0,323516.0,1927834.0
25,Centro-Oeste,MT,906807,1695548.0,540284.0,2235832.0
26,Centro-Oeste,GO,3412895,3873722.0,642146.0,4515868.0
27,Centro-Oeste,DF,5822,1692248.0,129698.0,1821946.0


### Importando novo Dataframe

In [19]:
# importando o dataframe de municípios
df_minu = pd.read_table('../Pasta Geral/dados/populacao_brasileira_por_municipio.txt', sep=';', thousands='.')


In [20]:
df_minu.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [21]:
df_minu['UF']

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object

In [22]:
df_minu.UF

0       RO
1       RO
2       RO
3       RO
4       RO
        ..
5565    GO
5566    GO
5567    GO
5568    GO
5569    DF
Name: UF, Length: 5570, dtype: object

In [23]:
type(df_minu.UF)

pandas.core.series.Series

In [24]:
type(df_minu[['UF']])

pandas.core.frame.DataFrame

In [25]:
# terceira forma - retorna um dataframe

In [26]:
df_minu.rename(columns={'POPULAÇÃO ESTIMADA':'população_estimada'}, inplace=True)

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [27]:
# quero saber quais cidades tem população urbana > 500000

df_minu.query('população_estimada > 500000')

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,população_estimada
16,RO,11,205,Porto Velho,548952
111,AM,13,2603,Manaus,2255903
160,PA,15,800,Ananindeua,540410
169,PA,15,1402,Belém,1506420
303,AP,16,303,Macapá,522357
635,MA,21,11300,São Luís,1115932
882,PI,22,11001,Teresina,871126
949,CE,23,4400,Fortaleza,2703391
1163,RN,24,8102,Natal,896708
1337,PB,25,7507,João Pessoa,825796


In [28]:
df_minu.query('população_estimada > 500000')[['UF', 'COD. UF']]

Unnamed: 0,UF,COD. UF
16,RO,11
111,AM,13
160,PA,15
169,PA,15
303,AP,16
635,MA,21
882,PI,22
949,CE,23
1163,RN,24
1337,PB,25


In [29]:
# podemos usar uma variável

### .loc e .iloc

In [30]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset

# df_minu.loc[quantidade_de_linhas_em_int, 'coluna_da_consulta']
df_minu.loc[1, :]


UF                           RO
COD. UF                      11
COD. MUNIC                   23
NOME DO MUNICÍPIO     Ariquemes
população_estimada       111148
Name: 1, dtype: object

In [31]:
df_minu.loc[:10,'população_estimada']


0      22516
1     111148
2       5067
3      86416
4      16088
5      15213
6       7052
7      19255
8      33009
9      46930
10     51469
Name: população_estimada, dtype: int64

In [32]:
# qual estado corresponde à segunda linha do dataset


In [33]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?
df_minu.loc[df_minu['UF']=='SP', 'COD. MUNIC':'população_estimada']

Unnamed: 0,COD. MUNIC,NOME DO MUNICÍPIO,população_estimada
3267,105,Adamantina,35153
3268,204,Adolfo,3545
3269,303,Aguaí,36981
3270,402,Águas da Prata,8262
3271,501,Águas de Lindóia,18908
...,...,...,...
3907,57006,Votorantim,124468
3908,57105,Votuporanga,96106
3909,57154,Zacarias,2784
3910,57204,Chavantes,12418


In [34]:
# quais estados pertencem à região NE e N?

df_minu.loc[(df_minu['UF']=='SP') | (df_minu['UF']=='RJ'), 'COD. MUNIC':'população_estimada']

Unnamed: 0,COD. MUNIC,NOME DO MUNICÍPIO,população_estimada
3175,100,Angra dos Reis,210171
3176,159,Aperibé,12036
3177,209,Araruama,136109
3178,225,Areal,12763
3179,233,Armação dos Búzios,35060
...,...,...,...
3907,57006,Votorantim,124468
3908,57105,Votuporanga,96106
3909,57154,Zacarias,2784
3910,57204,Chavantes,12418


In [35]:
# iloc faz a referência aos índices e colunas de forma implícita

# df_minu.iloc[indice_linha,indice_coluna]
df_minu.iloc[2,2]

31

In [36]:
# definir a coluna uf como a coluna de índice
df_muni = df_minu.set_index(['NOME DO MUNICÍPIO'])
df_muni

Unnamed: 0_level_0,UF,COD. UF,COD. MUNIC,população_estimada
NOME DO MUNICÍPIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alta Floresta D'Oeste,RO,11,15,22516
Ariquemes,RO,11,23,111148
Cabixi,RO,11,31,5067
Cacoal,RO,11,49,86416
Cerejeiras,RO,11,56,16088
...,...,...,...,...
Vianópolis,GO,52,22005,14088
Vicentinópolis,GO,52,22054,9002
Vila Boa,GO,52,22203,6451
Vila Propício,GO,52,22302,5941


In [37]:
# desejo obter a população rural do AC

# loc (explícito) procurando pelo índice
print(df_muni.loc['Cabixi', 'população_estimada'])

# iloc (implícito)
print(df_muni.iloc[2,3])

5067
5067


In [38]:
# queremos as cidades que têm menos de 500000 habitantes (total)
df_muni.loc[df_muni.população_estimada < 500000, :] 

Unnamed: 0_level_0,UF,COD. UF,COD. MUNIC,população_estimada
NOME DO MUNICÍPIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alta Floresta D'Oeste,RO,11,15,22516
Ariquemes,RO,11,23,111148
Cabixi,RO,11,31,5067
Cacoal,RO,11,49,86416
Cerejeiras,RO,11,56,16088
...,...,...,...,...
Varjão,GO,52,21908,3848
Vianópolis,GO,52,22005,14088
Vicentinópolis,GO,52,22054,9002
Vila Boa,GO,52,22203,6451


### Operações matemáticas

In [39]:
# quero saber a razão entre as população urbana e a população rural

df['razao_urbana_rural'] = df['pop_urbana'] / df['pop_rural']
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136


In [40]:
# se eu chamar uma coluna inexiste em modo de leitura

In [41]:
# calcular a fração da população urbana sobre a geral
df['raza_urbana_total'] = df['pop_urbana'] / df['total']
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,raza_urbana_total
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129


In [42]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário
for i in df.index:
    if df.loc[i, 'raza_urbana_total'] > 0.7:
        df.loc[i, 'indicador'] = 1
    else:
        df.loc[i, 'indicador'] = 0

In [43]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,raza_urbana_total,indicador
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0.0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1.0
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1.0
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0.0


### Apply

In [44]:
# Uma outra forma de realizar isso é utilizando o apply aplicando novos critérios
df['indicador'] = df['raza_urbana_total'].apply(lambda x:1 if x > 0.7 else 0)

In [45]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,raza_urbana_total,indicador
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0


In [46]:
# Também é possível criar funções
def soma_quadrados(row):
  # Esta é uma função que calcula a divisão da soma dos quadrados das populações urbana e rural, pelo total
  soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)

  return soma

In [47]:
# usando o apply em múltiplas colunas
df['indicador2'] = df.apply(soma_quadrados, axis=1)
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,raza_urbana_total,indicador,indicador2
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,0.52866
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,0.546218
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,0.614438
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,0.584215
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,0.502468


### map

In [48]:
ponto_cardeal = {
    'Norte': 'N',
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

# podemos fazer transformações com dicionários
df['regiao_cardeal'] = df['regiao'].map(ponto_cardeal)
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,raza_urbana_total,indicador,indicador2,regiao_cardeal
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,0.52866,N
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,0.546218,N
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,0.614438,N
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,0.584215,N
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,0.502468,N


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [49]:
lista_on_left = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista_on_right = [1, 3, 5, 7, 9, 11]

In [50]:
dict_left = {'coluna_on':lista_on_left, 'valores_esquerda':lista_on_left}
dict_right = {'coluna_on':lista_on_right, 'valores_direita':lista_on_right}

df_left = pd.DataFrame(dict_left)
df_left

Unnamed: 0,coluna_on,valores_esquerda
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


In [51]:

df_right = pd.DataFrame(dict_right)
df_right


Unnamed: 0,coluna_on,valores_direita
0,1,1
1,3,3
2,5,5
3,7,7
4,9,9
5,11,11


In [52]:
df_left.merge(df_right, how='outer')

Unnamed: 0,coluna_on,valores_esquerda,valores_direita
0,1,1.0,1.0
1,2,2.0,
2,3,3.0,3.0
3,4,4.0,
4,5,5.0,5.0
5,6,6.0,
6,7,7.0,7.0
7,8,8.0,
8,9,9.0,9.0
9,10,10.0,


utilizando dataframes

In [53]:
df_muni.head()

Unnamed: 0_level_0,UF,COD. UF,COD. MUNIC,população_estimada
NOME DO MUNICÍPIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alta Floresta D'Oeste,RO,11,15,22516
Ariquemes,RO,11,23,111148
Cabixi,RO,11,31,5067
Cacoal,RO,11,49,86416
Cerejeiras,RO,11,56,16088


In [54]:
df.head()

Unnamed: 0,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,raza_urbana_total,indicador,indicador2,regiao_cardeal
0,Norte,RO,238513,762864.0,468143.0,1231007.0,1.629553,0.619707,0,0.52866,N
1,Norte,AC,153150,315401.0,168322.0,483726.0,1.873795,0.652024,0,0.546218,N
2,Norte,AM,1577820,1766166.0,623113.0,2389279.0,2.834423,0.739205,1,0.614438,N
3,Norte,RR,225116,174277.0,72854.0,247131.0,2.39214,0.705201,1,0.584215,N
4,Norte,PA,1253165,2949017.0,2561832.0,5510849.0,1.151136,0.535129,0,0.502468,N


In [55]:
# retirar o uf dos índices

df_muni = df_muni.reset_index()
df_muni.head()

Unnamed: 0,NOME DO MUNICÍPIO,UF,COD. UF,COD. MUNIC,população_estimada
0,Alta Floresta D'Oeste,RO,11,15,22516
1,Ariquemes,RO,11,23,111148
2,Cabixi,RO,11,31,5067
3,Cacoal,RO,11,49,86416
4,Cerejeiras,RO,11,56,16088


In [56]:
df_reg = df_muni.merge(df, how='left', left_on=['UF'], right_on=['uf'])
df_reg

Unnamed: 0,NOME DO MUNICÍPIO,UF,COD. UF,COD. MUNIC,população_estimada,regiao,uf,superficie,pop_urbana,pop_rural,total,razao_urbana_rural,raza_urbana_total,indicador,indicador2,regiao_cardeal
0,Alta Floresta D'Oeste,RO,11,15,22516,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
1,Ariquemes,RO,11,23,111148,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
2,Cabixi,RO,11,31,5067,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
3,Cacoal,RO,11,49,86416,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
4,Cerejeiras,RO,11,56,16088,Norte,RO,238513.0,762864.0,468143.0,1231007.0,1.629553,0.619707,0.0,0.528660,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5565,Vianópolis,GO,52,22005,14088,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO
5566,Vicentinópolis,GO,52,22054,9002,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO
5567,Vila Boa,GO,52,22203,6451,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO
5568,Vila Propício,GO,52,22302,5941,Centro-Oeste,GO,3412895.0,3873722.0,642146.0,4515868.0,6.032463,0.857802,1.0,0.756045,CO


Explorando os dados criados

In [57]:
# quero a média e o desvio padrão da população estimada por região
df_reg.groupby('regiao').mean(numeric_only=True)[['população_estimada']]

Unnamed: 0_level_0,população_estimada
regiao,Unnamed: 1_level_1
Centro-Oeste,35775.880086
Nordeste,29827.873835
Norte,42015.471111
Sudeste,53736.757794
Sul,25526.941226


In [58]:
#Outra forma de fazer com 'std' (desvio padrão)
df_reg.groupby('regiao').agg({'população_estimada':['mean', 'std']})

Unnamed: 0_level_0,população_estimada,população_estimada
Unnamed: 0_level_1,mean,std
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2
Centro-Oeste,35775.880086,172714.901533
Nordeste,29827.873835,117781.50581
Norte,42015.471111,140141.406672
Sudeste,53736.757794,364442.832617
Sul,25526.941226,88461.904412


In [59]:
# outra forma de fazer com pivot_table 
# Desvio padrão pode significar que temos cidades muito pequenas ou muito grandes,
# ou seja, as  médias podem não corresponder a realidade

df_reg.pivot_table(index='regiao', values='população_estimada', aggfunc=['mean', 'std'])

Unnamed: 0_level_0,mean,std
Unnamed: 0_level_1,população_estimada,população_estimada
regiao,Unnamed: 1_level_2,Unnamed: 2_level_2
Centro-Oeste,35775.880086,172714.901533
Nordeste,29827.873835,117781.50581
Norte,42015.471111,140141.406672
Sudeste,53736.757794,364442.832617
Sul,25526.941226,88461.904412


### Bora praticar!

Importe novamente o DataFrame **alunos3.csv** usado nos exercícios da aula passada para responder às questões abaixo:

In [60]:
df_notas = pd.read_csv('../Pasta Geral/dados/alunos3.csv', sep=';', decimal=',')
df_notas

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Primeiramente utilize o mesmo código da aula passada para calcular a média das 4 provas.

In [61]:
apenas_notas = df_notas.drop(['RA','Frequencia'], axis=1)
media_notas = apenas_notas.mean(numeric_only=True,axis=1)

df_notas['Media_provas'] = media_notas
df_notas

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


1) Quem foram os alunos que obtiveram a maior e a menor média

In [67]:
# df_notas.sort_values(by='Media_provas',ascending=False)
maior_nota = df_notas.loc[[df_notas['Media_provas'].idxmax()]]
menor_nota = df_notas.loc[[df_notas['Media_provas'].idxmin()]]

print(maior_nota[['Nome','Media_provas']])
print('-------------------------')
print(menor_nota[['Nome','Media_provas']])

           Nome  Media_provas
7  José Valente          10.0
-------------------------
        Nome  Media_provas
6  Joao Galo         5.875


2. Crie uma coluna de ```status``` que possui o status de aprovação dos alunos seguindo os seguintes critérios, a partir da média das provas.
- até 5: Reprovado 
- acima de 5 e até 7: Recuperacao
- acima de 7: Aprovado

In [74]:
def definir_status(media):
    if media <= 5:
        return 'Reprovado'
    elif 5 < media <= 7:
        return 'Recuperação'
    else:
        return 'Aprovado'
    
df_notas['status'] = df_notas['Media_provas'].apply(definir_status)

In [75]:
df_notas

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas,status
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,Recuperação
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Aprovado
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Recuperação
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Aprovado
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Recuperação
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5,Aprovado
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875,Recuperação
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0,Aprovado
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625,Aprovado
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0,Aprovado


3) Importe o arquivo ```cadastro_alunos.xlsx``` em um DataFrame ```df_cadastro``` e una este dataframe com o ```df_notas``` chamando de ```df_escola```

In [63]:
df_alunos = pd.read_excel('../Pasta Geral/dados/cadastro_alunos.xlsx')
df_alunos


Unnamed: 0,RA,Cidade,Sexo,Idade
0,110201,São Paulo,Masculino,15
1,110212,Rio de Janeiro,Feminino,20
2,110218,Rio de Janeiro,Masculino,18
3,110307,Belo Horizonte,Masculino,39
4,110275,Belo Horizonte,Feminino,22
5,110281,Rio de Janeiro,Feminino,17
6,110301,Belo Horizonte,Masculino,26
7,110263,Belo Horizonte,Masculino,31
8,110271,São Paulo,Feminino,29
9,110236,São Paulo,Feminino,16


In [80]:
df_escola = df_alunos.merge(df_notas,
                            how='inner',
                            on=['RA'])
df_escola

Unnamed: 0,RA,Cidade,Sexo,Idade,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Media_provas,status
0,110201,São Paulo,Masculino,15,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,Recuperação
1,110212,Rio de Janeiro,Feminino,20,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Aprovado
2,110218,Rio de Janeiro,Masculino,18,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Recuperação
3,110307,Belo Horizonte,Masculino,39,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Aprovado
4,110275,Belo Horizonte,Feminino,22,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Recuperação
5,110281,Rio de Janeiro,Feminino,17,Juliana Arruda,18,7.5,7.0,7.5,8,7.5,Aprovado
6,110301,Belo Horizonte,Masculino,26,Joao Galo,20,5.0,6.5,7.0,5,5.875,Recuperação
7,110263,Belo Horizonte,Masculino,31,José Valente,20,10.0,10.0,10.0,10,10.0,Aprovado
8,110271,São Paulo,Feminino,29,Maria Ferreira,19,9.5,8.0,7.0,10,8.625,Aprovado
9,110236,São Paulo,Feminino,16,Adriana Tavares,20,8.0,8.0,8.0,8,8.0,Aprovado


4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

In [81]:
df_media_por_sexo = df_escola.groupby('Sexo').mean(numeric_only=True)[['Media_provas']]
df_media_por_sexo

Unnamed: 0_level_0,Media_provas
Sexo,Unnamed: 1_level_1
Feminino,7.675
Masculino,7.775


5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

In [88]:
df_escola.loc[df_notas['Media_provas'] >= 7].mean(numeric_only=True)[['Idade']]

Idade    23.0
dtype: float64

6) Faça um código para mostrar a médias da coluna Media_provas entre as cidades, mostrando o valor para cada uma bem como ordenando de forma decrescente? 

In [91]:
df_escola.groupby('Cidade').mean(numeric_only=True)[['Media_provas']].sort_values(by='Media_provas',ascending=False)

Unnamed: 0_level_0,Media_provas
Cidade,Unnamed: 1_level_1
Belo Horizonte,7.96875
São Paulo,7.875
Rio de Janeiro,7.25


## Mini tarefa

A partir do dataframe df_escola é possível obter as médias de notas de cada cidade a partir da coluna Media_provas. Realizando este calculo e ordenando de forma decrescente, responda no [link](https://forms.gle/a7Lzb7cxN4d2FzK16), qual cidade possui maior média? E qual é esta média?

In [92]:
df_escola.groupby('Cidade').mean(numeric_only=True)[['Media_provas']].sort_values(by='Media_provas',ascending=True)

Unnamed: 0_level_0,Media_provas
Cidade,Unnamed: 1_level_1
Rio de Janeiro,7.25
São Paulo,7.875
Belo Horizonte,7.96875
