**Relembrando**  
  
A biblioteca **Pandas** proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [None]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

## Exploração de dados

Em estatística, a análise exploratória de dados (EDA - Exploratory Data Analysis) é uma abordagem de análise de conjuntos de dados para resumir suas principais características, muitas vezes usando gráficos estatísticos e outros métodos de visualização de dados. Neste módulo vamos nos ater ao uso de tabelas e estatísticas para este trabalho, principalmente usando o ```pandas```.

In [None]:
df = pd.read_table('./dados/dados_parciais.txt', sep=';', decimal=',')

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe
df.head()

In [None]:
df[df['uf']=='PI']

### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe
df.tail()

### Describe

### info

In [None]:
# .info() 
df.info()

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.
df.describe()

In [None]:
df_statiscics = df.describle()

### Outras estatísticas

In [None]:
# Obtendo uma estatística por vez
# Calculando a média
df.mean()

In [None]:
numeric_columns = df.select_dtypes(include='number')
mean_numeric = numeric_columns.mean()
mean_numeric

In [None]:
# Calculando a mediana
df.median

In [None]:
# Calculando os quantis
df.quantile

In [None]:
# Obtendo valor mínimo de cada variável
df.min()

In [None]:
# se quisermos estatísticas separadas por região
# group by
df.groupby('regiao').mean()

In [None]:
df.groupby('regiao').sum()

In [None]:
df[df['regiao']=='Centro-Oeste']

### Importando novo Dataframe

In [None]:
# importando o dataframe de municípios
df_muni = pd.read_table('./dados/populacao_brasileira_por_municipio.txt', sep = ';', thousands = '.')

In [None]:
df_muni.head()

### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [None]:
df_muni['UF']

In [None]:
df_muni.UF
# faz o mesmo que acima.

In [None]:
type(df_muni.UF)

In [None]:
# terceira forma - retorna um dataframe
# Neste caso eu estou trazendo uma lista de dados.
#df_muni[['UF', 'COD. MUNIC']] Trazer mais de uma coluna
df_muni[['UF']]

In [None]:
type(df_muni[['UF']])

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
df_muni.rename(columns={'POPULAÇÃO ESTIMADA': 'populacao_estimada'}, inplace=True)


In [None]:
# quero saber quais cidades tem população urbana > 500000
# A query tem que estar em string
df_muni.query('populacao_estimada > 500000')

In [None]:
# podemos usar uma variável

limite = 500000
df_muni.query('populacao_estimada > @limite')  # O @ serve para indicar que é uma variável ja estabelecida

### .loc e .iloc

In [None]:
# .loc usado para pesquisar índices e colunas explicitamente | o loc. é para localizar. Usa a logica da mascara boleaana

# quero a população urbana da segunda linha do dataset
df_muni.loc[1, 'populacao_estimada'] # Eu uso como argumento a posição do indice que eu quero e em qual coluna eu quero

In [None]:
# qual estado corresponde à segunda linha do dataset
df_muni.loc[1,:] # Assim ele acessa a segunda linha e me traz tudo dela, igualmente a slice [linhas, colunas]

In [None]:
# Ou seja eu consigo usar como no numpy com  linhas e colunas e posso tirar slices como eu bem entender
# [da linha 0 até a 10, coluna tal ]
df_muni.loc[ :10, 'populacao_estimada']

In [None]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?
df_muni.loc[df_muni['UF'] == 'SP', 'populacao_estimada']

In [None]:
# Se eu quiser trazer todas as colunas.
df_muni.loc[df_muni['UF'] == 'SP', :]

In [None]:
# Funciona tambem com os nomes

df_muni.loc[df_muni['UF'] == 'SP', 'COD. MUNIC':'populacao_estimada']

In [None]:
# quais estados pertencem à região NE e N?

df_muni.loc[(df_muni['UF'] == 'SP') | (df_muni['UF'] == 'RJ'), 'COD. MUNIC':'populacao_estimada']

In [None]:
# iloc faz a referência aos índices e colunas de forma implícita
df_muni.iloc[2, 2]  # O iloc. usa somente os indices

In [None]:
# definir a coluna uf como a coluna de índice

df_muni1 = df_muni.set_index(['UF'])
df_muni1.head()

In [None]:
df_muni2 = df_muni.set_index(['NOME DO MUNICÍPIO'])

In [None]:
# desejo obter a população rural do AC

# loc (explícito)  # Ou seja como coloquei as unidades federativas como indice eu consigo usar eles direto.
print(df_muni2.loc['Cabixi', 'populacao_estimada'])

# iloc (implícito)
print(df_muni2.iloc[2,3])

In [None]:
# queremos as cidades que têm menos de 500000 habitantes (total)


# [df_muni2.populacao_estimada < 500000, :] df_muni2.populacao_estimada < 500000 =  linhas ,  : = trazer todas as colunas
df_muni2.loc[df_muni2.populacao_estimada < 500000, :]

### Operações matemáticas

In [None]:
# quero saber a razão entre as população urbana e a população rural

df['razao_urbana_rural'] = df['pop_urbana']/df['pop_rural']
df.head()

In [None]:
# se eu chamar uma coluna inexiste em modo de leitura
df['nome_não_existe']
# vai trazer keyerror

In [None]:
# calcular a fração da população urbana sobre a geral
df['razao_urbana_total'] = df['pop_urbana']/df['total']
df.head()

In [None]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário

for linha in df.index:
    if df.loc[linha, 'razao_urbana_total'] > 0.7:
        df.loc[linha, 'indicador'] = 1
    else:
        df.loc[linha, 'indicador'] = 0
        
# Criei um indicador sobre a coluna 'razao_urbana_total' para dizer se ele tem muita população urbana ou não

In [None]:
df.head()

### Apply

In [None]:
# Uma outra forma de realizar isso é utilizando o apply
# O apply tambem cria um critério e ele pode usar uma lambda para fazer o que fizemos acima ou uma função.

df['indicador'] = df['razao_urbana_total'].apply(lambda x: 1 if x > 0.7 else 0)
df.head()

# Diferente do que fizemos anteriormente aqui ele vem como int.

In [None]:
# Também é possível criar funções
def soma_quadrados(row):
  # Esta é uma função que calcula a divisão da soma dos quadrados das populações urbana e rural, pelo total
  soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)

  return soma

In [None]:
# usando o apply em múltiplas colunas
df['indicador2'] = df.apply(soma_quadrados, axis=1) # O axis indica que é nas linhas
df.head()

### map

In [None]:
ponto_cardeal = {
    'Norte': 'N',
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

# podemos fazer transformações com dicionários
df['região_cardeal'] = df['regiao'].map(ponto_cardeal)
df.head()


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
lista_on_left = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista_on_right = [1, 3, 5, 7, 9, 11]

In [None]:
dict_left = {'coluna_on': lista_on_left, 'valores_esquerda': lista_on_left}
dict_right = {'coluna_on': lista_on_right, 'valores_esquerda': lista_on_right}

df_left = pd.DataFrame(dict_left)
df_left

In [None]:
df_left = pd.DataFrame(dict_right)
df_left

In [None]:
df_left.merge(df_left, how = 'outner')

utilizando dataframes

In [None]:
df.head()

In [None]:
df_muni.head()

In [None]:
# retirar o uf dos índices
df_muni = df_muni.reset_index()
df_muni.head()

In [None]:
df_reg = df_muni.merge(df, how = 'left', left_on = ['UF'], right_on = ['uf'])
df_reg

Explorando os dados criados

In [None]:
# quero a média e o desvio padrão da população estimada por região

df_reg.groupby('regiao').mean()[['populacao_estimada']]

In [None]:
# Outro jeito por agg(agragate)

df_reg.groupby('regiao').agg({'populacao_estimada': ['mean', 'std']})

In [None]:
df_reg.pivot_table(index = 'regiao', values = 'populacao_estimada', aggfunc = ['mean', 'std'])

### Bora praticar!

Importe novamente o DataFrame **alunos3.csv** usado nos exercícios da aula passada para responder às questões abaixo:

In [2]:
df_notas = pd.read_csv('./dados/alunos3.csv', sep = ';', decimal = ',')

Primeiramente utilize o mesmo código da aula passada para calcular a média das 4 provas.

In [3]:
df_notas['media_provas'] = (df_notas['Prova_1'] + df_notas['Prova_2'] + df_notas['Prova_3'] + df_notas['Prova_4'])/ 4

1) Quem foram os alunos que obtiveram a maior e a menor média

In [19]:
df_notas.head()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,media_provas,status
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,Aprovado
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Aprovado
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Aprovado
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Aprovado
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Aprovado


In [5]:
#df_muni.loc[df_muni['UF'] == 'SP', :]

df_notas_ordenado = df_notas.sort_values(by='media_provas')

aluno_min_nota = df_notas_ordenado.iloc[0]['Nome']
aluno_max_nota = df_notas_ordenado.iloc[-1]['Nome']

print(f'Aluno com a maior nota: {aluno_max_nota}\nAluno com a menor nota: {aluno_min_nota}')

Aluno com a maior nota: José Valente
Aluno com a menor nota: Joao Galo


In [16]:
# Outro jeito porem não trouxe a pessoa, somente as notas
print(df_notas.max()['media_provas'])
print(df_notas.min()['media_provas'])

10.0
5.875


In [22]:
# Terminando a forma acima
nota_max = df_notas.max()['media_provas']
df_notas[df_notas['media_provas'] == nota_max] # Pego a nota maxima e passo uma mascara booleana

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,media_provas,status
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0,Aprovado


In [None]:
# Esse traz o nome e mais coisa.

print(df_notas.loc[df_notas['media_provas'].idxmin()])
print()
      
print(df_notas.loc[df_notas['media_provas'].idxmax()])

In [24]:
# Mais um jeito

df_notas.loc[(df_notas['media_provas'] == df_notas['media_provas'].max()) | (df_notas['media_provas'] == df_notas['media_provas'].min()), 'Nome']

6       Joao Galo
7    José Valente
Name: Nome, dtype: object

2. Crie uma coluna de ```status``` que possui o status de aprovação dos alunos seguindo os seguintes critérios, a partir da média das provas.
- até 5: Reprovado 
- acima de 5 e até 7: Recuperacao
- acima de 7: Aprovado

In [25]:
# Por apply + Lambda

df_notas['status'] = df_notas['media_provas'].apply(lambda x: 'Aprovado' if x > 7 else ('Recuperacao' if 5 < x <= 7 else 'Reprovado'))

In [26]:
df_notas.head()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,media_provas,status
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,Recuperacao
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Aprovado
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Recuperacao
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Aprovado
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Recuperacao


In [None]:
# Outro jeito (percorrendo)
for i in df_notas.index:
  if df_notas.loc[i, 'media_provas'] > 7:
    df_notas.loc[i, 'status'] = 'Aprovado'
  elif 5 < df_notas.loc[i, 'media_provas'] <= 7:
    df_notas.loc[i, 'status'] = 'Recuperação'
  else:
    df_notas.loc[i, 'status'] = 'Reprovado'

df_notas

In [None]:
# Outra forma ( por apply + por função)

def definir_status(media):
    if media <= 5:
        return 'Reprovado'
    elif 5 < media <= 7:
        return 'Recuperação'
    else:
        return 'Aprovado'
    
df_notas['status'] = df_notas['media_provas'].apply(definir_status)

df_notas.head()

3) Importe o arquivo ```cadastro_alunos.xlsx``` em um DataFrame ```df_cadastro``` e una este dataframe com o ```df_notas``` chamando de ```df_escola```

In [27]:
df_cadastro = pd.read_excel('./dados/cadastro_alunos.xlsx')

In [28]:
# Ordena o DF por 'RA'
df_notas_sorted = df_notas.sort_values(by='RA')
df_cadastro_sorted = df_cadastro.sort_values(by='RA')

# Resetar os índices 
df_notas_sorted.reset_index(drop=True, inplace=True)
df_cadastro_sorted.reset_index(drop=True, inplace=True)

# Concatenar o DF
df_escola = pd.concat([df_notas_sorted, df_cadastro_sorted], axis=1)

In [39]:
#Outra forma, com o merge

df_escola = df_cadastro.merge(df_notas, how ='outer')

In [40]:
# Com o on

df_escola = df_cadastro.merge(df_notas, how ='outer', on = ['RA'])

In [38]:
df_escola.head()

Unnamed: 0,RA,Cidade,Sexo,Idade,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,media_provas,status
0,110201,São Paulo,Masculino,15,Antonio Carlos,20,6.5,8.5,7.0,6,7.0,Recuperação
1,110212,Rio de Janeiro,Feminino,20,Ana Beatriz,20,7.0,7.0,7.0,8,7.25,Aprovado
2,110218,Rio de Janeiro,Masculino,18,Carlos Vernes,17,7.0,7.0,7.0,7,7.0,Recuperação
3,110307,Belo Horizonte,Masculino,39,Francisco Cunha,20,9.0,8.5,8.5,10,9.0,Aprovado
4,110275,Belo Horizonte,Feminino,22,Sandra Rosa,15,6.5,7.5,7.0,7,7.0,Recuperação


4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

In [30]:
# Usando loc.
media_feminino = df_escola.loc[df_escola['Sexo'] == 'Feminino', 'media_provas'].mean()


media_masculino = df_escola.loc[df_escola['Sexo'] == 'Masculino', 'media_provas'].mean()
print(f'A média da Media_provas dentro o publico feminino é: {media_feminino}\n\nA média da Media_provas dentro o publico masculino é: {media_masculino}')

A média da Media_provas dentro o publico feminino é: 7.675

A média da Media_provas dentro o publico masculino é: 7.775


In [12]:
# Usando Query

media_feminino = df_escola.query('Sexo == "Feminino"')['media_provas'].mean()

media_masculino = df_escola.query('Sexo == "Masculino"')['media_provas'].mean()


print(f'A média da Media_provas dentro o publico feminino é: {media_feminino}\n\nA média da Media_provas dentro o publico masculino é: {media_masculino}')

A média da Media_provas dentro o publico feminino é: 7.675

A média da Media_provas dentro o publico masculino é: 7.775


In [42]:
# Outra maneira com o groupby. PS Achei bem mais facil.

df_escola.groupby('Sexo')['media_provas'].mean()

Sexo
Feminino     7.675
Masculino    7.775
Name: media_provas, dtype: float64

In [43]:
df_escola.pivot_table(index='Sexo', values = 'media_provas', aggfunc = 'mean')

Unnamed: 0_level_0,media_provas
Sexo,Unnamed: 1_level_1
Feminino,7.675
Masculino,7.775


5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

In [31]:
# Usando .loc
# Esta Errado, pois o statos é maior que 7 e não maior ou igual
mediaIdade_aprovados = df_escola.loc[df_escola['status'] == 'Aprovado', 'Idade'].mean()
mediaIdade_aprovados

25.333333333333332

In [46]:
mediaIdade_aprovados = df_escola.loc[df_escola['media_provas'] >= 7, 'Idade'].mean()
mediaIdade_aprovados

23.0

In [32]:
#Usando query


mediaIdade_aprovados = df_escola.query('status == "Aprovado"')['Idade'].mean()
mediaIdade_aprovados

25.333333333333332

In [45]:
# Outra forma

df_escola[df_escola['media_provas']>=7].Idade.mean()

23.0

In [48]:
df_escola[df_escola['media_provas'] >= 7]['Idade'].mean()

23.0

6) Faça um código para mostrar a médias da coluna Media_provas entre as cidades, mostrando o valor para cada uma bem como ordenando de forma decrescente? 

In [33]:
mediaMediaProvas_cidades = df_escola.groupby('Cidade')['media_provas'].mean().round(2).sort_values(ascending=False)
#display(mediaMediaProvas_cidades)
mediaMediaProvas_cidades

Cidade
Belo Horizonte    7.97
São Paulo         7.88
Rio de Janeiro    7.25
Name: media_provas, dtype: float64

In [51]:
df_escola.groupby('Cidade')['media_provas'].mean().round(2).sort_values(ascending=False)

Cidade
Belo Horizonte    7.97
São Paulo         7.88
Rio de Janeiro    7.25
Name: media_provas, dtype: float64

In [54]:
mediaMediaProvas_cidades = df_escola.groupby('Cidade')['media_provas'].mean().round(2).sort_values(ascending=False).to_frame(name='Média_Provas_por_Cidade')
mediaMediaProvas_cidades

Unnamed: 0_level_0,Média_Provas_por_Cidade
Cidade,Unnamed: 1_level_1
Belo Horizonte,7.97
São Paulo,7.88
Rio de Janeiro,7.25


In [50]:
# Outro jeito

df_escola.pivot_table(index='Cidade', values='media_provas', aggfunc='mean').sort_values(by='media_provas', ascending=False)

Unnamed: 0_level_0,media_provas
Cidade,Unnamed: 1_level_1
Belo Horizonte,7.96875
São Paulo,7.875
Rio de Janeiro,7.25


## Mini tarefa

A partir do dataframe df_escola é possível obter as médias de notas de cada cidade a partir da coluna Media_provas. Realizando este calculo e ordenando de forma decrescente, responda no [link](https://forms.gle/a7Lzb7cxN4d2FzK16), qual cidade possui maior média? E qual é esta média?