**Relembrando**  
  
A biblioteca **Pandas** proporciona uma forma eficiente de armazenagem e processamento de conjuntos de dados, e é utilizada como base para a construção da biblioteca Pandas, que estudaremos a seguir.

O diferencial do Numpy é sua velocidade e eficiência, o que faz com que ela seja amplamente utilizada para computação científica e analise de dados. 

A velocidade e eficiência é possível graças à estrutura chamada **numpy array**, que é um forma eficiente de guardar e manipular matrizes, que serve como base para as tabelas que iremos utilizar.

In [None]:
import pandas as pd
import numpy as np

## Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

## Exploração de dados

Em estatística, a análise exploratória de dados (EDA - Exploratory Data Analysis) é uma abordagem de análise de conjuntos de dados para resumir suas principais características, muitas vezes usando gráficos estatísticos e outros métodos de visualização de dados. Neste módulo vamos nos ater ao uso de tabelas e estatísticas para este trabalho, principalmente usando o ```pandas```.

In [None]:
df = pd.read_table('./dados/dados_parciais.txt', sep=';', decimal=',')

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe


### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe


### Describe

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.

### Outras estatísticas

In [None]:
# Obtendo uma estatística por vez
# Calculando a média

In [None]:
# Calculando a mediana

In [None]:
# Calculando os quantis

In [None]:
# Obtendo valor mínimo de cada variável

In [None]:
# se quisermos estatísticas separadas por região

### Importando novo Dataframe

In [None]:
# importando o dataframe de municípios


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

In [None]:
# terceira forma - retorna um dataframe

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
# quero saber quais cidades tem população urbana > 500000

In [None]:
# podemos usar uma variável

### .loc e .iloc

In [None]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset


In [None]:
# qual estado corresponde à segunda linha do dataset


In [None]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?


In [None]:
# quais estados pertencem à região NE e N?

In [None]:
# iloc faz a referência aos índices e colunas de forma implícita

In [None]:
# definir a coluna uf como a coluna de índice

In [None]:
# desejo obter a população rural do AC

# loc (explícito)

# iloc (implícito)

In [None]:
# queremos as cidades que têm menos de 500000 habitantes (total)

### Operações matemáticas

In [None]:
# quero saber a razão entre as população urbana e a população rural

In [None]:
# se eu chamar uma coluna inexiste em modo de leitura

In [None]:
# calcular a fração da população urbana sobre a geral


In [None]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário


### Apply

In [None]:
# Uma outra forma de realizar isso é utilizando o apply


In [None]:
# Também é possível criar funções
def soma_quadrados(row):
  # Esta é uma função que calcula a divisão da soma dos quadrados das populações urbana e rural, pelo total
  soma = (row['pop_urbana']**2 + row['pop_rural']**2) / (row['total'] ** 2)

  return soma

In [None]:
# usando o apply em múltiplas colunas


### map

In [None]:
ponto_cardeal = {
    'Nordeste': 'NE',
    'Centro-Oeste': 'CO',
    'Sul': 'S',
    'Sudeste': 'SE'
}

# podemos fazer transformações com dicionários


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
lista_on_left = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
lista_on_right = [1, 3, 5, 7, 9, 11]

utilizando dataframes

In [None]:
# retirar o uf dos índices

Explorando os dados criados

In [None]:
# quero a média e o desvio padrão da população estimada por região

### Bora praticar!

Importe novamente o DataFrame **alunos3.csv** usado nos exercícios da aula passada para responder às questões abaixo:

Primeiramente utilize o mesmo código da aula passada para calcular a média das 4 provas.

1) Quem foram os alunos que obtiveram a maior e a menor média

2. Crie uma coluna de ```status``` que possui o status de aprovação dos alunos seguindo os seguintes critérios, a partir da média das provas.
- até 5: Reprovado 
- acima de 5 e até 7: Recuperacao
- acima de 7: Aprovado

3) Importe o arquivo ```cadastro_alunos.xlsx``` em um DataFrame ```df_cadastro``` e una este dataframe com o ```df_notas``` chamando de ```df_escola```

4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

6) Faça um código para mostrar a médias da coluna Media_provas entre as cidades, mostrando o valor para cada uma bem como ordenando de forma decrescente? 

## Mini tarefa

A partir do dataframe df_escola é possível obter as médias de notas de cada cidade a partir da coluna Media_provas. Realizando este calculo e ordenando de forma decrescente, responda no [link](https://forms.gle/a7Lzb7cxN4d2FzK16), qual cidade possui maior média? E qual é esta média?