# Importações das bibliotecas

Aqui ficam as importações das bibliotecas que iremos utilizar no minicurso.

#### 1. A Biblioteca Pandas que serve para fazer o tratamento dos dados.
#### 2. A matplotlib.pyplot para mostrar gráficamente os dados.
#### 3. E a numpy que serve para cálculos matemáticos.

Observação: usamos o comando __%matplotlib inline__ para mostrar os gráficos diretamente no Jupyter Notebook. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

%matplotlib inline

# Series
É uma lista de valores representada de forma unidimensional.

 #### Declarando uma Serie chamada notas, contendo alguns valores inteiros usando o construtor Series.

In [None]:
notas = pd.Series([2, 7, 5, 10, 6]) 
notas

In [None]:
notas.values # Mostrando os valores de notas usando o atributo values

In [None]:
notas.index # Os índices de notas são msotrados usando o atributo index

#### Alterando os valores dos índices de inteiros para string, pois por padrão é usado os valores inteiros.

In [None]:
notas = pd.Series([2, 7, 5, 10, 6], index = ["Hélio", "Jefferson", "Marcus", "Iury", "Arthur"])
notas

#### Verificando o índice ["Marcus"] de notas.

In [None]:
notas["Marcus"]

#### Mostrando a média usando o atributo mean - que significa média.

In [None]:
print("Média: ", notas.mean())

#### Já nesta linha está sendo mostrado o désvio padrão, que é o quanto os dados estão dispersados.

In [None]:
print("Desvio padrão: ", notas.std())

####  Está usando o atributo describe. Mostrando os seguintes parâmetros padrões para resumir as estatísticas.

In [None]:
notas.describe()

#### Nesta linha, está sendo mostrado a operação de potenciação na base 2 com todos os elementos da segunda coluna.

In [None]:
notas**2

#### Usando a biblioteca numpy para fazer o cálculo de logaritmos.

In [None]:
np.log(notas)

# DataFrame

É uma estrutura bidimensional de dados, como por exemplo as planilhas. 

#### Aqui estamos definindo um DataFrame com as colunas de alunos, faltas, provas e seminário com seus respectivos valores.

In [None]:
df = pd.DataFrame({'Aluno': ["Jefferson", "Hélio", "Marcus", "Carlos", "Lucas"],
                   'Faltas': [3, 4, 2, 1, 4],
                   'Prova': [8, 7, 5, 10, 6],
                   'Seminário': [8.5, 7.5, 9.0, 7.5, 8.0]})

df

#### Usando o atributo dtypes, pode-se ser mostrado os tipos dos dados de cada coluna do DataFrame.

In [None]:
df.dtypes

#### Mostrando as colunas do DataFrame declarado.

In [None]:
df.columns

#### Selecionando apenas a coluna "Seminário" para ser mostrada. 

In [None]:
df["Seminário"]

#### Assim como as Series, também da para resumir as estatísticas do DataFrame.

In [None]:
df.describe()

#### Ordenando os valores do DataFrame usando a coluna de "Seminário" como critério de comparação. 

In [None]:
df.sort_values(by = "Seminário")

#### Mesmo usando esses atributos como o de ordenação, o DataFrame não é alterado.

In [None]:
df

#### Acessando o valor que está presente no índice 2, ou algum rótulo que desejar.

In [None]:
df.loc[2]

#### Usando os operadores de comparação para mostrar os dados.

In [None]:
df[df["Seminário"] >= 8.0]

#### Já aqui dá para ver que pode usar alguns operadores lógicos(Bitwise) junto com os comparativos para analisar os dados.

In [None]:
df[(df["Seminário"] >= 8.0) & (df["Prova"] >= 5)]

# Leitura de Dados

Além do que já foi mostrado anteriormente, podemos ver a seguir que o Pandas também disponibiliza uma série de meios para leitura de dados, para csv por exemplo.

#### Podemos vê aqui uma leitura de um arquivo "dados.csv" e logo após sendo mostrado em uma tabela.

In [None]:
df = pd.read_csv("dados.csv")
df

#### Usando o atributo head pode ser visto as primeiras 5 linhas, se não for especificado como veremos após isto.

In [None]:
df.head()

#### Já aqui, podemos ver um exemplo do head com o número de linhas especificados.

In [None]:
df.head(n = 10)

#### Assim como existe o head para mostrar as primeiras linhas, existe o tail para mostrar as últimas e funciona semelhantemente.

In [None]:
df.tail()

# Manipulação de Dados

Neste momento, iremos manipular os dados usando alguns métodos.

#### Usando este método, podemos agrupar os elementos de forma que eles não se repitam.

In [None]:
df["bairro"].unique()

#### Este método seguinte, serve para dizer quantas vezes aquele valor aparece.

In [None]:
df["bairro"].value_counts()

#### Com o parâmetro normalize, pode ser mostrado os valores em formato de porcentagem.

In [None]:
df["bairro"].value_counts(normalize = True)

#### Usando os dois seguintes métodos, é mostrado os valores das médias das colunas adjacentes. 

In [None]:
df.groupby("bairro").mean()

#### Para melhorar mais ainda a análise, podemos acessar junto as médias, especificar a coluna e ainda sortear os valores.

In [None]:
df.groupby("bairro").mean()["pm2"].sort_values()

#### Definindo uma função chamada truncar com o parâmetro bairro retornando os 3 primeiros elementos de bairro.

In [None]:
def truncar(bairro):
    return bairro[:3]

#### Usando o método apply pode ser usado para usar funções especificas, no caso usamos a função truncar para mostrar as 3 primeiras letras de cada bairro.

In [None]:
df["bairro"].apply(truncar)

####  Do mesmo modo, pode ser feito a mesma coisa usando funções lambdas.

In [None]:
df["bairro"].apply(lambda x: x[:3])

#### Usando o método replace, pode-se sobrescrever um valor da sua tabela.

In [None]:
df2 = df.head()
df2 = df2.replace({"pm2": {12031.25: np.nan}})
df2

#### Usando o método a seguir, é excluído todas as linhas que tem NaN.

In [None]:
df2.dropna()

#### Já para preencher os NaN com valores é feito o seguinte.

In [None]:
df2.fillna(99)

#### Para mostrar com valores booleanos quais são NaN é usado o método seguinte.

In [None]:
df2.isna()

# Visualização de Dados

Desde que começamos, analisamos e manipulamos diversos dados, mas para melhor entender-los, podemos visualizar usando a biblioteca matplotlib.

Os métodos de visualização do pandas são construídos com base no matplotlib para exploração mais ágil dos dados.

#### Usando o matplotlib junto com o método para mostrar em histograma. 

In [None]:
df["preco"].plot.hist()

#### Do mesmo modo que o anterior, só que agora especificando em quantas partes está dividido e a cor da borda das barras.

In [None]:
df["preco"].plot.hist(bins = 30, edgecolor = "black")

#### Neste caso, está sendo mostrado a quantidade de linhas ordenadas de cada bairro.

In [None]:
df["bairro"].value_counts().plot.bar()

#### Similar ao anterior, só que agora usando o método que torna as barras horizontais.

In [None]:
df["bairro"].value_counts().plot.barh()

#### Da mesma forma, mas atribuindo um título ao gráfico.

In [None]:
df["bairro"].value_counts().plot.barh(title = "Número de apartamentos")

#### Agora podemos ver um gráfico de dispersão com o eixo X sendo os preços e o eixo y sendo a àrea.

In [None]:
df.plot.scatter(x = 'preco', y = "area")

#### Para deixar os gráficos mais bonitos, o matplotlib fornece uma série de estilos diferentes que podem ser usados, um deles é o ggplot.

In [None]:
plt.style.use('ggplot')

#### Agora podemos ver um exemplo de como ficou o gráfico com o ggplot.

In [None]:
df.plot.scatter(x = 'pm2', y = 'area')

#### Não existindo só o ggplot, podemos ver a seguir outros estilos disponíveis.

In [None]:
plt.style.available

#### Um outro tipo de gráfico, é o famoso gráfico de pizza.

In [None]:
df["quartos"].value_counts().plot.pie()

#### Para podermos visualizar melhor os gráficos de dispersão, podemos usar o parâmetro de escala.

In [None]:
df.plot.scatter(x = 'preco', y = 'area', s = .5)

#### Podemos tanto ler quanto transformar nosso DataFrame em um CSV.

In [None]:
df = pd.DataFrame({'Aluno': ["Jefferson", "Hélio", "Marcus", "Carlos", "Lucas"],
                   'Faltas': [3, 4, 2, 1, 4],
                   'Prova': [8, 7, 5, 10, 6],
                   'Seminário': [8.5, 7.5, 9.0, 7.5, 8.0]})

df.to_csv('aulas.csv')
pd.read_csv('aulas.csv')