# Introdução em Data Science I
<br>

*Obs: o foco deste curso é **Estatística Descritiva**!*

## Módulo II - Uso do Pandas no Jupyter
<br>

Como o Pandas é um banco de dados, é bom ter algumas definições primordiais...
<br>

- **.csv** é um tipo de arquivo texto, no qual cada registro é gravado em uma linha e os campos, organizados sequencialmente e separados por vírgula (ou outros separadores)

- **banco de dados** é uma coleção de dados inter-relacionados e que representam **informações** sobre um domínio específico

- **dados brutos** em algumas fontes de dados, podem haver diveros tipos de degradação das informações. As mais comuns são registros incompletos, dados truncados, nomes diferentes descrevendo a mesma coisa, dados em branco, registros inteiros duplicados, mistura de dados numéricos com texto, campos preenchidos com mais de um dado e separados por vírgula ou outros caracteres (exemplo, no campo "cultivo" o cadastrador registra: "alface, milho e cebola" - pensávamos que ele escreveria apenas "hortaliças" e não demos espaço para isso. No exemplo da Udacity, nossos carros híbridos aparecem com campos duplos, como "fuel": gasoline/electricity)

- **dados tratados** não existe uma única maneira de se tratar dados. Então depende da habilidade, prática, bom senso e técnica de cada cientista de dados fazer a depuração que melhor atenda às necessidades finais. Em alguns bancos de dados não são encontradas inconsistências. Ou seja, estamos lidando nestes casos com dados de alta qualidade (cuidado para que os dados não estejam sendo deteriorados simplesmente na produção da **consulta de extração** desses dados!)

- **tabela** é uma coleção de registros organizados de maneira sistemática (**ordenada** ou não)

- **campo** é a coluna de uma tabela, representando um dado, gravado em um formato específico

- **tipo do campo** é se o campo contém texto, números inteiros, números de ponto flutuante, etc.. (observar que às vezes, se desconfiamos que no meio foram gravados dados de **texto**, devemos forçar uma **conversão de formato** para todas as entradas daquele campo antes de fazermos operações matemáticas)

- **conversão de formato** é transformar um dado de um tipo em outro (observe que no Pandas nem sempre isso é possível - por exemplo, às vezes tentamos converter campos de número inteiro para número de ponto flutante e a operação dá erro - observe nestes casos se não existem **registros em branco**!)

- **registro** é a linha de uma tabela, representando um conjunto completo de informações de um indivíduo

- **registro em branco** é um registro sem conter informação para determinada entrada. Ele aparece listado no Pandas como NaN

- **índice** é um campo (ou conjunto de campos) que forma uma chave inequívoca, que localizam **registro**. Também é chamado de **chave primária** de uma tabela

- **chave composta** normalmente um **índice** se relaciona a um único campo de uma tabela. Às vezes são usados dois campos, a fim de impedir que existam dois registros com o mesmo índice. Alguns programadores amam esta prática e então usam dois ou mais registros para formar o seu índice. Se é usado apenas um registro como índice, isso é chamado de **chave simples**

- **linha de cabeçalho** é a mesma coisa que o conjunto dos **nome dos campos**

- **formatação** é a codificação usada para gravar o alfabeto, caracteres acentuados, etc (ex: **utf-8**)

- **relacionamento** é a aplicação de regras básicas de **teoria de conjuntos** a duas ou mais **tabelas**. Isso é bom para filtrar por exemplo, "todos os dados da tabela A e que apareçam na tabela B

- **consulta cruzada** é um tipo de consulta especial, no qual a **linha** de uma das tabelas aparece contada como **coluna** na outra tabela. Isso tem muita utilidade em bancos de dados complexos que às vezes apresentam listas de dados, que em outras tabelas se apresentam como classes, ou colunas (não se preocupe se a sua primeira não der certo, essas costumam ser difíceis de fazer, mesmo para profissionais experientes. Tente com um exemplo simples primeiro, para ter certeza que está tudo bem)

- **colagem lateral** é a aplicação da mesma entrada, em uma versão atualizada, em registros já existentes. Isso é bom para comparar registros antigos, com sua atualização, se houver (o exemplo da Udacity do carro híbrido usa isso!)

- **colagem abaixo** é fundir os registros de duas tabelas idênticas, em uma só. Isso geralmente é feito com uma cláusla **union** (o exemplo da Udacity de fusão das duas listas de vinhos faz isso!)

**Análise de Dados (Data Analysis)**
<br>

- **questionar** (question)
<br>

 - quais são as **boas perguntas** para esse conjunto de dados?
<br>
 
 **ou..**
<br>

 - as perguntas vêm **antes** e irão determinar os tipos de dados que você coleta!
<br>
 
 *"o que estou tentando descobrir?"*
<br>
 
 *"existe um problema que eu estou tentnado resolver?"*
<br>
 
- **preparar** (wrangle) seus dados
<br>

 - **reunir** (gather)
<br>

 - **avaliar** (assess) ← identificar problemas de qualidade ou estrutura
<br>
 
 - **limpar** (clean) ← modificação, movimentação, substituição, condensação
<br>

- **explorar** (explore) ← maximizar o potencial do que você pode extrair desses dados
<br>

 - explorar envolve descobrir novos **padrões** nos seus dados
<br>

 - visualizar **relações** e
<br>

 - saber com **o que** está trabalhando
<br>

 *"depois de explorar, remova dados atípicos (outliers)"*
<br>

 *"crie recursos novos e mais descritivos"* ← engenharia de recursos (feature engineering)
<br> 

- **concluir** (draw conclusions)
<br>

↑ retorne ao início e faça mais alguns **ciclos**, formulando novas perguntas, coletando novas fontes, etc..!
<br>

- **comunicar** (communicate) ← análise, visualização, modelos
<br>

 *"justifique"*
<br> 
 
 *"transmita os **significados** do que você encontrou"*
<br>

Prever comportamentos ou tendências específicas remete a **Machine Learning** e a **Inferential Statistics**

### Aula 1.14 (student_scores.csv)
<br>

*Obs: aqui aparecem os comandos mais comuns de exibição de dados*

**Ativação e leitura do csv**

In [None]:
import pandas as pd
df = pd.read_csv('student_scores.csv')

**Índice e rótulos das colunas**

In [None]:
for i, v in enumerate(df.columns):
    print(i, v)

**Mudando o separador e a linha do cabeçalho**

In [None]:
('student_scores.csv', sep=':', header=2) (header=None)

**Colocando nomes melhores de cabeçalho**

In [None]:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final']
df = pd.read_csv('student_scores.csv', names=labels)

**Selecionando coluna como índice**

In [None]:
df = pd.read_csv('student_scores.csv', index_col='Name') (index_col=['Name', 'ID']) #(index=False)

**Tupla com as dimensões do dataframe**

In [None]:
df.shape

**Número de valores únicos em cada coluna**

In [None]:
df.nunique()

**Estatísticas descritivas úteis para cada coluna de dados**

In [None]:
df.describe()

**Cabeçalho com 5 ou 20 linhas e cauda**

In [None]:
df.head(), df.head(20), df.tail(2)

**Todas as colunas desde 'id' até a última coluna relacionada à média**

In [None]:
df_means = df.loc[:,'id':'fractal_dimension_mean'] #linha, coluna

**Com índices**

In [None]:
df_means = df.iloc[:,:11]

**Fatiar dataframe usando vários pedaços**

In [None]:
desvio_padrao = df.iloc[:, np.r_[:2, 12:len(df.columns)]]

**Salvar para mais tarde**

*obs: eu tenho um campo sem rótulo que serve como índice, portanto eu não o salvo!*

In [None]:
df_means.to_csv('student_scores.csv', index=False)

### Aula 1.14 (store_data.csv)
<br>

*Obs: aqui existem dicas boas de **filtros com índices** e de como **fatiar** uma tabela*

**Filtrando pelo período**

In [None]:
df_store['week']

**Último mês**

*obs: o método, ou os métodos aplicados à consulta sempre vêm ao final!*

In [None]:
df_store['week'].tail(1)

**Loja com melhor resultado no último mês**

In [None]:
# Filtrando pelo período
df_store['week']

# Selecionamos o intervalo de tempo, somamos as colunas, 
#  excluimos a week da seleção e pegamos o índice com maior valor
print("Loja com melhor resultado no último mês: {0}".format(
             df_store[(df_store['week'] > '2018-02-01') & 
             (df_store['week'] < '2018-03-01')].sum(axis=0)[1:].idxmax()))

**Vendeu mais durante a semana de 13 de março de 2016**

In [None]:
print("Loja que mais vendeu durante a semana de 13 de março de 2016: {0}".format(
            df_store[(df_store['week'] > '2016-03-12') &
             (df_store['week'] < '2016-03-21')].sum(axis=0)[1:].idxmax()))

**Pior resultado da Loja C**

In [None]:
print("A loja C tem o pior resultado de vendas na semana: {0}".format(
        df_store.iloc[df_store['storeC'].idxmin()]['week']))

**Loja que mais vendeu nos últimos 3 meses**

In [None]:
# Podemos ver os últimos 3 meses vendo as últimas linhas
last_period = df_store.tail(1)

# Porém, para treinarmos vamos calcular esses meses
# Primeiro precisamos converter a string para datetime
df_store['week'] = pd.to_datetime(df_store['week'] )

# Vamos calcular quais são os últimos 3 meses
period_start = df_store['week'].max() -  pd.DateOffset(months=3)
period_end = df_store['week'].max()

print("A loja que mais vendeu nos últimos 3 meses foi:{0}".format(
       df_store[(df_store['week'] >= period_start) & 
             (df_store['week'] <= period_end)].sum(axis=0).idxmax()))

### Aula 1.19 (cancer_data_means.csv)
<br>

Obs: aqui há algumas maneiras de tratar **brancos** e limpar **registros duplicados**

**Médias para preencher valores ausentes**
<br>

*Obs: esta não é uma prática aconselhável!*

In [None]:
df_cancer['texture_mean'].fillna(df_cancer['texture_mean'].mean(), inplace=True)
df_cancer['smoothness_mean'].fillna(df_cancer['smoothness_mean'].mean(), inplace=True)
df_cancer['symmetry_mean'].fillna(df_cancer['symmetry_mean'].mean(), inplace=True)

# confirme sua correção com info()
df_cancer.info()

**Verificação de dados duplicados**

In [None]:
def has_duplicate(df):
    if df_cancer.duplicated().any():
        print("Possui {0} valores duplicados".format(df.duplicated().sum()))
    else:
        print("Não possui valores duplicados")
        
has_duplicate(df_cancer)

**Eliminação de dados duplicados**

In [None]:
df_cancer.drop_duplicates(inplace=True)

# confirme correção verificando novamente se há dados duplicados
has_duplicate(df_cancer)

**Remova "_mean" dos nomes das colunas**

In [None]:
new_labels = []
for col in df_cancer.columns:
    if '_mean' in col:
        new_labels.append(col[:-5])  # exclua os últimos 6 caracteres
    else:
        new_labels.append(col)
        
# atribua novos rótulos às colunas do dataframe
df_cancer.columns = new_labels

# exiba as primeiras linhas do dataframe para confirmar as alterações
df_cancer.head()

### Aula 1.22 (powerplant_data_edited.csv)
<br>

*Obs: aqui são plotados os tipos básicos de gráficos*

**Nomes melhores**
<br>

*Obs: às vezes não é preciso renomear os cabeçalhos da minha tabela. Outras vezes eu faço isso porque eu uso **nomes padronizados** e sem espaços como padrão das minhas tabelas (o que aliás é prática recomendada). Um exemplo de nome padronizado: nmAmbientTemperature - os dois primeiros caracteres me lembram que esse é um campo de número inteiro, ft flutante, ch caracteres de texto, etc..*

In [None]:
df_power.columns = ['Ambient Temperature', 'Exhaust Vacuum',
                    'Ambient Pressure', 'Relative Humidity',
                    'Energy Output']
display(df_power.head())

**Todos os gráficos**
<br>

*Obs: isso aqui é bem legal para uma **visualização prévia** de todas as combinações de gráficos possíveis dos campos de uma tabela. Demora para gerar*

In [None]:
pd.plotting.scatter_matrix(dfp, figsize=(15,15));

**Gráfico com a relação entre temperatura e saída elétrica**
<br>

*Obs na geração de gráficos: o pessoal da Udacity recomenda, antes de começar a limpar os dados e remover outliers, a sempre fazer uma plotagem inicial. Não custa nada e aprendemos a vizualizar **dados brutos**, o que pode ser útil*
<br>

*Obs: com isso aqui eu verifico se existe, ou não, alguma **correlação** entre os dados da abscissa X e Y*
<br>

[pos ou neg](https://www.emathzone.com/tutorials/basic-statistics/positive-and-negative-correlation.html)

In [None]:
df_power.plot(kind="scatter", x="Ambient Temperature", y="Energy Output");

**Gráfico com a distribuição da umidade**
<br>

[distribuição normal](https://en.wikipedia.org/wiki/Normal_distribution)

In [None]:
df_power["Relative Humidity"].hist();

**Gráfico de caixas para cada variável**
<br>

[outliers em boxplots](https://www.r-statistics.com/2011/01/how-to-label-all-the-outliers-in-a-boxplot/)

In [None]:
df_power.plot(kind="box", figsize=(15,15));

### Aula 2.05 (winequality-white.csv + winequality-red.csv)
<br>

*Obs: aqui mistura **estatística** com filtragem de dados*

**Forma mais elaborada de exibir o formato**

In [None]:
print("White possui {0} amostras e {1} colunas".format(
        df_white.shape[0], df_white.shape[1] ))

print("Red possui {0} amostras e {1} colunas".format(
        df_red.shape[0], df_red.shape[1] ))

**Lista campos que tenham valores faltantes**

In [None]:
df_white.isnull().any()

**Linhas duplicadas em vinho branco**

In [None]:
print(" Duplicadas tinto: {0} \n Duplicadas branco: {1}".format(
        df_red.duplicated().sum(), df_white.duplicated().sum()))

**Número de valores únicos para qualidade em cada conjunto de dados**

In [None]:
print(" Valores únicos para qualidade tinto: {0} \n Valores Únicos para qualidade Branco: {1}".format(
        df_red['quality'].nunique(), df_white['quality'].nunique()))

**Densidade média do conjunto de dados sobre vinho tinto e banco**

In [None]:
print(" Densidade média branco: {0} \n Densidade média tinto: {1}".format(
        df_white["density"].mean(), df_red["density"].mean()))

### Aula 2.07 (winequality-white.csv + winequality-red.csv)
<br>

*Obs: aqui se usa o **Numpy** com o Pandas*

In [None]:
import numpy as np

**Criando colunas de cor**
<br>

Crie dois vetores de tamanho igual ao número de linhas nos dataframes tinto e branco que repetem o valor “red” or “white”. O NumPy oferece uma forma bem fácil de fazer isso

In [None]:
# crie vetor de cor para o dataframe tinto
color_red = np.repeat("red", red_df.shape[0])
print(color_red)
# crie vetor de cor para o dataframe branco
color_white = np.repeat("white", white_df.shape[0])
print(color_white)

Adicione os vetores de cor aos dataframes tinto e branco. Faça isso associando uma **nova coluna** chamada "color" ao vetor apropriado

In [None]:
red_df['color'] = color_red
red_df.head()

**Combinando os dois dataframes**
<br>

*Obs: isso é equivalente à cláusula **Union** do SQL. Uma lista é colada abaixo da outra e elas devem ter os mesmos campos*

In [None]:
# anexe dataframes
wine_df = white_df.append(red_df)

# exiba o dataframe para ver se tudo deu certo
wine_df.head()

### Aula 2.07 (winequality-white.csv + winequality-red.csv)
<br>

*Obs: aqui se faz **EDA** (exploratory data analysis) com o Pandas*

**Histogramas para diversas características**
<br>

*Obs: este ";" ao final da instrução diz ao interpretador Python que não farei mais nada neste gráfico e que ele já pode ser plotado. É que às vezes eu passo outras instruções em seguida em mais linhas, informando qual o cabeçalho, qual o texto das abscissas, se existe uma caixa descrevendo os tipos representados, etc.. Nesses casos, eu fecho com o ";" minha última instrução para aquele gráfico*

*Obs sobre histogramas: o que eu gosto de olhar em um histograma*

- primeiro se ele segue a forma de distribuição **Normal** (ou seja, se ele se parece um pouco com um sino). Isso pode me dizer muito sobre a distribuição da dispersão desses dados e é uma ferramenta muito importante da estatística

- segundo, se em relação à distribuição **Normal** ele parece estar deslocado para a esquerda ou para a direita. Isso em estatística se chama **Sketch** e pode indicar fortemente **tendências**, ou **vícios** dos meus dados. Um exemplo de vício em um jogo é por exemplo, o **aprendizado**. Ou seja, o jogador aprende os truques e passa a se sair melhor. Em ciências econômicas, o consumidor (ou a população de um país) também aprende e os antigos truques econômicos, como confisco de poupança passam a não funcionar mais. Gráficos **tendenciosos para a esquerda** ou **para a direita** devem ser analisados cuidadosamente

- terceiro, se em relação à distribuição **Normal** ele parece um pouco alongado ou encurtado. Isso se chama em estatística de **Kurtosis** e pode me dizer muita coisa sobre o comportamento dos dados nas **caudas** da distribuição normal. Se existem muitos pontos exorbitantes, isso irá alterar a **curtose** de um gráfico. Isso me diz bastante sobre condições de aprendizado do público em geral, como por exemplo, anunciação de uma promoção e sua repetição em outros anos. Isso pode me dizer em economia também sobre qual o sentimento de futuro das pessoas em geral, se elas são otimistas ou não, se elas tendem a acreditar no governo e no sistema econômico, etc.. Gráficos com **caudas largas** ou muito **estreitas** devem ser analisados com cuidado 

In [None]:
df_wine["fixed_acidity"].plot(kind="hist", title="Acidez");

df_wine["total_sulfur_dioxide"].plot(kind="hist", title="Dióxido de Enxofre");

df_wine["pH"].plot(kind="hist", title="pH ");

df_wine["alcohol"].plot(kind="hist", title="Álcool");

**Diagrama de dispersão da qualidade associada a diversas características**
<br>

Obs o que eu gosto de ver num diagrama de dispersão
<br>

Tem gente que prefere ver as barras horizontais e outros, verticais. Isso é apenas questão de gosto e quem eu coloco em X e quem em Y
<br>

- em primeiro lugar, o comportamento geral das distribuições nas diversas bandas. Um primeiro olhar mostra se há muitos dados **agrupados** e como se comportam os **outliers**. Se você tiver diversos **outliers** muito longe do resto do agrupamento, trate esses dados com muita atenção. Isso pode não ser simplesmente um **erro** na aquisição dos dados!

- outra coisa é o preenchimento geral nas barras. Se eu consigo visualizar os **pontos** isso quer dizer que eu tenho poucos dados em cada indicação. Isso pode ser preocupante em alguns casos, pois posso estar lidando com uma amostra **pequena**. Como a estatística é a ciência dos grandes números, uma amostra **pequena** muitas vezes recebe um tratamento matemático diferente de uma amostra **grande**

- mais uma coisa são as evidências de **defeitos** nas informações coletadas. Por exemplo, na barra qualidade = 7 eu posso notar uma boa amostragem nos teores alcoólicos entre 8 e 9 graus GL, o desaparecimento completo de pontos entre 9 e 12 e o ressurgimento de uma boa amostragem entre 12 e 14. E nas outras barras esse fenômeno não se repetir. Então o que houve na minha amostra? Algumas fichas de avaliação não foram entregues e se perderam? Todo um lote de garrafas foi furtado e não chegou à mesa avaliadora? Tudo isso deve ser questionado por um bom cientista de dados!

- e por fim, as **tendências**. Se todas as barras contiverem distribuições semelhantes, como se uma fosse cópia da outra, isso é um forte indicativo de que não conseguirei concluir nada muito extraordinário desta amostragem. Agora, se eu começar a notar barras se deslocando para a esquerda ou para a direita, ou uma tendência a aumentar ou a diminuir a dispersão à medida que eu ando de uma barra para outra, isso é um forte indicativo de existência de tendências. Compreender qual é essa tendência e tentar descrever isso em palavras pode ser tarefa de sábios: "ao que parece, conforme o teor de álcool **aumenta**, temos uma tendência de aumento da nota do vinho". Isso quer dizer que devemos começar a tomar apenas vinhos com teor alcoólico mais elevado, pois são os melhores? Claro que não! Há vinhos verdes portugueses excelentes e muito valiosos e que não chegam nem à metade do teor alcoólico de outros vinhos, de sabor duvidoso. Então tome muito cuidado em, como os antigos sábios chineses, dizem que *"a verdadeira sabedoria consiste em descrever e apontar, mas não em julgar"*.

In [None]:
df_wine.plot(kind='scatter', x='volatile_acidity', y='quality');

df_wine.plot(kind='scatter', x='residual_sugar', y='quality');

df_wine.plot(kind='scatter', x='pH', y='quality');

df_wine.plot(kind='scatter', x='alcohol', y='quality');

### Aula 2.11 (winequality_edited.csv)

*Obs: aqui se faz uso do **groupby** para nossas análises de dados*

**Será que o tipo de vinho está associado a uma qualidade superior?**

In [None]:
# Encontre a qualidade média de cada tipo de vinho (tinto e branco) com groupby
df_wine.groupby(["color"]).mean()["quality"]

**Qual o nível de acidez que recebe a maior avaliação média?**

In [None]:
# Observe os seguintes valores de pH com Pandas describe: min, 25%, 50%, 75% e max
ph_desc = df_wine["pH"].describe()

# Bordas dos intervalos que serão usados para dividir os dados em grupos
# Preencha esta lista com os cinco valores que você acabou de encontrar
bin_edges = [ph_desc['min'] ,ph_desc["25%"] , ph_desc["50%"] ,ph_desc["75%"], ph_desc["max"]]

# Rótulos para os quadro grupos de nível de acidez
# Nomeie cada categoria de nível de acidez
bin_names = ["Alto" ,"Moderadamente Alto" ,"Médio" ,"Baixo" ] 

# Isso cria a coluna acidity_levels
df_wine['acidity_levels'] = pd.cut(df_wine['pH'], bin_edges, labels=bin_names)

# Verifique se esta coluna foi criada corretamente
df_wine.head()

# Encontre a qualidade média de cada nível de acidez com groupby
df_wine.groupby(["acidity_levels"]).mean()["quality"]

### Aula 2.18 (winequality_edited.csv)

*Obs: com o uso do **query**, diversas conclusões importantes podem ser tiradas*
<br>

O comando **query** provém dos bancos de dados. Para extrair dados, fazer novas junções e os listar de outras maneiras, **consultas**, ou **queries** são criadas. Uma vez feito isso, elas podem ser adaptadas e readaptadas para infinitas aplicações envolvendo tabelas contendo dados

**Será que vinhos com maior teor alcóolico recebem avaliações melhores?**
<br>

*Obs: para utilizarmos uma **variável** em uma query, precisamos colocar um @ antes, pois estamos dentro de uma string de texto!*

In [None]:
# obtenha o valor mediano do teor alcóolico
alcohol_median = df_wine["alcohol"].median()

# selecione amostras com teor alcóolico abaixo da mediana
low_alcohol = df_wine.query('alcohol < @alcohol_median')

# selecione amostras com teor alcóolico maior ou igual à mediana
high_alcohol = df_wine.query('alcohol >= @alcohol_median')

# certifique-se que estas consultas incluíram cada amostra uma única vez
# resultado deve ser True
num_samples = df_wine.shape[0]
num_samples == low_alcohol['quality'].count() + high_alcohol['quality'].count() 

# obtenha a avaliação média de qualidade para grupos com alto e baixo teor alcóolico
print(" Avaliação média para alto teor:{0} \n Avaliação média para baixo teor:{1}".format(
        high_alcohol["quality"].mean(), low_alcohol["quality"].mean() ))

**Vinhos mais suaves recebem avaliações melhores?**

In [None]:
# obtenha o valor mediano do nível de açúcar residual
sugar_median = df_wine["residual_sugar"].median()

# selecione amostras com nível de açúcar residual abaixo da mediana
low_sugar = df_wine.query('residual_sugar < @sugar_median')

# selecione amostras com nível de açúcar residual maior ou igual à mediana
high_sugar = df_wine.query('residual_sugar >= @sugar_median')

# certifique-se que estas consultas incluíram cada amostra uma única vez
# resultado deve ser True
num_samples == low_sugar['quality'].count() + high_sugar['quality'].count() 

# obtenha a avaliação média de qualidade para grupos com alto e baixo nível de açúcar residual
print(" Avaliação média para alto nível:{0} \n Avaliação média para baixo nível:{1}".format(
        high_sugar["quality"].mean(), low_sugar["quality"].mean() ))

### Aula 2.19 (winequality_edited.csv)

*Obs: o **matplotlib** pode ser usado para criar gráficos de barras que permitem visualizar as conclusões que você tirou com groupby e query*

In [None]:
from matplotlib import pyplot as plt

**Será que vinhos com maior teor alcóolico recebem avaliações melhores?**
<br>

*Crie um gráfico de barras com uma barra para amostras de vinho com baixo teor alcóolico e outra para amostras com alto teor alcóolico*

In [None]:
# Use query para selecionar cada grupo e obter sua qualidade média
median = df_wine['alcohol'].median()
low = df_wine.query('alcohol < {}'.format(median))
high = df_wine.query('alcohol >= {}'.format(median))

mean_quality_low = low['quality'].mean()
mean_quality_high = high['quality'].mean()

# Crie um gráfico de barras com rótulos adequados
locations = [1, 2]
heights = [mean_quality_low, mean_quality_high]
labels = ['Low', 'High']
plt.bar(locations, heights, tick_label=labels)
plt.title('Average Quality Ratings by Alcohol Content')
plt.xlabel('Alcohol Content')
plt.ylabel('Average Quality Rating');

**Vinhos mais suaves recebem avaliações melhores?**
<br>

*Crie um gráfico de barras com uma barra para amostras de vinho com baixo nível de açúcar residual e outra para amostras com alto nível de açúcar residual*

In [None]:
# Use query para selecionar cada grupo e obter sua qualidade média
median_sugar = df_wine['residual_sugar'].median()
low_sugar = df_wine.query('residual_sugar < {}'.format(median_sugar))
high_sugar = df_wine.query('residual_sugar >= {}'.format(median_sugar))

mean_quality_low_sugar = low['quality'].mean()
mean_quality_high_sugar = high['quality'].mean()

# Crie um gráfico de barras com rótulos adequados
locations = [1, 2]
heights = [mean_quality_low_sugar, mean_quality_high_sugar]
labels = ['Low', 'High']
plt.bar(locations, heights, tick_label=labels)
plt.title('Average Quality Ratings by Residual Sugar')
plt.xlabel('Sugar Level')
plt.ylabel('Average Quality Rating');

**Qual o nível de acidez que recebe a maior avaliação média?**
<br>

*Crie um gráfico de barras com uma barra para cada um dos quatro níveis de acidez*

In [None]:
# Use groupby para obter a qualidade média para cada nível de acidez
# Crie um gráfico de barras com rótulos adequados
df_wine.groupby(["acidity_levels"])
    .mean()["quality"]
    .plot(kind="bar", ylim=(5.5,6), title="Qualidade Média por Níveis de Acidez")

**A mesma coisa, em um gráfico de linha**

In [None]:
df_wine.groupby(["acidity_levels"])
    .mean()["quality"]
    .plot(kind="line", ylim=(5.5,6), title="Qualidade Média por Níveis de Acidez")

### Aula 2.19b (winequality_edited.csv)

In [None]:
import matplotlib.pyplot as plt
% matplotlib inline

Dois argumentos são necessários para se usar a função bar do pyplot: a coordenada no eixo x das barras e sua altura

In [None]:
plt.bar([1, 2, 3], [224, 620, 425]);

Você pode especificar os rótulos das marcações do eixo x usando a função xticks do pyplot, ou ainda especificando um parâmetro adicional na função bar. As duas células abaixo fazem isso

In [None]:
# trace as barras
plt.bar([1, 2, 3], [224, 620, 425])

# especifique as coordenadas no eixo x das marcações e seus rótulos
plt.xticks([1, 2, 3], ['a', 'b', 'c']);

# trace as barras com rótulos nas marcações do eixo x
plt.bar([1, 2, 3], [224, 620, 425], tick_label=['a', 'b', 'c']);

# Defina o título e o rótulo dos eixos assim
plt.bar([1, 2, 3], [224, 620, 425], tick_label=['a', 'b', 'c'])
plt.title('Some Title')
plt.xlabel('Some X Label')
plt.ylabel('Some Y Label');

**Outro exemplo: Gráfico embelezado com o Seaborn**
<br>


*Obs: o **seaborn** pode ser agregado ao matplotlib para melhorar a qualidade dos gráficos. Mesmo se não for chamado explicitamente por uma função sua, os gráficos aparecerão melhor desenhados*

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
import seaborn as sns
sns.set_style('darkgrid')

**Crie vetores para as alturas das barras correspondentes aos vinhos tinto e branco**
<br>

*Lembre-se, existe uma barra para cada combinação de tipo de vinho e avaliação de qualidade*

- A altura de cada barra é baseada na **proporção** de amostras daquele tipo com aquela avaliação de qualidade.
- Proporções das barras de vinho tinto = contagens para cada avaliação de qualidade / número total de amostras de vinho tinto
- Proporções das barras de vinho branco = contagens para cada avaliação de qualidade / número total de amostras de vinho branco

In [None]:
# obtenha as contagens para cada avaliação e tipo de vinho
color_counts = wine_df.groupby(['color', 'quality']).count()['pH']
color_counts

# obtenha a contagem total para cada tipo de vinho
color_totals = wine_df.groupby('color').count()['pH']
color_totals

# obtenha proporções dividindo as contagens das avaliações dos vinhos tintos
#pelo número total de amostras de vinho tinto
red_proportions = color_counts['red'] / color_totals['red']
red_proportions

# obtenha proporções dividindo as contagens das avaliações dos vinhos brancos
#pelo número total de amostras de vinho branco
white_proportions = color_counts['white'] / color_totals['white']
white_proportions

#isso aqui é para completar a coluna da avaliação 9, que está faltando para o vinho tinto!
red_proportions['9'] = 0
red_proportions

**Trace as proporções em um gráfico de barras e crie o gráfico**
<br>

*Obs: defina a localização no eixo x para cada grupo de avaliação e a largura de cada barra*

In [None]:
ind = np.arange(len(red_proportions))  # a localização no eixo x dos grupos
width = 0.35       # a largura das barras

# trace as barras
red_bars = plt.bar(ind, red_proportions, width, color='r', alpha=.7, label='Red Wine')
white_bars = plt.bar(ind + width, white_proportions, width, color='w', alpha=.7, label='White Wine')
# esse alpha=.7 serve para dar transparência ao gráfico


# título e rótulos
plt.ylabel('Proportion')
plt.xlabel('Quality')
plt.title('Proportion by Wine Color and Quality')
locations = ind + width / 2  # localização dos marcadores no eixo x
labels = ['3', '4', '5', '6', '7', '8', '9']  # rótulos dos marcadores no eixo x
plt.xticks(locations, labels)

# legenda
plt.legend()

## Coisas úteis para se saber no Jupyter Notebook
<br>

instalar:

    conda install jupyter notebook
    
    pip install jupyter notebook
    
parar no terminal:

    CTRL + c x2

Alguns parâmetros úteis para .plot()
<br>

    antialiased=True/False
    animated=True/False
    alpha=0.0 -> 1.0 (opaco) ← grau de transparência dos elementos do gráfico
    fountsize = 18
    figsize=(8,8) ← tamanho da janela de figura

    
    .hist() ← mostra todos e pode ser usado diretamente na estrutura de dados do Pandas como:
    df_data.hist(); ← o ponto e vírgula esconde saídas indesejadas (mostra todos)
    df_data["idade"].hist() <-apenas desta coluna
    
Outra maneira de escrever é primeiro descrever o dado filtrado/selecionado e depois chamar a função .plot() assim:

    df_data["idade"].plot(kind="hist")
    
    até aqui Pandas | a partir daqui Matplotlib

**Avaliar tempo de rodar uma função**

In [None]:
import random

In [None]:
%%timeit #comando mágico de célula inteira. para uma linha, use %
rolls = (random.randint(1,6) for _ in range(100))
prize = sum(roll if roll%2 == 0 else -1 for roll in rolls)

**Embutindo visualizações em notebooks**
<br>

Notebooks permitem que você inclua imagens ao longo do texto e código
<br>

Isso é muito útil quando se usa o matplotlib ou outros pacotes de visualização para criar gráficos e imagens

Para carregar o pacote matplotlib de modo interativo no notebook

    %matplotlib

O padrão é carregar as imagens em uma janela própria

No entanto, é possível passar um argumento para o comando de modo que ele seleciona um "backend" específico, o software que carrega a imagem

Para carregar as imagens diretamente no notebook, é preciso usar o comando de backend inline: 

    %matplotlib inline
    
 *Obs: em telas de resolução elevada, tais como as com display Retina, as imagens padrão do notebook podem ficar borradas. Para processar imagens de alta resolução*
 
    comando%config InlineBackend.figure_format = 'retina'

In [None]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

import matplotlib.pyplot as plt
import numpy as np

In [None]:
x = np.linspace(0, 1, 300)
for w in range(2, 6, 2):
    plt.plot(x, np.sin(np.pi*x)*np.sin(2*w*np.pi*x))

**Depuração em um notebook**
<br>

Com o kernel de Python, é possível ativar o debugger interativo usando o comando mágico %pdb

Quando ocorrer algum erro, será possível inspecionar as variáveis no espaço atual

In [None]:
%pdb

In [None]:
numbers = 'hello'
sum(numbers)