# S12 -Tratamento de dados utilizando pandas e numpy - parte 2

**Objetivo da aula:** Introduzir o conceito de visualização de dados e como utilizar consultas, filtros e agrupamentos em Pandas (com um pouco de matploblib) para a geração de gráficos com insights importantes ao contexto da análise. No fim, introduzir o conceito da biblioteca Numpy utilizando as duas bibliotecas (Numpy e Pandas) em um contexto de análise de dados.

O dataset utilizado é o mesmo da aula anterior: 'Titanic'.


## Pensamento analítico

A capacidade analítica já é considerada um requisito básico entre determinados cargos e essa é uma habilidade fundamental para desenvolvedores e analistas de dados.

A capacidade analítica está relacionada a outra qualificação de destaque no mercado atualmente: a tomada de decisão. Profissionais que entendem o que os dados mostram conseguem tomar decisões certeiras diante da estratégia do negócio pois embasam as suas decisões sempre que precisam dar passos importantes, projetando cenários e interpretando dados.

### Como desenvolver a Capacidade Analítica?

    - Desenvolver senso crítico na análise de situações
    - Se expor a diferentes assuntos e ideias
    - Fazer cursos relacionados à análise de dados
    - Entender tipos de análises de dados
    - Criar uma visão mais abrangente da sua área



[Fonte](https://blog.somostera.com/lideranca-baseada-em-dados/capacidade-analitica)

**Dinâmica**: 20 minutos

***Quais são os insights que gostaríamos de obter a partir dos dados que obtemos do dataset?***

**Exemplo:** % de sobrevivência dada a sua classe, sexo, preço da passagem, idade, etc


#### Visualização de dados

O conceito de visualização de dados é bem simples. Ela nada mais é que a representação gráfica, estática ou em movimento, da análise de dados e indicadores de natureza variada.

[Fonte](https://www.oncase.com.br/blog/data-analytics/visualizacao-de-dados/)

[Fonte](https://www.cursospm3.com.br/blog/data-visualization-o-que-e-dataviz-e-importancia-para-produto/)

[Fonte](https://www.linkedin.com/pulse/por-que-visualiza%C3%A7%C3%A3o-de-dados-%C3%A9-importante-para-voc%C3%AA-e-veiga-r-/?originalSubdomain=pt)

[Importância da visualização de dados na era do Big Data](https://lume.ufrgs.br/handle/10183/169109)

&nbsp;

### Quarteto de Anscombe
[Quarteto de Anscombe](https://acervolima.com/quarteto-de-anscombe/)

O quarteto de Anscombe (Anscombe, 1973) é uma maneira de ilustrar a importância de visualizações na análise de dados. Deve-se sempre olhar um conjunto de dados graficamente antes de começar a qualquer análise. Em especial, são ilustrados diversos contextos nos quais as propriedades estatísticas básicas para descrever conjuntos de dados são inadequadas.

[Fonte](https://storopoli.io/Estatistica/aux-Anscombe.html)

[Fonte](https://spacedata.com.br/quarteto-de-anscombe-porque-voce-deve-sempre-visualizar-seus-dados/)

## Importância de gráficos na visualização de dados

Gráficos se  propõem a diferentes usos: exploração, descoberta, interpretação, diagnóstico, comunicação, apresentação, destaque, clareza, contar uma história.

Os gráficos são recursos visuais muito utilizados para facilitar a leitura e compreensão das informações e divulgação de pesquisas em jornais, revistas, panfletos, livros e televisão.

[Fonte: Principais tipos de gráficos para educação básica](https://educa.ibge.gov.br/professores/educa-recursos/20773-tipos-de-graficos-no-ensino.html#:~:text=Os%20gr%C3%A1ficos%20s%C3%A3o%20recursos%20visuais,%2C%20panfletos%2C%20livros%20e%20televis%C3%A3o.)


---

Gráficos de colunas
![](/S12/conteudo_e_codigo/images/colunas.png)
[Fonte](https://educa.ibge.gov.br/professores/educa-recursos/20773-tipos-de-graficos-no-ensino.html#:~:text=Os%20gr%C3%A1ficos%20s%C3%A3o%20recursos%20visuais,%2C%20panfletos%2C%20livros%20e%20televis%C3%A3o.)

Gráficos de barras
![](/S12/conteudo_e_codigo/images/barras.png)
[Fonte](https://educa.ibge.gov.br/professores/educa-recursos/20773-tipos-de-graficos-no-ensino.html#:~:text=Os%20gr%C3%A1ficos%20s%C3%A3o%20recursos%20visuais,%2C%20panfletos%2C%20livros%20e%20televis%C3%A3o.)

Gráficos de linhas
![](/S12/conteudo_e_codigo/images/linhas.png)
[Fonte](https://educa.ibge.gov.br/professores/educa-recursos/20773-tipos-de-graficos-no-ensino.html#:~:text=Os%20gr%C3%A1ficos%20s%C3%A3o%20recursos%20visuais,%2C%20panfletos%2C%20livros%20e%20televis%C3%A3o.)



In [None]:
import pandas as pd

df = pd.read_csv("data/titanic.csv")
df

Dever da aula passada: substituir as colunas em inglês pelas suas traduções em PT-BR. Um dos objetivos dessa aula é realizar consultas e filtragens, então as colunas em PT podem ajudar no entendimento.

In [None]:
# Resolução

traducoes = {
    'PassengerId': 'IdPassageiro',
    'Survived': 'Sobreviveu', # 0 = Não, 1 = Sim
    'Pclass': 'Classe', # 1, 2, 3
    'Name': 'Nome',
    'Sex': 'Sexo',
    'Age': 'Idade',
    'SibSp': 'NumeroIrmaos',
    'Parch':  'NumeroPais',
    'Ticket': 'NumeroTicket',
    'Fare': 'PrecoTicket',
    'Cabin' : 'NumeroCabine',
    'Embarked': 'PortoEmbarcacao' # C = Cherbourg, Q = Queenstown, S = Southampton
}

# result = [(d['color'], d['value']) for d in dictionarylist]

novas_colunas = []
for chave, valor in traducoes.items():
    novas_colunas.append(valor)

print(novas_colunas)

In [None]:
df.columns = novas_colunas
df

## Pandas

### Consultas e filtros
### Filtros

A biblioteca pandas fornece diferentes maneiras de filtrar por valores de colunas, além de permitir a combinação de diferentes técnicas oferecidas, de forma a nos permitir manipular os dados com mais facilidade fornecendo subsets com as condições requeridas.


[Fonte](https://sparkbyexamples.com/pandas/pandas-filter-by-column-value/)


In [None]:
# dataframe originial
df

In [None]:
# Vamos começar com um filtro baseado em uma única condição: idade > 30
df_filtrado = df[df['Idade'] > 30]
df_filtrado.shape

In [None]:
# Agora um filtro com múltiplas condições
df_filtrado = df[(df['Idade'] > 30) & (df['Sexo'] == 'F')]
df_filtrado.shape

In [None]:
# Selecionando entradas que possuem uma determinada 'string'
# Vamos procurar por nomes que possuam 'Good'

df_filtrado = df[df['Nome'].str.contains('Good')]
df_filtrado.shape

In [None]:
# Por último, utilizando a função isin()
df_filtrado = df[df['PortoEmbarcacao'].isin(['Q'])]
df_filtrado.head()

### Consultas e filtros
### Consultas

Pandas também possui a função query(), que realiza consultas no DataFrame através de uma expressão booleana (T/F).

**Docs**: [https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html]

In [None]:
# Para ilustrar essa função, vamos procurar por pessoas que estavam na classe 3:
df_consulta = df.query("Classe == 3")
df_consulta.head()


In [None]:
# A função query também pode ser utilizada para filtrar baseada em uma lista de valores
df_consulta = df.query("Classe in (1,3)")
df_consulta.head()

### Relembrar Slicing e introduzir conceitos de loc e iloc:

### Slicing: obter apenas uma parte do dataset


In [None]:
# fatiando valores
df[:5]

#### LOC e ILOC

**loc**: Filtra informações no Dataframe

```Python
df.loc[linhas,colunas]
```

In [None]:
df.loc[:, ["Sobreviveu", "Idade"]]

   
**iloc**: Funciona de maneira similar, porém função iloc seleciona linhas e colunas por seus índices.

```Python
df.iloc[linhas, colunas]
```

In [None]:
df.iloc[:, [0,1]]

In [None]:
df.iloc[[0,1],:]

### Exercício 04 parte 01

- Realizar filtro com apenas uma única condição;
- Realizar filtro com múltiplas condições;
- Selecionar entradas com string específica;
- Realizar uma consulta passageiros da segunda e terceira classe;
- Obter subamostra do dataset com 30 amostras utilizando o método de slicing;
- Utilizar a função loc para obter a idade e sobrevivência do passageiro;


# Alomoço

In [None]:
# from IPython.display import IFrame

# # GIF link used as IFrame
# iframe_url = "https://giphy.com/embed/7AKbdZiyTx98fPHG0Z"

# # resized output IFrame
# IFrame(src=iframe_url, width=300, height=250)

### Agrupamento / Agregação

Podemos criar um agrupamento de categorias e aplicar uma função às categorias. É um conceito simples, mas é uma técnica extremamente valiosa, amplamente utilizada na ciência de dados. Em projetos reais de ciência de dados, você lidará com grandes quantidades de dados e tentará várias vezes, portanto, para eficiência, usamos o conceito Groupby. O conceito de Groupby é realmente importante por causa de sua capacidade de resumir, agregar e agrupar dados com eficiência.


[Fonte](https://acervolima.com/pandas-groupby-resumindo-agregando-e-agrupando-dados-em-python/)

In [None]:
# Agrupar passageiros por classe
dado_agrupado = df.groupby('Classe')

# Contagem de passageiros em cada classe, usando os dados agrupados no passo anterior
contagem_passageiros = dado_agrupado['IdPassageiro'].count()

print("Contagem de passageiros")
print(contagem_passageiros)

In [None]:
# Média de Idade de passageiros em cada classe
media_idade = dado_agrupado['Idade'].mean()

print("Média de Idade de passageiros por classe")
print(media_idade)

In [None]:
# Obter o valor máximo e mínimo pago por passageiros em cada classe:
valor_max = dado_agrupado['PrecoTicket'].max()
valor_min = dado_agrupado['PrecoTicket'].min()

print("Valor máximo do preço da passagem por classe")
print(valor_max)

print("Valor mínimo do preço da passagem por classe")
print(valor_min)

### Exercício 04 parte 02

- Agrupar passageiros por classe
- Obter a média de idade de passageiros por classe
- Obter o valor máximo e mínimo pago por passageiros em cada classe

## Pandas: Gerando Gráficos

Pandas, em si, não é uma biblioteca de geração de gráficos - o seu segredo é a sua integração com bibliotecas de visualização, permitindo que as suas capacidades de manipulação atuem como ferramentas poderosas para gerar gráficos. Exemplos dessas libs são o Numpy, matplotlib e Seaborn.

Pandas permite:
- manipulação e preparação de dados
- integração com bibliotecas de visualização
- seleção de dados
- permite fácil combinação de dados provenientes de diferentes datasets

### Pandas + Matplotlib

Matplotlib, por sua vez, é uma biblioteca Python dedicada à visualização de dados. As figuras geradas, muitas vezes após tratamento de dados utilizando Pandas, são passíveis de fácil edição e customização via código e podem ser facilmente exportadas para outros formatos (inclusive de alta qualidade).

Basicamente, a lib monta o gráfico a partir de seus dados em uma 'Figura' que pode conter um ou mais 'Eixos', que definem uma área onde pontos (relativos aos dados) podem ser delimitados.


[Fonte](https://matplotlib.org/)

[Fonte](https://matplotlib.org/stable/tutorials/introductory/quick_start.html)

In [None]:
#exemplo mais simples de gráfico:

import matplotlib.pyplot as plt


fig, ax = plt.subplots()
ax.plot([1, 2, 3, 4], [2, 4, 6, 8]);

In [None]:
%pip install matplotlib

*** OBS: Deixar claro para alunas que matplotlib será visto em semanas seguintes - ele só está sendo introduzido nesse contexto para que possamos gerar gráficos simples com o uso de Pandas ***




In [None]:
# Criação de um gráfico de barras:  matplotlib + Pandas
# plot() + bar
import matplotlib.pyplot as plt

contagem_passageiros = df['Classe'].value_counts()
contagem_passageiros.plot(kind='bar')



In [None]:
contagem_passageiros = df['Classe'].value_counts()
contagem_passageiros.plot(kind='bar')

plt.xlabel('Classe do Passageiro')
plt.ylabel('Quantidade')
plt.title('Número de Passageiros por Classe')

In [None]:
# Criando um gráfico de barras para calcular a taxa de sobrevivência por sexo
# plot.bar()


taxa_sob_sexo = df.groupby('Sexo')['Sobreviveu'].mean()
taxa_sob_sexo.plot.bar()

plt.xlabel('Sexo')
plt.ylabel('Taxa de Sobrevivência')
plt.title('Taxa de Sobrevivência por Sexo')

plt.show()

In [None]:
# Criando um histograma com a distribuição de idade em passageiros do Titanic

df['Idade'].plot.hist(bins=10, edgecolor='pink')

plt.xlabel('Idade')
plt.ylabel('Quantidade')
plt.title('Distribuição de Idade')

### Exercício 05

- Gerar 3 gráficos com ideias de interesses


## Pandas: Gerando Gráficos

### Pandas: Pandas + Numpy (funções básicas do numpy)

[Numpy for absolute beginners](https://numpy.org/doc/stable/user/absolute_beginners.html)

#### Biblioteca Numpy

A biblioteca Numpy é uma biblioteca de computação científica cuja principal estrutura de dados são os arrays (similares a listas, porém de mais rápido processamento) e que oferece funções para cálculos com matrizes e álgebra linear, sendo uma das bibliotecas mais importantes para cientistas de dados.

O foco dessa aula não é o Numpy, mas existem exemplos na parte de Pandas que contam com a biblioteca - apenas apresentar o conceito, mas dizer que assunto será retomado na aula seguinte.

In [None]:
import pandas as pd
import numpy as np

Numpy arrays permitem a utilização de diferentes operações,tornando-os uma estrutura de dados útil em manipulação de dados:
 - Seleção de elementos de array
 - Slicing de arrays
 - Divisão de arrays
 - Reshaping de arrays
 - Combinação de arrays
 - Operações Numéricas (min, max, media, etc)

Numpy e Pandas são comumente utilizados para análise e manipulação de dados.

In [None]:
# Conversão de lista (estrutura de dados Python) para um array unidimensional com  uma linha e quatro colunas:
lista_1 = [1, 2, 3, 4, 5]

array_1 = np.array(lista_1)


print(lista_1)
print(array_1)

In [None]:
# Array bidimensional de uma lista Python (uma lista contendo listas)

lista_2 = [[1,2,3],[4,5,6]]

array_2 = np.array(lista_2)


print(lista_2)
print(array_2)

In [None]:
# operações matemáticas podem ser realizadas em todos os valores de um array Numpy de uma vez (impossível em listas python sem loops)

# loja com preços
array_precos = np.array([12,22,32,42,52])

# queremos entrar em liquidação diminuindo 2 reais no preço de cada item
array_promocional = array_precos - 2
print(array_promocional)


In [None]:
# se fosse uma lista Python, seria impossível pois retornaria um TypeError
lista_precos = [12,22,32,42,52]

lista_promocial = lista_precos - 2


Séries são similares aos arrays NumPy, mas possuem mais funcionalidades que permitem que seus valores possam ser indexados e rotulados. Esses rótulos são úteis quando estamos utilizando porções de dados que possuem outros dados associados a eles.


In [None]:
# Criando Séries em Pandas usando um array numpy:

precos = np.array([100,200,300])
serie_precos = pd.Series(precos)

serie_precos

In [None]:
# criando série e customizando índices da série

serie_precos_produtos = pd.Series(precos,index=['Bala', 'Chocolate', 'Bolo'])

serie_precos_produtos

In [None]:
# Criando DataFrames Pandas com arrays Numpy:

lista_2 = [[1,2,3],[4,5,6]]
array_2 = np.array(lista_2)

df = pd.DataFrame(array_2, columns=['A', 'B', 'C'])

df

In [None]:
# Operações matemáticas podem ser realizadas em séries e Dataframes Pandas usando funções do numpy

lista_1 = [1, 2, 3, 4, 5]

array_1 = np.array(lista_1)
serie_precos = pd.Series(array_1)

serie_precos_ao_quadrado = np.square(serie_precos)

serie_precos_ao_quadrado

### Exercício 06

- Gerar arrays de números aleatórios de com tamanho de 5, 50 e 500 elementos
- Criar um DF Pandas a partir de um array numpy criado de uma lista Python
- Utilize métodos do Numpy e séries de Pandas para dobrar os números da lista a seguir