# Introdução aos Pandas

## Módulo 2: Introdução aos DataFrames

### Noções básicas sobre DataFrames do Pandas - Parte 2
- Recursos úteis do Jupyter
- Importando um conjunto de dados CSV
- Selecionando várias colunas
- Contando valores True em uma série booleana
- Filtrando linhas com máscaras booleanas
- Usando os operadores AND e OR
- Por que e quando usar .copy
- Classificando um dataframe por uma ou mais colunas

In [None]:
import pandas as pd

In [None]:
# pd.read_csv lê um arquivo de valores separados por vírgula e retorna um dataframe
mpg = pd.read_csv("https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/mpg.csv", storage_options = {'User-Agent': 'Mozilla/5.0'})
mpg

In [None]:
# Exibindo a opção de preenchimento automático object.tab
# Digite a variável que já foi avaliada na memória
# Isso também funciona com módulos importados
# Digite .
# Em seguida, digite o caractere <Tab>
mpg.count?

In [None]:
# Puxando a docstring para um método
mpg.head?

In [None]:
# .tail analisa os últimos registros de um objeto pandas (série ou dataframe)
mpg.tail(3)

In [None]:
# Os colchetes no dataframe podem aceitar uma lista de nomes de colunas
colunas_de_interesse = ["displ", "cty", "hwy"]
mpg[colunas_de_interesse].head()

In [None]:
# Você também verá o mesmo resultado com colchetes duplos
mpg[["cty", "hwy"]].head()

In [None]:
# Nossas funções, como .mean, .sum, .median, min/max, avaliam uma coluna inteira, por padrão
# Há um argumento padrão em .mean() que é axis=0 (que significa coluna)
mpg[["cty", "hwy"]].mean(axis=0)

In [None]:
mpg[["cty", "hwy"]].head()

In [None]:
# axis=1 significa executar o .mean em cada linha, execução linha a linha
mpg[["cty", "hwy"]].mean(axis=1).head()

In [None]:
# axis=1 calcula a média por linha
mpg["average_mileage"] = mpg[["cty", "hwy"]].mean(axis=1)
mpg.head()

In [None]:
# value_counts mostra valores únicos e sua distribuição
mpg.cyl.value_counts()

In [None]:
# Usando séries booleanas para responder a perguntas
# Quantos audis existem no conjunto de dados
# Verdadeiro funciona como 1, Falso funciona como 0
(mpg.manufacturer == "audi").sum()

In [None]:
# Qual a proporção de motores com 4 cilindros?
(mpg.cyl == 4).mean()

In [None]:
# Usando séries booleanas para filtrar um dataframe
mpg[mpg.cyl == 5]

In [None]:
# Você pode misturar e combinar as colunas usadas para gerar booleanos, os valores booleanos não se importam
mpg[(mpg.model == "maxima") | (mpg.cyl == 5)]

In [None]:
# E limita as opções. Ambos os predicados devem ser verdadeiros
mpg[(mpg["class"] == "midsize") & (mpg["displ"] < 2)]

In [None]:
original_df = pd.DataFrame({"x": [1, 2, 3]})
original_df

In [None]:
# Tenha cuidado ao atribuir coleções Python dessa forma...
# Isso funciona da mesma forma com listas, dicionários e muitos outros objetos de coleção
novo_df = original_df

In [None]:
original_df["y"] = original_df.x * 100
original_df

In [None]:
novo_df

In [None]:
# Use .copy para fazer uma cópia adequada de um dataframe
novo_df = original_df.copy()
novo_df

In [None]:
original_df["z"] = 5000
original_df

In [None]:
# O novo df foi criado a partir de uma cópia e evita futuras mutações no dataframe original
novo_df

In [None]:
# Classificando por uma única coluna
mpg.sort_values(by=["average_mileage"], ascending=False, ignore_index=True).head()

In [None]:
# Classificando por múltiplas colunas
mpg.sort_values(by=["hwy", "cty"], ascending=False, ignore_index=True).head()

In [None]:
# Atualizando o dataframe para armazenar os valores ordenados
# Use inplace=True ou reatribua a variável do dataframe (não ambos)
mpg.sort_values(by="displ", ascending=False, ignore_index=True, inplace=True)
mpg.head()

## Recursos Adicionais
- [Folha de Dicas do Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Comparação do Pandas com Planilhas](https://pandas.pydata.org/docs/dev/getting_started/comparison/comparison_with_spreadsheets.html)
- [Comparação do Pandas com SQL](https://pandas.pydata.org/docs/dev/getting_started/comparison/comparison_with_sql.html)

## Exercícios
- Crie uma nova coluna chamada `automatico` que contenha um valor booleano para indicar se o veículo em questão é automático ou não.
- Use a coluna `automatico` para somar o número de veículos automáticos neste conjunto de dados.
- Escreva o código do Pandas para determinar qual porcentagem dos veículos são subcompactos.
- A economia de combustível combinada é uma média ponderada do valor na cidade em 55% e do valor na rodovia em 45%. Use operadores aritméticos para adicionar uma nova coluna chamada `economia_combustivel` ao dataframe `mpg`.
- Use a máscara booleana para encontrar todos os veículos com `economia_combustivel` acima da mediana `economia_combustivel`.

In [None]:
# Crie uma nova coluna chamada `automatico` que contenha um valor booleano para indicar se o veículo em questão é automático ou não.


In [None]:
# Use a coluna `automatico` para somar o número de veículos automáticos neste conjunto de dados.


In [None]:
# Escreva o código do Pandas para determinar qual porcentagem dos veículos são subcompactos.


In [None]:
# Crie uma coluna `economia_combustivel`. A economia de combustível é uma média ponderada do valor da cidade em 55% e do valor da rodovia em 45%.

In [None]:
# Use a máscara booleana para encontrar todos os veículos com `economia_combustivel` acima da mediana `economia_combustivel`.
