In [None]:
import pandas as pd
import numpy as np

In [None]:
# Carregando o dataframe e o chamando de raw
df_raw = pd.read_csv("world_data/country_gen_info.csv", sep="|")

In [None]:
# Verificando se o dataframe foi carregado corretamente e entender a estrutura
df_raw.head()

In [None]:
# Verificando os valores nulos e os tipos das colunas
df_raw.info()

In [None]:
# Criando uma cópia do dataframe cru para fazer manipulações sem alterar o original
df = df_raw.copy()

In [None]:
# Poderia trocar o tipo da coluna murderers para inteiro.
# Mas, como os dados dessa coluna foram inferências estatísticas, acredito que é ok ter deixá-los decimais

# df["muderers"] = df["muderers"].astype("Int64")

In [None]:
# Lembrar dos padrões de nome de coluna 
# -> Tudo em minúsculo
# -> Sem caracteres especiais
# -> Underscores (_) no lugar de espaços

df.columns = [col.lower().replace(" ", "_") for col in df.columns]
print(df.columns)

In [None]:
# Verificando as dimensões do dataframe
df.shape

In [None]:
# Verificando estatísticas das colunas numéricas
df.describe()

### Selecionando um ou mais vetores (vetor/matriz)

In [None]:
# Notação colchetes
df["pib"]

In [None]:
# Notação .
df.pib

In [None]:
# Selecionando dois vetores (uma matris) de uma única vez
df[["pib", "life_expect"]]

In [None]:
# Seleciona valores específicos
# Getting ou Setting uma célula específica
# O campo antes da vírgula se refere ao índice da linha. Após a vírgula vem a coluna
df.loc[1, "pib"]

In [None]:
# É possível, também, passar uma lista de indices e/ou de colunas
df.loc[[1, 4, 9], ["pib", "murderers"]]

In [None]:
# Ou intervalos de índices e/ou colunas
df.loc[1:10, "pib":"murderers"]

In [None]:
df.head(10)

In [None]:
# Filtros notação colchetes
# & deve ser usado no lugar do and
# | deve ser usado no lugar do or
# ~ deve ser usado no lugar de not
# & e | vêm entre comparações, exemplo: (df["country"] == 'Afghanistan') & (df["year"] > 1900)
# ~ vem antes de uma comparação - a fim de mudar o resultado da comparaçõ, exemplo: ~(df["country"] == 'Afghanistan')

country = "Afghanistan"
year = 1900

df[(df["country"] == country) & (df["year"] > year)]

In [None]:
# Mesmo filtro que o realizado acima, entretanto, com a notação .query
country = "Afghanistan"
year = 1900

df.query("country == '{}' & year > {}".format(country, year))

In [None]:
# Método UNIQUE
# Retorna os valores únicos de um vetor
# No caso abaixo, os valores únicos da coluna/vetor year
df.year.unique()

In [None]:
# Método NUNIQUE
# Retorna a quantidade de valores únicos de um vetor
# No caso abaixo, a quantidade de valores únicos da coluna/vetor year
df["year"].nunique()

In [None]:
# Método VALUE_COUNTS
# Retorna a quantidade de cada um dos diferentes de um vetor
# No caso abaixo, a quantidade de cada ano na coluna year
df["year"].value_counts()

In [None]:
# Quaisquer outras funções numpy podem ser usadas nos vetores 
# Exeplos:
# .max()
# .min()
# .mean()
# .median()
# .std()

df["year"].max()

In [None]:
df.country.nunique()

In [None]:
# Como uma coluna é um vetor numpy, podemos fazer operações entre vetores
# Chamamos essas operações de 'vectorized operations'
# São mais rápidas que operações que usam loops que iteram linha a linha, visto que
# operações vetorizados são executadas de uma única vez.

# No exemplo abaixo, dividimos a coluna (vetor) murderers pela coluna (vetor) population
df["murderers"] / df["population"]

In [None]:
# Ambas as colunas murderers e population vieram do mesmo dataframe
# Isso significa que elas certamente possuem a mesma quantidade de elementos
# Também significa que o vetor resultante terá a mesma quantidade de elementos dos vetores dividendo e divisor
# Sendo assim, podemos criar uma nova coluna no nosso dataframe que é esse vetor resultante

df["murderer_prop"] = df["murderers"] / df["population"]

In [None]:
# Verificando se a nova coluna foi de fato criada
df.head()

In [None]:
# Método SORT_VALUES
# Ordena um dataframe pela(s) coluna(s) passadas no parâmetro 'by'
# Retorna uma nova versão ordenada do dataframe caso o parâmetro inplace=True não seja passado.
# Caso o inplace=True seja passado, o dataframe é de fato reordenado.
df.sort_values(by="murderers", ascending=False)

In [None]:
# Duas formas de ordenar o dataframe por alguma(s) coluna(s)

# Com inplace=False (False é o valor default para o parâmetro inplace)
# Assim, o método retorna uma nova versão ordenada do dataframe.
# Portanto, se queremos atualizar o dataframe, devemos dizer que a variável do dataframe deve receber
# a nova versão ordenada do próprio dataframe.
df = df.sort_values(by="murderer_prop", ascending=False)

# Uma segunda forma e, também, mais recomendada é utilizando o parâmetro inplace=True
# Isso altera o próprio dataframe, sem retornar qualquer nova versão.
df.sort_values(by="murderer_prop", ascending=False, inplace=True)

In [None]:
# Após reordenar o dataframe, é comum que os indices das linhas fiquem embaralhados.
# Uma forma de resolver isso é utilizando o método RESET_INDEX
# E, assim como o sort_values, podemos atualizar o dataframe com o index resetado de duas formas: 
# com inplace=False ou inplace=True:
df = df.reset_index(drop=True)
df.reset_index(drop=True, inplace=True)

In [None]:
# É muito comum querermos agregar alguns valores.
# Usamos a função groupby para isso, o parâmetro será a(s) coluna(s) - caso for passar várias colunas, é importante que
# seja dentro de uma lista -  para a(s) qual(is) o dataframe será agrupado.

# No caso abaixo, agrupados por 'year'
# Após agrupar por uma coluna X, é importante aplicar uma função de agregação ou função numpy em outra coluna != X.
# Funções de agregação são funções que, em geral, pegam vários valores e retorna apenas um
# Por exemplo: .max(), pois ela recebe um vetor e retorna apenas o maior valor desse vetor.
# Outras funções que não agregam podem ser usadas, como value_counts()

# No caso abaixo, eu agrupei por ano a fim de verificar qual foi o maior pib em cada ano
df.groupby("year")["pib"].max()

In [None]:
# Aqui, a ideia é mostrar a concatenação de dataframes.
# Crio dois dataframes diferentes e a ideia é "colar" um embaixo do outro.

# Primeiro vou criar os dataframes
dic = {
    "nomes": ["italo", "bruna", "mauraia"],
    "idades": [23, 24, 25]
}

a_gente_df = pd.DataFrame(dic)


dic = {
    "nomes": ["arthur", "joao", "caio"],
    "idades": [19, 20, 21]
}

eles_df = pd.DataFrame(dic)

In [None]:
# Verificando o primeiro dataframe criado
a_gente_df

In [None]:
# Verificando o segundo dataframe criado
eles_df

In [None]:
# Beleza, agora que verifiquei que foram criados corretamente, eu posso colar um dataframe abaixo do outro
# Utilizamos para isso, o método pd.concat()
# O dataframe resultante da concatenação é armazenado na variável todos_df
todos_df = pd.concat([a_gente_df, eles_df])

In [None]:
# Verificando todos_df
todos_df

In [None]:
# Parece que o índice está se repetindo, vamos corrigir:
todos_df.reset_index(drop=True, inplace=True)

In [None]:
# Agora, para revisar o método FILLNA
# Vamos setar algumas células como nulos
# O valor que represanta NULO é o valor da biblioteca numpy mostrado abaixo:

np.nan

In [None]:
# Selecionamos 2 células do dataframe para atribuir valores nulos
todos_df.loc[0, "idades"] = np.nan
todos_df.loc[4, "nomes"] = np.nan

In [None]:
# Verificando
todos_df

In [None]:
# Método FILLNA
# Assim como vários outros métodos do pandas, o método fillna tem o mesmo esquema do parâmetro inplace
# inplace=False, retorna uma nova versão do dataframe sem alterar o dataframe em questão
# inplace=True, retorna o dataframe em questão

# Quando chamamos o método fillna() diretamente do dataframe, a função preenche todo e qualquer valor nulo com o valor
# passado como parâmetro. Nesse caso, a string "VALOR_NULO"
todos_df.fillna("VALOR_NULO")

In [None]:
# Caso quiséssemos preencher os valores nulos de uma coluna diferente dos valores nulos de outra coluna,
# Devemos chamar o método a partir da coluna em questão, conforme abaixo.

todos_df["nomes"].fillna("NOME_DESCONHECIDO", inplace=True)
todos_df["idades"].fillna("IDADE_DESCONHECIDA", inplace=True)

# Veja que já colocamos inplace=True

In [None]:
# Verificando como ficou
todos_df

In [None]:
# Relembrando a questão de renomear apenas colunas específicas do dataframe.
# Passamos no parâmetro columns um dicionário cuja chave é o nome da coluna atual, e o valor para a respectiva chave
# é o novo nome da coluna em questão.


df.rename(columns={"murderer_prop": "murderer_proportion"}, inplace=True)

In [None]:
df

In [None]:
# Método duplicated retorna um vetor booleano indicando qual índice (linha) é duplicata e qual não é
df.duplicated()

In [None]:
# Como o vetor é muito grande, não dá para sair procurando se tem um valor True em milhares de valores.
# Uma facilidade é utilizar o método .any() que verifica se num vetor ou lista existe pelo menos um True

df.duplicated().any()

In [None]:
# No caso acima, não há nenhuma duplicata pois any() retornou False.
# Um método amigo do any() é o .all() que verifica se todos os vetores são True.

In [None]:
# Método APPLY
# Ele itera o dataframe linha por linha, passando cada linha como parâmetro para a função que está como função do método apply
# Para ficar menos confuso, um exemplo:
# Neste exemplo, vou querer recriar a coluna murderer_proportion de forma iterada usando o método apply.
# Primeiro, vou dropar a coluna atual
df.drop("murderer_proportion", axis=1, inplace=True)

# Agora, vou definir a função para onde o método apply jogará cada uma das linhas durante a iteração
# Essa função recebe um único parâmetro (que será a linha passada pelo método apply) e retorna a divisão dos valores
# murderers e population da linha em questão
def calc_murd_prop(row):
    return row["murderers"] / row["population"]

# Enfim, chamamos a função .apply() que vai passar cada linha do dataframe, uma por vez, para a função calc_murd_prop
# definida acima. Ao final, teremos um vetor do mesmo número de elemntos do nosso dataframe
df["murderer_proportion"] = df.apply(calc_murd_prop, axis=1)


# Uma outra forma de fazer os dois passos acima é utilizando a função anônima lambda.
# Funções anônimas são muito utilizadas no método apply visto que na maioria das vezes
# A função a ser aplicada sobre cada linha é bastante simples e só será usada uma vez
df["murderer_proportion"] = df.apply(lambda row: row["murderers"] / row["population"], axis=1)


# Note: o parâmetro axis=1 define que a iteração ocorrerá linha por linha, e não coluna por coluna
# É importante setar esse parâmetro, uma vez que o padrão é iterar coluna por coluna, ou seja, axis=0

In [None]:
# Verificando se a coluna foi recriada corretamente
df.head()