In [1]:
import numpy as np
import pandas as pd

#### OBS: Nunca deixe de consultar a documentação desses métodos. As descrições aqui são básicas e limitadas.  A maioria desses métodos te permitem ser mais minuciosas em uma ação.

### LOADING AND SAVING

|<div style="width:350px">METHOD</div>|<div style="width:500px">DESCRIPTION</div>|
|---|---|
|pd.DataFrame(data_dictionary)|Cria um pandas dataframe a partir de um dictionary|
|pd.read_csv(path, sep=",")|Carrega um pandas dataframe a partir de um arquivo csv|
|df.to_csv(path, sep=",", index=False)|Salva um pandas dataframe como arquivo csv|


### BASIC INFORMATION

|<div style="width:350px">METHOD</div>|<div style="width:500px">DESCRIPTION</div>|
|---|---|
|df.head(x)|Mostra as primeiras x linhas do dataframe df|
|df.columns|Get/set das colunas do dataframe|
|df.shape|Get do número de linhas, número de colunas do dataframe|
|df.dtypes|Get dos tipos de dados de cada coluna no dataframe df|
|df.info()|Printa informações gerais sobre todo o dataframe|
|df.describe()|Printa estatísticas das colunas numéricas do dataframe|
|df.copy()|Cria uma cópia do dataframe. Muito usado quando filtramos parte do dataframe original e colocamos essa parte numa nova variável|


### INDEXING

|<div style="width:350px">METHOD</div>|<div style="width:500px">DESCRIPTION</div>|
|---|---|
|df["coluna"] ou df.coluna|Get / set de uma coluna (vetor) específica do dataframe. Lembre-se que, após selecionar uma coluna, é possível aplicar funções numpy, como max(), mean(), min(), etc..|
|df[["coluna1", "coluna2"]]|Get de várias colunas do dataframe|
|df.loc[row, column]|Get/set de um valor específico do dataframe, utilizando o nome da linha e o nome da coluna. Obs: na maioria das vezes o nome da linha é um índice.|
|df.iloc[row_index, column_index]|Semelhante ao loc, mas, ao invés de usarmos os nomes da linha e coluna, usamos seus índices.|


### QUERYING

|<div style="width:350px">METHOD</div>|<div style="width:500px">DESCRIPTION</div>|
|---|---|
|df[df["coluna"] == x]|Filtra os registros cuja coluna é igual a X.|
|df[(df["coluna1"] == x) & (df["coluna2"] > y) \| (df["coluna3"] != z)]|Assim como na linha acima, é feito um filtro, porém, neste exemplo, existe mais filtros. Lembrando que and = &; or = \|; not = ~. É importante lembrar de métodos como .str.contais("x") e .isin(lista)|
|df.query("coluna == x")|Filtra os registros cuja coluna é igual a X.|
|df.query("coluna1 == x & coluna2 > y \| coluna3 != z")|Assim como na linha acima, é feito um filtro, porém, neste exemplo, existe mais filtros. Lembrando que and = &; or = \|; not = ~||


### USEFUL METHODS

|<div style="width:350px">METHOD</div>|<div style="width:500px">DESCRIPTION</div>|
|---|---|
|df["coluna1"].nunique()|Retorna o número de valores únicos na coluna1 Pode ser usado no groupby.|
|df["coluna1"].unique()|Retorna os valores únicos da coluna1 Pode ser usado no groupby.|
|df["coluna1"].value_counts()|Retorna a quantidade de cada valor da coluna1. Pode ser usado no groupby.|
|df["coluna1"].astype("Int64")|Muda o tipo de dado da coluna1 para Inteiro.|
|df.sort_values(by="coluna1", ascending=True)|Ordena o dataframe a partir da coluna 1 de forma crescente ou decrescente. Obs: o parâmetro by pode ser, ao invés de uma string referenciando uma coluna, uma lista com várias colunas. Além disso, o parâmetro inplace=True ordenaria o próprio df, ao invés de gerar um novo dataframe ordenado.|
|df.reset_index(drop=True)|Após ordenar o dataframe, é comum que os índices das linhas fiquem embaralhados. Para corrigir isso, resetamos o index com esse método.|
|df.groupby("coluna1")|Agrupa o dataframe na coluna1. Podemos agrupar várias colunas e, para isso, ao invés de passar o parâmetro "coluna1", podemos passar o parâmetro ["coluna1", "coluna2", "coluna3"], por exemplo. Lêmbre-se que, após agrupar, é importante aplicar funções de agregações em outras colunas, como ["coluna2"].max()|
|pd.concat([df1, df2])|Concatena os dataframes 1 e 2, um abaixo do outro, gerando um dataframe novo. Para isso, é importante que ambos os dataframes tenham as mesmas colunas e na mesma ordem para o pandas não fazer confusão.|
|df.fillna(x)|Preenche os valores nulos com x|
|df.rename(columns={"coluna1": "coluna_1"})|Renomeia o nome da coluna1 para coluna_1|
|df.duplicated()|Retorna um vetor de Trues ou Falses, onde True representa que a linha de índice x é uma duplicata e False representa que a linha de índice x não é duplicata.|
|df.drop_duplicates()|Retorna um novo dataframe sem duplicatas.|
|pd.cut(vetor_x, bin_edges, labels=labels)|Retorna um vetor, a partir do vetor_x passado como parâmetro, rotulando valores que estejam dentro dos intervalos passados no parâmetro bin_edges|
|df.apply(funcao)|Itera sobre dataframe|
|pd.cut()|Bin values into discrete intervals|
|df["coluna"].fillna(X)| Preencher os valores nulos com o parametro X|
|df.rename()|Renomeia colunas específicas|
|.str.contains()|Forma inteligente de filtrar textos|

In [2]:
df = pd.read_csv("world_data/dados_peso_altura.csv", sep=",")

In [3]:
df.head()

Unnamed: 0,pesos,alturas
0,55.83,162.79
1,80.23,166.88
2,101.09,172.61
3,74.74,165.68
4,54.97,162.58


In [4]:
df.head(1)

Unnamed: 0,pesos,alturas
0,55.83,162.79


In [5]:
df.columns = ["PESOS", "ALTURAS"]

In [6]:
df.head()

Unnamed: 0,PESOS,ALTURAS
0,55.83,162.79
1,80.23,166.88
2,101.09,172.61
3,74.74,165.68
4,54.97,162.58


In [7]:
df.shape

(10000, 2)

In [8]:
df.dtypes

PESOS      float64
ALTURAS    float64
dtype: object

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 2 columns):
PESOS      10000 non-null float64
ALTURAS    10000 non-null float64
dtypes: float64(2)
memory usage: 156.4 KB


In [10]:
df.describe()

Unnamed: 0,PESOS,ALTURAS
count,10000.0,10000.0
mean,65.296656,165.063659
std,16.805919,4.015449
min,2.91,150.9
25%,54.0475,162.35
50%,65.575,165.08
75%,76.7625,167.7825
max,128.72,180.3


In [11]:
# Getting vetor PESOS por notação de []
df["PESOS"]

0        55.83
1        80.23
2       101.09
3        74.74
4        54.97
         ...  
9995     86.74
9996     73.39
9997     64.40
9998     94.15
9999     55.00
Name: PESOS, Length: 10000, dtype: float64

In [12]:
# Getting vetor PESOS por notação de .
df.PESOS

0        55.83
1        80.23
2       101.09
3        74.74
4        54.97
         ...  
9995     86.74
9996     73.39
9997     64.40
9998     94.15
9999     55.00
Name: PESOS, Length: 10000, dtype: float64

In [13]:
# Setting vetor coluna_nova por vetor de 1s
df["coluna_nova"] = 1

In [14]:
## Getting mais de uma coluna com notação colchetes
df[["PESOS", "ALTURAS"]]

Unnamed: 0,PESOS,ALTURAS
0,55.83,162.79
1,80.23,166.88
2,101.09,172.61
3,74.74,165.68
4,54.97,162.58
...,...,...
9995,86.74,169.57
9996,73.39,167.77
9997,64.40,164.93
9998,94.15,172.65


In [15]:
# Getting valor da primeira linha coluna pesos
df.loc[0, "PESOS"]

55.83

In [16]:
# Setting valor da primeira linha coluna pesos
df.loc[0, "PESOS"] = 55.80

In [17]:
df.head(1)

Unnamed: 0,PESOS,ALTURAS,coluna_nova
0,55.8,162.79,1


In [18]:
# Filtro com notação de colchetes
df[df["PESOS"] < 50]

Unnamed: 0,PESOS,ALTURAS,coluna_nova
6,34.21,156.74,1
11,49.48,159.68,1
15,32.74,157.72,1
17,44.50,160.27,1
21,35.26,159.37,1
...,...,...,...
9942,47.24,160.23,1
9943,35.03,158.42,1
9946,48.08,161.91,1
9960,20.21,154.47,1


In [19]:
# Filtro com notação de .query
df.query("PESOS < 50")

Unnamed: 0,PESOS,ALTURAS,coluna_nova
6,34.21,156.74,1
11,49.48,159.68,1
15,32.74,157.72,1
17,44.50,160.27,1
21,35.26,159.37,1
...,...,...,...
9942,47.24,160.23,1
9943,35.03,158.42,1
9946,48.08,161.91,1
9960,20.21,154.47,1


In [20]:
# Comparando se ambos os filtros retornam a mesma coisa
((df[df["PESOS"] < 50] == df.query("PESOS < 50")).all()).all()

True

In [21]:
# Filtrando com mais de uma condição com notação []
df[(df["PESOS"] >= 90) | (df["ALTURAS"] < 150)]

Unnamed: 0,PESOS,ALTURAS,coluna_nova
2,101.09,172.61,1
12,100.51,174.05,1
32,91.19,171.44,1
42,91.82,172.52,1
46,98.30,171.22,1
...,...,...,...
9961,94.20,171.70,1
9969,91.08,170.29,1
9974,91.55,173.16,1
9992,93.95,171.95,1


In [22]:
# Filtrando com mais de uma condição com notação .query
df.query("PESOS >= 90 | ALTURAS < 150")

Unnamed: 0,PESOS,ALTURAS,coluna_nova
2,101.09,172.61,1
12,100.51,174.05,1
32,91.19,171.44,1
42,91.82,172.52,1
46,98.30,171.22,1
...,...,...,...
9961,94.20,171.70,1
9969,91.08,170.29,1
9974,91.55,173.16,1
9992,93.95,171.95,1


In [23]:
df.head()

Unnamed: 0,PESOS,ALTURAS,coluna_nova
0,55.8,162.79,1
1,80.23,166.88,1
2,101.09,172.61,1
3,74.74,165.68,1
4,54.97,162.58,1


In [24]:
# Passando coluna PESOS para int16
df["PESOS_INT"] = df["PESOS"].astype(np.int16)

In [25]:
# Checando se coluna PESOS teve tipo de dado alterado
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
PESOS          10000 non-null float64
ALTURAS        10000 non-null float64
coluna_nova    10000 non-null int64
PESOS_INT      10000 non-null int16
dtypes: float64(2), int16(1), int64(1)
memory usage: 254.0 KB


In [26]:
df = df.sort_values(by=["PESOS", "ALTURAS"], ascending=True)

df.sort_values(by=["PESOS", "ALTURAS"], ascending=True, inplace=True)

In [27]:
df = df.reset_index(drop=True)

df.reset_index(drop=True, inplace=True)

In [28]:
df

Unnamed: 0,PESOS,ALTURAS,coluna_nova,PESOS_INT
0,2.91,153.63,1,2
1,3.90,151.67,1,3
2,8.69,152.13,1,8
3,8.97,153.09,1,8
4,9.88,151.57,1,9
...,...,...,...,...
9995,119.36,177.77,1,119
9996,120.11,178.51,1,120
9997,120.70,179.38,1,120
9998,126.71,178.47,1,126


In [29]:
# Peguei vetor ALTURAS e atribuí à variável alturas
alturas = df["ALTURAS"].copy()

In [30]:
# Peguei quantidade de valores únicos do vetor ALTURAS
alturas.nunique()

1872

In [31]:
# Peguei os valores únicos do vetor ALTURAS
alturas.unique()

array([153.63, 151.67, 152.13, ..., 179.38, 178.47, 180.3 ])

In [32]:
# Quantidade de registros para cada valor único do vetor ALTURAS
alturas.value_counts()

164.30    20
165.27    19
164.32    18
165.57    17
164.73    17
          ..
175.09     1
159.72     1
172.68     1
157.71     1
158.00     1
Name: ALTURAS, Length: 1872, dtype: int64

In [33]:
df

Unnamed: 0,PESOS,ALTURAS,coluna_nova,PESOS_INT
0,2.91,153.63,1,2
1,3.90,151.67,1,3
2,8.69,152.13,1,8
3,8.97,153.09,1,8
4,9.88,151.57,1,9
...,...,...,...,...
9995,119.36,177.77,1,119
9996,120.11,178.51,1,120
9997,120.70,179.38,1,120
9998,126.71,178.47,1,126


In [34]:
df_oi = df[["PESOS", "ALTURAS"]].copy()

In [35]:
# Calculando o IMC, iterando linha por linha através da função apply com axis=1
# Eu fiz de duas formas com função definida e função anônima


# Função definida
def calcular_imc(row):
    peso = row["PESOS"]
    altura = row["ALTURAS"] / 100
    
    imc = peso / (altura**2)
    return imc


df_oi["IMC"] = df_oi.apply(calcular_imc, axis=1)



# Função anônima
df_oi["IMC"] = df_oi.apply(lambda row: row["PESOS"] / (row["ALTURAS"]/100)**2, axis=1)

In [36]:
# Cálculo do IMC vetorizado

df_oi["IMC"] = df_oi["PESOS"] / (df_oi["ALTURAS"]/ 100)**2

In [37]:
# Criando coluna SITUACAO com pd.cut para descrever a situação de peso das pessoas

bins = [0, 17, 18.5, 25, 30, 35, 40, 200]
labels = ["Muito abaixo do peso", 
          "Abaixo do peso", 
          "Peso normal", 
          "Acima do peso", 
          "Obesidade I", 
          "Obesidade II", 
          "Obesidade III"
         ]


df_oi["SITUACAO"] = pd.cut(df_oi["IMC"], bins=bins, labels=labels, right=False)

In [38]:
df_oi["SITUACAO"].value_counts()

Peso normal             4222
Acima do peso           3259
Muito abaixo do peso    1027
Obesidade I              912
Abaixo do peso           514
Obesidade II              66
Obesidade III              0
Name: SITUACAO, dtype: int64

In [39]:
df_oi.loc[[18, 29, 300, 55, 899, 999, 147, 5002], "PESOS"] = np.nan

In [40]:
df_oi["PESOS"].isna()

0       False
1       False
2       False
3       False
4       False
        ...  
9995    False
9996    False
9997    False
9998    False
9999    False
Name: PESOS, Length: 10000, dtype: bool

In [41]:
pessoas_peso_nulo = df_oi[df_oi["PESOS"].isna()].index
pessoas_peso_nulo

Int64Index([18, 29, 55, 147, 300, 899, 999, 5002], dtype='int64')

In [42]:
for pessoa in pessoas_peso_nulo:
    altura = df_oi.loc[pessoa, "ALTURAS"]
    
    media_de_peso = df_oi[(df_oi["ALTURAS"] >= altura - 1) & (df_oi["ALTURAS"] <= altura + 1)]["PESOS"].mean()
    
    df_oi.loc[pessoa, "PESOS"] = media_de_peso

In [43]:
df_oi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
PESOS       10000 non-null float64
ALTURAS     10000 non-null float64
IMC         10000 non-null float64
SITUACAO    10000 non-null category
dtypes: category(1), float64(3)
memory usage: 244.6 KB


In [44]:
media = df_oi["PESOS"].mean()

df_oi["PESOS"].fillna(media)

0         2.91
1         3.90
2         8.69
3         8.97
4         9.88
         ...  
9995    119.36
9996    120.11
9997    120.70
9998    126.71
9999    128.72
Name: PESOS, Length: 10000, dtype: float64

In [45]:
media

65.30078856350096

In [46]:
df.head(50)

Unnamed: 0,PESOS,ALTURAS,coluna_nova,PESOS_INT
0,2.91,153.63,1,2
1,3.9,151.67,1,3
2,8.69,152.13,1,8
3,8.97,153.09,1,8
4,9.88,151.57,1,9
5,10.01,151.84,1,10
6,10.21,150.9,1,10
7,10.83,153.13,1,10
8,12.76,153.0,1,12
9,13.38,152.59,1,13


In [47]:
df_oi.SITUACAO.unique()

[Muito abaixo do peso, Abaixo do peso, Peso normal, Acima do peso, Obesidade I, Obesidade II]
Categories (6, object): [Muito abaixo do peso < Abaixo do peso < Peso normal < Acima do peso < Obesidade I < Obesidade II]

In [48]:
df_oi.groupby("SITUACAO")["PESOS"].median()

SITUACAO
Muito abaixo do peso     37.41
Abaixo do peso           46.09
Peso normal              59.60
Acima do peso            76.22
Obesidade I              92.14
Obesidade II            111.31
Obesidade III              NaN
Name: PESOS, dtype: float64

In [50]:
rename_dict = {
    "pesos": "peso",
    "alturas": "altura"
}


df.rename(columns=rename_dict, inplace=True)

In [51]:
df[df.duplicated()].shape

(10, 4)

In [54]:
# Mostrando a versão do dataframe SEM duplicatas.

df.drop_duplicates()

Unnamed: 0,PESOS,ALTURAS,coluna_nova,PESOS_INT
0,2.91,153.63,1,2
1,3.90,151.67,1,3
2,8.69,152.13,1,8
3,8.97,153.09,1,8
4,9.88,151.57,1,9
...,...,...,...,...
9995,119.36,177.77,1,119
9996,120.11,178.51,1,120
9997,120.70,179.38,1,120
9998,126.71,178.47,1,126


In [55]:
df_oi

Unnamed: 0,PESOS,ALTURAS,IMC,SITUACAO
0,2.91,153.63,1.232937,Muito abaixo do peso
1,3.90,151.67,1.695373,Muito abaixo do peso
2,8.69,152.13,3.754828,Muito abaixo do peso
3,8.97,153.09,3.827355,Muito abaixo do peso
4,9.88,151.57,4.300614,Muito abaixo do peso
...,...,...,...,...
9995,119.36,177.77,37.769555,Obesidade II
9996,120.11,178.51,37.692424,Obesidade II
9997,120.70,179.38,37.511051,Obesidade II
9998,126.71,178.47,39.781435,Obesidade II


In [56]:
df_oi[df_oi["SITUACAO"] == "Obesidade II"]

Unnamed: 0,PESOS,ALTURAS,IMC,SITUACAO
9903,104.44,171.29,35.596135,Obesidade II
9908,104.52,172.38,35.174315,Obesidade II
9914,105.17,173.24,35.042536,Obesidade II
9919,105.55,173.52,35.055742,Obesidade II
9924,105.77,173.60,35.096440,Obesidade II
...,...,...,...,...
9995,119.36,177.77,37.769555,Obesidade II
9996,120.11,178.51,37.692424,Obesidade II
9997,120.70,179.38,37.511051,Obesidade II
9998,126.71,178.47,39.781435,Obesidade II


In [58]:
df_oi.query("SITUACAO == 'Obesidade II'")

Unnamed: 0,PESOS,ALTURAS,IMC,SITUACAO
9903,104.44,171.29,35.596135,Obesidade II
9908,104.52,172.38,35.174315,Obesidade II
9914,105.17,173.24,35.042536,Obesidade II
9919,105.55,173.52,35.055742,Obesidade II
9924,105.77,173.60,35.096440,Obesidade II
...,...,...,...,...
9995,119.36,177.77,37.769555,Obesidade II
9996,120.11,178.51,37.692424,Obesidade II
9997,120.70,179.38,37.511051,Obesidade II
9998,126.71,178.47,39.781435,Obesidade II


In [None]:
"Obes/dade II"

In [66]:
df = df_oi[~df_oi["SITUACAO"].str.contains("/")]

### FILL NA

In [None]:
# Aqui estou basicamente gerando dados para um dataframe que mostra pesos (kg) e alturas (cm)
# Não é necessário entender o que se passa por aqui, por enquanto
# O numpy é ótimo para gerar vetores
size = 10000
normal_distrib = np.random.normal(0, scale=4, size=size)
alturas = np.round(np.repeat(165, size) + normal_distrib, 2)
pesos = np.round((np.repeat(65, size) + (normal_distrib * 4)) + np.random.normal(0, scale=5, size=size), 2)


# Abaixo, estou usando os dados gerados para criar um dataframe pandas
pesos_dict = {
    "pesos": pesos,
    "alturas": alturas
}

pesos_df = pd.DataFrame(pesos_dict)

In [None]:
pesos_df.to_csv("dados_peso_altura.csv", sep=",", index=False)

In [None]:
# Vendo como ficou bonitinho
pesos_df.head()

In [None]:
# Abaixo, a ideia é transformar cerca de 20% dos pesos do dataframe como nulos. Também, não é necessário entender, por ora.
nan_mat = np.random.random(size) < .2
pesos_df["pesos"] = pesos_df["pesos"].mask(nan_mat)

In [None]:
# Filtrando a quantidade de nulos na coluna pesos para ver se funcionou e vendo o tamanho do dataframe filtrado
pesos_df[pesos_df["pesos"].isna()].shape

In [None]:
# Vemos que funcinou, dos 10,000 registros, cerca de 2,000 são nulos
# Nossa quantidade de valores nulos pode variar, já que estou trabalhando com random direto.

In [None]:
# Abaixo, vamos dar uma solução para os valores nulos. 
# A primeira solução será preencher os pesos nulos com a média de pesos de todo o dataframe

# Primeiro, faço uma cópia do dataframe original, pois quero manter o dataframe original intacto
pesos_df_solution1 = pesos_df.copy()

# Após, pego a média da coluna pesos e arredondo para duas casas decimais
media_pesos = np.round(pesos_df_solution1["pesos"].mean(), 2)

# Enfim, atualizo a coluna pesos com os nulos preenchidos pela média.
pesos_df_solution1["pesos"] = pesos_df_solution1["pesos"].fillna(media_pesos)

In [None]:
# Verificando se temos nulos, filtrando valores nulos:
pesos_df_solution1[pesos_df_solution1["pesos"].isna()]

# Não temos :D

In [None]:
# A segunda solução será preencher os pesos nulos com a média de pesos para
# as pessoas que tenham a altura parecida com aquele que tem peso nulo.

# Primeiro, faço uma cópia do dataframe original, pois quero manter o dataframe original intacto
pesos_df_solution2 = pesos_df.copy()

# Filtro os registros com peso nulo:
null_pesos = pesos_df_solution2[pesos_df_solution2["pesos"].isna()]

# Itero sobre os registros filtrados
for index, row in null_pesos.iterrows():
    # Primeiro, pego a altura para o registro com peso nulo da atual iteração
    altura = row["alturas"]
    
    # Após, filtro do dataframe original aqueles registros com altura parecida à altura daquela atribuída à variável acima.
    # Quando digo altura parecida, neste, caso, quero me refirir a, dando como exemplo uma altura 168, 
    # alturas q estejam entre 167.8 e 168.2.
    alturas_parecidas = pesos_df[(pesos_df["alturas"] >= altura - .2) & (pesos_df["alturas"] <= altura + .2)]
    
    # Enfim, pego a média arredonda do peso de quem tem alturas parecidas
    mean = np.round(alturas_parecidas["pesos"].mean(), 2)
    
    pesos_df_solution2.loc[index, "pesos"] = mean

In [None]:
# Verificando se temos nulos, filtrando valores nulos:
pesos_df_solution2[pesos_df_solution2["pesos"].isna()]

# Aqui, pode ser que nem todos os valores nulos tenham sido alterados.
# Por que? Possivelmente, essas pessoas que continuaram com valores nulos para o pesos têm
# alturas tão extremas que, ao filtrar por pessoas com alturas parecidas, nada foi encontrado.
# O que fazer? Cabe a cada um a decisão, eu vou DROPAR esses possíveis valores nulos

In [None]:
pesos_df_solution2 = pesos_df_solution2[~pesos_df_solution2["pesos"].isna()]

In [None]:
# Agora, vou falar que o dataframe original será isso que alcançamos com a solução 2.
pesos_df = pesos_df_solution2.copy()

### RENAME

In [None]:
# Uma alternativa para renomear colunas;
# Útil para quando vc quer renomear apenas colunas específicas.
# O valor que deve ser passado para o parâmetro columns deve ser um dictionary, onde cada chave é a coluna que vc quer
# renomear, e os valores são os novos nomes para suas respectivas chaves
# Lembre-se, esse método retorna um novo dataframe, e não atualiza o dataframe original. Uma solução possível é
# adicionar o parametro inplace=True
pesos_df = pesos_df.rename(columns={"pesos": "PESO", "alturas": "ALTURA"})

### PD CUT

In [None]:
# Esse método é ótimo para colocar intervalos de valores numéricos dentro de uma mesma classe
# Por exemplo, quero criar uma nova coluna no nosso dataframe de pesos e alturas que se chame "descrição_altura"
# E nessa coluna, o que teremos será valores como "altona", "alta-ok", "media", "baixa-ok", "baixinha", dependendo da 
# altura da pessoa

# Primeiro definimos os limites de cada classe.
# Normalmente, chamamos a lista que vai armazenar esses limites de bin_edges
bin_edges = [0, 150, 160, 170, 180, 200]

# Após, definimos os rótulos de cada classe.
labels = ["baixinha", "baixa-ok", "média", "alta-ok", "altona"]


# Com os valores acima, definimos que:
#   0 < altura <= 150: Baixinha
# 150 < altura <= 160: Baixa-ok
# 160 < altura <= 170: Média
# 170 < altura <= 180: Alta-ok
# 180 < altura <= 200: Altona

# Enfim, criamos a nova coluna e atribuímos a ela aquilo que foi retornado de pd.cut com os parâmetros acima.

pesos_df["descricao_altura"] = pd.cut(pesos_df["ALTURA"], bin_edges, labels=labels)

In [None]:
pesos_df

### VALUE COUNTS

In [None]:
# O value counts faz exatamente isso: conta a quantidade de cada valor
# No nosso caso, eu quero contar quantas pessoas de cada altura temos

pesos_df["descricao_altura"].value_counts()

### STR CONTAINS

In [None]:
# Assim como o método .isin(); o .str.contains() é um método muito útil para filtrar colunas do tipo object (string do pandas)
# Ele basicamente filtra todos os registros que tenham aquele pedaço de string que vc passou como parâmetro.
# No exemplo abaixo, eu vou filtrar todos os registros que tenham, na coluna "descricao_altura" o caractere 'é'

pesos_df[pesos_df["descricao_altura"].str.contains("é")]

### CHALLENGE
Neste desafio, eu quero que as bonitas criem uma nova coluna que vai se chamar IMC e que essa coluna terá o respectivo IMC de cada registro.

Após, eu quero que criem a coluna que vai descrever o peso das pessoas a partir do IMC, assim como eu fiz em semanas atrás para Billie Eilish, Lady Gaga e outra cantora que esqueci com "barriga macia", "raquitica" e "de boa". No entanto, vocês podem rotular cada intervalo como preferirem.

Good luck :3

In [None]:
pesos_df["IMC"] = pesos_df["PESO"] / (pesos_df["ALTURA"]/100)**2

In [None]:
#definindo os intervalos
bin_edges = [0, 18.5, 24.9, 29.9, 34.9, 39.9, 100]

#definindo os rótulos de cada intervalo
labels = ["Baixo Peso", "Saudável", "Sobrepeso", "Obesidade grau I", "Obesidade grau II", "Obesidade grau III"] 

#criar a nova coluna e adicionar a ela os valores e seus respectivos nomes. Para isso, usar pd.cut()
pesos_df["descricao_imc"] = pd.cut(pesos_df["IMC"], bin_edges, labels=labels)

In [None]:
pesos_df

In [None]:
pesos_df["descricao_imc"].value_counts()

In [None]:
# Formas diferentes de deletar uma coluna

# pesos_df.drop(labels="IMC", axis=1, inplace=True)

# pesos_df = pesos_df.drop(labels="IMC", axis=1)

# pesos_df = pesos_df[["PESO", "ALTURA", "descricao_altura", "descricao_imc"]]