# Pandas: conhecendo a biblioteca

## Conhecendo a base de dados

In [None]:
import pandas as pd

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas1/aluguel.csv'
pd.read_csv(url)

In [None]:
dados = pd.read_csv(url, sep=';')
dados

In [None]:
dados.head(10)

In [None]:
type(dados)

In [None]:
dados.shape

In [None]:
dados.columns

In [None]:
dados.info()

In [None]:
dados[['Quartos', 'Valor']]

### Desafio
Para praticar os métodos aprendidos no decorrer dessa aula e também aprender novos, vamos realizar algumas análises utilizando um arquivo csv diferente: [alunos.csv](https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv).

**1)** Importe o arquivo alunos.csv e armazene seu conteúdo em um DataFrame Pandas.

**2)** Visualize as primeiras 7 linhas do DataFrame e as 5 últimas.

**3)** Confira a quantidade de linhas e colunas desse DataFrame.

**4)** Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna.

**Extra:** Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc). **Dica**: pesquise pelo método **describe**.

In [None]:
url = 'https://raw.githubusercontent.com/lukaswyllis/formacao_python_para_data_science/refs/heads/master/pandas1/alunos.csv'
alunos = pd.read_csv(url)

In [None]:
alunos.head(7)

In [None]:
alunos.tail(5)

In [None]:
alunos.shape

In [None]:
alunos.info()

In [None]:
alunos.describe()

## Análise exploratória dos dados

In [None]:
dados.head()

In [None]:
dados['Valor'].mean()

In [None]:
dados.groupby('Tipo').mean(numeric_only=True)

In [None]:
dados.groupby('Tipo')['Valor'].mean()

In [None]:
dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

In [None]:
df_preco_tipo = dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

In [None]:
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color='purple')

In [None]:
dados.Tipo.unique()

In [None]:
imoveis_comerciais = ['Conjunto Comercial/Sala',
                      'Prédio Inteiro', 'Loja/Salão',
                      'Galpão/Depósito/Armazém',
                      'Casa Comercial', 'Terreno Padrão',
                      'Loja Shopping/ Ct Comercial',
                      'Box/Garagem', 'Chácara',
                      'Loteamento/Condomínio', 'Sítio',
                      'Pousada/Chalé', 'Hotel', 'Indústria']

In [None]:
dados.query('@imoveis_comerciais in Tipo')

In [None]:
dados.query('@imoveis_comerciais not in Tipo')

In [None]:
df = dados.query('@imoveis_comerciais not in Tipo')
df.head()

In [None]:
df.Tipo.unique()

In [None]:
df_preco_tipo = df.groupby('Tipo')[['Valor']].mean().sort_values('Valor')
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color='purple')

In [None]:
df.Tipo.value_counts(normalize=True)

In [None]:
df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo', ascending=False)

In [None]:
df_percentual_tipo = df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo', ascending=False)
df_percentual_tipo.plot(kind='bar', figsize=(14, 10), color='green', xlabel = 'Tipos', ylabel = 'Percentual')

In [None]:
df_apartamentos = df.query('Tipo == "Apartamento"')
df_apartamentos

In [None]:
df_apartamentos['Bairro'].value_counts()

### Desafio 2
O time de ML chegou com algumas demandas de última hora para resolvermos nesse momento da análise exploratória. Essas demandas são:

**1)** Calcular a média de quartos por apartamento;

**2)** Conferir quantos bairros únicos existem na nossa base de dados;

**3)** Analisar quais bairros possuem a média de valor de aluguel mais elevadas;

**4)** Criar um gráfico de barras horizontais que apresente os 5 bairros com as médias de valores de aluguel mais elevadas.

In [None]:
apartamentos = dados.query('Tipo == "Apartamento"')
apartamentos['Quartos'].mean()

In [None]:
len(dados['Bairro'].unique()) # contagem de bairros únicos

In [None]:
dados['Bairro'].nunique() # contagem de bairros únicos, variação

In [None]:
apts_caros = apartamentos.groupby('Bairro')['Valor'].mean().sort_values(ascending=False).head()

In [None]:
apts_caros.plot(kind='barh', color='blue', xlabel = 'Bairros', ylabel='Média de Aluguel', figsize=(7,4))

## Tratando e filtrando dados

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

In [None]:
df.fillna(0)

In [None]:
df = df.fillna(0)

In [None]:
df.isnull().sum()

In [None]:
apartamentos = df.query('Tipo == "Apartamento"')
apartamentos

In [None]:
registros_a_remover = apartamentos.query('Valor == 0 | Condominio == 0').index

In [None]:
apartamentos.drop(registros_a_remover, axis=0, inplace = True) # Axis 0 = remover linhas, Axis 1 = remover colunas

In [None]:
apartamentos

In [None]:
apartamentos.query('Valor == 0 | Condominio == 0')

In [None]:
apartamentos.Tipo.unique()

In [None]:
apartamentos.drop('Tipo', axis=1, inplace=True)
apartamentos

In [None]:
apartamentos.query('Quartos == 1 & Valor < 1200') # Filtro comum com o query

In [None]:
selecao1 = apartamentos['Quartos'] == 1

In [None]:
apartamentos[selecao1]

In [None]:
selecao2 = apartamentos['Valor'] < 1200

In [None]:
apartamentos[selecao2]

In [None]:
selecao_final = (selecao1) & (selecao2)
selecao_final

In [None]:
apartamentos[selecao_final]

In [None]:
df_1 = apartamentos[selecao_final]

In [None]:
df_1

In [None]:
selecao = (apartamentos['Quartos'] >= 2) & (apartamentos['Valor'] < 3000) & (apartamentos['Area'] > 70)

In [None]:
df_2 = apartamentos[selecao]

In [None]:
df_2

In [None]:
selecao = (apartamentos['Area'] > 80) | (apartamentos['Area'] < 4000)
apartamentos[selecao]

In [None]:
apartamentos.to_csv('dados_apartamentos.csv', index=False)

In [None]:
teste = pd.read_csv('dados_apartamentos.csv')
teste

In [None]:
apartamentos.to_csv('dados_apartamentos2.csv', index=False, sep=';')

In [None]:
teste = pd.read_csv('dados_apartamentos2.csv')
teste

In [None]:
teste = pd.read_csv('dados_apartamentos2.csv', sep=';')
teste

### Desafio 3
Durante o desenvolvimento do nosso projeto, nós aplicamos alguns filtros na nossa base de dados e salvamos os DataFrames resultantes em diferentes variáveis, sendo elas: df_1 e df_2.

Com base nisso, salve esses DataFrames em 2 arquivos csv distintos para que o time de ML possa ter acesso a esses dados de forma mais prática.


In [None]:
df_1.to_csv('lista_apartamentos1.csv', index=False, sep=';')
df_2.to_csv('lista_apartamentos2.csv', index=False, sep=';')

### Desafio: bora praticar?
Para praticar os métodos aprendidos no decorrer dessa aula e também aprender novos, vamos realizar alguns tratamentos e seleções utilizando um arquivo csv diferente: alunos.csv.

Esse arquivo é o mesmo utilizado para resolução dos desafios da aula 1 e possui dados referentes a alunos de um curso superior.

Com base nisso, solucione os problemas propostos abaixo utilizando os conhecimentos adquiridos até aqui.

1) Verifique se a base de dados possui dados nulos e, caso tenha, realize o tratamento desses dados nulos da forma que achar mais coerente com a situação.

2) Os alunos "Alice" e "Carlos", não fazem mais parte da turma. Sendo assim, remova-os da base de dados.

3) Aplique um filtro que selecione apenas os alunos que foram aprovados.

4) Salve o DataFrame que possui apenas os alunos aprovados em um arquivo csv chamado "alunos_aprovados.csv".

Extra: Ao conferir as notas dos alunos aprovados, notamos que algumas notas estavam incorretas. As alunas que tiraram nota 7.0, na verdade, tinham um ponto extra que não foi contabilizado. Sendo assim, substitua as notas 7.0 da base de dados por 8.0. Dica: pesquise pelo método replace.

In [None]:
alunos.isnull().sum()
alunos['Notas'].fillna(0, inplace=True)

In [None]:
alunos_removidos = alunos.query('Nome in ("Alice", "Carlos")').index
alunos.drop(alunos_removidos, inplace=True)
alunos

In [None]:
aprovados = alunos.query('Aprovado == True')

In [None]:
aprovados

In [None]:
aprovados.to_csv('alunos_aprovados.csv', sep=';', index=False)

In [None]:
alunos['Notas'].replace(7, 8, inplace=True)
alunos

## Manipulando dados

In [None]:
dados.fillna(0, inplace=True)

In [None]:
dados

In [None]:
dados['Valor_por_mes'] = dados['Valor'] + dados['Condominio']
dados

In [None]:
dados['Valor_por_ano'] = dados['Valor_por_mes']*12 + dados['IPTU']
dados

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' + dados['Bairro']
dados

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' + dados['Bairro'] + ' com ' + dados['Quartos'] + ' quartos ' + ' e ' + dados['Vagas'] + ' vagas de garagem.'
dados

In [None]:
dados['Descricao'] = dados['Tipo'] + ' em ' + dados['Bairro'] + ' com ' + dados['Quartos'].astype(str) + ' quartos ' + ' e ' + dados['Vagas'].astype(str) + ' vagas de garagem.'
dados

In [None]:
dados['Possui_suite'] = dados['Suites'].apply(lambda x: 'Sim' if x > 0 else 'Não')
dados

In [None]:
dados.to_csv('dados_completos.csv', index=False, sep=';')

In [None]:
indicador = {'Cooperativas': [1001, 1002, 1003], 'IB': [12, 15, 20]}
rating = pd.DataFrame(indicador)

In [None]:
def calcula_faixa_ib(ib):
  if ib <= 10:
    return 1 # faixa 1
  elif ib >= 11 and ib <= 14:
    return 2 # faixa 2
  elif ib >= 15 and ib <= 18:
    return 3 # faixa 3
  elif ib >= 19:
    return 4 # faixa 4
  else:
    return -1 # erro


In [None]:
rating['Faixa'] = rating['IB'].apply(calcula_faixa_ib)
rating

### Desafio: bora praticar?
Para praticar os métodos aprendidos no decorrer dessa aula e também aprender novos, vamos realizar alguns tratamentos e seleções utilizando um arquivo csv diferente: alunos.csv.

Esse arquivo é o mesmo utilizado para resolução dos desafios da aula 1 e 3 e possui dados referentes a alunos de um curso superior. Com base nisso, solucione os problemas propostos abaixo utilizando os conhecimentos adquiridos até aqui.

1) Os alunos participaram de uma atividade extracurricular e ganharam pontos extras. Esses pontos extras correspondem a 40% da nota atual de cada um deles. Com base nisso, crie uma coluna chamada "Pontos_extras" que contenha os pontos extras de cada aluno, ou seja, 40% da nota atual deles.

2) Crie mais uma coluna, chamada "Notas_finais" que possua as notas de cada aluno somada com os pontos extras.

3) Como houve uma pontuação extra, alguns alunos que não tinham sido aprovados antes podem ter sido aprovados agora. Com base nisso, crie uma coluna chamada "Aprovado_final" com os seguintes valores:

True: caso o aluno esteja aprovado (nota final deve ser maior ou igual a 6);
False: caso o aluno esteja reprovado (nota final deve ser menor que 6).

4) Faça uma seleção e verifique quais alunos não tinham sido aprovados anteriormente, mas foram aprovados após a soma dos pontos extras.

Caso queira, deixo disponibilizado um notebook para resolver os desafios. Você pode baixá-lo e fazer upload no Google Drive ou direto no Google Colab para realizar os desafios dessa e das próximas aulas.

Se precisar de ajuda, na seção "Opinião do Instrutor", você pode encontrar algumas formas de resolver os desafios propostos acima.



In [None]:
alunos['Pontos_extras'] = alunos['Notas'] * 0.4
alunos

In [None]:
alunos['Notas_finais'] = alunos['Notas'] + alunos['Pontos_extras']
alunos

In [None]:
alunos['Aprovado_final'] = alunos['Notas_finais'].apply(lambda x: True if x >= 6 else False)
alunos

In [None]:
novos_aprovados = alunos.query('Aprovado == False & Aprovado_final == True')
novos_aprovados