## Descrição

Esse notebook foi construído para realizar os desafios propostos no final de cada aula do curso **Pandas: conhecendo a biblioteca**

## Aula 1: Conhecendo a base de dados

### Desafio 1
Importe o arquivo [**alunos.csv**](https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv) e armazene seu conteúdo em um DataFrame Pandas

In [2]:
import pandas as pd

In [4]:
CSV_URL = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv'

In [6]:
df_alunos = pd.read_csv(CSV_URL)

In [7]:
df_alunos.head()

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True


### Desafio 2
Visualize as primeiras 7 linhas do DataFrame e as 5 últimas

In [8]:
df_alunos.head()

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True


In [9]:
df_alunos.tail()

Unnamed: 0,Nome,Idade,Notas,Aprovado
13,Mirla,25,9.0,True
14,Paulo,37,,False
15,Mylena,29,7.0,True
16,Lucas,33,,False
17,Nadia,34,8.0,True


### Desafio 3
Confira a quantidade de linhas e colunas do DataFrame

In [10]:
df_alunos.shape

(18, 4)

### Desafio 4
Explore as colunas do DataFrame e analise os tipos dos dados presentes em cada coluna

In [11]:
df_alunos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18 entries, 0 to 17
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Nome      18 non-null     object 
 1   Idade     18 non-null     int64  
 2   Notas     12 non-null     float64
 3   Aprovado  18 non-null     bool   
dtypes: bool(1), float64(1), int64(1), object(1)
memory usage: 578.0+ bytes


In [12]:
df_alunos.isnull().sum()

Nome        0
Idade       0
Notas       6
Aprovado    0
dtype: int64

### **Extra**
Calcule algumas estatísticas descritivas básicas dos dados do DataFrame (média, desvio padrão, etc) - Dica: pesquise pelo método **describe**

In [13]:
df_alunos.describe()

Unnamed: 0,Idade,Notas
count,18.0,12.0
mean,25.5,6.8
std,6.070662,2.204953
min,18.0,2.5
25%,21.0,5.45
50%,24.5,7.0
75%,28.75,8.25
max,37.0,10.0


## Aula 2: Análise exploratória dos dados

Para os desafios dessa aula, vamos utilizar a mesma base de dados que estamos utilizando para o desenvolvimento do nosso projeto. Sendo assim, na célula abaixo vamos realizar a importação dessa base de dados e aplicar as transformações já realizadas até o momento da aula 2.

In [14]:
import pandas as pd

In [15]:
# importando a base de dados
url = 'https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/base-de-dados/aluguel.csv'
dados = pd.read_csv(url, sep=';')

In [16]:
imoveis_comerciais = ['Conjunto Comercial/Sala',
                      'Prédio Inteiro', 'Loja/Salão',
                      'Galpão/Depósito/Armazém',
                      'Casa Comercial', 'Terreno Padrão',
                      'Loja Shopping/ Ct Comercial',
                      'Box/Garagem', 'Chácara',
                      'Loteamento/Condomínio', 'Sítio',
                      'Pousada/Chalé', 'Hotel', 'Indústria']

# removendo imóveis comerciais
df = dados.query('@imoveis_comerciais not in Tipo')

# selecionando apenas imóveis do tipo apartamento
df = df.query('Tipo == "Apartamento"')

# visualizando a base de dados
df.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
10,Apartamento,Centro,1,0,0,36,1200.0,,


### Desafio 1
Calcular a média de quartos por apartamento

In [19]:
round(dados['Quartos'].mean())

2

### Desafio 2
Conferir quantos bairros únicos existem na nossa base de dados

In [23]:
print('Bairros: %d' % len(dados['Bairro'].unique()))

Bairros: 162


### Desafio 3
Analisar quais bairros possuem a média de valor de aluguel mais elevadas

In [28]:
dados.groupby('Bairro')[['Valor']].mean().sort_values('Valor', ascending=False).head()

Unnamed: 0_level_0,Valor
Bairro,Unnamed: 1_level_1
Jacarepaguá,314143.489637
Irajá,154610.470588
Caju,120264.782609
Vasco da Gama,120000.0
Cidade Nova,88166.692308


### Desafio 4
Criar um gráfico de barras verticais que apresente os 5 bairros com a média de valor de aluguel mais elevadas

In [29]:
aluguel_top_5 = dados.groupby('Bairro')[['Valor']].mean().sort_values('Valor', ascending=False).head()

In [30]:
import plotly.express as px

In [31]:
px.bar(aluguel_top_5)

## Aula 3

Importe novamente o arquivo [**alunos.csv**](https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv) para realizar os desafios abaixo.

In [33]:
# Importando novamente os dados
df_alunos.head()

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Ana,18,,False
2,Cátia,27,2.5,False
3,Denis,18,5.0,False
4,Beto,21,10.0,True


### Desafio 1
Verifique se a base de dados possui dados nulos e caso tenha, realize o tratamento desses dados nulos

In [34]:
df_alunos.isnull().sum()

Nome        0
Idade       0
Notas       6
Aprovado    0
dtype: int64

In [35]:
df_alunos.fillna(0, inplace=True)

In [36]:
df_alunos.isnull().sum()

Nome        0
Idade       0
Notas       0
Aprovado    0
dtype: int64

### Desafio 2
Os alunos "Alice" e "Carlos", não fazem mais parte da turma. Sendo assim, remova-os da base de dados

In [47]:
df_alunos.drop(df_alunos.query('Nome in ("Alice", "Carlos")').index, inplace=True)

### Desafio 3
Aplique um filtro que selecione apenas os alunos que foram aprovados

In [49]:
df_alunos[df_alunos['Aprovado']]

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
4,Beto,21,10.0,True
6,Dara,21,7.0,True
12,Sthefanie,26,9.5,True
13,Mirla,25,9.0,True
15,Mylena,29,7.0,True
17,Nadia,34,8.0,True


### Desafio 4
Salve o DataFrame que possui apenas os alunos aprovados em um arquivo csv chamado "alunos_aprovados.csv"

In [50]:
df_alunos[df_alunos['Aprovado']].to_csv('alunos_aprovados.csv', index=False, sep=';')

In [52]:
pd.read_csv('alunos_aprovados.csv', sep=';')

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Beto,21,10.0,True
2,Dara,21,7.0,True
3,Sthefanie,26,9.5,True
4,Mirla,25,9.0,True
5,Mylena,29,7.0,True
6,Nadia,34,8.0,True


### **Extra**
Ao conferir as notas dos alunos aprovados, notamos que algumas notas estavam incorretas. As alunas que tiraram nota 7.0, na verdade tinham um ponto extra que não foi contabilizado. Sendo assim, substitua as notas 7.0 da base de dados por 8.0. **Dica**: pesquise pelo método **replace**

In [53]:
df_aprovados = pd.read_csv('alunos_aprovados.csv', sep=';')

In [56]:
df_aprovados['Notas'].replace({7.0: 8.0}, inplace=True)

In [57]:
df_aprovados

Unnamed: 0,Nome,Idade,Notas,Aprovado
0,Ary,20,7.5,True
1,Beto,21,10.0,True
2,Dara,21,8.0,True
3,Sthefanie,26,9.5,True
4,Mirla,25,9.0,True
5,Mylena,29,8.0,True
6,Nadia,34,8.0,True


In [58]:
df_aprovados.to_csv('alunos_aprovados.csv', index=False, sep=';')

## Aula 4

Importe novamente o arquivo [**alunos.csv**](https://raw.githubusercontent.com/alura-cursos/pandas-conhecendo-a-biblioteca/main/desafios/alunos.csv) para realizar os desafios abaixo.

In [82]:
# Importando novamente os dados
df_alunos = pd.read_csv(CSV_URL)

### Desafio 1
Os alunos participaram de uma atividade extracurricular e ganharam pontos extras. Esses pontos extras correspondem a 40% da nota atual de cada um deles. Com base nisso, crie uma coluna chamada "Pontos_extras" que contenha os pontos extras de cada aluno, ou seja, 40% da nota atual deles

In [83]:
df_alunos.fillna(0, inplace=True)

In [84]:
df_alunos['Pontos_extras'] = df_alunos['Notas'] * .4

### Desafio 2
Crie mais uma coluna, chamada "Notas_finais" que possua as notas de cada aluno somada com os pontos extras

In [85]:
import numpy as np

In [86]:
df_alunos['Notas_finais'] = np.clip(df_alunos['Notas'] + df_alunos['Pontos_extras'], 0, 10)

In [87]:
df_alunos

Unnamed: 0,Nome,Idade,Notas,Aprovado,Pontos_extras,Notas_finais
0,Ary,20,7.5,True,3.0,10.0
1,Ana,18,0.0,False,0.0,0.0
2,Cátia,27,2.5,False,1.0,3.5
3,Denis,18,5.0,False,2.0,7.0
4,Beto,21,10.0,True,4.0,10.0
5,Bruna,23,0.0,False,0.0,0.0
6,Dara,21,7.0,True,2.8,9.8
7,Carlos,19,6.0,True,2.4,8.4
8,Alice,35,5.6,False,2.24,7.84
9,Vitor,28,0.0,False,0.0,0.0


### Desafio 3
Como os alunos ganharam pontos extras, alguns que não tinham sido aprovados antes podem ter sido aprovados agora. Com base nisso, crie uma coluna chamada "Aprovado_final" com os seguintes valores:

* True: caso o aluno esteja aprovado (nota final deve ser maior ou igual a 6);
* False: caso o aluno esteja reprovado (nota final deve ser menor que 6).


In [88]:
df_alunos['Aprovado'].sum()

8

In [89]:
df_alunos['Aprovado_final'] = df_alunos['Notas_finais'] >=6

In [90]:
df_alunos['Aprovado_final'].sum()

11

### Desafio 4
Faça uma seleção e verifique quais alunos não tinham sido aprovados anteriormente, mas foram aprovados após a soma dos pontos extras

In [96]:
filtro_aprovado_depois = (~df_alunos['Aprovado']) & (df_alunos['Notas_finais'] >= 6)
df_alunos[filtro_aprovado_depois]

Unnamed: 0,Nome,Idade,Notas,Aprovado,Pontos_extras,Notas_finais,Aprovado_final
3,Denis,18,5.0,False,2.0,7.0,True
8,Alice,35,5.6,False,2.24,7.84,True
11,Igor,24,4.5,False,1.8,6.3,True
