# DATA CLEANING - Tratando o cadastro dos alunos
- Utilizaremos a mesma base para dar continuidade ao projeto, nesta, temos a aba `cadastro` com as informações de cadastro de cada aluno em:
    - [alunos.xlsx](https://docs.google.com/spreadsheets/d/1L6i7s0UAx4oHyBEIGNV4u9XB3E7ob2RY/edit?usp=sharing&ouid=113635235784384787412&rtpof=true&sd=true) 
- Nesta planilha há um TokenAluno, o qual é um código interno da escola composto por:
    - Gênero do aluno (M = masculino e F = feminino)
    - 1 ou 0 para aluno mensalista (1 = mensalista e 0 = bolsista)
    - Atividade do aluno (A = ativo e I = inativo)
    - Aluno reprovado (R = reprovado em anos anteriores)
- Entretando esse código pode ser meio confuso e atrapalhar a posterior analise dos dados, então vamos organizar para ficar de uma maneira mais fácil para futura análise.
- Em atividades, é possível verificar se esse aluno realiza atividades esportivas, culturais ou ambas

In [22]:
# Importando o pandas
import pandas as pd

In [23]:
# Importando a base de cadastro
cadastro = pd.read_excel('alunos.xlsx',sheet_name='cadastro')

In [24]:
# Visualizando
cadastro.head(15)

Unnamed: 0,ID_aluno,email,Aniversario,TokenAluno,Atividades
0,1,gustavo@gmail.com,21.11.2005,M1A,Esporte
1,2,miguel@gmail.com,20.06.2005,M1I,
2,3,fernanda@gmail.com,26.11.2005,F1A,Cultural
3,5,lucas@gmail.com,26.08.2006,M1AR,Esporte
4,4,vitor@gmail.com,02.12.2006,M1A,Esporte / Cultural
5,6,aline@gmail.com,20.12.2005,F1A,
6,7,pedro @gmail.com,09.09.2006,M1A,Esporte
7,8,Lara@gmail.com,05.07.2006,F0A,Cultural
8,9,antonio@gmail.com,07.08.2005,M1A,Cultural
9,10,lua@gmail.com,04.06.2006,M1A,


**Verificando se existe algum erro no e-mail**

In [25]:
# Filtrando se algum e-mail não tem @
cadastro[~cadastro.email.str.contains('@')]

Unnamed: 0,ID_aluno,email,Aniversario,TokenAluno,Atividades
13,14,roberta%gmail.com,09.05.2006,F1A,Esporte / Cultural


In [26]:
# Ajustando esse e-mail
cadastro.loc[cadastro.ID_aluno == 14, 'email'] = 'roberta@gmail.com'

In [27]:
# Colocando todos os valores para lowercase
cadastro['email'] = cadastro.email.str.lower()

- Verificando a existência de espaços no e-mail

In [28]:
# Visualizando a lista de e-mail
cadastro.email

0      gustavo@gmail.com 
1        miguel@gmail.com
2      fernanda@gmail.com
3         lucas@gmail.com
4         vitor@gmail.com
5         aline@gmail.com
6        pedro @gmail.com
7          lara@gmail.com
8       antonio@gmail.com
9           lua@gmail.com
10       thiago@gmail.com
11     priscila@gmail.com
12      vitoria@gmail.com
13      roberta@gmail.com
14       carlos@gmail.com
Name: email, dtype: object

In [29]:
# Eliminando os espaços vazios
cadastro.email.str.replace(' ','')

0      gustavo@gmail.com
1       miguel@gmail.com
2     fernanda@gmail.com
3        lucas@gmail.com
4        vitor@gmail.com
5        aline@gmail.com
6        pedro@gmail.com
7         lara@gmail.com
8      antonio@gmail.com
9          lua@gmail.com
10      thiago@gmail.com
11    priscila@gmail.com
12     vitoria@gmail.com
13     roberta@gmail.com
14      carlos@gmail.com
Name: email, dtype: object

In [30]:
# Atualizando a base
cadastro['email'] = cadastro.email.str.replace(' ','')

**Realizando o tratamento das datas**

In [31]:
# Verificando as informações
cadastro.Aniversario.head()

0    21.11.2005
1    20.06.2005
2    26.11.2005
3    26.08.2006
4    02.12.2006
Name: Aniversario, dtype: object

In [32]:
# Transformando em data
cadastro['Aniversario'] = pd.to_datetime(cadastro.Aniversario, format = '%d.%m.%Y')

In [33]:
cadastro.Aniversario.head()

0   2005-11-21
1   2005-06-20
2   2005-11-26
3   2006-08-26
4   2006-12-02
Name: Aniversario, dtype: datetime64[ns]

**Separando o token do aluno nas colunas de gênero, mensalista, atividade e se ele já foi reprovado**

In [34]:
# Verificando a coluna
cadastro.TokenAluno

0      M1A
1      M1I
2      F1A
3     M1AR
4      M1A
5      F1A
6      M1A
7      F0A
8      M1A
9      M1A
10     M1A
11     F0I
12    F1AR
13     F1A
14     M1A
Name: TokenAluno, dtype: object

In [36]:
# O primeiro elemento é o gênero
cadastro['genero'] = cadastro.TokenAluno.str[0]

In [37]:
# Marcando se o aluno é mensalista
cadastro['mensalista'] = cadastro.TokenAluno.str.get(1)

In [38]:
# Fazendo o mesmo para a atividade
cadastro['atividade'] = cadastro.TokenAluno.str[2]

In [39]:
# E para o reprovado
cadastro['reprovado'] = cadastro.TokenAluno.str.get(3)

In [40]:
# Visualizando a base
cadastro

Unnamed: 0,ID_aluno,email,Aniversario,TokenAluno,Atividades,genero,mensalista,atividade,reprovado
0,1,gustavo@gmail.com,2005-11-21,M1A,Esporte,M,1,A,
1,2,miguel@gmail.com,2005-06-20,M1I,,M,1,I,
2,3,fernanda@gmail.com,2005-11-26,F1A,Cultural,F,1,A,
3,5,lucas@gmail.com,2006-08-26,M1AR,Esporte,M,1,A,R
4,4,vitor@gmail.com,2006-12-02,M1A,Esporte / Cultural,M,1,A,
5,6,aline@gmail.com,2005-12-20,F1A,,F,1,A,
6,7,pedro@gmail.com,2006-09-09,M1A,Esporte,M,1,A,
7,8,lara@gmail.com,2006-07-05,F0A,Cultural,F,0,A,
8,9,antonio@gmail.com,2005-08-07,M1A,Cultural,M,1,A,
9,10,lua@gmail.com,2006-06-04,M1A,,M,1,A,


In [41]:
# Podemos trocar os valores vazios da coluna reprovado por N
cadastro['reprovado'] = cadastro.reprovado.fillna('AP')

In [42]:
cadastro

Unnamed: 0,ID_aluno,email,Aniversario,TokenAluno,Atividades,genero,mensalista,atividade,reprovado
0,1,gustavo@gmail.com,2005-11-21,M1A,Esporte,M,1,A,AP
1,2,miguel@gmail.com,2005-06-20,M1I,,M,1,I,AP
2,3,fernanda@gmail.com,2005-11-26,F1A,Cultural,F,1,A,AP
3,5,lucas@gmail.com,2006-08-26,M1AR,Esporte,M,1,A,R
4,4,vitor@gmail.com,2006-12-02,M1A,Esporte / Cultural,M,1,A,AP
5,6,aline@gmail.com,2005-12-20,F1A,,F,1,A,AP
6,7,pedro@gmail.com,2006-09-09,M1A,Esporte,M,1,A,AP
7,8,lara@gmail.com,2006-07-05,F0A,Cultural,F,0,A,AP
8,9,antonio@gmail.com,2005-08-07,M1A,Cultural,M,1,A,AP
9,10,lua@gmail.com,2006-06-04,M1A,,M,1,A,AP


**Marcando os alunos que fazem esporte e que fazem atividades culturais**

In [43]:
# Selecionando alunos que praticam esporte
cadastro['esporte'] = cadastro.Atividades.str.contains('Esporte',na=False)

In [44]:
# E alunos que praticam atividades culturais
cadastro['culturais'] = cadastro.Atividades.str.contains('Cultural',na=False)

In [45]:
# Visualizando a base
cadastro

Unnamed: 0,ID_aluno,email,Aniversario,TokenAluno,Atividades,genero,mensalista,atividade,reprovado,esporte,culturais
0,1,gustavo@gmail.com,2005-11-21,M1A,Esporte,M,1,A,AP,True,False
1,2,miguel@gmail.com,2005-06-20,M1I,,M,1,I,AP,False,False
2,3,fernanda@gmail.com,2005-11-26,F1A,Cultural,F,1,A,AP,False,True
3,5,lucas@gmail.com,2006-08-26,M1AR,Esporte,M,1,A,R,True,False
4,4,vitor@gmail.com,2006-12-02,M1A,Esporte / Cultural,M,1,A,AP,True,True
5,6,aline@gmail.com,2005-12-20,F1A,,F,1,A,AP,False,False
6,7,pedro@gmail.com,2006-09-09,M1A,Esporte,M,1,A,AP,True,False
7,8,lara@gmail.com,2006-07-05,F0A,Cultural,F,0,A,AP,False,True
8,9,antonio@gmail.com,2005-08-07,M1A,Cultural,M,1,A,AP,False,True
9,10,lua@gmail.com,2006-06-04,M1A,,M,1,A,AP,False,False


In [46]:
# Podemos também trocas True e False por 1 e 0
cadastro['esporte'] = cadastro.esporte.apply(lambda x:1 if x else 0)
cadastro['culturais'] = cadastro.culturais.apply(lambda x:1 if x else 0)

In [47]:
# Visualizando
cadastro

Unnamed: 0,ID_aluno,email,Aniversario,TokenAluno,Atividades,genero,mensalista,atividade,reprovado,esporte,culturais
0,1,gustavo@gmail.com,2005-11-21,M1A,Esporte,M,1,A,AP,1,0
1,2,miguel@gmail.com,2005-06-20,M1I,,M,1,I,AP,0,0
2,3,fernanda@gmail.com,2005-11-26,F1A,Cultural,F,1,A,AP,0,1
3,5,lucas@gmail.com,2006-08-26,M1AR,Esporte,M,1,A,R,1,0
4,4,vitor@gmail.com,2006-12-02,M1A,Esporte / Cultural,M,1,A,AP,1,1
5,6,aline@gmail.com,2005-12-20,F1A,,F,1,A,AP,0,0
6,7,pedro@gmail.com,2006-09-09,M1A,Esporte,M,1,A,AP,1,0
7,8,lara@gmail.com,2006-07-05,F0A,Cultural,F,0,A,AP,0,1
8,9,antonio@gmail.com,2005-08-07,M1A,Cultural,M,1,A,AP,0,1
9,10,lua@gmail.com,2006-06-04,M1A,,M,1,A,AP,0,0


**E para finalizar e deixar mais organizado para a anáise, podemos apenas apagar as colunas que não vamos mais utilizar**

In [50]:
# Apagando as colunas
cadastro = cadastro.drop(['TokenAluno'],axis=1)

In [51]:
# Visualizando a base final
cadastro

Unnamed: 0,ID_aluno,email,Aniversario,Atividades,genero,mensalista,atividade,reprovado,esporte,culturais
0,1,gustavo@gmail.com,2005-11-21,Esporte,M,1,A,AP,1,0
1,2,miguel@gmail.com,2005-06-20,,M,1,I,AP,0,0
2,3,fernanda@gmail.com,2005-11-26,Cultural,F,1,A,AP,0,1
3,5,lucas@gmail.com,2006-08-26,Esporte,M,1,A,R,1,0
4,4,vitor@gmail.com,2006-12-02,Esporte / Cultural,M,1,A,AP,1,1
5,6,aline@gmail.com,2005-12-20,,F,1,A,AP,0,0
6,7,pedro@gmail.com,2006-09-09,Esporte,M,1,A,AP,1,0
7,8,lara@gmail.com,2006-07-05,Cultural,F,0,A,AP,0,1
8,9,antonio@gmail.com,2005-08-07,Cultural,M,1,A,AP,0,1
9,10,lua@gmail.com,2006-06-04,,M,1,A,AP,0,0
