In [1]:
import pandas as pd
import numpy as np
import matplotlib as mt
import os

#1.1 Carregar o arquivo csv
berkeley = pd.read_csv("https://waf.cs.illinois.edu/discovery/berkeley.csv")

berkeley.to_csv("./berkeley.csv", index=False)
print("Arquivo salvo com sucesso!")

Arquivo salvo com sucesso!


In [2]:
#Exibir as cinco primeiras linhas
berkeley.head()

Unnamed: 0,Year,Major,Gender,Admission
0,1973,C,F,Rejected
1,1973,B,M,Accepted
2,1973,Other,F,Accepted
3,1973,Other,M,Accepted
4,1973,Other,M,Rejected


In [3]:
#1.2 Exibir as informações gerais do dataset
#1.3 Aqui já podemos determinar que não há dados nulos
#1.4 Aqui podemos verificar se há inconsistências nos dados
#1.5 Não houve inconsistências
berkeley.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12763 entries, 0 to 12762
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Year       12763 non-null  int64 
 1   Major      12763 non-null  object
 2   Gender     12763 non-null  object
 3   Admission  12763 non-null  object
dtypes: int64(1), object(3)
memory usage: 399.0+ KB


In [4]:
#1.3 Confirmar a ausência de valores ausentes por coluna
valores_ausentes = berkeley.isnull().sum()
valores_ausentes[valores_ausentes > 0]

Series([], dtype: int64)

In [5]:
# Converter os nomes das colunas para letras maiúsculas
berkeley.columns = berkeley.columns.str.upper()

# Renomear as colunas
berkeley.rename(columns={
    "MAJOR": "DEPARTAMENTO",
    "GENDER": "GENERO",
    "ADMISSION": "ADMISSAO"
}, inplace=True)

# Exibir o dataset
berkeley.head()

Unnamed: 0,YEAR,DEPARTAMENTO,GENERO,ADMISSAO
0,1973,C,F,Rejected
1,1973,B,M,Accepted
2,1973,Other,F,Accepted
3,1973,Other,M,Accepted
4,1973,Other,M,Rejected


In [6]:
#1.6 Cria novas variáveis derivadas das existêntes
# Foi criado a concorrência sofrida pelo candidato ((Accepted/(Accepted + Rejected))
# Verificar se as colunas necessárias estão presentes
if 'ADMISSAO' in berkeley.columns:
    # Criar uma variável para o total de inscritos por departamento
    total_inscritos = berkeley.groupby('DEPARTAMENTO').count()

    # Calcular o número de "Accepted" por departamento
    accepted_count = berkeley[berkeley['ADMISSAO'] == 'Accepted'].groupby('DEPARTAMENTO')['ADMISSAO'].count()

    # Calcular o número de "Rejected" por departamento
    rejected_count = berkeley[berkeley['ADMISSAO'] == 'Rejected'].groupby('DEPARTAMENTO')['ADMISSAO'].count()

    # Criar uma nova variável que calcula a concorrência
    concorrencia = (accepted_count + rejected_count) / accepted_count

    # Criar uma nova coluna no dataset com base no departamento do candidato
    berkeley['CONCORRENCIA'] = berkeley['DEPARTAMENTO'].map(concorrencia).round(2)

    # Exibir as cinco primeiras linhas do dataset atualizado
    print("\nDataset atualizado com a nova variável 'CONCORRENCIA':")
    print(berkeley.head())
else:
    print("A coluna 'ADMISSAO' não está presente no dataset.")


Dataset atualizado com a nova variável 'CONCORRENCIA':
   YEAR DEPARTAMENTO GENERO  ADMISSAO  CONCORRENCIA
0  1973            C      F  Rejected          2.86
1  1973            B      M  Accepted          1.58
2  1973        Other      F  Accepted          2.50
3  1973        Other      M  Accepted          2.50
4  1973        Other      M  Rejected          2.50


In [7]:
#1.7 Converter tipos de dados
berkeley['ADMISSAO'] = berkeley['ADMISSAO'].astype('category')
print("\nColuna 'ADMISSAO' convertida para tipo 'category'.")

# Exibir as informações gerais do dataset após conversão do tipo
berkeley.info()


Coluna 'ADMISSAO' convertida para tipo 'category'.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12763 entries, 0 to 12762
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   YEAR          12763 non-null  int64   
 1   DEPARTAMENTO  12763 non-null  object  
 2   GENERO        12763 non-null  object  
 3   ADMISSAO      12763 non-null  category
 4   CONCORRENCIA  12763 non-null  float64 
dtypes: category(1), float64(1), int64(1), object(2)
memory usage: 411.6+ KB


In [8]:
berkeley = berkeley.loc[berkeley['DEPARTAMENTO'] != 'Other']

berkeley.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4839 entries, 0 to 12759
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   YEAR          4839 non-null   int64   
 1   DEPARTAMENTO  4839 non-null   object  
 2   GENERO        4839 non-null   object  
 3   ADMISSAO      4839 non-null   category
 4   CONCORRENCIA  4839 non-null   float64 
dtypes: category(1), float64(1), int64(1), object(2)
memory usage: 193.9+ KB


In [9]:
berkeley.head()

Unnamed: 0,YEAR,DEPARTAMENTO,GENERO,ADMISSAO,CONCORRENCIA
0,1973,C,F,Rejected,2.86
1,1973,B,M,Accepted,1.58
6,1973,F,F,Accepted,15.19
9,1973,A,M,Accepted,1.36
11,1973,B,M,Accepted,1.58


In [10]:
# Função para salvar o DataFrame como CSV
def exportar_csv(berkeley, nome_arquivo):
    # Criar a pasta, se necessário
    foldername = os.path.dirname(nome_arquivo)
    if foldername and not os.path.exists(foldername):
        os.makedirs(foldername)

    # Exportar o CSV
    berkeley.to_csv(nome_arquivo, sep=',', index=False)
    print(f"Arquivo salvo em: {nome_arquivo}")

# Salvar o dataset pré-processado
exportar_csv(berkeley, "./berkeley_preprocessado.csv")

Arquivo salvo em: ./berkeley_preprocessado.csv
