# Dados RESITIC

Criando e tratando um conjunto de dados com informações sobre os residentes da Residência em Tecnologia (TIC18) que podem ajudar a determinar o perfil dos residentes.

## Descrição do conjunto de dados

- **Identificador** : Uma chave que segue o padrao tic18PY-XXXXX, onde XXXXX é um numero iniciado com os 3 primeiros digitos do CPF do residente e os dois ultimos digitos são o ano de naascimento do residente.
- **Idade**: Idade do residente.
- **Formação**: Um numero inteiro, sendo:
  - 0: Formação técnica.
  - 1: Formação técnica graduação em andamento
  - 2: Graduação em andamento
  - 3: Graduação concluída
- **Área de formação Geral**: Se a formação do residente não for 0 (Formação técnica), então é um número inteiro, sendo:
  - 0: Engenharia
  - 1: Computação
- **Área de formação Específica**: Se a formação do residente não for 0 (Formação técnica) o campo sera uma string com o curso especícifo que está cursando ou cursou.
- **Andamento de graduação**: Se a formação do residente for 1 ou 2, possui um numero de ponto flutuante que indica o percentual de andamento do curso.
- **Tempo de formado**: Se a formação do residente for 3, possui um numero inteiro que indica o tempo de formado em anos.
- **Experiencia previa em programação**: Verdadeiro ou falso indicando se o residente possui experiência prévia em programação.

In [1]:
import pandas as pd

# Exercicio 1: Criando um conjunto de dados


In [2]:
# dados da equipe
identificador = ["tic18Py08200", "tic18Py86001", "tic18Py05999"]
idade = [23, 22, 24]
formacao = [1, 1, 2]
formacao_geral = [1, 1, 0]
formacao_especifica = ["Ciência da Computação", "Ciência da Computação", "Engenharia Elétrica"]
andamento_graduacao = [66.0, 66.0, 99.0]
tempo_formacao = [None, None, None]
experiencia_previa = [True, True, True]

# Exercicio 2: Trabalhando com Series

## Criando as series

In [3]:
index = pd.Index(identificador) # criar um indice para as series

# criando series
idade = pd.Series(idade, index = index)
formacao = pd.Series(formacao, index = index)
formacao_geral= pd.Series(formacao_geral, index = index)
formacao_especifica = pd.Series(formacao_especifica, index = index)
andamento_graduacao = pd.Series(andamento_graduacao, index = index)
tempo_formacao = pd.Series(tempo_formacao, index = index).fillna(0)
experiencia_previa = pd.Series(experiencia_previa, index = index)

## Criando Funções para trabalhar com as series

In [4]:
def mediaIdade(idades):
    '''
        Retorna a media de idades
        Entrada: idades (Series)
        Saida: media de idades (float)
    '''
    return idades.mean()

In [5]:
def membroMaisNovo(idades):
    '''
        Retorna a idade do membro mais novo
        Entrada: idades (Series)
        Saida: idade minima (float)
    '''
    return idades.min()

In [6]:
def membroMaisVelho(idades):
    '''
        Retorna a idade do membro mais novo
        Entrada: idades (Series)
        Saida: idade maxima (float)
    '''
    return idades.max()

In [7]:
def formacaoPredominante(formacoes): 
    '''
        Retorna uma lista com a formacao predominante na series, podendo ser 
        Técnico - Caso formação tecnica ou formação tecnica com graduação em andamento,
        Graduando - Caso graduação em andamento,
        Graduado - Caso graduação concluida
        Entrada: formacoes (Series)
        Saida: lista com a formacao predominante (list), podendo ter mais de um 
        elemento caso haja empate
        
    '''
    moda = formacoes.mode()
    predominate = []
    for i in moda:
        if i == 0 or i == 1:
            predominate.append('Técnico')
        elif i == 2:
            predominate.append('Graduando')
        else:
            predominate.append('Graduado') 
        
    return predominate

In [8]:
def formacaoGeralPredominante(formacoesGerais):
    '''
        Retorna uma lista com a formacao geral predominante na series, podendo ser 
        Engenharia - Caso Engenharia
        Computação - Caso Computação
        Entrada: formacoesGerais (Series)
        Saida: lista com a formacao geral predominante (list), podendo ter mais de um 
        elemento caso haja empate
    '''
    formacoesGeraisPosssiveis = {
        0: "Engenharia",
        1: "Computação"
    }
    
    moda = formacoesGerais.mode()
    return [formacoesGeraisPosssiveis[i] for i in moda]

## Perfil do residente

In [9]:
mediaIdade(idade)

23.0

## Formação predominante

In [10]:
formacaoPredominante(formacao)

['Técnico']

## Formação geral predominante

In [11]:
formacaoGeralPredominante(formacao_geral)

['Computação']

# Exercicio 3: Trabalhando com DataFrames

In [12]:
data = pd.DataFrame({'Idade': idade, 'Formação': formacao, 
                        'Formação Geral': formacao_geral, 'Formação Específica': formacao_especifica, 
                        'Andamento Graduação': andamento_graduacao, 'Tempo Formação': tempo_formacao, 
                        'Experiência Prévia': experiencia_previa}, index = index)

# pegando informações do dataframe
print("Média de idade: ", mediaIdade(data.loc[:, 'Idade']))
print("Membro mais novo: ", membroMaisNovo(data.loc[:, 'Idade']))
print("Membro mais velho: ", membroMaisVelho(data.loc[:, 'Idade']))
print("Formação predominante: ", formacaoPredominante(data.loc[:, 'Formação']))
print("Formação geral predominante: ", formacaoGeralPredominante(data.loc[:, 'Formação Geral']))

data

Média de idade:  23.0
Membro mais novo:  22
Membro mais velho:  24
Formação predominante:  ['Técnico']
Formação geral predominante:  ['Computação']


Unnamed: 0,Idade,Formação,Formação Geral,Formação Específica,Andamento Graduação,Tempo Formação,Experiência Prévia
tic18Py08200,23,1,1,Ciência da Computação,66.0,0,True
tic18Py86001,22,1,1,Ciência da Computação,66.0,0,True
tic18Py05999,24,2,0,Engenharia Elétrica,99.0,0,True


# Exercicio 4: Trabalhando com MultiIndex

## Criando tabela com dados dos residentes

In [13]:
def criar_index(equipe, abreviacao, turma):
    '''
        Cria codigos de identificacao para os membros da equipe de uma determinada turma.
        Entrada:
            equipe: DataFrame com os dados dos membros da equipe
            abreviacao: string com a abreviacao da turma
            turma: string com o nome da turma
        Saida:
            Lista de tuplas (codigo, turma), onde codigo é uma string com o codigo de identificacao
            formado por tic18 + abreviacao + CPF (3 digitos) + ano de nascimento (2 digitos)
    '''
    equipe['CPF (3 digitos)'] = equipe['CPF (3 digitos)'].astype(str).str.zfill(3)
    equipe['Ano nascimento'] = equipe['Ano nascimento'].astype(str).str.zfill(2).str[-2::]
    
    index = [('tic18'+ abreviacao+ equipe.loc[i, 'CPF (3 digitos)'] + equipe.loc[i, 'Ano nascimento'], turma) for i in range(len(equipe))]
    return index

In [14]:
equipe1 = pd.read_csv('dadosEquipes/Resitic - Equipe1.csv', index_col = False)
equipe2 = pd.read_csv('dadosEquipes/Resitic - Equipe2.csv', index_col = False)
equipe3 = pd.read_csv('dadosEquipes/Resitic - Equipe3.csv', index_col = False)

# criando indices com tupla (identificador, turma)
indice1 = criar_index(equipe1, 'Py', 'Python')
indice2 = criar_index(equipe2, 'Net', '.Net')
indice3 = criar_index(equipe3, 'Jav', 'Java')

# criando multiindex
index = indice1 + indice2 + indice3
index = pd.MultiIndex.from_tuples(index, names=['Identificador', 'Turma'])


# criando dataframa
turmas = pd.concat([equipe1, equipe2, equipe3])
turmas = turmas.drop(columns = ['CPF (3 digitos)', 'Ano nascimento']) # removendo colunas desnecessárias
turmas = pd.DataFrame(turmas.values, 
                      columns= ['Idade', 'Formação', 'Formação Geral', 'Formação Específica', 'Andamento Graduação', 
                                'Tempo Formação', 'Experiência Prévia'],  
                      index = index)

turmas.unstack().stack()
turmas



Unnamed: 0_level_0,Unnamed: 1_level_0,Idade,Formação,Formação Geral,Formação Específica,Andamento Graduação,Tempo Formação,Experiência Prévia
Identificador,Turma,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
tic18Py08200,Python,23,1,1,Ciencia da Computação,0.66,,Sim
tic18Py86001,Python,22,1,1,Ciencia da Computação,0.66,,Sim
tic18Py05999,Python,24,2,0,Engenharia Eletrica,0.99,,Sim
tic18Net06799,.Net,24,3,1,Ciência da Computação,,1.0,True
tic18Net07100,.Net,23,2,0,Engenharia Elétrica,90.16,,True
tic18Net07799,.Net,24,2,0,Engenharia Química,76.94,,True
tic18Net08099,.Net,24,2,0,Engenharia Química,75.58,,True
tic18Net05996,.Net,27,1,0,Engenharia Química,81.38,,True
tic18Jav06894,Java,29,3,1,Análise e Desenvolvimento de Sistemas,78.0,,False
tic18Jav06200,Java,23,2,0,Engenharia Química,72.0,,False


## Limpando dados

In [15]:
# vendo informações sobre o dataframe
turmas.info()
turmas.head()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 13 entries, ('tic18Py08200', 'Python') to ('tic18Jav05800', 'Java')
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Idade                13 non-null     object
 1   Formação             13 non-null     object
 2   Formação Geral       13 non-null     object
 3   Formação Específica  13 non-null     object
 4   Andamento Graduação  11 non-null     object
 5   Tempo Formação       2 non-null      object
 6   Experiência Prévia   13 non-null     object
dtypes: object(7)
memory usage: 1.6+ KB


Unnamed: 0_level_0,Unnamed: 1_level_0,Idade,Formação,Formação Geral,Formação Específica,Andamento Graduação,Tempo Formação,Experiência Prévia
Identificador,Turma,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
tic18Py08200,Python,23,1,1,Ciencia da Computação,0.66,,Sim
tic18Py86001,Python,22,1,1,Ciencia da Computação,0.66,,Sim
tic18Py05999,Python,24,2,0,Engenharia Eletrica,0.99,,Sim
tic18Net06799,.Net,24,3,1,Ciência da Computação,,1.0,True
tic18Net07100,.Net,23,2,0,Engenharia Elétrica,90.16,,True


In [16]:
# convertendo colunas para o tipo correto
turmas['Idade'] = pd.to_numeric(turmas['Idade'], errors = 'coerce')
turmas['Formação'] = pd.to_numeric(turmas['Formação'], errors = 'coerce')
turmas['Formação Geral'] = pd.to_numeric(turmas['Formação Geral'], errors = 'coerce')
turmas['Andamento Graduação'] = pd.to_numeric(turmas['Andamento Graduação'], errors = 'coerce')
turmas['Tempo Formação'] = pd.to_numeric(turmas['Tempo Formação'], errors = 'coerce')


In [17]:

print(turmas['Formação Específica'].unique()) # verificando grafias de cursos

# listas com grafias diferentes de cursos
computacao = ['ciência da computação', 'ciencia da computacão', 'ciencia de computaçao', 'ciencia da computacao', 'ciencia da computação','ciência da computacão', 'ciência de computaçao', 'ciência da computacao']
eletrica = ['engenharia elétrica', 'engenharia eletrica']
quimica = ['engenharia química', 'engenharia quimica']
mecanica = ['engenharia mecânica', 'engenharia mecanica']

# substituindo grafias diferentes de cursos por grafias padronizadas
turmas.loc[:, 'Formação Específica'] = turmas['Formação Específica'].apply(lambda x: 'Ciência da Computação' if x.strip().lower() in computacao else x.capitalize())
turmas.loc[:, 'Formação Específica'] = turmas['Formação Específica'].apply(lambda x: 'Engenharia Elétrica' if x.strip().lower() in eletrica else x.capitalize())
turmas.loc[:, 'Formação Específica'] = turmas['Formação Específica'].apply(lambda x: 'Engenharia Química' if x.strip().lower() in quimica else x.capitalize())
turmas.loc[:, 'Formação Específica'] = turmas['Formação Específica'].apply(lambda x: 'Engenharia Mecânica' if x.strip().lower() in mecanica else x.capitalize())

print(turmas['Formação Específica'].unique())


['Ciencia da Computação' 'Engenharia Eletrica' 'Ciência da Computação'
 'Engenharia Elétrica' 'Engenharia Química'
 'Análise e Desenvolvimento de Sistemas' 'Engenharia química'
 'Engenharia mecânica' 'Engenharia quimica']
['Ciência da computação' 'Engenharia elétrica' 'Engenharia química'
 'Análise e desenvolvimento de sistemas' 'Engenharia Mecânica']


In [18]:
# Padronizando Andamento Graduação
print(turmas['Andamento Graduação'])
turmas.loc[turmas['Andamento Graduação'] < 1, 'Andamento Graduação'] = turmas['Andamento Graduação'] * 100
turmas['Andamento Graduação']

Identificador  Turma 
tic18Py08200   Python     0.66
tic18Py86001   Python     0.66
tic18Py05999   Python     0.99
tic18Net06799  .Net        NaN
tic18Net07100  .Net      90.16
tic18Net07799  .Net      76.94
tic18Net08099  .Net      75.58
tic18Net05996  .Net      81.38
tic18Jav06894  Java      78.00
tic18Jav06200  Java      72.00
tic18Jav86399  Java      70.16
tic18Jav05594  Java        NaN
tic18Jav05800  Java      80.00
Name: Andamento Graduação, dtype: float64


Identificador  Turma 
tic18Py08200   Python    66.00
tic18Py86001   Python    66.00
tic18Py05999   Python    99.00
tic18Net06799  .Net        NaN
tic18Net07100  .Net      90.16
tic18Net07799  .Net      76.94
tic18Net08099  .Net      75.58
tic18Net05996  .Net      81.38
tic18Jav06894  Java      78.00
tic18Jav06200  Java      72.00
tic18Jav86399  Java      70.16
tic18Jav05594  Java        NaN
tic18Jav05800  Java      80.00
Name: Andamento Graduação, dtype: float64

In [19]:
print(turmas['Experiência Prévia'].unique()) # vericanto grafias de experiência

# padronizando a coluna de experiência
turmas.loc[turmas['Experiência Prévia'] == 'Sim', 'Experiência Prévia'] = True
turmas.loc[turmas['Experiência Prévia'] == 'Não', 'Experiência Prévia'] = False
turmas['Experiência Prévia'] = turmas['Experiência Prévia'].astype(bool) # convertendo para booleano

turmas['Experiência Prévia']


['Sim' True False]


Identificador  Turma 
tic18Py08200   Python     True
tic18Py86001   Python     True
tic18Py05999   Python     True
tic18Net06799  .Net       True
tic18Net07100  .Net       True
tic18Net07799  .Net       True
tic18Net08099  .Net       True
tic18Net05996  .Net       True
tic18Jav06894  Java      False
tic18Jav06200  Java      False
tic18Jav86399  Java      False
tic18Jav05594  Java      False
tic18Jav05800  Java      False
Name: Experiência Prévia, dtype: bool

In [20]:
# dataframe com os dados limpos
turmas.info()
turmas

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 13 entries, ('tic18Py08200', 'Python') to ('tic18Jav05800', 'Java')
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Idade                13 non-null     int64  
 1   Formação             13 non-null     int64  
 2   Formação Geral       13 non-null     int64  
 3   Formação Específica  13 non-null     object 
 4   Andamento Graduação  11 non-null     float64
 5   Tempo Formação       2 non-null      float64
 6   Experiência Prévia   13 non-null     bool   
dtypes: bool(1), float64(2), int64(3), object(1)
memory usage: 2.1+ KB


Unnamed: 0_level_0,Unnamed: 1_level_0,Idade,Formação,Formação Geral,Formação Específica,Andamento Graduação,Tempo Formação,Experiência Prévia
Identificador,Turma,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
tic18Py08200,Python,23,1,1,Ciência da computação,66.0,,True
tic18Py86001,Python,22,1,1,Ciência da computação,66.0,,True
tic18Py05999,Python,24,2,0,Engenharia elétrica,99.0,,True
tic18Net06799,.Net,24,3,1,Ciência da computação,,1.0,True
tic18Net07100,.Net,23,2,0,Engenharia elétrica,90.16,,True
tic18Net07799,.Net,24,2,0,Engenharia química,76.94,,True
tic18Net08099,.Net,24,2,0,Engenharia química,75.58,,True
tic18Net05996,.Net,27,1,0,Engenharia química,81.38,,True
tic18Jav06894,Java,29,3,1,Análise e desenvolvimento de sistemas,78.0,,False
tic18Jav06200,Java,23,2,0,Engenharia química,72.0,,False


## Perfil dos residentes

### Trilha Pyhton

In [21]:
print("Média de idade: ", mediaIdade(turmas['Idade'][:,'Python']))
print("Membro mais novo: ", membroMaisNovo(turmas['Idade'][:,'Python']))
print("Membro mais velho: ", membroMaisVelho(turmas['Idade'][:,'Python']))
print("Formação predominante: ", formacaoPredominante(turmas['Formação'][:,'Python']))
print("Formação geral predominante: ", formacaoGeralPredominante(turmas['Formação Geral'][:,'Python']))

Média de idade:  23.0
Membro mais novo:  22
Membro mais velho:  24
Formação predominante:  ['Técnico']
Formação geral predominante:  ['Computação']


### Trilha Java

In [22]:
print("Média de idade: ", mediaIdade(turmas['Idade'][:,'Java']))
print("Membro mais novo: ", membroMaisNovo(turmas['Idade'][:,'Java']))
print("Membro mais velho: ", membroMaisVelho(turmas['Idade'][:,'Java']))
print("Formação predominante: ", formacaoPredominante(turmas['Formação'][:,'Java']))
print("Formação geral predominante: ", formacaoGeralPredominante(turmas['Formação Geral'][:,'Java']))

Média de idade:  25.6
Membro mais novo:  23
Membro mais velho:  29
Formação predominante:  ['Graduando']
Formação geral predominante:  ['Engenharia']


### Trilha .Net

In [23]:
print("Média de idade: ", mediaIdade(turmas['Idade'][:,'.Net']))
print("Membro mais novo: ", membroMaisNovo(turmas['Idade'][:,'.Net']))
print("Membro mais velho: ", membroMaisVelho(turmas['Idade'][:,'.Net']))
print("Formação predominante: ", formacaoPredominante(turmas['Formação'][:,'.Net']))
print("Formação geral predominante: ", formacaoGeralPredominante(turmas['Formação Geral'][:,'.Net']))

Média de idade:  24.4
Membro mais novo:  23
Membro mais velho:  27
Formação predominante:  ['Graduando']
Formação geral predominante:  ['Engenharia']
