In [1]:
import pandas as pd
from datetime import datetime

In [2]:
df = pd.read_csv("dados.csv")

In [3]:
#Limpeza dos dados - Data Cleaning
df.loc[df["Área de atuação em TI"] == "Gestão de projetos", ["Área de atuação em TI"]] = "Gestão de Projetos"
df.loc[df["Área de atuação em TI"] == "Marketing", ["Área de atuação em TI"]] = "Marketing Digital"
df.loc[df["Área de atuação em TI"] == "Telecomunicação", ["Área de atuação em TI"]] = "Telecomunicações"

In [4]:
df.columns

Index(['Data Colação', 'Trabalhando?', 'O que está fazendo?',
       'Área de Atuação', 'Área de atuação em TI',
       'Mudou de trabalho por causa do curso?', 'Contato feito?', 'Empresa',
       'Mudou de região?', 'Finalizado', 'Já trabalhava com TI no curso?'],
      dtype='object')

In [5]:
#Filtra somente os alunos cujos dados estão completos (Finalizado = Sim)
df = df[df["Finalizado"] == "Sim"]

In [6]:
df.shape

(238, 11)

In [7]:
df.head(10)

Unnamed: 0,Data Colação,Trabalhando?,O que está fazendo?,Área de Atuação,Área de atuação em TI,Mudou de trabalho por causa do curso?,Contato feito?,Empresa,Mudou de região?,Finalizado,Já trabalhava com TI no curso?
0,17/03/2017,Sim,,TI,Gestão de TI,Sim,Não,Associação Atlética Ferroviária de Pindamonhan...,,Sim,Sim
1,17/03/2017,Sim,,TI,Sistemas,Sim,Não,,,Sim,
2,17/03/2017,,,,,,Aguardando,,,Sim,
3,17/03/2017,Sim,,Produção,,Não,Não,Liebherr,,Sim,
4,17/03/2017,,,,,,Aguardando,,,Sim,
5,17/03/2017,Sim,,Museu,,Não,Não,Santuário Nacional de Aparecida,,Sim,
6,17/03/2017,Sim,,TI,Educação,Sim,Não,Prefeitura Municipal de Guaratinguetá,,Sim,
7,17/03/2017,Sim,,Qualidade,,Não,Não,Íbis Hotel,,Sim,
8,17/03/2017,Sim,,Estética,,Não,Sim,Empresa própria,,Sim,
9,17/03/2017,Sim,,Administração,,Não,Sim,Empresa própria,,Sim,


In [8]:
#Egressos agrupados por área de atuação
df.groupby(["Área de Atuação"])["Data Colação"].count()

Área de Atuação
Administração             29
Caixa                      1
Contabilidade              1
Cuidador de idosos         1
Design                     3
Educação                   2
Estética                   1
Financeiro                 1
Marketing                  1
Militar                    4
Moda                       1
Motorista                  1
Museu                      1
Produção                   5
Qualidade                  1
Segurança do trabalho      1
TI                       156
Tapeçaria                  1
Turismo                    1
Vendas                     5
Name: Data Colação, dtype: int64

In [9]:
#Egressos de TI que já trabalhavam na área durante o curso
df.groupby(["Área de Atuação", "Já trabalhava com TI no curso?"])["Data Colação"].count()

Área de Atuação  Já trabalhava com TI no curso?
TI               Não                                1
                 Sim                               22
Name: Data Colação, dtype: int64

In [10]:
#Quem trabalha em TI e mudou de trabalho por causa do curso
df[df["Área de Atuação"] == "TI"].groupby(["Mudou de trabalho por causa do curso?"])["Data Colação"].count()

Mudou de trabalho por causa do curso?
Não     16
Sim    140
Name: Data Colação, dtype: int64

In [11]:
#Quais são as sub-áreas de atuação em TI?
df.groupby(["Área de atuação em TI"])["Data Colação"].count()

Área de atuação em TI
Dados                  5
Designer               1
Dev                   70
Educação               3
Gestão de Projetos     6
Gestão de TI           2
Infraestrutura         9
Manutenção             4
Marketing Digital      5
Negócios               3
Processos              1
Redes                  6
Sistemas              19
Suporte               20
Telecomunicações       2
UI/UX                  1
Name: Data Colação, dtype: int64

O curso está melhorando em relação à empregabilidade?

Cria nova coluna 'Ano' baseada na data de coleção

In [12]:
df["Data Colação"] = df["Data Colação"].apply(lambda data: datetime.strptime(data, "%d/%m/%Y"))

In [13]:
df["Ano"] = df["Data Colação"].apply(lambda data: data.year)
df["Semestre"] = df["Data Colação"].apply(lambda data: 'primeiro' if data.month <= 6 else 'segundo')

In [14]:
#Dataframe com a contagem de formados por ano/semestre que trabalham com TI
df_ti_por_semestre = df[df["Área de Atuação"] == "TI"].groupby(["Ano", "Semestre"]).count()

In [15]:
#Dataframe com a contagem de formados por ano/semestre
df_total_por_semestre = df.groupby(["Ano","Semestre"]).count()

In [16]:
df_total_por_semestre.reset_index()
df_ti_por_semestre.reset_index()

Unnamed: 0,Ano,Semestre,Data Colação,Trabalhando?,O que está fazendo?,Área de Atuação,Área de atuação em TI,Mudou de trabalho por causa do curso?,Contato feito?,Empresa,Mudou de região?,Finalizado,Já trabalhava com TI no curso?
0,2017,primeiro,4,4,0,4,4,4,4,3,1,4,1
1,2017,segundo,14,14,0,14,14,14,14,14,3,14,8
2,2018,primeiro,14,14,0,14,14,14,14,14,3,14,2
3,2018,segundo,13,13,0,13,13,13,13,13,2,13,3
4,2019,primeiro,9,9,0,9,9,9,8,8,3,9,3
5,2019,segundo,35,35,0,35,35,35,21,18,6,35,4
6,2020,segundo,19,19,0,19,19,19,4,8,1,19,1
7,2021,primeiro,3,3,0,3,3,3,0,2,0,3,0
8,2021,segundo,1,1,0,1,1,1,0,1,0,1,0
9,2022,primeiro,9,9,0,9,9,9,0,5,0,9,0


In [17]:
#Mesclando dataframes para gerar quantidade de formados por ano/semestre e quantidade daqueles que trabalham com TI
df_mesclado = df_total_por_semestre.merge(df_ti_por_semestre, left_on=["Semestre","Ano"], right_on=["Semestre","Ano"])

In [18]:
df_mesclado.rename(columns={"Data Colação_x": "Formados", "Data Colação_y": "Trabalhando com TI"}, inplace=True)
df_mesclado[["Formados","Trabalhando com TI"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Formados,Trabalhando com TI
Semestre,Ano,Unnamed: 2_level_1,Unnamed: 3_level_1
primeiro,2017,13,4
segundo,2017,28,14
primeiro,2018,22,14
segundo,2018,24,13
primeiro,2019,18,9
segundo,2019,52,35
segundo,2020,24,19
primeiro,2021,3,3
segundo,2021,1,1
primeiro,2022,10,9


In [19]:
df_mesclado["Porcentagem TI"] = df_mesclado["Trabalhando com TI"] / df_mesclado["Formados"]

In [20]:
#Porcentagem de formados Trabalhando com TI
df_mesclado["Porcentagem TI"]

Semestre  Ano 
primeiro  2017    0.307692
segundo   2017    0.500000
primeiro  2018    0.636364
segundo   2018    0.541667
primeiro  2019    0.500000
segundo   2019    0.673077
          2020    0.791667
primeiro  2021    1.000000
segundo   2021    1.000000
primeiro  2022    0.900000
segundo   2022    0.884615
          2023    0.705882
Name: Porcentagem TI, dtype: float64

In [21]:
df[df["Área de Atuação"] == "TI"].groupby(["Data Colação"])["Área de Atuação"].count()

Data Colação
2017-03-17     4
2017-09-15    14
2018-03-15    14
2018-08-31    12
2018-10-18     1
2019-03-14     7
2019-04-12     2
2019-09-11    21
2019-10-24     1
2019-12-14    13
2020-07-18     4
2020-08-27    14
2020-10-27     1
2021-03-18     1
2021-05-07     2
2021-09-11     1
2022-03-18     9
2022-07-02    17
2022-12-21     6
2023-07-01     5
2023-12-20     7
Name: Área de Atuação, dtype: int64