<a href="https://colab.research.google.com/github/Caduescanti/Analise-de-Dados-e-Estudo-de-Caso-Matr-culas/blob/main/Analise_de_Dados_e_Estudo_de_Caso_Matr%C3%ADculas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Disciplina: CK0441 - Laboratório de Ciência de Dados - UFC**


---

**ESTUDO DE CASO:** Histórico de matrículas do IFCE

**Fonte:** https://dados.gov.br/dados/conjuntos-dados/matriculas-do-ifce

**Objetivos dessa prática:**


* Explorar um conjunto de dados desconhecido
* Exercitar a descoberta de informações dentro dos dados

### Dataset no Google Drive


In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

In [None]:
pip install dash pandas plotly

In [None]:
pip install dash pandas plotly matplotlib seaborn


Para a facilitaçao na criaçao de dashboards

In [None]:
import dash
from dash import dcc, html
import plotly.express as px
import plotly.graph_objects as go
import seaborn as sns
import io
import base64


In [None]:
from google.colab import drive
drive.mount('/content/drive')

df = pd.read_csv('/content/drive/MyDrive/arquivos csv labcd2/m7-matriculas.csv', delimiter='\t')

df.info()


In [None]:
#visualizar as primeiras linhas
display(df.head())

In [None]:
#estatiscas
display(df.describe())

In [None]:
#verificando se ha valores nulos
display(df.isnull().sum())

In [None]:
#tratando valores nulos
df.dropna()



In [None]:
df = df.drop_duplicates()
print(df.dtypes)


### 1) Análise preliminar do dataset

- De forma geral, quais as informações contidas no conjunto de dados? Elabore um texto de apresentação.
- Há dados ausentes?
- Há dados duplicados?
- Há dados inválidos?
- Há dados anômalos (outliers)?

Para os demais passos, prepare uma versão limpa do dataframe.

In [None]:
# Contar registros duplicados
print(f"Duplicatas encontradas: {df.duplicated().sum()}")
#nao ha duplicatas
print(df.isnull().sum())  # Contar valores nulos por coluna


### 2) Linha do tempo

- Qual o período de tempo que compreende os dados disponíveis?
- Sumarize usando visualizações as principais estatísticas anuais.


In [None]:
# Lista todas as colunas do dataset
print(df.columns)


In [None]:
plt.figure(figsize=(14,7))
sns.countplot(data=df, x="ANO_INICIO", hue="MODALIDADE_ENSINO", palette="Set2")
plt.title("Distribuição de Matrículas por Modalidade de Ensino")
plt.xlabel("Ano de Início")
plt.ylabel("Número de Matrículas")
plt.xticks(rotation=45)
plt.legend(title="Modalidade de Ensino")
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()


In [None]:
plt.figure(figsize=(10,6))
sns.boxplot(x=df["ANO_INICIO"])
plt.title("Distribuição das Matrículas ao Longo dos Anos")
plt.xlabel("Ano de Início")
plt.show()


In [None]:
print(f"Ano mais antigo: {df['ANO_INICIO'].min()}")
print(f"Ano mais recente: {df['ANO_INICIO'].max()}")


In [None]:
import matplotlib.pyplot as plt

df["ANO_INICIO"].value_counts().sort_index().plot(kind="bar", figsize=(20,10), color="cornflowerblue", edgecolor="black")
plt.title("Distribuição de Matrículas por Ano")
plt.xlabel("Ano de Início")
plt.ylabel("Número de Matrículas")
plt.xticks(rotation=45)
plt.show()


### 3) Campi

- Quais são os campi do IFCE?
- Sumarize usando visualizações as principais estatísticas dos campi

In [None]:
#Quais são os campi do IFCE?
print(df["DESC_INSTITUICAO"].unique())

In [None]:
print(df["DESC_INSTITUICAO"].value_counts())


In [None]:
# Quantidade de Matrículas por Campus
campus_counts = df["DESC_INSTITUICAO"].value_counts()

# Contar matrículas por campus
matriculas_por_campus = df["DESC_INSTITUICAO"].value_counts()

# Criar gráfico de barras
plt.figure(figsize=(14,7))
matriculas_por_campus.plot(kind="bar", color="cornflowerblue", edgecolor="black")
plt.title("Número de Matrículas por Campus")
plt.xlabel("Campus")
plt.ylabel("Número de Matrículas")
plt.xticks(rotation=90)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()



In [None]:
#Matrículas por Modalidade de Ensino em Cada Campus
matriculas_por_campus_modalidade = df.groupby(["DESC_INSTITUICAO", "MODALIDADE_ENSINO"]).size().unstack(fill_value=0)


plt.figure(figsize=(16,8))
sns.countplot(data=df, y="DESC_INSTITUICAO", hue="MODALIDADE_ENSINO", palette="Set1", order=matriculas_por_campus.index)
plt.title("Distribuição de Matrículas por Modalidade de Ensino nos Campi")
plt.xlabel("Número de Matrículas")
plt.ylabel("Campus")
plt.legend(title="Modalidade de Ensino")
plt.grid(axis="x", linestyle="--", alpha=0.7)
plt.show()



### 4) Cursos e Nível de Ensino

- Quais são os cursos ofertados?
- Quais são os níveis de ensino ofertados?
- Sumarize usando visualizações as principais estatísticas dos cursos e níveis de ensino

In [None]:
# Listar os cursos únicos
cursos_ofertados = df["DESC_CURSO"].unique()

# Exibir os cursos ordenados
display("Cursos Ofertados:")
for curso in sorted(cursos_ofertados):
    display("-", curso)

# Lista única dos níveis de ensino
niveis_ensino = df["NIVEL_ENSINO"].unique()

display("Níveis de ensino ofertados no IFCE:")
for nivel in sorted(niveis_ensino):
    display("-", nivel)


In [None]:
# Contar os níveis de ensino disponíveis
niveis_ensino = df["NIVEL_ENSINO"].value_counts()

# Exibir os níveis de ensino
print("Níveis de Ensino Ofertados:")
print(niveis_ensino)


In [None]:
#Visualização da distribuição dos níveis de ensino:
# Criar gráfico de pizza para visualizar a proporção dos níveis de ensino
plt.figure(figsize=(10,40))
niveis_ensino.plot(kind="pie", autopct="%1.1f%%", colors=sns.color_palette("Set2"), startangle=90)
plt.title("Distribuição dos Níveis de Ensino")
plt.ylabel("")
plt.show()

### 5) Alunos

- Sumarize usando visualizações as principais estatísticas dos alunos

In [None]:

genero_counts = df["GENERO"].value_counts()

plt.figure(figsize=(8,8))
genero_counts.plot(kind="pie", autopct="%1.1f%%", colors=sns.color_palette("pastel"), startangle=90)
plt.title("Distribuição de Gênero dos Alunos")
plt.ylabel("")
plt.show()
#no campus de Fortaleza

# Filtrando dados do Campus Fortaleza
df_fortaleza = df[df["DESC_INSTITUICAO"] == "CAMPUS FORTALEZA"]

# Contar a quantidade de alunos por gênero no Campus Fortaleza
genero_counts_fortaleza = df_fortaleza["GENERO"].value_counts()

plt.figure(figsize=(8,8))
genero_counts_fortaleza.plot(kind="pie", autopct="%1.1f%%", colors=sns.color_palette("pastel"), startangle=90)
plt.title("Distribuição de Gênero dos Alunos - Campus Fortaleza")
plt.ylabel("")  # Remove o rótulo 'y'
plt.show()


In [None]:
# Contar o número de matrículas por modalidade de ensino
modalidade_counts = df["MODALIDADE_ENSINO"].value_counts()

# Criar um gráfico de barras
plt.figure(figsize=(12,6))
sns.barplot(x=modalidade_counts.index, y=modalidade_counts.values, palette="viridis")
plt.title("Número de Alunos por Modalidade de Ensino")
plt.xlabel("Modalidade de Ensino")
plt.ylabel("Número de Alunos")
plt.xticks(rotation=45)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()
# Filtrar dados do Campus Fortaleza
df_fortaleza = df[df["DESC_INSTITUICAO"] == "CAMPUS FORTALEZA"]


# Contar o número de matrículas por modalidade de ensino no Campus Fortaleza
modalidade_counts_fortaleza = df_fortaleza["MODALIDADE_ENSINO"].value_counts()

# Criar um gráfico de barras
plt.figure(figsize=(12,6))
sns.barplot(x=modalidade_counts_fortaleza.index, y=modalidade_counts_fortaleza.values, palette="viridis")
plt.title("Número de Alunos por Modalidade de Ensino - Campus Fortaleza")
plt.xlabel("Modalidade de Ensino")
plt.ylabel("Número de Alunos")
plt.xticks(rotation=45)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()


In [None]:
# Contar o número de alunos por campus
alunos_por_campus = df["DESC_INSTITUICAO"].value_counts().head(10)  # Pegando os 10 maiores campi

# Criar um gráfico de barras
plt.figure(figsize=(12,6))
sns.barplot(y=alunos_por_campus.index, x=alunos_por_campus.values, palette="mako")
plt.title("Top 10 Campi com Mais Alunos Matriculados")
plt.xlabel("Número de Alunos")
plt.ylabel("Campus")
plt.grid(axis="x", linestyle="--", alpha=0.7)
plt.show()




In [None]:
# Contar o número de alunos por nível de ensino
nivel_counts = df["NIVEL_ENSINO"].value_counts()

# Criar um gráfico de barras
plt.figure(figsize=(10,5))
sns.barplot(x=nivel_counts.index, y=nivel_counts.values, palette="coolwarm")
plt.title("Número de Alunos por Nível de Ensino")
plt.xlabel("Nível de Ensino")
plt.ylabel("Número de Alunos")
plt.xticks(rotation=45)
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()


os cursos com mais alunos matriculados no Campus Fortaleza entre os anos de 2022 a 2024 e listar os cursos de nível superior

In [None]:
# Filtrar dados do Campus Fortaleza e anos entre 2022 e 2024
df_fortaleza = df[(df["DESC_INSTITUICAO"] == "CAMPUS FORTALEZA") & (df["ANO_INICIO"].between(2022, 2024))]

# Contar matrículas por curso
cursos_mais_matriculados = df_fortaleza["DESC_CURSO"].value_counts().head(10)  # Top 10 cursos


In [None]:
# Criar gráfico de barras
plt.figure(figsize=(20,10))
cursos_mais_matriculados.plot(kind="barh", color="cornflowerblue", edgecolor="black")
plt.title("Top 10 Cursos com Mais Matrículas no Campus Fortaleza (2022-2024)")
plt.xlabel("Número de Matrículas")
plt.ylabel("Curso")
plt.gca().invert_yaxis()  # Inverter para o curso com mais alunos ficar no topo
plt.grid(axis="x", linestyle="--", alpha=0.7)
plt.show()


In [None]:
# Filtrar apenas cursos de nível graduação no Campus Fortaleza
cursos_graduacao_fortaleza = df[(df["DESC_INSTITUICAO"] == "CAMPUS FORTALEZA") &
                                 (df["NIVEL_ENSINO"] == "GRADUACAO")]["DESC_CURSO"].unique()

# Exibir os cursos
print("Cursos de Graduação no Campus Fortaleza:")
for curso in sorted(cursos_graduacao_fortaleza):
    print("-", curso)



In [None]:
# Filtrar dados do Campus Fortaleza entre 2022 e 2025
df_fortaleza = df[(df["DESC_INSTITUICAO"] == "CAMPUS FORTALEZA") & (df["ANO_INICIO"].between(2022, 2025))]

# Contar matrículas por curso
matriculas_por_curso = df_fortaleza["DESC_CURSO"].value_counts().head(10)  # Top 10 cursos

# Criar gráfico de barras
plt.figure(figsize=(12,6))
matriculas_por_curso.plot(kind="barh", color="cornflowerblue", edgecolor="black")
plt.title("Top 10 Cursos com Mais Matrículas no Campus Fortaleza (2022-2025)")
plt.xlabel("Número de Matrículas")
plt.ylabel("Curso")
plt.gca().invert_yaxis()  # Curso com mais alunos no topo
plt.grid(axis="x", linestyle="--", alpha=0.7)
plt.show()


In [None]:
#Evolução das Matrículas no Campus Fortaleza (2022-2025)
# Contar o número de matrículas por ano no Campus Fortaleza
matriculas_por_ano = df_fortaleza["ANO_INICIO"].value_counts().sort_index()

# Criar gráfico de linha
plt.figure(figsize=(10,5))
sns.lineplot(x=matriculas_por_ano.index, y=matriculas_por_ano.values, marker="o", color="darkblue")
plt.title("Evolução das Matrículas no Campus Fortaleza (2022-2025)")
plt.xlabel("Ano de Início")
plt.ylabel("Número de Matrículas")
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()


In [None]:
import dash
from dash import dcc, html
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go

# Criar o app Dash
app = dash.Dash(__name__)

# Dados de exemplo (substitua pelo seu dataframe real)
# Exemplo de como você pode preparar o DataFrame
data = {
    'ANO_INICIO': [2022, 2023, 2024, 2025],
    'MATRICULAS': [2500, 3000, 4000, 5500]  # Exemplificando o número de matrículas por ano
}
df_fortaleza = pd.DataFrame(data)

# Contar o número de matrículas por ano no Campus Fortaleza
matriculas_por_ano = df_fortaleza["ANO_INICIO"].value_counts().sort_index()

# Criar o gráfico de linha com Plotly
fig = go.Figure()

# Adicionando a linha
fig.add_trace(go.Scatter(x=matriculas_por_ano.index, y=matriculas_por_ano.values,
                         mode='lines+markers', line=dict(color='darkblue', width=2),
                         marker=dict(size=8, color='darkblue')))

# Definir título e labels
fig.update_layout(
    title="Evolução das Matrículas no Campus Fortaleza (2022-2025)",
    xaxis_title="Ano de Início",
    yaxis_title="Número de Matrículas",
    template="plotly_white",
    plot_bgcolor='rgba(0,0,0,0)',  # Fundo transparente para o gráfico
    xaxis=dict(showgrid=True, gridwidth=1, gridcolor='lightgray'),
    yaxis=dict(showgrid=True, gridwidth=1, gridcolor='lightgray')
)

# Layout do dashboard
app.layout = html.Div([
    html.H1("Dashboard de Matrículas - Campus Fortaleza", style={'text-align': 'center'}),
    html.Div([
        dcc.Graph(
            id='evolucao-matriculas',
            figure=fig
        ),
    ]),
])

# Rodar o servidor
if __name__ == '__main__':
    app.run_server(debug=True)


In [None]:
# Filtrar dados para o Campus Fortaleza e anos de 2022 a 2024
df_fortaleza_2022_2024 = df[(df["DESC_INSTITUICAO"] == "CAMPUS FORTALEZA") & (df["ANO_INICIO"].between(2022, 2024))]

# Contar o número de matrículas por ano
matriculas_por_ano_fortaleza = df_fortaleza_2022_2024["ANO_INICIO"].value_counts().sort_index()

# Calcular o total de matrículas
total_matriculas = matriculas_por_ano_fortaleza.sum()

# Calcular a probabilidade de cada ano
probabilidades = matriculas_por_ano_fortaleza / total_matriculas

# Criar um gráfico de barras para visualizar a probabilidade de mais matrículas por ano
plt.figure(figsize=(12,6))
sns.barplot(x=probabilidades.index, y=probabilidades.values, palette="Blues_d")
plt.title("Probabilidade de Matrículas no Campus Fortaleza (2022 a 2024)")
plt.xlabel("Ano de Início")
plt.ylabel("Probabilidade")
plt.grid(axis="y", linestyle="--", alpha=0.7)
plt.show()

# Exibir as probabilidades
probabilidades


2022: 24.73% de probabilidade de matrículas
2023: 24.49% de probabilidade de matrículas
2024: 50.78% de probabilidade de matrículas
Isso indica que, em 2024, a probabilidade de haver mais matrículas no Campus Fortaleza é significativamente maior, em comparação com os anos anteriores (2022 e 2023).

In [None]:
import dash
from dash import dcc, html
import pandas as pd
import plotly.express as px

# Criar o app Dash
app = dash.Dash(__name__)

# Dados de exemplo (substitua pelo seu dataframe)
data = {
    'Ano': [2022, 2023, 2024],
    'Probabilidade': [0.247255, 0.244928, 0.507817]
}
df = pd.DataFrame(data)

# Criar o gráfico de barras
fig = px.bar(df, x='Ano', y='Probabilidade',
             title='Probabilidade de Matrículas no Campus Fortaleza (2022 a 2024)',
             labels={'Ano': 'Ano de Início', 'Probabilidade': 'Probabilidade'})

# Layout do dashboard
app.layout = html.Div([
    html.H1("Dashboard de Matrículas - Campus Fortaleza", style={'text-align': 'center'}),
    html.Div([
        dcc.Graph(
            id='probabilidade-matriculas',
            figure=fig
        ),
    ]),
])

# Rodar o servidor
if __name__ == '__main__':
    app.run_server(debug=True)

