# Análise Exploratória de Dados: Perfil dos Alunos da FIAP

## Introdução

Este notebook realiza uma análise exploratória de dados (AED) com base nas informações dos alunos matriculados na FIAP que utilizam o GitHub. Os dados coletados incluem detalhes sobre os cursos de tecnologia que estão matriculados e sua atividade no GitHub nos últimos 30 dias. A análise tem como objetivo fornecer insights valiosos para o desenvolvimento de uma plataforma que disponibilizará projetos para estudantes de tecnologia, permitindo-lhes aplicar seus conhecimentos na prática e desenvolver um portfólio de projetos. Além disso, a plataforma incentivará a colaboração entre estudantes em projetos conjuntos.

## Dados Utilizados

Os dados foram obtidos dos perfis dos alunos da FIAP no GitHub e contêm informações como nomes de usuário, atividade recente no GitHub e outros detalhes relevantes.

## Objetivos da Análise

Os principais objetivos desta análise exploratória incluem:

- Avaliar a atividade recente no GitHub, como criação de repositórios e colaborações.
- Explorar as linguagens de programação mais utilizadas pelos alunos.
- Identificar oportunidades para promover a colaboração em projetos entre os estudantes.

## Estrutura do Notebook

Este notebook está estruturado da seguinte forma:

1. Preparação dos Dados: Carregamento dos dados e limpeza, se necessário.
2. Análise Descritiva: Exploração inicial dos dados.
3. Análises Específicas: Análises mais detalhadas sobre os tópicos mencionados anteriormente.
4. Conclusões: Resumo das principais descobertas e insights da análise.
5. Recomendações: Sugestões para o desenvolvimento da plataforma com base nos resultados obtidos.

## Ferramentas Utilizadas

- Python (pandas, matplotlib, seaborn) para análise de dados.
- Jupyter Notebook para criação deste relatório.

Vamos começar explorando os dados dos alunos da FIAP e obtendo informações relevantes para o desenvolvimento da plataforma de projetos de tecnologia.


# Coleta de Dados para o Banco de Dados de Alunos da FIAP

A FIAP, uma instituição renomada no ensino de tecnologia, atrai estudantes de todo o Brasil. Muitos desses estudantes utilizam o GitHub como parte de seu processo de aprendizado e desenvolvimento de portfólio. Para aprimorar essa experiência, planejamos criar uma plataforma que disponibilizará projetos desafiadores para os alunos colocarem em prática seus conhecimentos, adquirirem experiência prática e colaborarem com outros estudantes.

Para alimentar essa plataforma com projetos e criar um ambiente de aprendizado valioso, é crucial entender o comportamento dos alunos no GitHub. Quais linguagens de programação eles mais utilizam? Quantos repositórios eles possuem? Quais tipos de projetos são mais comuns?

Para responder a essas perguntas, desenvolvemos um código que coleta informações dos repositórios do GitHub de alunos da FIAP. Vamos coletar dados, como o número de repositórios, a linguagem de programação mais comum, a descrição dos projetos e outras informações relevantes. Esses dados serão armazenados em um banco de dados que posteriormente alimentará nossa plataforma de projetos.

Abaixo, você encontrará o código responsável pela coleta de dados. Certifique-se de que o seu token do GitHub está corretamente configurado no código. Após a execução do código, você terá um arquivo Excel com os dados coletados, que será a base para nossas análises futuras.

Vamos começar a coleta de dados para criar um ambiente de aprendizado enriquecedor para os estudantes da FIAP.



In [2]:
import requests
import pandas as pd
import time
import plotly.express as px

class ContaRepositorios():

    def __init__(self, usuarios, token):
        self.usuarios = usuarios
        self.token = token

    def requisicao_api(self, usuario):
        headers = {'Authorization': f'token {self.token}'}
        try:
            resposta = requests.get(
                f'https://api.github.com/users/{usuario}/repos',
                headers=headers,
                timeout=(10, 30)
            )
            resposta.raise_for_status()
            return resposta.json()
        except requests.exceptions.RequestException as e:
            print(f"Erro na requisição para {usuario}: {e}")
            return []

    def obter_informacoes_adicionais(self, usuario, nome_repositorio):
        headers = {'Authorization': f'token {self.token}'}
        try:
            resposta = requests.get(
                f'https://api.github.com/repos/{usuario}/{nome_repositorio}',
                headers=headers,
                timeout=(10, 30)
            )
            resposta.raise_for_status()
            return resposta.json()
        except requests.exceptions.RequestException as e:
            print(f"Erro ao obter informações adicionais para {usuario}/{nome_repositorio}: {e}")
            return {}

    def conta_repositorios(self):
        data = []
        repositorios_coletados = set()

        for usuario in self.usuarios:
            dados_api = self.requisicao_api(usuario)
            numero_repositorios = len(dados_api)
            data.append({'Nome do Usuário': usuario, 'Número de Repositórios': numero_repositorios})

            if numero_repositorios > 0:
                # Pegue informações de um repositório (o primeiro da lista) de cada usuário
                nome_primeiro_repositorio = dados_api[0]['name']
                if nome_primeiro_repositorio not in repositorios_coletados:
                    informacoes_adicionais = self.obter_informacoes_adicionais(usuario, nome_primeiro_repositorio)
                    license_info = informacoes_adicionais.get('license')
                    license_name = license_info.get('name') if license_info and 'name' in license_info else 'N/A'
                    language = informacoes_adicionais.get('language', 'N/A')
                    data[-1].update({
                        'Nome do Repositório': nome_primeiro_repositorio,
                        'Descrição': informacoes_adicionais.get('description', 'N/A'),
                        'Data de Criação': informacoes_adicionais.get('created_at', 'N/A'),
                        'Número de Estrelas': informacoes_adicionais.get('stargazers_count', 'N/A'),
                        'Número de Forks': informacoes_adicionais.get('forks_count', 'N/A'),
                        'Número de Colaboradores': informacoes_adicionais.get('subscribers_count', 'N/A'),
                        'Licença': license_name,
                        'URL do Repositório': informacoes_adicionais.get('html_url', 'N/A'),
                        'Principal Linguagem': language
                    })
                    repositorios_coletados.add(nome_primeiro_repositorio)

            # Adiciona um atraso de 1 segundo entre as requisições
            time.sleep(1)

        return data

usuarios = [
    'raulrosapacheco', 'DaniTavaresSantos', 'GabrielFurions', 'richard-cardosodev', 'RichardDallaqua',
    'brunoalbrito', 'Rodrigomendesas', 'rogerioguicampos', 'GabrielPCO', 'giulianafernandes', 'DevSerOCaco',
    'KauaAlmeidaSilveira', 'gsbarreto', 'Emii2003', 'laraberns', 'LeticiaMoliveira', 'diorgeneseugenio', 'joaocarloslima',
    'EnzoShiotuqui', 'pSbral', 'MuriloRoveri', 'NeugeMa', 'mcurvello', 'ericaokamura', 'gabrielrodri33',
    'fredgcosta', 'TorHugo', 'LeocMaia', 'MateusDilho', 'pedrotxt', 'arnaldojr', 'CarlosEduAC', 'Luccas-Silva',
    'flavialbraz', 'guithepc', 'Rphmelo', 'silvaBreno', 'monicaquintal', 'DouglasAndC', 'sap1enza', 'samirelhassann',
    'lucianostegun', 'gggaabbbi', 'roschel', 'TobiasGustavo', 'Kazetto', 'giovannirp', 'samukax86', 'hiagofss',
    'rafaelbgil', 'vinicius111andrade', 'MarcosSouzaa', 'andregpereira', 'Guisnu', 'leoaugusto93', 'wellingtonpires',
    'LeoPgn', 'AL3ZIN', 'LiceB', 'heliubiancardi', 'Leandro-Sales1', 'SabrinaOtoni', 'dpsanz', 'abigailmvlima',
    'antoniorcn', 'heitorddkalvon', 'eduardoferreira7', 'KelvinMarques', 'lcs-casagrande', 'thiagoferr', 'TLean07',
    'GiantMazelliWasHere', 'Zoviskgabriel', 'MuriloRoveri', 'PauloSergioo', 'phabloraylan', 'arnaldojr', 'OtavioLira',
    'Santlago', 'vtorresdantas', 'pedrosbm', 'GuiBichaco', 'edsonct', 'lvininicius', 'jeansoares17', 'paulohto',
    'viniciuscavalcante1', 'edsonct', 'phillipehenriques', 'hugorsouza', 'brenoml', 'souzamarcos', 'mariosmello',
    'CABRALBRUNO000', 'GabrieliRoldao', 'biancaroman', 'arianesannt', 'PaulinhaSan', 'danicosme', 'PauloOrtiz',
    'Gabriel-Leao', 'andreyalves-frazatti', 'Alberto-Frigatto', 'KelvinMarques', 'SavioRony', 'luizgolima', 'KalianaBueno',
    'Rafafaaa', 'jfdmagalhaes', 'Juliansan', 'magodoycruz', 'giselearaujos', 'LzGui', 'mvalbuquerque', 'Kulessa', 'ErickKS',
    'NaderSouza', 'ThiagoAlv1'
]

token = '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'

contador = ContaRepositorios(usuarios, token)
dados = contador.conta_repositorios()

df = pd.DataFrame(dados)

# Salvar o DataFrame em um arquivo Excel
df.to_excel('repositorios_github.xlsx', index=False)

print(df.head())

      Nome do Usuário  Número de Repositórios       Nome do Repositório  \
0     raulrosapacheco                      19              alura-estudo   
1   DaniTavaresSantos                       4      database-fiaplanches   
2      GabrielFurions                       3                 Chu_Rasko   
3  richard-cardosodev                       5  projeto-fiap-application   
4     RichardDallaqua                       3        controlvet-puc-api   

                                      Descrição       Data de Criação  \
0                                          None  2023-09-26T18:31:00Z   
1                                          None  2023-10-17T23:08:48Z   
2                                  Projeto Fiap  2023-08-22T22:26:27Z   
3  Projeto de pós-graduação do grupo 2023-Q1-64  2023-06-14T00:49:20Z   
4                                          None  2021-10-04T22:00:20Z   

   Número de Estrelas  Número de Forks  Número de Colaboradores Licença  \
0                 0.0              

# Dicionário de Dados

Aqui está um dicionário de dados explicando as informações que coletaremos dos repositórios dos usuários:

- Nome do Usuário: Nome de usuário no GitHub (tipo: Alfanumérico - string).
- Número de Repositórios: Número total de repositórios do usuário (tipo: Numérico inteiro - integer).
- Nome do Repositório: Nome do repositório no GitHub (tipo: Alfanumérico - string).
- Descrição: Descrição breve do repositório, se disponível (tipo: Alfanumérico  string).
- Data de Criação: Data em que o repositório foi criado (tipo: Data e hora - datetime).
- Número de Estrelas: Número de estrelas (likes) que o repositório recebeu (tipo: Numérico inteiro - integer).
- Número de Forks: Número de forks (cópias) do repositório (tipo: Numérico inteiro - integer).
- Número de Colaboradores: Número de colaboradores do repositório (tipo: Numérico inteiro - integer).
- Licença: Licença associada ao repositório, se disponível (tipo: Alfanumérico string).
- URL do Repositório: URL do repositório no GitHub (tipo: Alfanumérico - string).
Principal Linguagem: Linguagem principal associada ao repositório, se disponível (tipo: Alfanumérico - string).

In [18]:
df.head()

Unnamed: 0,Nome do Usuário,Número de Repositórios,Nome do Repositório,Descrição,Data de Criação,Número de Estrelas,Número de Forks,Número de Colaboradores,Licença,URL do Repositório,Principal Linguagem,Repos Blocos
0,raulrosapacheco,19,alura-estudo,,2023-09-26T18:31:00Z,0.0,0.0,1.0,,https://github.com/raulrosapacheco/alura-estudo,HTML,15-19
1,DaniTavaresSantos,4,database-fiaplanches,,2023-10-17T23:08:48Z,0.0,0.0,1.0,,https://github.com/DaniTavaresSantos/database-...,,0-4
2,GabrielFurions,3,Chu_Rasko,Projeto Fiap,2023-08-22T22:26:27Z,0.0,0.0,1.0,,https://github.com/GabrielFurions/Chu_Rasko,JavaScript,0-4
3,richard-cardosodev,5,projeto-fiap-application,Projeto de pós-graduação do grupo 2023-Q1-64,2023-06-14T00:49:20Z,2.0,0.0,5.0,,https://github.com/richard-cardosodev/projeto-...,Java,0-4
4,RichardDallaqua,3,controlvet-puc-api,,2021-10-04T22:00:20Z,0.0,0.0,1.0,,https://github.com/RichardDallaqua/controlvet-...,Java,0-4


In [19]:
def GetHistogram():
  limites = [0, 5, 10, 15, 20, 25, df['Número de Repositórios'].max() + 1]
  nomes_intervalos = [f'{limites[i]}-{limites[i+1] - 1}' for i in range(len(limites) - 1)]
  df['Repos Blocos'] = pd.cut(df['Número de Repositórios'], bins=limites, labels=nomes_intervalos)
  contagem_intervalos = df['Repos Blocos'].value_counts().sort_index()
  data = {
    'Número de Repositórios': nomes_intervalos,
    'Número de Alunos': contagem_intervalos.values
    }

  return data

data1=pd.DataFrame(GetHistogram())
fig = px.bar(data1, x='Número de Repositórios', y='Número de Alunos',
              title='Distribuição do Número de Repositórios por Aluno', color='Número de Alunos')
fig.show()

In [20]:
fig = px.histogram(data1, x='Número de Repositórios', y='Número de Alunos',
              title='Distribuição do Número de Repositórios por Aluno', color='Número de Alunos', color_discrete_sequence=px.colors.qualitative.Prism)
fig.show()

<h1>segunda **análise**</h1>


In [21]:
def contar_top_linguagens(df, top_n=10):
    linguagem_mapeada = df['Principal Linguagem'].replace({
        'HTML': 'HTML/CSS',
        'CSS': 'HTML/CSS',
        'Python': 'Python/Jupyter Notebook',
        'Jupyter Notebook': 'Python/Jupyter Notebook'
    })
    contagem_linguagens = linguagem_mapeada.value_counts()
    contagem_linguagens_top = contagem_linguagens.head(top_n)

    return contagem_linguagens_top
cores_funil_azul = ['#1f77b4', '#1a85ff', '#3366cc', '#0047b3', '#005db3', '#0099cc', '#006699', '#0077b3', '#003366', '#004080']

contagem_linguagens_top = contar_top_linguagens(df[df['Principal Linguagem'] != 'N/A'])
dados_grafico = pd.DataFrame({'Linguagem': contagem_linguagens_top.index, 'Número de Repositórios': contagem_linguagens_top.values})
fig_funnel = px.funnel(contagem_linguagens_top, x=contagem_linguagens_top.values, y=contagem_linguagens_top.index,
                      title='Funil das 10 Principais Linguagens em Repositórios de Alunos (Agrupadas)', color_discrete_sequence=cores_funil_azul)
fig_funnel.show()

In [None]:
fig_funil = px.funnel(dados_grafico, y='Número de Repositórios', x='Linguagem',
                     title='Funil das 10 Principais Linguagens em Repositórios de Alunos (Agrupadas)',
                     color='Número de Repositórios', color_discrete_sequence=px.colors.sequential.Oranges)
fig_funil.show()


In [22]:
cores_funil_azul = ['#1f77b4', '#1a85ff', '#3366cc', '#0047b3', '#005db3', '#0099cc', '#006699', '#0077b3', '#003366', '#004080']

fig_funil_azul = px.funnel(dados_grafico, y='Número de Repositórios', x='Linguagem',
                           title='Funil das 10 Principais Linguagens em Repositórios de Alunos (Agrupadas)',
                           color='Número de Repositórios', color_discrete_sequence=cores_funil_azul)
fig_funil_azul.show()


In [24]:
fig_funil_azul = px.funnel(dados_grafico, y='Número de Repositórios', x='Linguagem',
                           title='Funil das 10 Principais Linguagens em Repositórios de Alunos (Agrupadas)',
                            color_discrete_sequence=px.colors.qualitative.Prism)
fig_funil_azul.show()


In [None]:
fig_pie = px.pie(contagem_linguagens_top, names=contagem_linguagens_top.index, values=contagem_linguagens_top.values,
                 title='Distribuição das 10 Principais Linguagens em Repositórios de Alunos (Agrupadas)')
fig_pie.update_traces(pull=[0.1, 0.1, 0.1, 0.1,0.1, 0.1, 0.1, 0.1,0.1, 0.1])
fig_pie.show()

In [None]:
dados_3d = {
    'Linguagem': contagem_linguagens_top.index,
    'Número de Repositórios': contagem_linguagens_top.values,
}
fig_3d = px.scatter_3d(dados_3d, x='Linguagem', y='Número de Repositórios', z='Linguagem',
                       title='Gráfico de Dispersão 3D das 10 Principais Linguagens em Repositórios de Alunos (Agrupadas)',
                       labels={'Linguagem': 'Linguagem', 'Número de Repositórios': 'Número de Repositórios'},
                       color='Número de Repositórios', color_continuous_scale='Viridis')
fig_3d.show()

<h1>ultima análise</h1>


In [26]:
cores = ['Purple', 'Blue', 'Cyan', 'Violet']
newcolors=[]
def agrupar_colaboradores(num_colaboradores):
    if num_colaboradores == 0:
        newcolors.append(cores[0])
        return '0'
    elif num_colaboradores == 1:
        newcolors.append(cores[1])
        return '1'
    elif num_colaboradores == 2:
        newcolors.append(cores[2])
        return '2'
    else:
        newcolors.append(cores[3])
        return '3 ou mais'

df['Colaboradores Agrupados'] = df['Número de Colaboradores'].apply(agrupar_colaboradores)
contagem_colaboradores = df['Colaboradores Agrupados'].value_counts().sort_index()
fig = px.funnel(y=contagem_colaboradores.values, x=contagem_colaboradores.index,
                title='Funil de Número de Repositórios por Número de Colaboradores',
                labels={'x': 'Número de Colaboradores', 'y': 'Número de Repositórios'})

fig.show()

In [None]:
fig = px.area(x=contagem_colaboradores.index, y=contagem_colaboradores.values,
                title='em area de Número de Repositórios por Número de Colaboradores', color=cores)
fig.update_layout(xaxis_title='Número de Colaboradores', yaxis_title='Número de Repositórios', showlegend=False)
fig.show()

In [32]:
fig = px.pie(names=contagem_colaboradores.index, values=contagem_colaboradores.values,
             title='Distribuição de Número de Repositórios por Número de Colaboradores', color_discrete_sequence=px.colors.qualitative.Prism)
fig.update_traces( pull=[0, 0.1, 0, 0])
fig.show()

In [None]:
fig = px.pie(names=contagem_colaboradores.index, values=contagem_colaboradores.values,
             title='Distribuição de Número de Repositórios por Número de Colaboradores',
             color=cores, custom_data=[contagem_colaboradores.index, contagem_colaboradores.values])
fig.update_traces(hovertemplate='%{customdata[0]}: %{customdata[1]:.2f}%')
fig.show()

In [None]:
dados_sunburst = {
    'Número de Colaboradores': contagem_colaboradores.index,
    'Número de Repositórios': contagem_colaboradores.values,
}
fig = px.sunburst(dados_sunburst, path=['Número de Colaboradores'],
                  values='Número de Repositórios',
                  title='Sunburst de Número de Repositórios por Número de Colaboradores',branchvalues='total')
fig.show()