# T2.2 - Solution
## Authors:
- Leonardo Kaplan 1212509
- Nino Fabrizio Tiriticco Lizardo 1113203

In [None]:
# Pacotes usados
import pandas as pd # Para pegar os dados dos arquivos
from IPython.display import display # Para mostrar mais de uma informação em uma mesma célula
import matplotlib # Para plotar gráficos
import matplotlib.pyplot as plt # Para plotar gráficos
from pylab import * # Para criar pie chart
from sklearn.cluster import KMeans # Para cálculo de clusters
from sklearn.metrics import silhouette_samples, silhouette_score # Para calcular o silhouette dos clusters
import matplotlib.cm as cm # Para mostrar o gráfico dos clusters com silhouette
import numpy as np # Para cálculos

In [None]:
# Carregando dados do data set
DataTopRatedRepositoriesRaw = pd.read_csv('in/TopStaredRepositories.csv')

## Análise prévia dos dados:

In [None]:
# Vemos que as colunas de descrição, linguagem e e tags possuem valores nulos.
# Podemos ver também que todos os valores foram guardados como string(object)
display(DataTopRatedRepositoriesRaw.info())

DataTopRatedRepositoriesRaw.head()

In [None]:
# Vamos fazer uma limpeza para possíveis valores duplicados
trrDF = DataTopRatedRepositoriesRaw.drop_duplicates(subset=DataTopRatedRepositoriesRaw.columns.values, keep=False)
trrDF = trrDF.reset_index(drop = True)

# Aproveitemos para trocar os valores Nan
#trrDF = trrDF.fillna("")

# Vemos que de fato existiam algumas tuplas repetidas na tabela
display(trrDF.info())
trrDF.head()

In [None]:
# Passando o valor de estrelas para valores numéricos
for indx in range(0, len(trrDF)):
    if "k" in trrDF['Number of Stars'][indx]: # K significa que está na casa de 1000...
        trrDF.set_value(indx, "Number of Stars", trrDF["Number of Stars"][indx].replace("k",""))
        trrDF["Number of Stars"][indx] = float(trrDF["Number of Stars"][indx])
        trrDF.loc[trrDF["Number of Stars"] == trrDF["Number of Stars"][indx], "Number of Stars"] *= 1000
    else:
        trrDF["Number of Stars"][indx] = float(trrDF["Number of Stars"][indx])
trrDF["Number of Stars"] = trrDF["Number of Stars"].apply(int)

# Mudando também valor de data para o tipo data
trrDF['Last Update Date'] = pd.to_datetime(trrDF['Last Update Date'])

# O data frame resultante
display(trrDF.info())
trrDF.head()

# Perguntas:
## 1) Quais são os 10 repositórios com mais estrelas?

In [None]:
# Organizando nosso data frame em ordem decrescente e pegando apenas as colunas mais relevantes
tenMostStarsDF = trrDF.sort_values(by = 'Number of Stars', ascending = False)
tenMostStarsDF = tenMostStarsDF[['Username', 'Repository Name', 'Number of Stars', 'Url']].head(10)

# Vemos que a diferença do 1º para o 2º já é bem significativa e do 4º pra baixo os valores são mais próximos.
tenMostStarsDF

In [None]:
# Montando resultados em gráfico de barras verticais
x_labels = tenMostStarsDF['Repository Name']
x = range(len(x_labels))
y = tenMostStarsDF['Number of Stars']

plt.figure(figsize=(5, 5))
plt.title('Top 10 Starred Repositories')
plt.bar(x, y, align='center', width = 0.75, color='#4466cc')
plt.xticks(x, x_labels, rotation=45)

plt.show()

## 2) Quais são os donos de cada um dos 10 repositórios?

In [None]:
# Vemos que temos alguns nomes conhecidos como Facbook e Angular. Facebook foi uma surpresa!
tenMostStarsDF['Username']

## 3) Existem usuários com mais de um repositório diferente listado no data set? Quais? Quantas vezes?

In [None]:
# Montando o data frame onde donos de repositórios se repetem
usernames = trrDF["Username"]
repeatedUsernamesDF = trrDF[usernames.isin(usernames[usernames.duplicated()])].sort_values(by="Username")
repeatedUsernamesDF = repeatedUsernamesDF.reset_index(drop = True)

# Vendo quantos são no total e quem são eles. Podemos ver outros nomes interessantes como apple(!), Netflix e Microsoft
print("Number of repeated usernames: ", len(repeatedUsernamesDF['Username'].unique()))
repeatedUsernamesDF['Username'].unique()

In [None]:
# Montando o data frame com a quantidade de vezes em que cada usuário repetido aparece
usernamesByFrequency = pd.DataFrame(columns=('Username', 'Frequency'))
usernamesByFrequency['Username'] = repeatedUsernamesDF['Username'].unique()
usernamesByFrequency['Frequency'] = 0

# Percorrendo o data frame original para fazer a contagem
for indx in range(0, len(repeatedUsernamesDF)):
    usernamesByFrequency.loc[usernamesByFrequency['Username'] == repeatedUsernamesDF['Username'][indx], 'Frequency'] += 1
pd.set_option('display.max_rows', 83) # Para poder visualizar todas as tuplas deste data frame

# O resultado obtido
usernamesByFrequency

In [None]:
# Por curiosidade, vejamos quais são os 10 que mais aparecem
tenMostRepeatedDF = usernamesByFrequency.sort_values(by = 'Frequency', ascending = False)
tenMostRepeatedDF = tenMostRepeatedDF.reset_index(drop = True)

# Vemos que Facebook e Google estão ambos com 20, o maior número! :O
tenMostRepeatedDF.head(10)

In [None]:
# Obs.: Ia tentar usar wordcloud para mostrar de forma diferente esses usuários que mais aparecem, mas desisti não conseguir
# instalar o pacote necessário. O código foi deixado comentado.
#import sys
#!{sys.executable} -m pip install wordcloud
#from wordcloud import WordCloud, random_color_func

#wordcloud = WordCloud(background_color='black',
#                     width=1000,
#                     height=500,
#                     ).generate(' '.join(trrDF['Username']))
#wordcloud.recolor(color_func=random_color_func)
#plt.figure(figsize=(15,8))
#plt.imshow(wordcloud)
#plt.axis('off')
#plt.show()

## 4) Para cada usuário dono que aparece mais de uma vez, como é sua distribuição de estrelas?

In [None]:
# Por curiosidade, comecemos montando um data frame para saber a porcentagem de
# estrelas de cada repositório em relação ao total de cada usuário repetido
repeatedStarDistribution = repeatedUsernamesDF[['Username', 'Repository Name', 'Number of Stars']].copy()
repeatedStarDistribution['Star Percentage'] = 0.0

for indx in range(0, len(repeatedStarDistribution)):
    tempDF = repeatedStarDistribution.loc[repeatedStarDistribution['Username'] == repeatedStarDistribution['Username'][indx]][['Number of Stars']]
    usernameTotal = tempDF['Number of Stars'].sum()
    
    numberOfStars = repeatedStarDistribution['Number of Stars'][indx]

    repeatedStarDistribution.loc[repeatedStarDistribution['Repository Name'] == repeatedStarDistribution['Repository Name'][indx], 'Star Percentage'] = numberOfStars/usernameTotal

# Ordenando por aqueles com maior porcentagem, mantendo a ordem alfabética de username    
repeatedStarDistribution = repeatedStarDistribution.sort_values(by = ['Username', 'Star Percentage'], ascending = [True, False])
repeatedStarDistribution = repeatedStarDistribution.reset_index(drop = True)
    
print(repeatedStarDistribution.to_string())

In [None]:
# Montando agora um data frame para o porcentagem total de cada usuário em relação ao total de estrelas do data set
usernamesByPercentage = usernamesByFrequency.copy()
usernamesByFrequency['Total Percentage'] = 0.0

totalStars = trrDF['Number of Stars'].sum()

for indx in range(0, len(usernamesByFrequency)):
    tempDF = repeatedStarDistribution.loc[repeatedStarDistribution['Username'] == usernamesByFrequency['Username'][indx]][['Number of Stars']]
    usernameTotal = tempDF['Number of Stars'].sum()

    usernamesByFrequency.loc[usernamesByFrequency['Username'] == usernamesByFrequency['Username'][indx], 'Total Percentage'] = usernameTotal/totalStars
    
# Ordenando por aqueles com maior porcentagem   
usernamesByFrequency = usernamesByFrequency.sort_values(by = 'Total Percentage', ascending = False)
usernamesByFrequency = usernamesByFrequency.reset_index(drop = True)    

# Não tão supreendentemente, os que aparecem mais estão mais no topo. Porém podemos ver que um dos usuários com o menor número de
# repositórios repetidos (2) está entre os 10 primeiros, o que é um feito considerável!
print(usernamesByFrequency.to_string())

In [None]:
# Só para ter uma ideia visual, vamos montar um gráfico pie chart usando o username de maior porcentagem e comparar com o que
# seria o resto
labels = usernamesByFrequency['Username'][0], 'All the rest'
explode=(0, 0.05)

# Artigos de periódico com coautoria de discente
figure(1, figsize=(6,6))
fracs = [usernamesByFrequency['Total Percentage'][0] * 100, 100-(usernamesByFrequency['Total Percentage'][0] * 100)]
pie(fracs, explode=explode, labels=labels, autopct='%1.4f%%', shadow=True, startangle=90, pctdistance=1.1, labeldistance=1.2)
title('Biggest percentage x The rest', bbox={'facecolor':'0.8', 'pad':5})

# A ideia inicial que tinha era que aquele que aparecesse mais teria no mínimo em torno de 8% do total de estrelas, mas fica
# claro que está bem abaixo disso.
show()

## 5) Quais/quantas linguagens de programação temos no data set?

In [None]:
# Vimos antes que a colula das linguagens tinha valores faltando (Nan). Vamos então limpar o data frame.
trrDFQ5 = trrDF.loc[trrDF['Language'].isnull() == False][['Repository Name', 'Number of Stars', 'Language']]
trrDFQ5 = trrDFQ5.reset_index(drop = True)
trrDFQ5.info()

In [None]:
print("Languages Total: ", len(trrDFQ5['Language'].unique()))
trrDFQ5['Language'].unique()

## 6) Qual a taxa repositórios/estrelas por linguagem de programação?

In [None]:
# Montando o data frame de resultado
ratesByLanguage = pd.DataFrame(columns=('Language', 'Stars/Repositories Rate'))
ratesByLanguage['Language'] = trrDFQ5['Language'].unique()
ratesByLanguage['Stars/Repositories Rate'] = 0

# Procurando valores por valor 'language'
for language in ratesByLanguage['Language']:
    # Reduzindo meu data frame para o valor 'language' da iteração
    tempDF = trrDFQ5.loc[trrDFQ5['Language'] == language]
    tempDF = tempDF.reset_index(drop = True)
    
    # Lista para guardar número de estrelas de cada repositório da respectiva linguagem
    starsByRepository = []
    
    # Percorrendo o data frame temporário para fazer a contagem da quantidade de repositórios, guardando seu número de estrelas
    for indx in range(0, len(tempDF)):
        ratesByLanguage.loc[ratesByLanguage['Language'] == tempDF['Language'][indx], 'Stars/Repositories Rate'] += 1
        starsByRepository.append(tempDF['Number of Stars'][indx])
    
    # Calculando taxa da linguagem
    ratesByLanguage.loc[ratesByLanguage['Language'] == language, 'Stars/Repositories Rate'] = sum(starsByRepository) / ratesByLanguage.loc[ratesByLanguage['Language'] == language, 'Stars/Repositories Rate']

# Ordenando de forma decrescente
ratesByLanguage = ratesByLanguage.sort_values(by = 'Stars/Repositories Rate', ascending = False)
ratesByLanguage = ratesByLanguage.reset_index(drop = True)        
    
# O resultado obtido. Não sei se fico surpreso ou não por Assembly estar de primeiro...
ratesByLanguage

In [None]:
# Vamos montar um gráfico de barras horizontais com os 5 primeiros valores encontrados
matplotlib.rcParams.update({'font.size': 12})

firstFive = ratesByLanguage[0:4].sort_values(by = 'Stars/Repositories Rate', ascending = True)
firstFive = firstFive.reset_index(drop = True)      

fig, ax = plt.subplots(figsize=(16,8))
y_pos = [i for i in range(0,len(firstFive['Language']))]
x_values = list(firstFive['Stars/Repositories Rate'])
bar_width = 0.2

ax.set_title("First 5 languages Stars x Repositores Rate")
ax.barh(y_pos, x_values, height=bar_width, label='Stars/Repositories Rate', color='#cc6644')
ax.set_yticks(y_pos)
ax.set_yticklabels(list(firstFive['Language']))
plt.xlim((0,max(x_values)*1.2))
rects = ax.patches

# For each bar: Place a label
for rect in rects:
    # Get X and Y placement of label from rect.
    x_value = rect.get_width()
    y_value = rect.get_y() + rect.get_height() / 2

    # Use Y value as label and format number with one decimal place
    label = "{:}".format(x_value)

    # Create annotation
    plt.annotate(
        label,                      # Use `label` as label
        (x_value, y_value),         # Place label at end of the bar
        xytext=(5, 5),              #  Shift label (horizontally,vertically)
        textcoords="offset points", # Interpret `xytext` as offset in points
        ha='left',                  # Horizontal label alignment
        va='top')                   # Vertical label alignment 

# Podemos ver o quão siginificativa é a diferença entre Assembly e a segunda linguagem
plt.show()

## 7) Quais as linguagens do top 10 repositórios?

## 8) Quais as top 10 lingagens do data set?

## 9) Dos usuários que aparecem mais de uma vez, quantos possuem repositórios de linguagens diferentes (ex.: um repositório em C, outro em Lua)?

## 10) Quais os termos mais frequentes usados nas descrições/tags?

## 11) Crie gráficos do valor da métrica silhouette para as clusterizações entre usuários com mais de um repositório pelo número de linguagens, quantidade de estrelas e total de repositórios. Comente o resultado.

In [None]:
# Comecemos por eliminar valores NaN
trrDFQ11 = trrDF.fillna(0)
trrDFQ11.info()

In [None]:
# Montando o data frame com as informações necessárias
clusteringDF = pd.DataFrame(columns=('Username', 'Number of Repositories', 'Languages', 'Stars Total'))
clusteringDF['Username'] = usernamesByFrequency['Username']
clusteringDF['Number of Repositories'] = usernamesByFrequency['Frequency']
clusteringDF['Languages'] = 0
clusteringDF['Stars Total'] = 0

# Percorrendo o data frame criado pelo username para calcular o resto dos valores
for username in clusteringDF['Username']:
    clusteringDF.loc[clusteringDF['Username'] == username, 'Languages'] = len(trrDFQ11.loc[trrDFQ11['Username'] == username, 'Language'].unique())
    clusteringDF.loc[clusteringDF['Username'] == username, 'Stars Total'] = sum(trrDFQ11.loc[trrDFQ11['Username'] == username, 'Number of Stars'])
       
pd.set_option('display.max_rows', 83) # Para poder visualizar todas as tuplas deste data frame

# O resultado obtido
clusteringDF

In [None]:
# Agora tiramos a primeira coluna porque não precisamos mais dela
clusteringNoUsername = clusteringDF[clusteringDF.columns[1:]]

clusteringArray = clusteringNoUsername.values
clusteringArray

In [None]:
# Agora vamos gerar os gráficos de silhouettes e os resultados
range_n_clusters = [2, 3, 4, 5, 6]

for n_clusters in range_n_clusters:
    # Create a subplot with 1 row and 2 columns
    fig, (ax1, ax2) = plt.subplots(1, 2)
    fig.set_size_inches(18, 7)

    # The 1st subplot is the silhouette plot
    # The silhouette coefficient can range from -1, 1 but in this example all
    # lie within [-0.1, 1]
    ax1.set_xlim([-0.1, 1])
    # The (n_clusters+1)*10 is for inserting blank space between silhouette
    # plots of individual clusters, to demarcate them clearly.
    ax1.set_ylim([0, len(clusteringArray) + (n_clusters + 1) * 10])

    # Initialize the clusterer with n_clusters value and a random generator
    # seed of 10 for reproducibility.
    clusterer = KMeans(n_clusters=n_clusters, random_state=10)
    cluster_labels = clusterer.fit_predict(clusteringArray)

    # The silhouette_score gives the average value for all the samples.
    # This gives a perspective into the density and separation of the formed
    # clusters
    silhouette_avg = silhouette_score(clusteringArray, cluster_labels)
    print("For n_clusters =", n_clusters,
          "The average silhouette_score is :", silhouette_avg)

    # Compute the silhouette scores for each sample
    sample_silhouette_values = silhouette_samples(clusteringArray, cluster_labels)

    y_lower = 10
    for i in range(n_clusters):
        # Aggregate the silhouette scores for samples belonging to
        # cluster i, and sort them
        ith_cluster_silhouette_values = \
            sample_silhouette_values[cluster_labels == i]

        ith_cluster_silhouette_values.sort()

        size_cluster_i = ith_cluster_silhouette_values.shape[0]
        y_upper = y_lower + size_cluster_i

        color = cm.spectral(float(i) / n_clusters)
        ax1.fill_betweenx(np.arange(y_lower, y_upper),
                          0, ith_cluster_silhouette_values,
                          facecolor=color, edgecolor=color, alpha=0.7)

        # Label the silhouette plots with their cluster numbers at the middle
        ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))

        # Compute the new y_lower for next plot
        y_lower = y_upper + 10  # 10 for the 0 samples

    ax1.set_title("The silhouette plot for the various clusters.")
    ax1.set_xlabel("The silhouette coefficient values")
    ax1.set_ylabel("Cluster label")

    # The vertical line for average silhouette score of all the values
    ax1.axvline(x=silhouette_avg, color="red", linestyle="--")

    ax1.set_yticks([])  # Clear the yaxis labels / ticks
    ax1.set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])

    # 2nd Plot showing the actual clusters formed
    colors = cm.spectral(cluster_labels.astype(float) / n_clusters)
    ax2.scatter(clusteringArray[:, 0], clusteringArray[:, 1], marker='.', s=30, lw=0, alpha=0.7,
                c=colors, edgecolor='k')

    # Labeling the clusters
    centers = clusterer.cluster_centers_
    # Draw white circles at cluster centers
    ax2.scatter(centers[:, 0], centers[:, 1], marker='o',
                c="white", alpha=1, s=200, edgecolor='k')

    for i, c in enumerate(centers):
        ax2.scatter(c[0], c[1], marker='$%d$' % i, alpha=1,
                    s=50, edgecolor='k')

    ax2.set_title("The visualization of the clustered data.")
    ax2.set_xlabel("Feature space for the 1st feature")
    ax2.set_ylabel("Feature space for the 2nd feature")

    plt.suptitle(("Silhouette analysis for KMeans clustering on sample data "
                  "with n_clusters = %d" % n_clusters),
                 fontsize=14, fontweight='bold')

    plt.show()

## Resultados obtidos:
For n_clusters = 2 The average silhouette_score is : 0.840174217763<br/>
For n_clusters = 3 The average silhouette_score is : 0.770948083057<br/>
For n_clusters = 4 The average silhouette_score is : 0.745114183213<br/>
For n_clusters = 5 The average silhouette_score is : 0.636531870982<br/>
For n_clusters = 6 The average silhouette_score is : 0.649123312056<br/>
<br/>
Esses resultados acabaram não sendo muito satisfatórios, pois aponta como número ideal de clusters **n=2**. A situação piora cada vez que se aumenta o número de clusters, os gráficos também mostram isso. Isso deve significar que nosso data set está pobre de informações e que provavelmente teríamos obtido melhores resultados tendo mais atributos significativos nele como quantidade de colaboradores, quantidade de commits e quantidade de issues, por exemplo.