# **Conjunto de dados usado para estimar o número de mulheres editoras e suas práticas de edição na Wikipédia espanhola**


## Informação dos atributos:

**gender:** 0 (desconhecido), 1 (masculino), 2 (feminino)  
**C_api:** gênero extraído da API WikiMedia, códigos como feminino/masculino/desconhecido  
**C_man:** sexo extraído da codificação do conteúdo, codificado como 1 (masculino) / 2 (feminino) / 3 (desconhecido)  
**E_NEds:** Índice I do estrato IJ (0,1,2,3)  
**E_Bpag:** Índice J do estrato IJ (0,1,2,3)  
**firstDay:** primeira edição na Wikipédia espanhola (AAAAMMDDHHMMSS)  
**lastDay:** última edição na Wikipédia espanhola (AAAAMMDDHHMMSS)  
**NEds:** número total de edições  
**NDays:** número de dias (últimoDia-primeiroDia+1)  
**NActDays:** número de dias com edições  
**NPages:** número de páginas diferentes editadas  
**NPcreated:** número de páginas criadas  
**pagesWomen:** número de edições em páginas relacionadas a mulheres  
**wikiprojWomen:** número de edições em WikiProjects relacionadas a mulheres  
**ns_user:** número de edições no usuário do namespace  
**ns_wikipedia:** número de edições no namespace wikipedia  
**ns_talk:** número de edições no namespace talk  
**ns_userTalk:** número de edições no namespace user talk  
**ns_content:** número de edições nas páginas de conteúdo  
**weightIJ:** corrigindo o peso para o estrato IJ  
**NIJ:** número de elementos no estrato IJ  

### **Medidas**
**GENDER:** Foi determinado pela combinação do gênero especificado no perfil do usuário (através da API MediaWiki) com o gênero extraído da codificação de contetúdo. (ex: no perfil do usuário possui expressões como "sou advogada")  
**CAPI:** Dados da API MediaWiki  
**CMAN:** Gênero calculado pela codificação de conteúdo manual descrito no artigo  

Se **CMAN** = **CAPI**, então classe = **CMAN**  
Se **CMAN** = *unknown* & **CAPI** != *unknown*, então classe = **CAPI**  
Se **CMAN** != *unknown* & **CAPI** = *unkonwn*, então classe = **CMAN**  
Caso contrário, gere um erro, pois ambos os procedimentos não concordam. 

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Preparação dos dados

In [None]:
import pandas as pd
pd.set_option('max_columns', None)
df = pd.read_csv('data.csv')

In [None]:
df.head()

Unnamed: 0,gender,C_api,C_man,E_NEds,E_Bpag,firstDay,lastDay,NEds,NDays,NActDays,NPages,NPcreated,pagesWomen,wikiprojWomen,ns_user,ns_wikipedia,ns_talk,ns_userTalk,ns_content,weightIJ,NIJ
0,1,male,1,2,2,20170527205915,20170721044501,543,56,43,204,4,0,0,91,28,6,76,324,0.915024,978
1,0,unknown,3,3,1,20110301072441,20170731213735,2764,2345,514,722,7,0,0,100,249,183,646,1526,0.661673,477
2,1,male,1,0,2,20060907204302,20140911191722,57,2927,25,25,0,0,0,3,0,1,3,49,0.800528,664
3,1,male,1,1,2,20121003144916,20121208180528,104,67,5,66,2,0,0,20,1,2,2,78,1.027717,841
4,0,unknown,3,1,1,20070311125035,20141106121057,184,2798,27,125,0,0,0,26,10,5,24,112,0.997535,994


## Selecionando atributos relevantes
Removendo as colunas **[E_NEds | E_Bpag | weightIJ | NIJ]** porque são informações da técnica de amostragem de dados descritos no artigo, portanto, não é necessário para treinar os modelos de predição de dados.

In [None]:
df = df[['gender', 'C_api', 'C_man', 'firstDay', 'lastDay', 'NEds', 'NDays', 'NActDays', 'NPages', 'NPcreated', 'pagesWomen', 'wikiprojWomen', 'ns_user', 'ns_wikipedia', 'ns_talk', 'ns_userTalk', 'ns_content']]

Removendo os atributos C_api e C_man para termos somente uma classe de gênero no dataset. O atributo gender foi definido como a única classe porque ela foi determinada pela combinação do gênero especificado no perfil do usuário (através da API MediaWiki) com o gênero extraído da codificação de contetúdo. (ex: no perfil do usuário possui expressões como "sou advogada") 

In [None]:
df = df[['gender', 'firstDay', 'lastDay', 'NEds', 'NDays', 'NActDays', 'NPages', 'NPcreated', 'pagesWomen', 'wikiprojWomen', 'ns_user', 'ns_wikipedia', 'ns_talk', 'ns_userTalk', 'ns_content']]

## Transformando dados

Como observado na nossa exploração de dados, os atributos de data são de suma importância para o treinamento do modelo, visto que existe uma diferença entre os períodos observados na classe Masculino e Feminino. Portanto, vamos converter as datas que estão no formato **AAAAMMDDhhmmss** para **AAMM**, e posteriormente, aplicando a normalização desses dados.

In [None]:
def date_to_AAAAMMDD(date):
  return str(date)[:6]

In [None]:
df['firstDay'] = df['firstDay'].apply(date_to_AAAAMMDD)
df['lastDay']  = df['lastDay'].apply(date_to_AAAAMMDD)

In [None]:
df.head()

Unnamed: 0,gender,firstDay,lastDay,NEds,NDays,NActDays,NPages,NPcreated,pagesWomen,wikiprojWomen,ns_user,ns_wikipedia,ns_talk,ns_userTalk,ns_content
0,1,201705,201707,543,56,43,204,4,0,0,91,28,6,76,324
1,0,201103,201707,2764,2345,514,722,7,0,0,100,249,183,646,1526
2,1,200609,201409,57,2927,25,25,0,0,0,3,0,1,3,49
3,1,201210,201212,104,67,5,66,2,0,0,20,1,2,2,78
4,0,200703,201411,184,2798,27,125,0,0,0,26,10,5,24,112


## Normalizando os dados
Visto que os dados não são normalmente distribuidos, vamos a aplicar o Standard Scaler para  realizar a normalização de dados.  
Essa normalização utiliza a média e o desvio padrão, que é mais útil quando existem muitos outliers na base de dados.

In [None]:
df.describe()

Unnamed: 0,gender,NEds,NDays,NActDays,NPages,NPcreated,pagesWomen,wikiprojWomen,ns_user,ns_wikipedia,ns_talk,ns_userTalk,ns_content
count,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0
mean,0.737042,2029.969448,2036.60788,183.162663,689.45196,43.47914,0.438896,0.439949,74.372946,74.36831,49.947745,96.081753,1521.886641
std,0.585355,7793.300833,1336.119914,374.034481,3355.302483,297.395507,5.32744,17.832244,246.407233,560.782479,215.554281,545.025818,6099.009235
min,0.0,50.0,1.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,0.0,95.0,835.25,24.0,29.0,1.0,0.0,0.0,4.0,0.0,0.0,1.0,61.0
50%,1.0,218.0,2035.5,53.0,68.0,4.0,0.0,0.0,14.0,1.0,4.0,5.0,151.0
75%,1.0,757.75,3146.5,154.0,219.75,14.0,0.0,0.0,46.0,8.0,19.0,22.0,563.75
max,2.0,153193.0,5349.0,3843.0,94142.0,13394.0,185.0,949.0,6041.0,24392.0,4788.0,12350.0,115547.0


### Separando os atributos previsores

In [None]:
previsores = ['firstDay', 'lastDay', 'NEds', 'NDays', 'NActDays', 'NPages', 'NPcreated', 'pagesWomen', 'wikiprojWomen', 'ns_user', 'ns_wikipedia', 'ns_talk', 'ns_userTalk', 'ns_content']
df_class = df[['gender']]
df       = df[previsores]

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)

O tipo de dado muda, não é mais um DF, e sim um Numpy Array

In [None]:
min(df_scaled[0]), max(df_scaled[0]), type(df_scaled)

(-1.4825140715257943, 2.0221692216156013, numpy.ndarray)

Convertendo Numpy Array para Pandas Dataframe e concatenando a classe Gender

In [None]:
df_scaled = pd.DataFrame(data=df_scaled, columns = df.columns)
df_scaled = pd.concat([df_scaled, df_class], axis=1)
df_scaled.describe()

Unnamed: 0,firstDay,lastDay,NEds,NDays,NActDays,NPages,NPcreated,pagesWomen,wikiprojWomen,ns_user,ns_wikipedia,ns_talk,ns_userTalk,ns_content,gender
count,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0,4746.0
mean,5.595094e-16,-5.313152e-15,2.5743790000000002e-17,-1.3754980000000002e-17,2.5790580000000003e-17,1.9193810000000002e-17,7.565237000000001e-17,2.721637e-16,-5.0791650000000007e-17,-4.982085e-17,-1.296137e-16,1.860957e-16,2.076112e-16,1.451524e-17,0.737042
std,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,1.000105,0.585355
min,-2.255495,-1.989587,-0.2540872,-1.523682,-0.4870724,-0.2052049,-0.1462151,-0.0823927,-0.02467417,-0.2978024,-0.1326292,-0.2317421,-0.176307,-0.2495564,0.0
25%,-0.8248665,-0.8110295,-0.2483124,-0.899234,-0.4255742,-0.196859,-0.1428522,-0.0823927,-0.02467417,-0.2856262,-0.1326292,-0.2317421,-0.174472,-0.2395538,0.0
50%,-0.2332746,0.3332011,-0.232528,-0.0008292647,-0.3480331,-0.1852344,-0.1327636,-0.0823927,-0.02467417,-0.2450387,-0.1308458,-0.2131834,-0.1671322,-0.2247957,1.0
75%,0.8816484,0.9053164,-0.1632625,0.8307705,-0.07797606,-0.1400027,-0.09913481,-0.0823927,-0.02467417,-0.1151587,-0.1183619,-0.143588,-0.1359377,-0.1571136,1.0
max,2.033546,0.9224799,19.39858,2.479374,9.78579,27.85513,44.8962,34.64714,53.19914,24.21705,43.36832,21.9831,22.48556,18.69765,2.0


# Separando o dataset entre gênero conhecido e desconhecido

Vamos separar o dataset entre o conjunto de dados que possuem gêneros definidos (Masculino e Feminino) e o conjunto de dados que possuem gêneros desconhecidos. Essa separação se faz necessária para podermos utilizar a técnica de desbalaceamento do dataset posteriormente. Como também, o dataset com as instâncias de classe "Desconhecida" vai ser utilizada em produção após o treinamento do modelo.

In [None]:
df_scaled_unknown = df_scaled[df_scaled['gender'] == 0]
df_scaled_known   = df_scaled[df_scaled['gender'] != 0]

df_scaled_unknown.shape, df_scaled_known.shape

((1601, 15), (3145, 15))

# Balanceando o dataset de treino

Visto que os dados estão desbalanceados, nós vamos aplicar a técnica de Oversampling para replicar as observações com menor quantidade para se equalizar em números de classificação.  

Vamos utilizar o método SMOTE que encontra os vizinhos próximos para as classes em minoria para cada amostra das classififcações. Em seguida, traça uma reta entre o ponto original e o vizinho para definir a localização da observação da observação genérica.

In [None]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

X, y = df_scaled_known[previsores], df_scaled_known['gender']

X_resampled, y_resampled = SMOTE().fit_resample(X, y)

X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size = .25, random_state=1)

In [None]:
y_resampled.value_counts()

1    2792
2    2792
Name: gender, dtype: int64

In [None]:
print(f'{X_train.shape[0]} dados para treinar o modelo e {X_test.shape[0]} para testar o modelo treinado.')

4188 dados para treinar o modelo e 1396 para testar o modelo treinado.


## Exportando dataset para realizar a predição e as variáveis de treino e teste

In [None]:
path = '/content/drive/MyDrive/Mineração de Dados/IF998 - Missões SMD/Projeto/'

In [None]:
import pickle
with open(path+'train_test.pkl', 'wb') as f:
    pickle.dump([X_train, X_test, y_train, y_test], f) 

In [None]:
df_scaled_unknown.to_csv(path+'data_predict.csv')