# DataScience - Projeto ADA

#### Integrantes
- Eduardo Chimchek Jeronimo
- Gabriel Rosso
- João Augusto da silva borges
- Josiane Rodrigues

### Limpeza dos dados

In [180]:
#!pip install pandas
#!pip install numpy

import pandas as pd
import numpy as np

In [181]:
dadosAllFields  = pd.read_csv('../data/issues_all_fields.csv')
dadosUnidos = pd.read_csv('../data/issues_main_fields.csv')
dadosParents    = pd.read_csv('../data/parents.csv')

dadosUnidos = pd.merge(dadosUnidos, dadosAllFields, how = 'inner', on = 'Key')

##dadosUnidos


#dadosAllFields
#dadosMainFields
#dadosParents

## Comprovando que o x e y são mesmos valores

In [182]:
dadosUnidos2 = dadosUnidos[['Designer_x','Designer_y']]


dadosUnidos2

Unnamed: 0,Designer_x,Designer_y
0,,
1,,
2,,
3,,
4,,
...,...,...
2174,Gabrieli Souza,Gabrieli Souza
2175,Gabrieli Souza,Gabrieli Souza
2176,Gabrieli Souza,Gabrieli Souza
2177,Gabrieli Souza,Gabrieli Souza


## Dropando as colunas y

In [183]:
dadosUnidos = dadosUnidos.drop(dadosUnidos.filter(regex='_y').columns, axis=1)

### Colunas

In [184]:
#dadosAllFields.columns
#dadosMainFields.columns
#dadosParents.columns

dadosUnidos.columns

Index(['Key', 'parent_x', 'Summary_x', 'Assignee_x', 'Designer_x', 'Devs_x',
       'Issue Type_x', 'Status_x', 'Story point estimate_x', 'Created',
       'Resolved_x', 'Creator_x', 'DesignEndTaskDate', 'DesignStartTaskDate',
       'EndResolution', 'EndSubTaskDate', 'Epic Link', 'Epic Link.Name',
       'Reporter', 'RequirementsEndTaskDate', 'RequirementsStartTaskDate',
       'Start date', 'StartResolution', 'Sprint', 'StartSubTaskDate',
       'Status Transition', 'Time tracking'],
      dtype='object')

### Formatando Nomes
Para facilitar o entendimento do nome das colunas e do uso das mesmas ao longo do código, será feito uma formatação para remover caracteres especiais e espaçamentos além de padronizar tudo para minúscula e no formato snake_case

In [185]:
##!pip install unidecode

from unidecode import unidecode

def formatColumnName(column):
    newName = unidecode(column).lower()
    newName = newName.replace('.', '')
    newName = newName.replace('_x', '')
    newName = newName.replace(' ', '_')
    return newName


In [186]:
newNamesDict = dict()

for column in dadosUnidos.columns:
    newNamesDict[column] = formatColumnName(column)

newNamesDict

{'Key': 'key',
 'parent_x': 'parent',
 'Summary_x': 'summary',
 'Assignee_x': 'assignee',
 'Designer_x': 'designer',
 'Devs_x': 'devs',
 'Issue Type_x': 'issue_type',
 'Status_x': 'status',
 'Story point estimate_x': 'story_point_estimate',
 'Created': 'created',
 'Resolved_x': 'resolved',
 'Creator_x': 'creator',
 'DesignEndTaskDate': 'designendtaskdate',
 'DesignStartTaskDate': 'designstarttaskdate',
 'EndResolution': 'endresolution',
 'EndSubTaskDate': 'endsubtaskdate',
 'Epic Link': 'epic_link',
 'Epic Link.Name': 'epic_linkname',
 'Reporter': 'reporter',
 'RequirementsEndTaskDate': 'requirementsendtaskdate',
 'RequirementsStartTaskDate': 'requirementsstarttaskdate',
 'Start date': 'start_date',
 'StartResolution': 'startresolution',
 'Sprint': 'sprint',
 'StartSubTaskDate': 'startsubtaskdate',
 'Status Transition': 'status_transition',
 'Time tracking': 'time_tracking'}

In [187]:
dadosUnidos = dadosUnidos.rename(columns=newNamesDict)

### Verificando Tipo de Dados
Precisamos verificar os tipos de dados que contem em cada coluna e com essa informação fazer o tratamento dos dados de forma adequada.

In [188]:
dadosUnidos['created'].unique()

array(['25/09/2023 04:56:08', '25/09/2023 04:54:38',
       '25/09/2023 04:52:56', ..., '10/10/2022 06:29:43',
       '14/10/2022 06:37:11', '10/10/2022 06:29:58'], dtype=object)

In [189]:
dadosUnidos['resolved'].unique()

array([nan, '22/09/2023 12:47:24', '22/09/2023 12:51:56', ...,
       '27/02/2023 03:37:15', '23/01/2023 04:31:51',
       '23/01/2023 04:31:47'], dtype=object)

In [190]:
dadosUnidos = dadosUnidos[(~pd.isnull(dadosUnidos['startresolution']))]
dadosUnidos = dadosUnidos.reset_index(drop=True)

dadosUnidos = dadosUnidos[(~pd.isnull(dadosUnidos['endresolution']))]
dadosUnidos = dadosUnidos.reset_index(drop=True)

dadosUnidos = dadosUnidos[(~pd.notnull(dadosUnidos['designendtaskdate']))]
dadosUnidos = dadosUnidos.reset_index(drop=True)

dadosUnidos = dadosUnidos[(~pd.notnull(dadosUnidos['designstarttaskdate']))]
dadosUnidos = dadosUnidos.reset_index(drop=True)

dadosUnidos = dadosUnidos[(~pd.notnull(dadosUnidos['designer']))]
dadosUnidos = dadosUnidos.reset_index(drop=True)

In [191]:

dadosLimpos = dadosUnidos[['parent','assignee','devs','issue_type','endresolution','startresolution','sprint']]
dadosLimpos.head()

Unnamed: 0,parent,assignee,devs,issue_type,endresolution,startresolution,sprint
0,SA-2,Yan Fagundes,Jean Carlos,Bug,22/09/2023 16:47:24,22/09/2023 09:18:10,Sprint 68
1,SA-2,Yan Fagundes,Jean Carlos,Bug,22/09/2023 16:51:56,22/09/2023 09:26:58,Sprint 68
2,SA-2,Yan Fagundes,Jean Carlos;Luiz Gustavo,Bug,22/09/2023 16:48:27,22/09/2023 09:55:29,Sprint 68
3,SA-2,Yan Fagundes,Jean Carlos,Bug,22/09/2023 16:49:39,22/09/2023 09:01:01,Sprint 68
4,SA-3947,Yan Fagundes,Luiz Gustavo,Task,22/09/2023 10:28:00,20/09/2023 15:15:53,Sprint 68


### Gerando Totais de sprints de cada registro

In [192]:
# Função para contar o número de sprints em uma célula
def contar_sprints(s):
    return s.count(';') + 1 if isinstance(s, str) else 0

In [193]:
# Criar uma nova coluna 'total_sprints' com o número total de sprints
dadosLimpos.loc[:, 'total_sprints'] = dadosLimpos['sprint'].apply(contar_sprints)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dadosLimpos.loc[:, 'total_sprints'] = dadosLimpos['sprint'].apply(contar_sprints)


In [194]:
dadosLimpos = dadosLimpos.drop(columns='sprint')

### Gerando uma nova coluna que é diferença entre as datas de startresolution e endresolution

In [195]:
# Converter colunas para o tipo datetime
dadosLimpos['endresolution'] = pd.to_datetime(dadosLimpos['endresolution'], format='%d/%m/%Y %H:%M:%S')
dadosLimpos['startresolution'] = pd.to_datetime(dadosLimpos['startresolution'], format='%d/%m/%Y %H:%M:%S')

# Calcular a diferença entre as colunas
dadosLimpos['tempo_resolucao'] = (dadosLimpos['endresolution'] - dadosLimpos['startresolution']).dt.total_seconds().astype(int)

In [196]:
dadosLimpos = dadosLimpos.drop(columns=['startresolution','endresolution'])

In [197]:
dadosLimpos

Unnamed: 0,parent,assignee,devs,issue_type,total_sprints,tempo_resolucao
0,SA-2,Yan Fagundes,Jean Carlos,Bug,1,26954
1,SA-2,Yan Fagundes,Jean Carlos,Bug,1,26698
2,SA-2,Yan Fagundes,Jean Carlos;Luiz Gustavo,Bug,1,24778
3,SA-2,Yan Fagundes,Jean Carlos,Bug,1,28118
4,SA-3947,Yan Fagundes,Luiz Gustavo,Task,1,155527
...,...,...,...,...,...,...
285,SA-117,Yan Fagundes,Carlos Pasquali,Task,1,86400
286,SA-2,Yan Fagundes,,Task,2,10037
287,SA-2859,Donavan Marques,Kauã Librelato da Costa,Bug,9,616125
288,SA-2,Yan Fagundes,,Task,7,13524


In [198]:
dadosLimpos.to_csv('../data/dados_limpos.csv', index=False)