# Protótipo de etl onde eu irei analisar o conjunto de dados, conjunto de dados que contém dados sobre mortes sobre cancer cefalico

In [13]:
import pandas as pd

df = pd.read_csv(r'../../data/dataset-casos-cancer.csv', index_col=0)

dataframe_copy = df.copy()

pd.set_option('display.max_columns', None)   
pd.set_option('display.max_rows', None)      
pd.set_option('display.width', 300)         
pd.set_option('display.max_colwidth', None) 
pd.set_option('display.float_format', '{:.2f}'.format)

dataframe_copy.info()

<class 'pandas.core.frame.DataFrame'>
Index: 112 entries, 0 to 111
Data columns (total 5 columns):
 #   Column                                                                                                                 Non-Null Count  Dtype  
---  ------                                                                                                                 --------------  -----  
 0   Entity                                                                                                                 112 non-null    object 
 1   Code                                                                                                                   32 non-null     object 
 2   Year                                                                                                                   32 non-null     float64
 3   Age-standardized deaths from brain and nervous system cancers in both sexes in those aged all ages per 100,000 people  95 non-null     float64
 4   time    

## 1. Colunas e Schema
- [x] Padronizar nomes das colunas (`snake_case`)
- [x] Validar tipos de dados de cada coluna
- [x] Converter `ano` para `Int16`
- [x] Converter `codigo` para `string`
- [x] Validar que `taxa_mortalidade` é `float`

# Renomeando e traduzindo colunas

In [14]:
traducao_dataframe = {}

valores_a_traduzir = ['entidade', 'codigo', 'ano', 'taxa_mortalidade', 'tempo']

for novo_nome, coluna_original in zip(valores_a_traduzir, dataframe_copy.columns):
    traducao_dataframe[coluna_original] = novo_nome.lower()

dataframe_copy = dataframe_copy.rename(columns=traducao_dataframe)
dataframe_copy

Unnamed: 0,entidade,codigo,ano,taxa_mortalidade,tempo
0,Albania,,,,2023
1,Antigua and Barbuda,,,2.47,2021
2,Argentina,,,2.64,2022
3,Armenia,ARM,2023.0,3.94,2023
4,Australia,AUS,2023.0,3.84,2023
5,Austria,AUT,2023.0,3.74,2023
6,Azerbaijan,,,,2023
7,Bahamas,,,,2023
8,Bahrain,,,,2023
9,Barbados,,,,2023


# Validar tipos de dados de cada coluna

In [15]:
dataframe_copy['entidade'].astype('str')

dataframe_copy['codigo'] = dataframe_copy['codigo'].astype('str')

dataframe_copy['ano'] = dataframe_copy['ano'].fillna(0).astype('int16')

dataframe_copy['taxa_mortalidade'] = dataframe_copy['taxa_mortalidade'].fillna(0.0).astype('float16')

dataframe_copy['tempo'].fillna(0).astype('Int16')


0      2023
1      2021
2      2022
3      2023
4      2023
5      2023
6      2023
7      2023
8      2023
9      2023
10     2018
11     2021
12     2022
13     2023
14     2021
15     2019
16     2022
17     2022
18     2023
19     2022
20     2021
21     2022
22     2021
23     2021
24     2022
25     2023
26     2022
27     2018
28     2022
29     2019
30     2018
31     2022
32     2023
33     2022
34     2022
35     2023
36     2023
37     2020
38     2022
39     2023
40     2022
41     2020
42     2023
43     2022
44     2023
45     2023
46     2022
47     2022
48     2022
49     2023
50     2022
51     2018
52     2023
53     2023
54     2023
55     2023
56     2023
57     2023
58     2023
59     2020
60     2021
61     2022
62     2023
63     2022
64     2023
65     2023
66     2019
67     2023
68     2018
69     2022
70     2023
71     2023
72     2021
73     2022
74     2021
75     2022
76     2019
77     2022
78     2022
79     2022
80     2023
81     2022
82     2019
83  

## 2. Qualidade dos Dados
- [x] Remover espaços e padronizar texto em `entidade`
- [x] Criar flags para valores ausentes (ex: `is_missing_taxa`)
- [x] Identificar linhas sem informação relevante (`taxa_mortalidade`, `codigo` e `ano` nulos ao mesmo time)


In [16]:
dataframe_copy['entidade'] = (dataframe_copy['entidade'].str.title().str.strip())

dataframe_copy['linha_sem_registro'] = (
   dataframe_copy['taxa_mortalidade'].isna() &
    dataframe_copy['ano'].isna() &
    dataframe_copy['codigo'].isna()
)

dataframe_copy

Unnamed: 0,entidade,codigo,ano,taxa_mortalidade,tempo,linha_sem_registro
0,Albania,,0,0.0,2023,False
1,Antigua And Barbuda,,0,2.47,2021,False
2,Argentina,,0,2.64,2022,False
3,Armenia,ARM,2023,3.94,2023,False
4,Australia,AUS,2023,3.84,2023,False
5,Austria,AUT,2023,3.74,2023,False
6,Azerbaijan,,0,0.0,2023,False
7,Bahamas,,0,0.0,2023,False
8,Bahrain,,0,0.0,2023,False
9,Barbados,,0,0.0,2023,False


## 3. Tratamento de Nulls

- [x] Decidir tratamento para `entidade` e `codigo` faltante (tratar como 'Não informado' dados faltantes)
- [x] Decidir se `taxa_mortalidade` será imputada ou mantida como `NaN`

In [17]:
for coluna in dataframe_copy.columns:
    if coluna == 'entidade' or coluna == 'codigo':
        dataframe_copy[coluna] = dataframe_copy[coluna].fillna('Não informado')
        dataframe_copy[coluna] = dataframe_copy[coluna].replace('nan', 'Não informado')
        
dataframe_copy


## taxa de mortalidade será mantida com 0 ao inves de Nan

Unnamed: 0,entidade,codigo,ano,taxa_mortalidade,tempo,linha_sem_registro
0,Albania,Não informado,0,0.0,2023,False
1,Antigua And Barbuda,Não informado,0,2.47,2021,False
2,Argentina,Não informado,0,2.64,2022,False
3,Armenia,ARM,2023,3.94,2023,False
4,Australia,AUS,2023,3.84,2023,False
5,Austria,AUT,2023,3.74,2023,False
6,Azerbaijan,Não informado,0,0.0,2023,False
7,Bahamas,Não informado,0,0.0,2023,False
8,Bahrain,Não informado,0,0.0,2023,False
9,Barbados,Não informado,0,0.0,2023,False


## 4. Consistência
- [x] Verificar duplicidade por (`entidade`, `tempo`)
- [x] Verificar nomes duplicados de países ou inconsistências


In [18]:
dataframe_copy[['entidade', 'tempo']].duplicated().value_counts()

dataframe_copy['entidade'].duplicated().value_counts()

entidade
False    112
Name: count, dtype: int64

## 5. Correções de Semântica
- [x] Confirmar que `tempo` representa o ano real
- [x] Renomear `tempo` para `ano_referencia`

In [38]:
if 'ano' in dataframe_copy.columns:
    del dataframe_copy['ano']

dataframe_copy[(dataframe_copy['tempo'] < 2018) | (dataframe_copy['tempo'] > 2025)]

dataframe_copy = dataframe_copy.rename({'tempo': 'ano_referencia'})

if 'linha_sem_registro' in dataframe_copy.columns:
    del dataframe_copy['linha_sem_registro']

dataframe_copy.to_csv('../../data/dataset-casos-cancer-process.csv')