# Preprocessando os indicadores da Central Nacional de Denúncias - Safernet

Processamento feito a partir dos dados concedidos pela Safernet sobre a [Central Nacional de Denúncias](http://indicadores.safernet.org.br/index.html).

#### Acesse o link e saiba mais!


#### Primeiro descrevendo os dados que vamos trabalhar:

A partir da planilha original, disponível [nesse link](https://github.com/DeixeViver/eko-dados/tree/master/Notebooks/dados), os dados foram divididos em 3 arquivos 
(também disponíveis na [pasta eko-dados/Notebooks/dados/
](https://github.com/DeixeViver/eko-dados/tree/master/Notebooks/dados)):

- indicadores_cnd_violacao.csv que tem os dados sobre a quantidade de denúnicas por tempo e tipo de violação.
- indicadores_cnd_idioma.csv que tem os dados sobre a quantidade de denúnicas por tempo e idioma.
- indicadores_cnd_dominio.csv que tem os dados sobre a quantidade de denúnicas por tempo e domínio da página denunciada. Os domínios estão mascarados por uma questão de segurança e estão nesse formato desde o arquivo original recebido. A máscara aplicada permite que nós vejamos apenas os "radicais" dos sites e isso é o suficente para analisar, por exemplo, quais os domínios com maior quantidade de denúncia.

**indicadores_cnd_violacao.csv:**
- 'Período': Indica o perído mensal no qual as denúncias foram feitas.	
- 'Violação': Tipo de violação denunciada *(Apologia e Incitação a crimes contra a Vida, Homofobia, Intolerância Religiosa, Maus Tratos Contra Animais, Neo Nazismo, Não classificado, Pornografia Infantil, Racismo, Tráfico de Pessoas, Violência ou Discriminação contra Mulheres e Xenofobia)*
- 'Únicas': Quantidade de denúncias feitas para uma mesma página.
- 'Duplicadas': Quantidade de denúncias feitas para uma mesma página.
- 'Total': Total de todas as denúncias independente se foram duplicadas ou não.

**indicadores_cnd_idioma.csv:**
- 'Período': Indica o perído mensal no qual as denúncias foram feitas.	
- 'Idioma': Idioma da página denunciada *(dutch, english, farsi, french, german, pinyin, portuguese, russian, spanish, swedish)*.
- 'Únicas': Quantidade de denúncias feitas para uma mesma página.
- 'Duplicadas': Quantidade de denúncias feitas para uma mesma página.
- 'Total': Total de todas as denúncias independente se foram duplicadas ou não.

**indicadores_cnd_dominio.csv:**
- 'Período': Indica o perído mensal no qual as denúncias foram feitas.	
- 'Domínio': Parte do endereço web da página denunciada *(facebook.com, google.com.br, imgsrc.ru, instagram.com, orkut.com, orkut.com.br, twitter.com, uol.com.br, xvideos.com, youtube.com)*.
- 'Únicas': Quantidade de denúncias feitas para uma mesma página.
- 'Duplicadas': Quantidade de denúncias feitas para uma página já denunciada antes.
- 'Total': Total de todas as denúncias independente se foram duplicadas ou não.

In [220]:
import pandas as pd

### Tratamento dos Dados

In [221]:
cnd_violacao = pd.read_csv("../dados/indicadores_cnd_violacao.csv")
cnd_violacao.head(15)

Unnamed: 0,Período,Violação,Únicas,Duplicadas,Total
0,01/01/2006 a 31/01/2006,Xenofobia,4.0,1.0,5.0
1,01/01/2006 a 31/01/2006,Homofobia,2.0,0.0,2.0
2,01/01/2006 a 31/01/2006,Pornografia Infantil,75.0,0.0,75.0
3,01/01/2006 a 31/01/2006,Violência ou Discriminação contra Mulheres,0.0,0.0,0.0
4,01/01/2006 a 31/01/2006,Neo Nazismo,7.0,1.0,8.0
5,01/01/2006 a 31/01/2006,Apologia e Incitação a crimes contra a Vida,2.0,0.0,2.0
6,01/01/2006 a 31/01/2006,Racismo,4.0,0.0,4.0
7,01/01/2006 a 31/01/2006,Maus Tratos Contra Animais,2.0,0.0,2.0
8,01/01/2006 a 31/01/2006,Não classificado,0.0,0.0,0.0
9,01/01/2006 a 31/01/2006,Intolerância Religiosa,0.0,0.0,0.0


In [222]:
cnd_idioma = pd.read_csv("../dados/indicadores_cnd_idioma.csv")
cnd_idioma.head(15)

Unnamed: 0,Período,Idioma,Únicas,Duplicadas,Total
0,01/01/2006 a 31/01/2006,spanish,9.0,0.0,9.0
1,01/01/2006 a 31/01/2006,farsi,3.0,0.0,3.0
2,01/01/2006 a 31/01/2006,german,2.0,0.0,2.0
3,01/01/2006 a 31/01/2006,dutch,3.0,0.0,3.0
4,01/01/2006 a 31/01/2006,pinyin,0.0,0.0,0.0
5,01/01/2006 a 31/01/2006,french,10.0,0.0,10.0
6,01/01/2006 a 31/01/2006,english,190.0,0.0,190.0
7,01/01/2006 a 31/01/2006,russian,9.0,0.0,9.0
8,01/01/2006 a 31/01/2006,swedish,0.0,0.0,0.0
9,01/01/2006 a 31/01/2006,portuguese,55.0,1.0,56.0


In [223]:
cnd_dominio = pd.read_csv("../dados/indicadores_cnd_dominio.csv")
cnd_dominio.head(15)

Unnamed: 0,Período,Domínio,Únicas,Duplicadas,Total
0,01/01/2006 a 31/01/2006,facebook.com,129632.0,0.0,129632.0
1,01/01/2006 a 31/01/2006,youtube.com,15984.0,0.0,15984.0
2,01/01/2006 a 31/01/2006,orkut.com.br,198454.0,0.0,198454.0
3,01/01/2006 a 31/01/2006,xvideos.com,11313.0,0.0,11313.0
4,01/01/2006 a 31/01/2006,instagram.com,4574.0,0.0,4574.0
5,01/01/2006 a 31/01/2006,imgsrc.ru,4532.0,0.0,4532.0
6,01/01/2006 a 31/01/2006,google.com.br,4147.0,0.0,4147.0
7,01/01/2006 a 31/01/2006,twitter.com,26399.0,0.0,26399.0
8,01/01/2006 a 31/01/2006,orkut.com,157038.0,1.0,157039.0
9,01/01/2006 a 31/01/2006,uol.com.br,5050.0,0.0,5050.0


Imprimindo as 15 primeiras linhas dos arquivos podem ver que existem linhas vazias, que o Pandas converte para Nan.

Como linhas vazias não tem valor para nós, vamos retirar usando a o metodo retirando linhas vazias.

In [224]:
def retiranddo_linhas_vazias(df):
    df = df.dropna() # Função do Pandas para retirar linhas vazias
    return df

In [225]:
cnd_dominio = retiranddo_linhas_vazias(cnd_dominio)
cnd_idioma = retiranddo_linhas_vazias(cnd_idioma)
cnd_violacao = retiranddo_linhas_vazias(cnd_violacao)

Imprimindo novamente as 15 primeiras linhas de um dos arquivos podemos ver que as linhas vazias foram retiradas.

In [226]:
cnd_violacao.head(15)

Unnamed: 0,Período,Violação,Únicas,Duplicadas,Total
0,01/01/2006 a 31/01/2006,Xenofobia,4.0,1.0,5.0
1,01/01/2006 a 31/01/2006,Homofobia,2.0,0.0,2.0
2,01/01/2006 a 31/01/2006,Pornografia Infantil,75.0,0.0,75.0
3,01/01/2006 a 31/01/2006,Violência ou Discriminação contra Mulheres,0.0,0.0,0.0
4,01/01/2006 a 31/01/2006,Neo Nazismo,7.0,1.0,8.0
5,01/01/2006 a 31/01/2006,Apologia e Incitação a crimes contra a Vida,2.0,0.0,2.0
6,01/01/2006 a 31/01/2006,Racismo,4.0,0.0,4.0
7,01/01/2006 a 31/01/2006,Maus Tratos Contra Animais,2.0,0.0,2.0
8,01/01/2006 a 31/01/2006,Não classificado,0.0,0.0,0.0
9,01/01/2006 a 31/01/2006,Intolerância Religiosa,0.0,0.0,0.0


### Olhando a variação alguns campos

In [227]:
cnd_dominio.groupby("Período").count()

Unnamed: 0_level_0,Domínio,Únicas,Duplicadas,Total
Período,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
01/01/2006 a 31/01/2006,10,10,10,10
01/01/2007 a 31/01/2007,10,10,10,10
01/01/2008 a 31/01/2008,10,10,10,10
01/01/2009 a 31/01/2009,10,10,10,10
01/01/2010 a 31/01/2010,10,10,10,10
01/01/2011 a 31/01/2011,10,10,10,10
01/01/2012 a 31/01/2012,10,10,10,10
01/01/2013 a 31/01/2013,10,10,10,10
01/01/2014 a 31/01/2014,10,10,10,10
01/01/2015 a 31/01/2015,10,10,10,10


In [228]:
cnd_idioma.groupby("Idioma").count()

Unnamed: 0_level_0,Período,Únicas,Duplicadas,Total
Idioma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
dutch,156,156,156,156
english,156,156,156,156
farsi,156,156,156,156
french,156,156,156,156
german,156,156,156,156
pinyin,156,156,156,156
portuguese,156,156,156,156
russian,156,156,156,156
spanish,156,156,156,156
swedish,156,156,156,156


In [229]:
cnd_violacao.groupby("Violação").count()

Unnamed: 0_level_0,Período,Únicas,Duplicadas,Total
Violação,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Apologia e Incitação a crimes contra a Vida,156,156,156,156
Homofobia,156,156,156,156
Intolerância Religiosa,156,156,156,156
Maus Tratos Contra Animais,156,156,156,156
Neo Nazismo,156,156,156,156
Não classificado,156,156,156,156
Pornografia Infantil,156,156,156,156
Racismo,156,156,156,156
Tráfico de Pessoas,156,156,156,156
Violência ou Discriminação contra Mulheres,156,156,156,156


In [230]:
cnd_violacao.groupby("Período").count()

Unnamed: 0_level_0,Violação,Únicas,Duplicadas,Total
Período,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
01/01/2006 a 31/01/2006,11,11,11,11
01/01/2007 a 31/01/2007,11,11,11,11
01/01/2008 a 31/01/2008,11,11,11,11
01/01/2009 a 31/01/2009,11,11,11,11
01/01/2010 a 31/01/2010,11,11,11,11
01/01/2011 a 31/01/2011,11,11,11,11
01/01/2012 a 31/01/2012,11,11,11,11
01/01/2013 a 31/01/2013,11,11,11,11
01/01/2014 a 31/01/2014,11,11,11,11
01/01/2015 a 31/01/2015,11,11,11,11


In [231]:
cnd_dominio.groupby("Domínio").count()

Unnamed: 0_level_0,Período,Únicas,Duplicadas,Total
Domínio,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
facebook.com,156,156,156,156
google.com.br,156,156,156,156
imgsrc.ru,156,156,156,156
instagram.com,156,156,156,156
orkut.com,156,156,156,156
orkut.com.br,156,156,156,156
twitter.com,156,156,156,156
uol.com.br,156,156,156,156
xvideos.com,156,156,156,156
youtube.com,156,156,156,156


### Fazendo tratamento nas datas

In [232]:
def split_periodo(df):
    
    periodo_separado = df["Período"].str.split("a", expand=True)
    periodo_separado = periodo_separado.rename(columns={0: 'Início', 1: 'Fim'})

    df = df.join(periodo_separado)
    return df

In [233]:
cnd_violacao = split_periodo(cnd_violacao) 
cnd_violacao.head(5)

Unnamed: 0,Período,Violação,Únicas,Duplicadas,Total,Início,Fim
0,01/01/2006 a 31/01/2006,Xenofobia,4.0,1.0,5.0,01/01/2006,31/01/2006
1,01/01/2006 a 31/01/2006,Homofobia,2.0,0.0,2.0,01/01/2006,31/01/2006
2,01/01/2006 a 31/01/2006,Pornografia Infantil,75.0,0.0,75.0,01/01/2006,31/01/2006
3,01/01/2006 a 31/01/2006,Violência ou Discriminação contra Mulheres,0.0,0.0,0.0,01/01/2006,31/01/2006
4,01/01/2006 a 31/01/2006,Neo Nazismo,7.0,1.0,8.0,01/01/2006,31/01/2006


In [234]:
cnd_dominio = split_periodo(cnd_dominio) 
cnd_dominio.head(5)

Unnamed: 0,Período,Domínio,Únicas,Duplicadas,Total,Início,Fim
0,01/01/2006 a 31/01/2006,facebook.com,129632.0,0.0,129632.0,01/01/2006,31/01/2006
1,01/01/2006 a 31/01/2006,youtube.com,15984.0,0.0,15984.0,01/01/2006,31/01/2006
2,01/01/2006 a 31/01/2006,orkut.com.br,198454.0,0.0,198454.0,01/01/2006,31/01/2006
3,01/01/2006 a 31/01/2006,xvideos.com,11313.0,0.0,11313.0,01/01/2006,31/01/2006
4,01/01/2006 a 31/01/2006,instagram.com,4574.0,0.0,4574.0,01/01/2006,31/01/2006


In [235]:
cnd_idioma = split_periodo(cnd_idioma) 
cnd_idioma.head(5)

Unnamed: 0,Período,Idioma,Únicas,Duplicadas,Total,Início,Fim
0,01/01/2006 a 31/01/2006,spanish,9.0,0.0,9.0,01/01/2006,31/01/2006
1,01/01/2006 a 31/01/2006,farsi,3.0,0.0,3.0,01/01/2006,31/01/2006
2,01/01/2006 a 31/01/2006,german,2.0,0.0,2.0,01/01/2006,31/01/2006
3,01/01/2006 a 31/01/2006,dutch,3.0,0.0,3.0,01/01/2006,31/01/2006
4,01/01/2006 a 31/01/2006,pinyin,0.0,0.0,0.0,01/01/2006,31/01/2006


Agora que todos os data frames possuem os campos início e fim, podemos transformar os valores nessas colunas em Datetime, o que permite uma melhor manipulação.

In [236]:
def conversao_string_datetime(df, coluna):
    df[coluna] = pd.to_datetime(df[coluna], dayfirst=True)
          
    return df

In [237]:
cnd_violacao.dtypes

Período        object
Violação       object
Únicas        float64
Duplicadas    float64
Total         float64
Início         object
Fim            object
dtype: object

In [238]:
cnd_violacao = conversao_string_datetime(cnd_violacao, 'Início')
cnd_violacao = conversao_string_datetime(cnd_violacao, 'Fim')
cnd_violacao.dtypes

Período               object
Violação              object
Únicas               float64
Duplicadas           float64
Total                float64
Início        datetime64[ns]
Fim           datetime64[ns]
dtype: object

In [239]:
cnd_dominio.dtypes

Período        object
Domínio        object
Únicas        float64
Duplicadas    float64
Total         float64
Início         object
Fim            object
dtype: object

In [240]:
cnd_dominio = conversao_string_datetime(cnd_dominio, 'Início')
cnd_dominio = conversao_string_datetime(cnd_dominio, 'Fim')
cnd_dominio.dtypes

Período               object
Domínio               object
Únicas               float64
Duplicadas           float64
Total                float64
Início        datetime64[ns]
Fim           datetime64[ns]
dtype: object

In [241]:
cnd_idioma.dtypes

Período        object
Idioma         object
Únicas        float64
Duplicadas    float64
Total         float64
Início         object
Fim            object
dtype: object

In [242]:
cnd_idioma = conversao_string_datetime(cnd_idioma, 'Início')
cnd_idioma = conversao_string_datetime(cnd_idioma, 'Fim')
cnd_idioma.dtypes

Período               object
Idioma                object
Únicas               float64
Duplicadas           float64
Total                float64
Início        datetime64[ns]
Fim           datetime64[ns]
dtype: object

Agora que temos os campos no formato Datetime podemos extrair o ano, o nome do mes e o numero do mes de cada coluna.

In [243]:
# Para evitar divergências só criamos os novos campos 
# caso as informações de mes e ano sejam iguais tanto para 
# a coluna Início quanto para a coluna Fim

def set_mes_ano(df):
    
    if df['Início'].dt.month.all() == df['Fim'].dt.month.all():
        df['Mês'] = df['Início'].dt.month_name(locale='pt_BR.UTF-8')
        df['Mês Número'] = df['Início'].dt.month
        
        df['Ano'] = df['Início'].dt.year if df['Início'].dt.year.all() == df['Fim'].dt.year.all() else None
    
    return df

In [244]:
cnd_violacao.head()

Unnamed: 0,Período,Violação,Únicas,Duplicadas,Total,Início,Fim
0,01/01/2006 a 31/01/2006,Xenofobia,4.0,1.0,5.0,2006-01-01,2006-01-31
1,01/01/2006 a 31/01/2006,Homofobia,2.0,0.0,2.0,2006-01-01,2006-01-31
2,01/01/2006 a 31/01/2006,Pornografia Infantil,75.0,0.0,75.0,2006-01-01,2006-01-31
3,01/01/2006 a 31/01/2006,Violência ou Discriminação contra Mulheres,0.0,0.0,0.0,2006-01-01,2006-01-31
4,01/01/2006 a 31/01/2006,Neo Nazismo,7.0,1.0,8.0,2006-01-01,2006-01-31


In [245]:
cnd_violacao = set_mes_ano(cnd_violacao)
cnd_violacao.head()

Unnamed: 0,Período,Violação,Únicas,Duplicadas,Total,Início,Fim,Mês,Mês Número,Ano
0,01/01/2006 a 31/01/2006,Xenofobia,4.0,1.0,5.0,2006-01-01,2006-01-31,Janeiro,1,2006
1,01/01/2006 a 31/01/2006,Homofobia,2.0,0.0,2.0,2006-01-01,2006-01-31,Janeiro,1,2006
2,01/01/2006 a 31/01/2006,Pornografia Infantil,75.0,0.0,75.0,2006-01-01,2006-01-31,Janeiro,1,2006
3,01/01/2006 a 31/01/2006,Violência ou Discriminação contra Mulheres,0.0,0.0,0.0,2006-01-01,2006-01-31,Janeiro,1,2006
4,01/01/2006 a 31/01/2006,Neo Nazismo,7.0,1.0,8.0,2006-01-01,2006-01-31,Janeiro,1,2006


In [246]:
cnd_dominio.head()

Unnamed: 0,Período,Domínio,Únicas,Duplicadas,Total,Início,Fim
0,01/01/2006 a 31/01/2006,facebook.com,129632.0,0.0,129632.0,2006-01-01,2006-01-31
1,01/01/2006 a 31/01/2006,youtube.com,15984.0,0.0,15984.0,2006-01-01,2006-01-31
2,01/01/2006 a 31/01/2006,orkut.com.br,198454.0,0.0,198454.0,2006-01-01,2006-01-31
3,01/01/2006 a 31/01/2006,xvideos.com,11313.0,0.0,11313.0,2006-01-01,2006-01-31
4,01/01/2006 a 31/01/2006,instagram.com,4574.0,0.0,4574.0,2006-01-01,2006-01-31


In [247]:
cnd_dominio = set_mes_ano(cnd_dominio)
cnd_dominio.head()

Unnamed: 0,Período,Domínio,Únicas,Duplicadas,Total,Início,Fim,Mês,Mês Número,Ano
0,01/01/2006 a 31/01/2006,facebook.com,129632.0,0.0,129632.0,2006-01-01,2006-01-31,Janeiro,1,2006
1,01/01/2006 a 31/01/2006,youtube.com,15984.0,0.0,15984.0,2006-01-01,2006-01-31,Janeiro,1,2006
2,01/01/2006 a 31/01/2006,orkut.com.br,198454.0,0.0,198454.0,2006-01-01,2006-01-31,Janeiro,1,2006
3,01/01/2006 a 31/01/2006,xvideos.com,11313.0,0.0,11313.0,2006-01-01,2006-01-31,Janeiro,1,2006
4,01/01/2006 a 31/01/2006,instagram.com,4574.0,0.0,4574.0,2006-01-01,2006-01-31,Janeiro,1,2006


In [248]:
cnd_idioma.head()

Unnamed: 0,Período,Idioma,Únicas,Duplicadas,Total,Início,Fim
0,01/01/2006 a 31/01/2006,spanish,9.0,0.0,9.0,2006-01-01,2006-01-31
1,01/01/2006 a 31/01/2006,farsi,3.0,0.0,3.0,2006-01-01,2006-01-31
2,01/01/2006 a 31/01/2006,german,2.0,0.0,2.0,2006-01-01,2006-01-31
3,01/01/2006 a 31/01/2006,dutch,3.0,0.0,3.0,2006-01-01,2006-01-31
4,01/01/2006 a 31/01/2006,pinyin,0.0,0.0,0.0,2006-01-01,2006-01-31


In [249]:
cnd_idioma = set_mes_ano(cnd_idioma)
cnd_idioma.head()

Unnamed: 0,Período,Idioma,Únicas,Duplicadas,Total,Início,Fim,Mês,Mês Número,Ano
0,01/01/2006 a 31/01/2006,spanish,9.0,0.0,9.0,2006-01-01,2006-01-31,Janeiro,1,2006
1,01/01/2006 a 31/01/2006,farsi,3.0,0.0,3.0,2006-01-01,2006-01-31,Janeiro,1,2006
2,01/01/2006 a 31/01/2006,german,2.0,0.0,2.0,2006-01-01,2006-01-31,Janeiro,1,2006
3,01/01/2006 a 31/01/2006,dutch,3.0,0.0,3.0,2006-01-01,2006-01-31,Janeiro,1,2006
4,01/01/2006 a 31/01/2006,pinyin,0.0,0.0,0.0,2006-01-01,2006-01-31,Janeiro,1,2006


### Retirando campos desnecessários

Nesse momento só queremos observar a quantidade total de denúncias, 
bem como os campos relacionados a data que nos permite fácil manipulação.
Logo vamos retirar os campos 'Período', 'Únicas', 'Duplicadas', 'Início' e 'Fim'].

In [250]:
cnd_violacao = cnd_violacao.drop(columns=['Período', 'Únicas', 'Duplicadas', 'Início', 'Fim'])
cnd_violacao.head(5)                        

Unnamed: 0,Violação,Total,Mês,Mês Número,Ano
0,Xenofobia,5.0,Janeiro,1,2006
1,Homofobia,2.0,Janeiro,1,2006
2,Pornografia Infantil,75.0,Janeiro,1,2006
3,Violência ou Discriminação contra Mulheres,0.0,Janeiro,1,2006
4,Neo Nazismo,8.0,Janeiro,1,2006


In [251]:
cnd_idioma = cnd_idioma.drop(columns=['Período', 'Únicas', 'Duplicadas', 'Início', 'Fim'])
cnd_idioma.head(5)

Unnamed: 0,Idioma,Total,Mês,Mês Número,Ano
0,spanish,9.0,Janeiro,1,2006
1,farsi,3.0,Janeiro,1,2006
2,german,2.0,Janeiro,1,2006
3,dutch,3.0,Janeiro,1,2006
4,pinyin,0.0,Janeiro,1,2006


In [252]:
cnd_dominio = cnd_dominio.drop(columns=['Período', 'Únicas', 'Duplicadas', 'Início', 'Fim'])
cnd_dominio.head(5)

Unnamed: 0,Domínio,Total,Mês,Mês Número,Ano
0,facebook.com,129632.0,Janeiro,1,2006
1,youtube.com,15984.0,Janeiro,1,2006
2,orkut.com.br,198454.0,Janeiro,1,2006
3,xvideos.com,11313.0,Janeiro,1,2006
4,instagram.com,4574.0,Janeiro,1,2006


Para melhorar a legibilidade vamos trocar o nome 'Total' para 'Total de Denúncias'

In [253]:
cnd_violacao = cnd_violacao.rename(columns={'Total': 'Total de Denúncias'})
cnd_violacao.head(5)

Unnamed: 0,Violação,Total de Denúncias,Mês,Mês Número,Ano
0,Xenofobia,5.0,Janeiro,1,2006
1,Homofobia,2.0,Janeiro,1,2006
2,Pornografia Infantil,75.0,Janeiro,1,2006
3,Violência ou Discriminação contra Mulheres,0.0,Janeiro,1,2006
4,Neo Nazismo,8.0,Janeiro,1,2006


In [254]:
cnd_idioma = cnd_idioma.rename(columns={'Total': 'Total de Denúncias'})
cnd_idioma.head(5)

Unnamed: 0,Idioma,Total de Denúncias,Mês,Mês Número,Ano
0,spanish,9.0,Janeiro,1,2006
1,farsi,3.0,Janeiro,1,2006
2,german,2.0,Janeiro,1,2006
3,dutch,3.0,Janeiro,1,2006
4,pinyin,0.0,Janeiro,1,2006


In [255]:
cnd_dominio = cnd_dominio.rename(columns={'Total': 'Total de Denúncias'})
cnd_dominio.head(5)

Unnamed: 0,Domínio,Total de Denúncias,Mês,Mês Número,Ano
0,facebook.com,129632.0,Janeiro,1,2006
1,youtube.com,15984.0,Janeiro,1,2006
2,orkut.com.br,198454.0,Janeiro,1,2006
3,xvideos.com,11313.0,Janeiro,1,2006
4,instagram.com,4574.0,Janeiro,1,2006


Um último detalhe, o campo 'Total de Denúncias' está como se fosse um valor decimal, 
coisa que ele não é pois não existe uma 1/2 denúncia, então vamos ajustar isso também.
Vamos fazer isso usando a função astype(int) que vai mudar o nosso campo de float para int - que significa números inteiros na programação.

In [256]:
cnd_violacao.dtypes

Violação               object
Total de Denúncias    float64
Mês                    object
Mês Número              int64
Ano                     int64
dtype: object

In [265]:
cnd_violacao['Total de Denúncias'] = cnd_violacao['Total de Denúncias'].astype(int)
cnd_violacao.head(50)

Unnamed: 0,Violação,Total de Denúncias,Mês,Mês Número,Ano
0,Xenofobia,5,Janeiro,1,2006
1,Homofobia,2,Janeiro,1,2006
2,Pornografia Infantil,75,Janeiro,1,2006
3,Violência ou Discriminação contra Mulheres,0,Janeiro,1,2006
4,Neo Nazismo,8,Janeiro,1,2006
5,Apologia e Incitação a crimes contra a Vida,2,Janeiro,1,2006
6,Racismo,4,Janeiro,1,2006
7,Maus Tratos Contra Animais,2,Janeiro,1,2006
8,Não classificado,0,Janeiro,1,2006
9,Intolerância Religiosa,0,Janeiro,1,2006


In [258]:
cnd_idioma['Total de Denúncias'] = cnd_idioma['Total de Denúncias'].astype(int)
cnd_idioma.head(5)

Unnamed: 0,Idioma,Total de Denúncias,Mês,Mês Número,Ano
0,spanish,9,Janeiro,1,2006
1,farsi,3,Janeiro,1,2006
2,german,2,Janeiro,1,2006
3,dutch,3,Janeiro,1,2006
4,pinyin,0,Janeiro,1,2006


In [259]:
cnd_dominio['Total de Denúncias'] = cnd_dominio['Total de Denúncias'].astype(int)
cnd_dominio.head(5)

Unnamed: 0,Domínio,Total de Denúncias,Mês,Mês Número,Ano
0,facebook.com,129632,Janeiro,1,2006
1,youtube.com,15984,Janeiro,1,2006
2,orkut.com.br,198454,Janeiro,1,2006
3,xvideos.com,11313,Janeiro,1,2006
4,instagram.com,4574,Janeiro,1,2006


# Pronto!

### Agora podemos fazer análises de forma mais fácil! 
#### Retiramos linhas vazias, e adicionamos novos campos que vão nos permitir agrupar melhor os dados. Agora podemor ver o ranking de violações por ano, coisa que não poderíamos ter feito diretamente quando a informação estava como '01/01/2006 a 31/01/2006'.

In [260]:
violacoes_2018 = cnd_violacao.loc[cnd_violacao['Ano'] == 2018]
violacoes_2018.head(15)

Unnamed: 0,Violação,Total de Denúncias,Mês,Mês Número,Ano
1728,Xenofobia,180,Janeiro,1,2018
1729,Homofobia,665,Janeiro,1,2018
1730,Pornografia Infantil,19394,Janeiro,1,2018
1731,Violência ou Discriminação contra Mulheres,10093,Janeiro,1,2018
1732,Neo Nazismo,1951,Janeiro,1,2018
1733,Apologia e Incitação a crimes contra a Vida,9283,Janeiro,1,2018
1734,Racismo,3041,Janeiro,1,2018
1735,Maus Tratos Contra Animais,175,Janeiro,1,2018
1736,Não classificado,0,Janeiro,1,2018
1737,Intolerância Religiosa,120,Janeiro,1,2018


In [261]:
violacoes_2018_agrupadas = violacoes_2018[['Total de Denúncias', 'Ano', 'Violação']].groupby(['Ano', 'Violação']).sum()
violacoes_2018_agrupadas

Unnamed: 0_level_0,Unnamed: 1_level_0,Total de Denúncias
Ano,Violação,Unnamed: 2_level_1
2018,Apologia e Incitação a crimes contra a Vida,28024
2018,Homofobia,4312
2018,Intolerância Religiosa,1102
2018,Maus Tratos Contra Animais,1159
2018,Neo Nazismo,4268
2018,Não classificado,21
2018,Pornografia Infantil,64693
2018,Racismo,8466
2018,Tráfico de Pessoas,533
2018,Violência ou Discriminação contra Mulheres,17050


Vamos ordenar a coluna 'Total de Denúncias' e assim teremos um ranking

In [262]:
violacoes_2018_agrupadas.sort_values('Total de Denúncias', ascending=False).reset_index()

Unnamed: 0,Ano,Violação,Total de Denúncias
0,2018,Pornografia Infantil,64693
1,2018,Apologia e Incitação a crimes contra a Vida,28024
2,2018,Violência ou Discriminação contra Mulheres,17050
3,2018,Xenofobia,9886
4,2018,Racismo,8466
5,2018,Homofobia,4312
6,2018,Neo Nazismo,4268
7,2018,Maus Tratos Contra Animais,1159
8,2018,Intolerância Religiosa,1102
9,2018,Tráfico de Pessoas,533


Agora podemos ver que no ano de 2018 a violação Pornografia Infantil teve o amior número de denúncias - 64.693

#### Vamos salvar os dados que processamos aqui para analisar em um próximo notebook e responder a outras perguntas!

In [263]:
cnd_violacao.to_csv('../dados/cnd_violacoes.csv', index=False)
cnd_idioma.to_csv('../dados/cnd_idioma.csv', index=False)
cnd_dominio.to_csv('../dados/cnd_dominio.csv', index=False)