**Analisando Dados da População Mundial em milhares de habitantes, entre os anos de 1950 e 2021.**
 Data set disponibilizado pela ONU neste link: https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/world-population.csv

**Extração** - Extrair os dados da fonte de dados original e avaliar a sua qualidade, utilizando o processo de Data Wrangling - Preparação de Dados

In [39]:
import pandas as pd #Biblioteca para manipulação e análise de dados.
from datetime import datetime #Biblioteca poderosa e versátil para trabalhar com datas e horas. Com ela, podemos obter a data e hora atual do sistema, manipular datas e horas passadas ou futuras,

In [40]:
# !wget ferramente que faz dowload de arquivos web (-p comando para salvar num diretório específico / -o comando para baixar arquivo com um nome específico)
!wget -q 'https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/world-population.csv' -O 'world_population.csv'

In [41]:
#Lendo o arquivo em CSV baixado da web, passando como parâmetro da função o caminho no qual se encontra o arquivo
data = pd.read_csv('world_population.csv', sep=',', parse_dates=[2], infer_datetime_format=True) #sep=',' separado por vírgula, parse_dates  é usado para especificar como as datas devem ser interpretadas ao ler dados de um arquivo, como um CSV, espeficificando o índice da coluna,

  data = pd.read_csv('world_population.csv', sep=',', parse_dates=[2], infer_datetime_format=True) #sep=',' separado por vírgula, parse_dates  é usado para especificar como as datas devem ser interpretadas ao ler dados de um arquivo, como um CSV, espeficificando o índice da coluna,


In [42]:
data.head() #Retorna as primeiras n linhas de um conjuto de dados.

Unnamed: 0,id,location,time,child,adolescent,adult,old,male,female,total
0,1,Afghanistan,1950-01-01,3179.867,783.732,3398.243,390.275,4099.243,3652.874,7752.117
1,2,Afghanistan,1951-01-01,3235.425,790.341,3418.766,395.619,4134.756,3705.395,7840.151
2,3,Afghanistan,1952-01-01,3281.624,801.42,3452.41,400.542,4174.45,3761.546,7935.996
3,4,Afghanistan,1953-01-01,3327.335,814.914,3493.155,404.28,4218.336,3821.348,8039.684
4,5,Afghanistan,1954-01-01,3376.382,829.684,3538.851,406.399,4266.484,3884.832,8151.316


In [43]:
data.shape #Verifica o tamanho do dataframe - 14040 Linhas e 10 colunas

(14040, 10)

In [44]:
data.info() #Informações do dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14040 entries, 0 to 14039
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   id          14040 non-null  int64         
 1   location    14040 non-null  object        
 2   time        14040 non-null  datetime64[ns]
 3   child       14040 non-null  float64       
 4   adolescent  14040 non-null  float64       
 5   adult       14040 non-null  float64       
 6   old         14040 non-null  float64       
 7   male        14040 non-null  float64       
 8   female      14040 non-null  float64       
 9   total       14040 non-null  float64       
dtypes: datetime64[ns](1), float64(7), int64(1), object(1)
memory usage: 1.1+ MB


**Transformação** - Limpar e processar dados

In [45]:
#Descartar a coluna ID  - Quando se utiliza df.drop("A", axis=1), por exemplo, a coluna “A” será removida, pois axis=1 se refere às colunas, quando utiliza axis=0 se refere a linha.

data = data.drop(['id'], axis=1)

In [46]:
#Renomear a coluna location para country e coluna time pada date.

data = data.rename(columns={'location': 'country', 'time': 'date'})

In [47]:
#Ajustar a coluna date para o formato do Google Data Studio https://support.google.com/looker-studio/answer/6401549?hl=en#zippy=%2Cin-this-article

data['date'] = data['date'].apply(lambda num: datetime.strftime(num, '%b %d, %Y'))

In [54]:
# Criando colunas com a porcentagem por crianças, adolecentes, adultos e idosos, e por sexo feminino e masculino

data['child_perc'] = 100 * data['child'] / data['total']
data['adolescent_perc'] = 100 * data['adolescent'] / data['total']
data['adult_perc'] = 100 * data['adult'] / data['total']
data['old_perc'] = 100 * data['old'] / data['total']


In [55]:
data['male_perc'] = 100 * data['male'] / data['total']
data['female_perc'] = 100 * data['female'] / data['total']

In [56]:
# Arredondar todas as colunas numéricas para duas casas decimais
for col in data.columns:
  if col not in ['date', 'country']:
    data[col] = data[col].apply(lambda num: round(num, 2))

In [57]:
#Reorganizar as colunas - deixar as colunas de totais e porcentagem lado a lado para uma melhor visualização do dataframe:

data = data[['date', 'country', 'total', 'male', 'male_perc', 'female',	'female_perc', 'child', 'child_perc', 'adolescent', 'adolescent_perc', 'adult', 'adult_perc', 'old', 'old_perc']]

In [59]:
# Conferindo o resultado final
data.head()

Unnamed: 0,date,country,total,male,male_perc,female,female_perc,child,child_perc,adolescent,adolescent_perc,adult,adult_perc,old,old_perc
0,"Jan 01, 1950",Afghanistan,7752.12,4099.24,52.88,3652.87,47.12,3179.87,41.02,783.73,10.11,3398.24,43.84,390.27,5.03
1,"Jan 01, 1951",Afghanistan,7840.15,4134.76,52.74,3705.39,47.26,3235.43,41.27,790.34,10.08,3418.77,43.61,395.62,5.05
2,"Jan 01, 1952",Afghanistan,7936.0,4174.45,52.6,3761.55,47.4,3281.62,41.35,801.42,10.1,3452.41,43.5,400.54,5.05
3,"Jan 01, 1953",Afghanistan,8039.68,4218.34,52.47,3821.35,47.53,3327.34,41.39,814.91,10.14,3493.16,43.45,404.28,5.03
4,"Jan 01, 1954",Afghanistan,8151.32,4266.48,52.34,3884.83,47.66,3376.38,41.42,829.68,10.18,3538.85,43.41,406.4,4.99


**Carregamento** Com os dados manipulados, vamos salvar o arquivo no formato CSV, fazer o seu download e carrega-lo no Google Data Studio.

In [60]:
#Salvar o arquivo em disco, salvando com o nome wrangled para mostara que o arquvio foi processado, definindo o index como false pois não será gerado uma coluna como ínidice.
data.to_csv('./world-population-wrangled.csv', sep=',', index=False)