# 2 - Trabalhando estruturas tabulares e arquivos

Agora, iremos trabalhar com dois conceitos extremamente importantes para a ciência de dados: Series e Dataframes. Tratam-se de estruturas tabulares e que são comuns em várias atividades do dia a dia do cientista de dados. 

Para trabalhar com essas estruturas, utilizaremos o Pandas. O Pandas é uma biblioteca opensource, em Python, para análise de dados, e é uma das mais importantes ferramentas para quem deseja ser um cientista de dados.

Além disso, iremos realizar as primeiras análises estatísticas descritivas e aprenderemos como importar e trabalhar com arquivos, incluindo alguns procedimentos básico de limpeza de dados.

In [3]:
# Importando o módulo Pandas
import pandas as pd
import numpy as np

## 2.1 Séries

Quando trabalhamos com um vetor de uma única dimensão, devemos transformá-lo para uma Serie do Pandas.
Uma série é um objeto unidemensional similar a um vetor, lista, ou coluna numa matriz ou tabela.

In [4]:
# Criando um vetor de idades
idade = [23, 25, 24, 25, 15, 25, 27, 25]
print (idade) # Imprime o vetor
print (type(idade)) # Imprime o tipo

[23, 25, 24, 25, 15, 25, 27, 25]
<class 'list'>


In [3]:
# Realizando algumas operações com o vetor criado
print ('Soma:', sum(idade))
print ('Valor máximo:', max(idade))
print ('Velor mínimo:', min(idade))

# Se você desejar realizar mais operações matemáticas, importe o módulo math (import math)


Soma: 189
Valor máximo: 27
Velor mínimo: 15


In [5]:
# Transformando o vetor em uma série
idade_pd = pd.Series(idade, name='idades') # O primeiro parâmetro é o vetor que será convertido. O segundo, o nome da série
print (idade_pd)
print (type(idade_pd))

0    23
1    25
2    24
3    25
4    15
5    25
6    27
7    25
Name: idades, dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
# Análise descritiva
print ('Quantidade: %.d' % idade_pd.count())
print('Soma: %.d' % idade_pd.sum())
print('Máximo: %.d' % idade_pd.max())
print('Mínimo: %.d' % idade_pd.min())
print('Média: %.4f' % idade_pd.mean())
print('Moda: %.d' % idade_pd.mode())
print('Mediana: %.4f' % idade_pd.median())
print ('Variância: %.4f' % idade_pd.var())
print ('Desvio Padrão: %.4f' % idade_pd.std())
print ('Sumário: \n', idade_pd.describe())

Quantidade: 8
Soma: 189
Máximo: 27
Mínimo: 15
Média: 23.6250
Moda: 25
Mediana: 25.0000
Variância: 13.4107
Desvio Padrão: 3.6621
Sumário: 
 count     8.000000
mean     23.625000
std       3.662064
min      15.000000
25%      23.750000
50%      25.000000
75%      25.000000
max      27.000000
Name: idades, dtype: float64


## 2.2 DataFrame

DataFrame é uma estrutura de dados tabular de duas dimensões  composta de colunas e linhas indexadas, similar a uma tabela de excel. 


In [6]:
# Utilizarei o vetor idade, criado no início do script e criarei um vetor peso
peso = [56, 78, 86, 88, 66, 77, 89, 90]
print (peso)
# Criando um dataset
dados = list(zip(idade,peso)) # a função zip realiza um merge entre os vetores
print (dados)

[56, 78, 86, 88, 66, 77, 89, 90]
[(23, 56), (25, 78), (24, 86), (25, 88), (15, 66), (25, 77), (27, 89), (25, 90)]


In [7]:
# Criando um dataframe (dados) com os vetores de idade e peso

df_pd = pd.DataFrame(data=dados, 
                     columns=['Idades', 'Pesos'])
print (df_pd)

   Idades  Pesos
0      23     56
1      25     78
2      24     86
3      25     88
4      15     66
5      25     77
6      27     89
7      25     90


In [8]:
# As mesmas operações descritivas podem ser realizadas no dataframe...
df_pd.describe() # Para todos.

Unnamed: 0,Idades,Pesos
count,8.0,8.0
mean,23.625,78.75
std,3.662064,12.267844
min,15.0,56.0
25%,23.75,74.25
50%,25.0,82.0
75%,25.0,88.25
max,27.0,90.0


In [9]:
# Para analisar uma coluna, em especial, faça:
df_pd['Idades'].mean()

23.625

In [8]:
# Para adicionar uma nova coluna, ao dataframe faça:
altura = [1.56, 1.78, 1.89, 1.67, 1.58, 1.90, 1.87, 1.76]
df_pd['Alturas'] = altura
print (df_pd)

   Idades  Pesos  Alturas
0      23     56     1.56
1      25     78     1.78
2      24     86     1.89
3      25     88     1.67
4      15     66     1.58
5      25     77     1.90
6      27     89     1.87
7      25     90     1.76


Muitas vezes também precisamos remover dimensões de um Dataframe. Para que isso seja possíve, execute:

In [12]:
df_pd.drop('Alturas', axis=1, inplace=True)
df_pd

Unnamed: 0,Idades,Pesos
0,23,56
1,25,78
2,24,86
3,25,88
4,15,66
5,25,77
6,27,89
7,25,90


## 2.3 Trabalhando com arquivos CSV

Uma das atividades mais realizadas por um cientista de dados é o trabalho com arquivos. Sendo assim, escolhi trabalhar, neste momento, com arquivos do tipo CSV.

Utilizaremos o dataset disponibilizado pela World Health Organization (WHO).


In [21]:
df = pd.read_csv('dados/WHO.csv', delimiter=',')
df.head()

Unnamed: 0,Country,Region,Population,Under15,Over60,FertilityRate,LifeExpectancy,ChildMortality,CellularSubscribers,LiteracyRate,GNI,PrimarySchoolEnrollmentMale,PrimarySchoolEnrollmentFemale
0,Afghanistan,Eastern Mediterranean,29825,47.42,3.82,5.4,60,98.5,54.26,,1140.0,,
1,Albania,Europe,3162,21.33,14.93,1.75,74,16.7,96.39,,8820.0,,
2,Algeria,Africa,38482,27.42,7.17,2.83,73,20.0,98.99,,8310.0,98.2,96.4
3,Andorra,Europe,78,15.2,22.86,,82,3.2,75.49,,,78.4,79.4
4,Angola,Africa,20821,47.58,3.84,6.1,51,163.5,48.38,70.1,5230.0,93.1,78.2


In [87]:
# Realizando análise descritiva do dataset
df.describe()

Unnamed: 0,Population,Under15,Over60,FertilityRate,LifeExpectancy,ChildMortality,CellularSubscribers,LiteracyRate,GNI,PrimarySchoolEnrollmentMale,PrimarySchoolEnrollmentFemale
count,194.0,194.0,194.0,194.0,194.0,194.0,184.0,194.0,162.0,101.0,193.0
mean,36359.97,28.732423,11.16366,2.773918,70.010309,36.148969,93.641522,83.667526,13320.925926,90.850495,92.181865
std,137903.1,10.534573,7.149331,1.59161,9.259075,37.992935,41.400447,17.102326,15192.98865,11.017147,10.60123
min,1.0,13.12,0.81,0.0,47.0,2.2,2.57,31.1,340.0,37.2,32.5
25%,1695.75,18.7175,5.2,1.7025,64.0,8.425,63.5675,72.3,2335.0,87.7,90.4
50%,7790.0,28.65,8.53,2.335,72.5,18.6,97.745,89.6,7870.0,94.7,96.4
75%,24535.25,37.7525,16.6875,3.7675,76.0,55.975,120.805,97.7,17557.5,98.1,98.5
max,1390000.0,49.99,31.92,7.58,83.0,181.6,196.41,99.8,86440.0,100.0,100.0


## 2.4 Realizando limpeza de dados (Data Cleaning)

Na vida real, o cientista de dados irá passar por diversas dificuldades. O mundo real é muito diferente do mundo ideal... e, meio a tudo isso, o processo de Extração, Transformação e Carregamento (Extract, Transform, Load – ETL) se configuram como um dos mais complexos. 

Iniciaremos as atividades com a detecção de dados faltantes (missing data).

In [15]:
# O any() possibibilitará saber, coluna a coluna, se existe qualquer um valor inexistente.
df.isnull().any()

Country                          False
Region                           False
Population                       False
Under15                          False
Over60                           False
FertilityRate                     True
LifeExpectancy                   False
ChildMortality                   False
CellularSubscribers               True
LiteracyRate                      True
GNI                               True
PrimarySchoolEnrollmentMale       True
PrimarySchoolEnrollmentFemale     True
dtype: bool

In [16]:
# Contando quantos dados faltantes existem por coluna
dados_faltantes = df.isnull().sum()
dados_faltantes

Country                           0
Region                            0
Population                        0
Under15                           0
Over60                            0
FertilityRate                    11
LifeExpectancy                    0
ChildMortality                    0
CellularSubscribers              10
LiteracyRate                     91
GNI                              32
PrimarySchoolEnrollmentMale      93
PrimarySchoolEnrollmentFemale    93
dtype: int64

In [17]:
# Quantos dados faltantes em sua totalidade
print ('Total de dados faltantes:', dados_faltantes.sum())
print ('Em um percentual de:', (dados_faltantes.sum()/ np.product(df.shape)) * 100)

Total de dados faltantes: 330
Em um percentual de: 13.08485329103886


In [22]:
# Verificando se existe alguma coluna em branco.
print (df.isnull().all())
print ('Número de registros:', df.shape)

Country                          False
Region                           False
Population                       False
Under15                          False
Over60                           False
FertilityRate                    False
LifeExpectancy                   False
ChildMortality                   False
CellularSubscribers              False
LiteracyRate                     False
GNI                              False
PrimarySchoolEnrollmentMale      False
PrimarySchoolEnrollmentFemale    False
dtype: bool
Número de registros: (194, 13)


**P.S: Um fator importante aqui: São dados não informados ou eles realmente são inexistentes?**


## 2.5 Removendo dados faltantes

Se você realmente deseja remover as linhas que apresentam dados faltantes, faça:

In [19]:
# Removendo todas as linhas que apresentam dados faltantes
# O parâmetro thresh=2 deve ser utilizado quando você desejar remover apenas linhas/colunas que apresentam
# mais de dois NaN; how='all' se tiver uma linha completa em NaN
df.dropna(inplace=True)
print ('Número de registros:', df.shape)

Número de registros: (50, 13)


In [41]:
# Removendo uma coluna do Dataframe
df.drop('CellularSubscribers', axis=1, inplace=True) # axis 1 = coluna; axis 0 = linha.
print (df.columns)

Index(['Country', 'Region', 'Population', 'Under15', 'Over60', 'FertilityRate',
       'LifeExpectancy', 'ChildMortality', 'LiteracyRate', 'GNI',
       'PrimarySchoolEnrollmentMale', 'PrimarySchoolEnrollmentFemale'],
      dtype='object')


## 2.6 Preenchendo dados faltantes

Preencher dados faltantes vai precisar do *feeling* do cientista de dados. Creio até que seja uma das atividades mais difíceis de todas, pois um erro aqui pode fazer com que toda a sua análise seja desacreditada.

Apresentarei três técnicas: preenchimento com zero, preenchimento com a média/mediana e a *bfill*.

In [28]:
df[['FertilityRate', 'LiteracyRate', 'PrimarySchoolEnrollmentFemale']].head()

Unnamed: 0,FertilityRate,LiteracyRate,PrimarySchoolEnrollmentFemale
0,5.4,83.71068,96.4
1,1.75,83.71068,96.4
2,2.83,83.71068,96.4
3,0.0,83.71068,79.4
4,6.1,70.1,78.2


In [23]:
# Preenchendo os valores faltantes da FertilityRate por 0 (zero)
df['FertilityRate'].fillna(0,inplace=True)

In [25]:
# Preenchendo os valores faltantes da LiteracyRate pela média
df['LiteracyRate'].fillna(df['LiteracyRate'].mean(),inplace=True)

In [27]:
# Preenchendo os valores faltantes da LiteracyRate por bfill
df['PrimarySchoolEnrollmentFemale'].fillna(method = 'bfill', inplace=True)

## 2.7 Criando novos Dataframes a partir de um existente

A atividade de redução de dimensões é uma atividade muito importante para um cientista de dados. Sendo assim, aprenderemos agora algumas técnicas aplicadas para isso.

In [29]:
# Selecionando dimensões de um Dataframe para criação de um novo Dataframe
df_por_dimensoes = df[['FertilityRate', 'LiteracyRate', 'PrimarySchoolEnrollmentFemale']]
df_por_dimensoes.head()

Unnamed: 0,FertilityRate,LiteracyRate,PrimarySchoolEnrollmentFemale
0,5.4,83.71068,96.4
1,1.75,83.71068,96.4
2,2.83,83.71068,96.4
3,0.0,83.71068,79.4
4,6.1,70.1,78.2


In [30]:
# Criando um novo Dataframe a partir de uma regra
df_regra = df[df.GNI < df.GNI.mean()]
df_regra.shape

(105, 13)