# Aula 08 &mdash; Análise exploratória de dados

Renato Vimieiro
rv2 {em} cin.ufpe.br

abril 2017

## Introdução

Vimos na aula anterior a segunda etapa para análise de dados que consistia na limpeza, integração e pré-processamento dos dados coletados. Terminada essa etapa, seguimos para uma exploração inicial dos dados para nos familiarizarmos com eles. Essa etapa é importante para detectarmos falhas na coleta, validar premissas, avaliar possíveis relações entre os atributos e determinar a direção (escolha dos modelos) que utilizaremos na análise. Essa etapa é conhecida como Análise Exploratória dos Dados, tendo sido proposta pelo estatístico John Tukey em 1977 com a publicação do livro de mesmo nome (em inglês *Exploratory Data Analysis*).

John Tukey convenceu os estatísticos da época que essa etapa deveria preceder o emprego de qualquer modelo estatístico para análise dos dados. A principal característica da análise exploratória de dados é o uso de estatísticas descritivas e gráficos para entender relações ocultas presentes nos dados.

Como discutimos anteriormente, o modelo/paradigma científico anterior era baseado em hipóteses. Dados eram coletados a fim de verificar a validade dessas hipóteses. Dessa forma, a compreensão das relações presentes nos dados era valiosa para levantar outras hipóteses a serem testadas. Essa mesma razão é ainda mais pertinente no paradigma atual centrado em dados. A maior parte dos dados são coletados arbitrariamente sem uma clara intenção de validar uma hipótese. Isso faz com que a análise exploratória dos dados seja ainda mais valiosa para justamente possibilitar que hipóteses sejam levantadas, assim como para entender o que foi coletado.

Uma das ideias mais defendidas por Tukey para análise exploratória de dados é a do uso de gráficos para facilitar a compreensão. Veremos na aula de hoje os diversos tipos de visualizações disponíveis para cada tipo de atributo, assim como uma revisão de estatísticas descritivas.

Usaremos como exemplo as séries históricas sobre a expectativa de vida no nascimento e produto interno bruto dos países coletadas pelo Banco Mudial. Os dados estão disponíveis nos links: [expectativa de vida](http://data.worldbank.org/indicator/SP.DYN.LE00.IN) e [PIB](http://data.worldbank.org/indicator/NY.GDP.MKTP.CD).

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

% matplotlib inline

In [10]:
expvida = pd.read_csv("../2017.1/data/banco_mudial/life_expectancy.csv",index_col=0,
                      skiprows=[0,1,2],)
expvida = expvida.drop(['Indicator Name', 'Indicator Code', 
                        'Country Code'],axis=1).dropna(axis=1,how='all')
expvida.head()

Unnamed: 0_level_0,1960,1961,1962,1963,1964,1965,1966,1967,1968,1969,...,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Aruba,65.569366,65.988024,66.365537,66.713976,67.044293,67.369756,67.699,68.034683,68.377146,68.728415,...,74.228073,74.376195,74.526756,74.675732,74.818146,74.953537,75.08139,75.205756,75.328659,75.451098
Afghanistan,32.328512,32.777439,33.219902,33.657878,34.092878,34.52539,34.957415,35.389415,35.822415,36.26039,...,57.027244,57.432561,57.833829,58.225024,58.603683,58.970829,59.327951,59.67961,60.028268,60.374463
Angola,32.984829,33.38622,33.787585,34.188463,34.590341,34.99222,35.395098,35.799976,36.205854,36.610244,...,48.538805,49.007049,49.435732,49.84739,50.251024,50.654171,51.059317,51.464,51.866171,52.266878
Albania,62.254366,63.273463,64.162854,64.887098,65.438195,65.82739,66.089317,66.28722,66.474951,66.68161,...,76.08161,76.286122,76.470293,76.652073,76.840366,77.036951,77.240585,77.443976,77.640463,77.830463
Andorra,,,,,,,,,,,...,,,,,,,,,,


In [21]:
gdp = pd.read_csv("../2017.1/data/banco_mudial/gdp.csv",index_col=0,
                      skiprows=[0,1,2],)
gdp = gdp.drop(['Indicator Name', 'Indicator Code', 
                'Country Code', '2015'],axis=1).dropna(axis=1,how='all')
gdp.head()

Unnamed: 0_level_0,1960,1961,1962,1963,1964,1965,1966,1967,1968,1969,...,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Aruba,,,,,,,,,,,...,2331006000.0,2421475000.0,2623726000.0,2791961000.0,2498933000.0,2467704000.0,2584464000.0,,,
Afghanistan,537777800.0,548888900.0,546666700.0,751111200.0,800000000.0,1006667000.0,1400000000.0,1673333000.0,1373333000.0,1408889000.0,...,6275074000.0,7057598000.0,9843842000.0,10190530000.0,12486940000.0,15936800000.0,17930240000.0,20536540000.0,20046330000.0,20050190000.0
Angola,,,,,,,,,,,...,28233710000.0,41789480000.0,60448920000.0,84178030000.0,75492380000.0,82470910000.0,104115900000.0,115398400000.0,124912100000.0,126776900000.0
Albania,,,,,,,,,,,...,8158549000.0,8992642000.0,10701010000.0,12881350000.0,12044210000.0,11926950000.0,12890870000.0,12319780000.0,12781030000.0,13219860000.0
Andorra,,,,,,,,,,,...,3248215000.0,3536633000.0,4010991000.0,4001201000.0,3650083000.0,3346517000.0,3427023000.0,3146152000.0,3248925000.0,


In [98]:
expv_pib = pd.merge(expvida,gdp,left_index=True, right_index=True, suffixes=['_ev','_pib'])
expv_pib = expv_pib.reset_index()
expv_pib  = pd.melt(expv_pib,id_vars='Country Name')
expv_pib.rename(columns={'Country Name':'country'}, inplace=True)
expv_pib.set_index('country',inplace=True)
expv_pib.head(15)

Unnamed: 0_level_0,variable,value
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Aruba,1960_ev,65.569366
Afghanistan,1960_ev,32.328512
Angola,1960_ev,32.984829
Albania,1960_ev,62.254366
Andorra,1960_ev,
Arab World,1960_ev,46.850022
United Arab Emirates,1960_ev,52.24322
Argentina,1960_ev,65.215537
Armenia,1960_ev,65.863463
American Samoa,1960_ev,


## Revisão estatísticas descritivas

A forma mais usada para descrever e sumarizar um conjunto de dados é através da avaliação da tendência central de um atributo e sua variabilidade ou dispersão. As medidas mais comuns de tendência central são: *média (aritmética)*, *mediana*, *moda* e o ponto médio do intervalo. Já as medidas de dispersão são: desvio padrão, variância, amplitude, quantil, e amplitude/intervalo interquartil.

#### Média aritmética

A média artimética de uma amostra é dada pela fórmula:

$$
\bar{v} = \frac{\sum v[i]}{N}
$$

Em Pandas, como já vimos anteriormente, ela é calculada através do método `mean`. Por exemplo, podemos calcular a expectativa de vida média mundial da seguinte forma:

In [114]:
expvida.mean(axis=0)

1960    53.316972
1961    53.870082
1962    54.264033
1963    54.641853
1964    55.134160
1965    55.621615
1966    56.088514
1967    56.515384
1968    56.913283
1969    57.298899
1970    57.778240
1971    58.115587
1972    58.511045
1973    58.950935
1974    59.269638
1975    59.636184
1976    60.011477
1977    60.394363
1978    60.827633
1979    61.136480
1980    61.534375
1981    61.895084
1982    62.386842
1983    62.640375
1984    62.982854
1985    63.289699
1986    63.674581
1987    64.046644
1988    64.174422
1989    64.398744
1990    64.623422
1991    64.843291
1992    65.011648
1993    65.061818
1994    65.329304
1995    65.483428
1996    65.755696
1997    66.085685
1998    66.211192
1999    66.437642
2000    66.762516
2001    67.052200
2002    67.429526
2003    67.612203
2004    67.997679
2005    68.305760
2006    68.702235
2007    69.081031
2008    69.444249
2009    69.813421
2010    70.099730
2011    70.476308
2012    70.696585
2013    70.965698
2014    71.245815
dtype: flo

#### Mediana

Embora a média aritmética seja frequentemente para sumarizar um atributo, ela é muito sensível a valores extremos. A presença de um único valor extremo na amostra pode deslocar bastante a média, fazendo com que ela não seja informativa. Essa situação também ocorre com dados assimétricos (distribuições com uma das caudas mais pesada). Nesse caso, o valor que divide a sequência na metade é mais representativo. Esse valor é a mediana. A mediana, ao contrário da média, pode ser obtida tanto para atributos numéricos quanto para ordinais.

A mediana é obtida em Pandas com o método `median`. Podemos obter a mediana do PIB mundial como abaixo. Perceba como a média é deslocada em função do PIB dos países mais ricos.

In [37]:
gdp.apply(lambda x: pd.Series({'mediana': x.median(), 'media': x.mean()})).T

Unnamed: 0,media,mediana
1960,71203470000.0,2037151000.0
1961,73934670000.0,2088012000.0
1962,78399310000.0,2224868000.0
1963,84969410000.0,2583687000.0
1964,93493470000.0,2782474000.0
1965,97748620000.0,2793218000.0
1966,105860800000.0,2876396000.0
1967,110392400000.0,2869407000.0
1968,115584700000.0,3201439000.0
1969,127317300000.0,3529741000.0


#### Moda

A moda é o valor mais frequente em um atributo. Ela pode ser calculada tanto para atributos numéricos quanto categóricos. Note que um atributo pode ter mais de um valor mais frequente. Nesse caso, dizemos que o atributo é **bimodal** (duas) ou **multimodal** (várias modas). Quando todos os valores têm a mesma frequência, então o atributo não possui moda.

Em Pandas ela é calcula pela função `mode`. Para exemplificar, vamos discretizar a expectativa de vida em *baixa* [0,50), *média* [50,70) e *alta* [70,inf), e, em seguida, calcular a moda.

In [45]:
expvida.apply(lambda x: pd.cut(x,bins=[0,50,70,np.infty],right=False)).mode().T

Unnamed: 0,0
1960,"[50, 70)"
1961,"[50, 70)"
1962,"[50, 70)"
1963,"[50, 70)"
1964,"[50, 70)"
1965,"[50, 70)"
1966,"[50, 70)"
1967,"[50, 70)"
1968,"[50, 70)"
1969,"[50, 70)"


#### Variância e desvio padrão

A variância e desvio padrão indicam quão espalhada é a distribuição dos dados. Desvios padrão mais baixos indicam que os dados estão mais concentrados perto da média, enquanto valores mais altos indicam maior amplitude de valores.

O desvio padrão de uma amostra é calculado por:

$$
\sigma_v = \sqrt{\frac{1}{N}\sum (v[i] - \bar{v})^2}
$$

Em Pandas, como já vimos, ele é obtido por `std`. Como exemplo, vamos calcular a média e desvio padrão da expectativa de vida dos países.

In [52]:
expvida.apply(lambda x: pd.Series({'media':x.mean(), 'desvp':x.std()}, 
                              index=['media','desvp']),axis=1)

Unnamed: 0_level_0,media,desvp
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Aruba,72.009732,2.738927
Afghanistan,46.871411,9.148672
Angola,41.851346,5.308439
Albania,71.246746,4.093708
Andorra,,
Arab World,61.024869,7.497234
United Arab Emirates,68.820820,7.074375
Argentina,70.749239,3.504606
Armenia,70.316793,2.325032
American Samoa,,


#### Amplitude

A amplitude de um atributo é a diferença entre o menor e maior valor. Ela pode ser calculada por uma função simples, ou através do método `ptp` (peak to peak) de `pandas.Series`. Por exemplo, podemos avaliar a variação do PIB ao longo dos anos.

In [116]:
gdp.apply(lambda x: pd.Series({'amplitude': x.ptp(), 'min':x.min(), 'max':x.max()})).T

Unnamed: 0,amplitude,max,min
1960,1352922000000.0,1352934000000.0,12012030.0
1961,1408308000000.0,1408320000000.0,11592020.0
1962,1507685000000.0,1507694000000.0,9122751.0
1963,1628576000000.0,1628587000000.0,10840100.0
1964,1786698000000.0,1786711000000.0,12712470.0
1965,1946918000000.0,1946931000000.0,13593930.0
1966,2110107000000.0,2110121000000.0,14469080.0
1967,2253148000000.0,2253164000000.0,15835180.0
1968,2429354000000.0,2429368000000.0,14600000.0
1969,2672066000000.0,2672081000000.0,15850000.0


#### Quantil e amplitude interquartil

Os quantis são valores retirados da amostra que dividem os valores em intervalos com a mesma frequência (mesma quantidade de elementos). A mediana, por exemplo, divide os dados em dois intervalos iguais. Logo, ela é equivalente a 2-quantil. O 4-quantil, ou **quartil**, são os três valores da amostra que dividem o intervalo em quatro partes com a mesma quantidade de elementos. Finalmente, o 100-quantil é o conjunto de pontos que dividem os dados em 100 intervalos com a mesma quantidade de elementos, sendo chamados **percentis**.

Pandas oferece suporte direto para obtermos esses valores. A função `quantile` espera como parâmtro uma lista de percentis. Exemplo:

In [59]:
expvida.quantile([0.25, .5, .75]).T

Unnamed: 0,0.25,0.5,0.75
1960,43.568488,52.47528,63.761963
1961,44.225994,53.385537,64.32197
1962,44.819985,54.289159,64.731751
1963,45.321005,54.910195,64.966694
1964,45.915841,55.387293,65.391231
1965,46.638945,55.896852,65.70836
1966,47.253622,56.356311,66.046768
1967,47.77075,57.067614,66.467811
1968,48.225049,57.69328,66.967018
1969,48.563878,58.506294,67.444213


A diferença entre o terceiro e o primeiro quartil é chamada de **amplitude interquartil** (IQR). Como o primeiro e terceiro quartis definem os valores tais que 25% e 75% dos dados estão abaixo deles, a diferença entre os dois fornece a amplitude do intervalo que cobre 50% dos valores. Isso nos dá uma ideia de quão espalhados são os dados. Podemos calcular o IQR aplicando uma função que calcule a diferença dos quartis.

In [60]:
expvida.apply(lambda x: x.quantile(0.75) - x.quantile(0.25))

1960    20.193476
1961    20.095976
1962    19.911766
1963    19.645689
1964    19.475390
1965    19.069415
1966    18.793146
1967    18.697061
1968    18.741970
1969    18.880335
1970    19.039512
1971    18.805244
1972    18.550628
1973    18.676610
1974    18.156380
1975    17.828373
1976    17.389686
1977    17.042067
1978    16.652364
1979    16.293035
1980    15.775452
1981    15.775205
1982    15.555599
1983    15.116898
1984    14.753817
1985    14.603914
1986    14.447263
1987    14.159299
1988    14.168354
1989    13.666475
1990    12.989372
1991    13.104244
1992    12.894963
1993    13.015446
1994    13.226626
1995    13.142587
1996    13.289415
1997    13.283256
1998    13.933171
1999    13.845165
2000    13.516905
2001    14.210341
2002    13.829317
2003    13.506549
2004    13.443305
2005    12.658173
2006    12.051995
2007    11.504800
2008    11.328165
2009    11.264996
2010    11.165445
2011    11.182359
2012    11.102561
2013    11.122009
2014    11.034463
dtype: flo

Embora as estatísticas acima forneçam uma ideia da dispersão dos dados, todas podem falhar, sobretudo, com dados assimétricos. Dessa forma, é muito comum o **resumo de cinco números** que contém os valores mínimo e máximo do atributo, além do primeiro, segundo (mediana) e terceiro quartis. Se notarmos, essa é a estatística descritiva retornada pelo método `describe`, o qual ainda acrescenta a média, desvio padrão e a quantidade de valores não-nulos.

In [62]:
expvida.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
1960,235.0,53.316972,11.819422,28.21161,43.568488,52.47528,63.761963,73.549756
1961,236.0,53.870082,11.828587,28.358732,44.225994,53.385537,64.32197,73.652683
1962,236.0,54.264033,11.689797,28.548463,44.819985,54.289159,64.731751,73.721951
1963,235.0,54.641853,11.583371,28.79639,45.321005,54.910195,64.966694,73.555366
1964,235.0,55.13416,11.547545,29.111049,45.915841,55.387293,65.391231,73.733171
1965,236.0,55.621615,11.429417,29.501927,46.638945,55.896852,65.70836,73.86878
1966,236.0,56.088514,11.343648,29.970976,47.253622,56.356311,66.046768,74.078537
1967,236.0,56.515384,11.222269,30.505634,47.77075,57.067614,66.467811,74.122439
1968,236.0,56.913283,11.077837,31.09378,48.225049,57.69328,66.967018,74.005854
1969,236.0,57.298899,10.938343,31.726415,48.563878,58.506294,67.444213,74.084878


#### Sumarização de dados categóricos

Vimos que a moda e mediana podem ser calculadas para valores categóricos, mas quais outras estatísticas podemos computar para descrever os dados? O mais comum com dados nominais é contar a frequência das categorias, apresentando-as de forma relativa ou absoluta. Também podemos explorar a relação entre dois atributos categóricos, montando uma tabela (tabela de contigência) entre elas. Por exemplo, imagine que estivéssemos trabalhando com dados discretos para a expectativa de vida e PIB. Poderíamos querer investigar qual a relação (se existe alguma) entre a faixa de valores do PIB e a expectativa de vida. Podemos tabular os dois valores e ver a contagem das ocorrências.

In [104]:
df = pd.DataFrame({'expvida':pd.cut(expv_pib[expv_pib.variable.str.contains('1960_ev')].value,bins=[0,50,70,np.infty],right=False),\
                  'pib':pd.qcut(expv_pib[expv_pib.variable.str.contains('1960_pib')].value,q=3)})
df.head()

Unnamed: 0_level_0,expvida,pib
country,Unnamed: 1_level_1,Unnamed: 2_level_1
Aruba,"[50, 70)",
Afghanistan,"[0, 50)","[12012025.248, 672627041.359]"
Angola,"[0, 50)",
Albania,"[50, 70)",
Andorra,,


In [105]:
pd.crosstab(df.expvida,df.pib)

pib,"[12012025.248, 672627041.359]","(672627041.359, 8180853312.437]","(8180853312.437, 1352934141105.46]"
expvida,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[0, 50)",26,16,20
"[50, 70)",12,21,16
"[70, inf)",1,3,6


In [106]:
df = pd.DataFrame({'expvida':pd.cut(expv_pib[expv_pib.variable.str.contains('2010_ev')].value,bins=[0,50,70,np.infty],right=False),\
                  'pib':pd.qcut(expv_pib[expv_pib.variable.str.contains('2010_pib')].value,q=3)})
pd.crosstab(df.expvida,df.pib)

pib,"[31823518.62, 12829146451.167]","(12829146451.167, 237685681918.125]","(237685681918.125, 65853158964855]"
expvida,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"[0, 50)",6,0,0
"[50, 70)",40,27,26
"[70, inf)",27,54,56
