# PRÁTICA GUIADA 1

In [1]:
import numpy as np
import pandas as pd

## Analisando o ranking CWUR

O Center for World University Rankings ([cwur.org](https://cwur.org/)) é uma agência que provê consultoria em políticas e estratégias educacionais para governos e universidades, para melhorar resultados educacionais e de pesquisa.

In [2]:
cwur = pd.read_csv("cwurData.csv", sep = ",")

## Verificando o dataset

In [None]:
cwur
# demonstrar cell scrolling

In [None]:
cwur.shape

In [None]:
len(cwur)

In [None]:
cwur.head()

In [None]:
cwur.tail()

In [None]:
cwur.columns

In [None]:
cwur.dtypes

In [None]:
cwur.info()

## Agregações simples em Pandas.

* Como em um array de uma dimensão, a agregação para uma ``Series`` retorna um valor único.

### Podemos calcular a soma e média de citações por cada universidade.

In [None]:
cwurSumCitations = cwur["citations"].sum()
cwurSumCitations

In [None]:
cwurMeanCitations = cwur["citations"].mean()
cwurMeanCitations

* Para um ``DataFrame``, os `aggregate`, por padrão, retornam os resultados dentro de cada coluna:

* Especificando o argumento ``axis``, é possível adicionar os resultados a cada linha. Como no caso de NumPy, em `axis`, é definida a dimensão na qual os dados são recolhidos. Se quisermos resultados por linha, então, `axis = 'columns'` e vice-versa.

In [None]:
citationsandpublications = cwur.loc[:,["citations",'publications']].sum()
citationsandpublications

* É possível definir o eixo que a função `sum()`, deve ser aplicado [sum](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sum.html?highlight=sum#pandas.DataFrame.sum).

In [None]:
citationsandpublications = cwur.loc[:,["citations",'publications']].sum(axis=1)
citationsandpublications

* Uma resumo de algumas funções de agregação em Pandas:

| Aggregation | Description |
|--------------------------|---------------------------------|
| ``count()`` | Total number of items |
| ``mean()``, ``median()`` | Mean and median |
| ``min()``, ``max()`` | Minimum and maximum |
| ``std()``, ``var()`` | Standard deviation and variance |
| ``mad()`` | Mean absolute deviation |
| ``prod()`` | Product of all items |
| ``sum()`` | Sum of all items |
| ``value_counts()`` | Total number of items by each different value |

Todos são métodos dos objetos ``DataFrame`` e ``Series``.

In [None]:
cwur.describe()

In [None]:
cwur.describe().T

In [None]:
round(cwur.describe().T,2)

### Exercícios

#### Apresente um quadro resumido das métricas (publications, influence, citations, broad_impact) para as universidades do Brasil e da Argentina

In [70]:
metr_bras = cwur[['publications','influence','citations','broad_impact']]\
                [(cwur.country == 'Brazil')].describe()

metr_arg =  cwur[['publications','influence','citations','broad_impact']]\
                [(cwur.country == 'Argentina')].describe()

# cwur['country'].unique()
# cwur.columns

In [76]:
metr_bras

Unnamed: 0,publications,influence,citations,broad_impact
count,36.0,36.0,36.0,36.0
mean,622.194444,726.888889,608.0,736.5
std,260.657062,223.931339,196.221304,248.750765
min,59.0,182.0,114.0,162.0
25%,415.25,604.25,493.0,526.75
50%,709.5,803.0,627.0,887.5
75%,803.25,905.5,800.0,937.0
max,985.0,974.0,812.0,975.0


In [77]:
metr_arg

Unnamed: 0,publications,influence,citations,broad_impact
count,7.0,7.0,7.0,7.0
mean,577.428571,600.714286,522.142857,683.285714
std,253.409982,209.790145,172.839452,249.779712
min,268.0,348.0,321.0,344.0
25%,411.0,436.5,384.5,517.5
50%,546.0,559.0,511.0,703.0
75%,715.0,803.5,627.0,872.5
max,976.0,818.0,800.0,956.0


#### Apresente o mesmo quadro, porém para todos os outros países que não são Brasil e Argentina

In [74]:
all_but_not = cwur[['publications','influence','citations','broad_impact']]\
        [(cwur.country != 'Argentina') | (cwur.country != 'Brazil')].describe()

all_but_not
# cwur['country'].unique()

Unnamed: 0,publications,influence,citations,broad_impact
count,2200.0,2200.0,2200.0,2000.0
mean,459.908636,459.797727,413.417273,496.6995
std,303.760352,303.331822,264.366549,286.919755
min,1.0,1.0,1.0,1.0
25%,175.75,175.75,161.0,250.5
50%,450.5,450.5,406.0,496.0
75%,725.0,725.25,645.0,741.0
max,1000.0,991.0,812.0,1000.0


#### Quanto que as médias do Brasil e da Argentina conjuntamente representam da média do resto do mundo nos 4 critérios?

In [78]:
mean_brarg = cwur[['publications','influence','citations','broad_impact']]\
                [(cwur.country == 'Brazil') | (cwur.country == 'Argentina')].mean()/100

mean_all = cwur[['publications','influence','citations','broad_impact']].mean()/100

mean_all - mean_brarg

publications   -1.549983
influence      -2.465511
citations      -1.806060
broad_impact   -2.311377
dtype: float64

#### Quantas universidades por país?

In [55]:
# cwur.columns
cwur[['country','institution']].groupby('country').count()

Unnamed: 0_level_0,institution
country,Unnamed: 1_level_1
Argentina,7
Australia,58
Austria,24
Belgium,20
Brazil,36
Bulgaria,2
Canada,72
Chile,8
China,167
Colombia,4


## Formatação simples

* 5 universidades com a maior quantidade de publicações

In [None]:
cwur.sort_values(by='publications', ascending=False).head(5)[['institution','publications','influence']]

In [None]:
cwur.sort_values(by=['publications','influence'], ascending=False).head(5)[['institution','publications','influence']]

* Por que acontece o problema a seguir?

In [None]:
pubs_sum = cwur.publications.sum()
faculty_sum = cwur.quality_of_faculty.sum()
impact_sum = cwur.broad_impact.sum()
pubs_mean = cwur.publications.mean()
faculty_mean = cwur.quality_of_faculty.mean()
impact_mean = cwur.broad_impact.mean()

print(pubs_sum)
print(faculty_sum)
print(impact_sum)
print('-----------')
print(pubs_mean)
print(faculty_mean)
print(impact_mean)
print('-----------')
print(pubs_sum/faculty_sum)
print(pubs_mean/faculty_mean)
print(pubs_sum/impact_sum)
print(pubs_mean/impact_mean)

* Podemos evitar problemas eliminando valores com a função [.dropna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html?highlight=dropna#pandas.DataFrame.dropna).

In [None]:
pubs_sum_na = cwur.dropna().publications.sum()
impact_sum_na = cwur.dropna().broad_impact.sum()
pubs_mean_na = cwur.dropna().publications.mean()
impact_mean_na = cwur.dropna().broad_impact.mean()

print(pubs_sum_na/impact_sum_na)
print(pubs_mean_na/impact_mean_na)

In [None]:
cwur[['publications', 'broad_impact']].dropna().describe()

* Tipos de dados

In [None]:
cwur.dtypes

In [None]:
cwur.year

In [None]:
cwur.year.astype('str')

In [None]:
cwur.year.astype('float')

## Agregações conplexas em Pandas (GroupBy: Split, Apply, Combine)

* Muitas vezes, é importante poder fazer operações de agregação de forma condicional a algum subconjunto de dados (por exemplo, para casos que atendam a alguma condição). Isso é implementado pelo operador `groupby`
* O nome `groupby` é proveniente da linguagem SQL (que será abordada em outras aulas).
* É útil pensar sobre os termos de Hadley Wickham: *split, apply, combine* (dividir-aplicar-combinar)

### Split, apply, combine:

* A etapa `split` envolve dividir e reagrupar um ``DataFrame`` baseado em uma determinada chave.
* A etapa `apply` pressupõe calcular alguma função (geralmente, alguma agregação, transformação ou filtro) sobre os grupos constituídos na etapa anterior.
* A etapa `combine` faz uma "mesclagem" dos resultados dessas operações em um novo array.

#### Embora cada uma das etapas possa ser feita "manualmente", o ``GroupBy`` geralmente pode fazê-las em uma única etapa:

* A vantagem do ``GroupBy`` é que permite abstrair as três etapas anteriores: o usuário não precisa pensar em "como" fazer o cálculo, mas pensar na operação como um todo.

#### A operação `split`-`apply`-`combine` mais básica com o método ``groupby()`` é passar o nome de uma chave de coluna específica.

### O objeto GroupBy

* O objeto ``GroupBy`` é uma abstração muito flexível.
* Pode ser tratado como uma coleção de `DataFrame` e faz algumas coisas complicadas em segundo plano...
* Talvez as operações mais importantes de um objeto ``GroupBy`` sejam *aggregate*, *filter*, *transform* e *apply*

In [None]:
cwur.groupby('country')

* Observe que o método [.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html?highlight=groupby#pandas-dataframe-groupby) não retorna um ``DataFrame``, mas um objeto ``DataFrameGroupBy``. Podemos pensar no `DataFrameGroupBy` como uma visualização especial de um `DataFrame` que constrói os grupos, mas não executa nenhum cálculo até que o estágio de agregação seja aplicado.

* Esta avaliação faz com que as operações de agregação possam ser calculadas de forma muito eficiente. Para produzir um resultado, podemos aplicar uma função de agregação a este ``DataFrameGroupBy`` para executar a operação (aplicar) e prosseguir na etapa de combinação.

In [None]:
cwur.groupby('country').sum().sort_values("citations", ascending = False).head()

* Qualquer operação de agregação comum de Pandas ou NumPy e quase qualquer operação válida para um `DataFrame` podem ser executadas virtualmente, como veremos a seguir.

### Indexing de colunas

* O objeto ``Group By`` dá suporte à indexação de colunas da mesma forma que um ``DataFrame`` e retorna um objeto ``GroupBy`` modificado:

In [None]:
cwur.groupby('country')['patents']

* Selecionar uma ``Series`` em particular do ``DataFrame`` original referenciando-o com o seu nome da coluna.
* Como antes, nenhum cálculo é feito até que alguma função de agregação sobre o objeto seja invocada.

In [None]:
cwur.groupby('country')['patents'].sum().sort_values(ascending = False)

* O que é observado nesses casos?

Iteração sobre grupos:

* O objeto ``GroupBy`` suporta a iteração direta sobre grupos, retornando cada grupo como uma ``Series`` ou um ``DataFrame``.


In [None]:
for (pais, group) in cwur.groupby('country'):
    print("{0:20s} shape = {1} ".format(pais, group.shape))

* A função [str.format](https://docs.python.org/3.4/library/stdtypes.html#str.format) desempenha a operação de formatação de uma "string". Embora possamos fazer este tipo de operações manualmente, veremos a seguir o potencial que as funcionalidades ``apply`` têm.

 Dispatch methods:

* Qualquer método que não tenha sido implementado explicitamente pelo objeto `GroupBy` será executado em cada grupo.
* Por exemplo, o método `describe()` de `DataFrames` pode ser usado para executar muitas operações de agregação dentro de cada grupo.

In [None]:
cwur.groupby('country')['score'].describe()

 O que pode ser dito sobre esses dados? 

* Este é apenas um exemplo da utilidade desses métodos. Observar que eles são aplicados a cada um dos grupos individuais e que os resultados são combinados em um objeto `GroupBy`, e retornados.

### Aggregate, filter, transform, apply

* Há muitas outras opções de operações disponíveis.
* Os objetos ``GroupBy`` têm alguns métodos muito úteis: ``aggregate()``, ``filter()``, ``transform()`` e ``apply()`` que implementam muitas operações na etapa anterior ao "combine"

* Vamos ilustrar estas operações com o seguinte ``DataFrame``:

* A função [.aggregate()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.aggregate.html#pandas-dataframe-aggregate) agrega dados usando um ou mais operações sobre o eixo especificado.

### Aggregation

* O método `.aggregate()` possibilita uma grande flexibilidade:
* Pode aceitar uma string, uma função ou uma lista e calcular todos os agregados em uma única etapa.

* A seguir vamos agregar os dados de mínimo, máximo, média e soma as medida de "score" por instituição.

In [None]:
cwur.groupby('institution')["score"].aggregate([min, np.median, max, sum, ])

* Outra maneira útil é usar um dicionário que mapeia nomes de coluna com operações. Desta forma, a operação é aplicada a cada coluna.

### Filtering

* Uma operação de filtragem permite "descartar" dados com base nas propriedades do grupo.
* Por exemplo, podemos querer manter todos os grupos onde o desvio padrão é maior que algum valor de corte:

Abaixo podemos filtrar as instituições que possuem um número de citações maior ou igual a um determinado valor de corte.

In [None]:
def filter_func(x):
    return x["citations"].sum() >= 1500

cwur.groupby('institution').filter(filter_func)["institution"].unique()

* A função filtro retorna um booleano especificando se o grupo passa pelo filtro ou não. 

### Transformation

* Enquanto a agregação retorna uma versão reduzida dos dados, a transformação retorna alguma versão transformada dos dados para, então, fazer a combinação.
* A saída de uma transformação tem o mesmo `shape` que a entrada.

* O método [.transform()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transform.html) chama uma função "on self", produzindo um Data Frame com valores transformados pela função chamada.

In [None]:
def center_mean(x):
    return(x - x.mean())

print(cwur[["country","publications"]].groupby('country').transform(center_mean))

### O método `apply()`:

O método [.apply()](https://pandas.pydata.org/pandas-docs/version/0.22.0/generated/pandas.DataFrame.apply.html) aplica uma função ao longo do eixo especificado do DataFrame. 

* O método `apply()` permite aplicar alguma função dada aos resultados do grupo.
* A função deve tomar como entrada ``DataFrame`` e retornar um objeto de Pandas (``DataFrame``, ``Series``) ou um escalar. 
* A operação combine será adaptada ao tipo de saída retornada.

* Vamos primeiro tornar a coluna `national_rank` em uma tipo string, uma vez que não vamos operar matematicametne sobre esse índice.

In [None]:
cwur['national_rank'] = cwur['national_rank'].apply(str)

In [None]:
cwur["national_rank"]

Aqui aplicamos o método `.apply()` juntamente com o método `.groupby()` e o resultado é uma coluna de citações normalizada pela número total de publicações da instituição.

In [None]:
# O resultado é uma coluna PASSAGEIROS normalizada pela participação do grupo no total de passageiros da província
def norm_by_data2(x):
    # x is a DataFrame of group values
#    x['publications'] /= x['citations'].sum()
    x['citations'] /= x['publications'].sum()
    return x

cwur[["country","publications","citations", "institution"]].groupby('institution').apply(norm_by_data2)

* Como podemos interpretar a tabela acima?

### Especificando a chave do "split"

* No exemplo anterior, o split do ``DataFrame`` foi feito em uma única coluna.
* Há outras opções...

#### Podemos pensar em uma lista, arranjo, series ou index que contenha as chaves do agrupamento, vamos a seguir realizar a soma de todos de todas as colunas númericas, discriminadas pela instituição e agrupadas por país.

In [None]:
L = ["country","institution"]
cwur.drop(['year'], axis = 1).groupby(L).sum()

#### Podemos também reazilar uma soma generalizada das métricas por país.

In [None]:
cwur.drop(['year'], axis = 1).groupby("country").sum().head()


#### A forma a seguir é equivalente à anterior.

In [None]:
cwur.drop(['year'], axis = 1).groupby(cwur["country"]).sum().head()

#### Podemos definir uma das colunas  como índice de um novo dataframe e criar um dicionário das cinco primeiras universidades rankeadas, como a soma de diversas quantidades.

In [None]:
cwur2 = cwur.drop(['world_rank',
            'national_rank',
            'year',
            'quality_of_education',
            'quality_of_faculty',
            'influence'
                  ], 
                  axis = 1
                 )
cwur2 = cwur2.set_index('institution')
cwur2
mapping = {'Harvard University': 'HU',
           'Massachusetts Institute of Technology': 'MIT',
           'Stanford University': 'SU',
           'University of Cambridge': 'UoC',
           'California Institute of Technology': 'Calteh'
          }
cwur2.groupby(mapping).sum()

#### Podemos agrupar o dataframe original por país e verificar as médias das métricas escolhidas. 

In [None]:
cwur.drop(['world_rank', 
           'national_rank', 
           'quality_of_education', 
           'quality_of_faculty', 
           'year'], axis = 1
         ).groupby('country').mean()

#### Uma lista de chaves válidas pode ser agrupada com base em multi-indexadores.

In [None]:
cwur2 = cwur.drop(['world_rank',
            'national_rank',
            'year',
            'quality_of_education',
            'quality_of_faculty',
            'influence'
                  ], 
                  axis = 1
                 )
cwur2 = cwur2.set_index('institution')
cwur2
mapping = {'Harvard University': 'HU',
           'Massachusetts Institute of Technology': 'MIT',
           'Stanford University': 'SU',
           'University of Cambridge': 'UoC',
           'California Institute of Technology': 'Calteh'
          }
cwur2.groupby([str.lower, mapping]).mean()

#### Exemplo de aplicação:

* Imagine que queremos descobrir qual a fração de publicações, entre as universidades cujos "scores" superam um determinado valor de corte "scoreCut".
 
* Queremos agrupar a tabela por instituição e seu país de origem e realizar a soma do número de publicações, por agrupamento e dividir esse valor pela soma total de publicações das instituições que superam "scoreCut".

In [None]:
scoreCut = 80.00
cwur.loc[cwur['score'] >= 
         scoreCut].groupby(['institution', 
                            'country'])['publications'].sum().unstack().fillna(0) / sum(cwur.loc[cwur['score'] >= 
                                                                                                 80.00, 
                                                                                                 "publications"])*100


#### Perceba que a função [unstack()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html) permito o pivotamento do dataframe, na coluna `country`. A função [fillna()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html?highlight=fillna#pandas.DataFrame.fillna) preenche possíveis valores NA/NaN com o valor especificado.