# Pandas Course 🐼

## 1. Creating, Reading and Writing

### Getting Started 🏃‍♂️

In [2]:
import pandas as pd

### Creating Data 🔨

#### Existe dois principais objetos no pandas: **DataFrame** e as **Series**

> **DataFrame**
> DataFrame é uma tabela. Ele contém um array de entradas individuais, cada uma com um certo valor. Cada entrada corresponde uma linha e uma coluna.

*Por exemplo, considere o DataFrame simples a seguir:*

In [3]:
pd.DataFrame({'Yes' : [50, 21], 'No' : [131, 2]})

Unnamed: 0,Yes,No
0,50,131
1,21,2


Nesse exemplo:
 - A entrada '0, No' tem o valor 131.
 - A entrada '0, Yes' tem o valor de 50.

 *As entradas do DataFrame não são limitadas a inteiros. Por exemplo, segue um DataFrame cujo valores são strings:*

In [4]:
pd.DataFrame({'Bob' : ['I liked it.', 'It was awful'], 'Sue' : ['Pretty good', 'Bland']})

Unnamed: 0,Bob,Sue
0,I liked it.,Pretty good
1,It was awful,Bland


O construtor de lista de dicionário atribui valores aos rótulos das colunas, mas apenas usa uma contagem crescente para os rótulos das linhas.

Esse rótulo é conhecido como **index**. Nós conseguimos atribuir valores para ele passando um **index** como paramêtro em nosso construtor.

In [5]:
pd.DataFrame({'Bob' : ['I liked it.', 'It was awful'],
              'Sue' : ['Pretty good', 'Bland']},
              index = ['Product A', 'Product B'])

Unnamed: 0,Bob,Sue
Product A,I liked it.,Pretty good
Product B,It was awful,Bland


#### Series

> **Series**
> Series é uma sequencia de valores de dados. Se um DataFrame é uma tabela, a Serie é uma lista.

*Você pode criar uma Series com nada mais que uma lista:*

In [6]:
pd.Series([1, 2, 3, 4, 5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Uma **Series** é uma única coluna de um DataFrame. Assim, você consegue atribuir rótulos de linhas para a Series do mesmo jeito que você fez com o DataFrame, usando o **index** como parâmetro. No entando uma Series não tem nome de coluna, somente um nome geral.

In [7]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

## Reading Data Files 📖

Dados podem ser armazenado de várias formas e formatos diferentes. De longe, o mais básico é o .CSV.

*Quando você abre um arquivo CSV, obtém algo parecido com isto:*

In [8]:
'''
Product A,Product B,Product C,
30,21,9,
35,34,1,
41,11,11
'''

'\nProduct A,Product B,Product C,\n30,21,9,\n35,34,1,\n41,11,11\n'

Um arquivo CSV é uma tabela de valores separados por vírgulas.

Vamos agora ver como um conjunto de dados real se parece quando o lemos em um DataFrame.

> Nós vamos usar a função **pd.read_csv()** para ler os dados em um DataFrame

In [70]:
wine_review = pd.read_csv(r'C:\Users\migsk\Documents\Kaggle Courses\kaggle-courses\Pandas Course\wine_review_datas\winemag-data-130k-v2.csv')
pd.set_option('display.max_rows', 5)
pd.set_option('display.max_columns', None)

Nós conseguimos usar o atributo **shape** para checar o tamanho do DataFrame.

In [10]:
wine_review.shape

(129971, 14)

Podemos observar que o DataFrame possui:
- **129971** linhas
- **14** colunas
> Ou seja, quase 2 milhões de entradas

In [11]:
wine_review.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


A função **pd.read_csv()** possui mais de 30 parâmetros opcionais que podemos especificar.

Por exemplo, nesse conjunto de dados, podemos ver que o arquivo CSV tem um índice imbutido, que o *pandas* não pega automaticamente. Para fazer o *pandas* usar essa coluna para o índice (ao invés de criar um novo do zero), podemos especificar um **index_col**

In [12]:
wine_review = pd.read_csv(r'C:\Users\migsk\Documents\Kaggle Courses\kaggle-courses\Pandas Course\wine_review_datas\winemag-data-130k-v2.csv', index_col=0)
wine_review.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


## 2. Indexing, Selecting & Assigning 🎯

### Getting Started 🏃‍♂️

In [13]:
import pandas as pd
reviews = pd.read_csv(r'C:\Users\migsk\Documents\Kaggle Courses\kaggle-courses\Pandas Course\wine_review_datas\winemag-data-130k-v2.csv', index_col=0)
pd.set_option('display.max_columns', 5)

### Native Acessors 🐍

> Considere este DataFrame:

In [14]:
reviews

Unnamed: 0,country,description,...,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",...,White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",...,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",...,Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",...,Gewürztraminer,Domaine Schoffit


Em <font color='#2CFA34'>**python**</font>, nós conseguimos acessar a propriedade de um objeto, acessando ele como um atributo.

In [15]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Se tivermos um dicionário, conseguimos acessar esses valores usando o operador de indexação **[ ]**. Podemos fazer o mesmo com colunas de um DataFrame

In [16]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

> A diferença entre as duas maneiras de seleção é que o operador **[ ]** tem a vantagem de conseguir lidar com caracteres reservados.

Para selecionar um valor específico, nós precisamos usar o operador **[ ]** mais uma vez

In [17]:
reviews['country'][0]

'Italy'

### Indexing in Pandas 🪪

> O operadore de indexação e seleção de atributos são parecidos com o do próprio python, entretanto, <font color='#33FFE0'>**pandas**</font> possui seus próprio operadores de acesso: <font color='#F7D209'>**loc**</font> e <font color='#F7D209'>**iloc**</font>

#### <font color='#F7D209'>**iloc:**</font> Index-based selection

> Indexação do pandas funciona em dois paradigmas.

1. **seleção baseada em índice:** seleciona os dados baseado na posição numérica dos dados.

In [18]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

> ⚠️ <font color='#F7D209'>Tanto loc como iloc são baseados em: primeiro-linha, segundo-coluna. Isso é o oposto do que acontece no python nativo, que é primeiro-coluna, segundo-linha</font>

Para selecionar uma coluna com **iloc**, nós podemos fazer isto:

In [19]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

> O operador <font color='#F2601C'>**:**</font> sozinho, assim como no python nativo, significa 'TUDO'. Quando combinado com outro seletor, pode ser usado para indicar um intervalo de valores.

Por exemplo, para selecionar a **coluna país** da primeira, segunda e terceira linha, nós fazemos:

In [20]:
reviews.iloc[:3, 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

Ou, para selecionar apenas a segunda e terceira entrada, fazemos:

In [21]:
reviews.iloc[1:3, 0]

1    Portugal
2          US
Name: country, dtype: object

<font color='#FB5151'>**Também é possível passar uma lista!**</font>

In [22]:
reviews.iloc[[0, 1, 2], 0]

0       Italy
1    Portugal
2          US
Name: country, dtype: object

> Vale a pena saber que números negativos também podem ser usados nas seleções. Isso fará com que comece a contagem dos valores de trás para frente

Por exemplo, vamos selecionar os últimos cinco elementos do dataset

In [23]:
reviews.iloc[-5:]

Unnamed: 0,country,description,...,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,...,Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",...,Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",...,Gewürztraminer,Domaine Schoffit


#### <font color='#F7D209'>**loc:**</font> Label-based selection

> Segundo paradigma

2. **Seleção Baseada em rótulo:** O valor do índice dos dados que importa, e não sua posição.

Por exemplo, para selecionar a primeira entrada de **reviews**, nós faremos o seguinte:

In [24]:
reviews.loc[0, 'country']

'Italy'

> **iloc** é conceitualmente mais simples que o **loc** porque ele ignora os índices do dataset.
>
> Quando usamos o **iloc** nós tratamos o dataset como uma grande matriz, na qual devemos indexar por posição.
>
> Por outro lado, o **loc** usa a informação nos índices

<font color='#FB5151'>Caso seu conjunto de dados possui índices significativos, geralmente é mais fácil usar o **loc**</font>

Por exemplo, uma operação mais fácil usando o loc:

In [25]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
129969,Roger Voss,@vossroger,90
129970,Roger Voss,@vossroger,90


### Manipulating the index

O índice que usamos não é imutavel! Podemos manipular ele da maneira que acharmos adequada.

O método <font color='#4A0FF4'>**set_index()**</font> pode ser usado para fazer esse trabalho

In [26]:
reviews.set_index('title')

Unnamed: 0_level_0,country,description,...,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Nicosia 2013 Vulkà Bianco (Etna),Italy,"Aromas include tropical fruit, broom, brimston...",...,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),Portugal,"This is ripe and fruity, a wine that is smooth...",...,Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...
Domaine Marcel Deiss 2012 Pinot Gris (Alsace),France,"A dry style of Pinot Gris, this is crisp with ...",...,Pinot Gris,Domaine Marcel Deiss
Domaine Schoffit 2012 Lieu-dit Harth Cuvée Caroline Gewurztraminer (Alsace),France,"Big, rich and off-dry, this is powered by inte...",...,Gewürztraminer,Domaine Schoffit


Isso é útil se você puder criar um índice para o dataset que seja melhor do que o atual.

### Conditional Selection

> As vezes nós precisamos fazer perguntas baseadas em condições.

Por exemplo, suponha que estamos interessados especificamente em vinhos acima da média produzidos na Itália:

Nós podemos começar chegando se o vinho é da Italia, ou não.

In [27]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

Esse operador produziu uma Seies de booleanos True/False baseado no país de cada registro.

 -> Então, esse resultado pode ser usado dentro do **loc** para selecionar os dados relevantes:

In [28]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,...,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",...,White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",...,Frappato,Terre di Giurfo
...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",...,Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",...,Nero d'Avola,Cusumano


> O DataFrame filtrado possui ~20 mil linhas. Isso significa que mais ou menos 15% dos vinhos são originados da Itália, dito que o DataFrame inteiro tem ~130 mil linhas.

Nós também queremos saber quais vinhos estão acima da média. Os vinhos são avaliados em uma escala de 80-100, então isso pode significar que acumularam pelo menos 90 pontos.

<font color='#C70039'>**Nós podemos usar o ( & ) para juntar as duas condições**</font>

In [29]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,...,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",...,Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",...,Nebbiolo,Ceretto
...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",...,Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",...,Nero d'Avola,Cusumano


Suponha que vamos comprar qualquer vinho que é feito na Itália <font color='#C70039'>**OU**</font> que é avaliado acima da média. Para isso usamos o operador lógico <font color='#C70039'>**( | )**</font>

In [30]:
reviews.loc[(reviews.count == 'Italy') | (reviews.points >= 90)]

Unnamed: 0,country,description,...,variety,winery
119,France,Medium-gold in color. Complex and inviting nos...,...,Riesling,Dopff & Irion
120,Italy,"Slightly backward, particularly given the vint...",...,Nebbiolo,Ceretto
...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",...,Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",...,Gewürztraminer,Domaine Schoffit


<font color='#33FFE0'>**Pandas**</font> vem com alguns seletores condicionais integrados, vamos ver dois deles:

<font color='#F7D209'>**1. isin:**</font> Permite selecionar dados cujo valor está em uma lista de valores.

Por exemplo, como nós podemos usá-lo para selecionar vinhos que são somente da França ou da Itália:

In [31]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,...,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",...,White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",...,Frappato,Terre di Giurfo
...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",...,Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",...,Gewürztraminer,Domaine Schoffit


<font color='#F7D209'>**2. isnull/notnull:**</font> Esses métodos permite você destacar valores que estão vazios (ou não vazios).

Por exemplo, para filtar vinhos sem etiquetas de preço no conjunto de dados, faremos assim:

In [32]:
reviews.loc[reviews.price.notnull()]

Unnamed: 0,country,description,...,variety,winery
1,Portugal,"This is ripe and fruity, a wine that is smooth...",...,Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",...,Pinot Gris,Rainstorm
...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",...,Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",...,Gewürztraminer,Domaine Schoffit


### Assigning Data

> Por outro lado, atribuir dados ao DataFrame é bem simples. Você consegue atribuir um valor constante:

In [33]:
reviews['critic'] = 'everyone'
reviews.critic

0         everyone
1         everyone
            ...   
129969    everyone
129970    everyone
Name: critic, Length: 129971, dtype: object

Ou com um iterável:

In [34]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64

### Summary Functions and Maps

#### Summary Functions

<font color='#33FFE0'>**Pandas**</font> fornece várias funções que permite visualizar um resumo de algumas informações do DataFrame.

Por exemplo: <font color='#4A0FF4'>**describe()**</font>

In [35]:
reviews.points.describe()

count    129971.000000
mean         88.447138
             ...      
75%          91.000000
max         100.000000
Name: points, Length: 8, dtype: float64

Esse método gera um resumo de alto nível dos atributos da coluna especificada.

Sua saída muda com base no tipo de dados da entrada. O método reconhece o tipo.

Para dados que são strings, o resultado é diferente:

In [36]:
reviews.taster_name.describe()

count         103727
unique            19
top       Roger Voss
freq           25514
Name: taster_name, dtype: object

Se você quiser pegar um resumo em particular de uma coluna específica, existe algumas funções do pandas que te ajudará!

Por exemplo, para ver a média dos pontos atribuídos a um vinho, podemos usar a função <font color='#4A0FF4'>**mean()**</font>

In [37]:
reviews.points.mean()

88.44713820775404

Para ver uma lista de valores únicos, podemos usar a função <font color='#4A0FF4'>**unique()**</font>

In [38]:
reviews.taster_name.unique()

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

Para ver uma lista de valores únicos e quantas vezes eles apareceram no dataset, nós podemos usar o método <font color='#4A0FF4'>**value_counts()**</font>

In [39]:
reviews.taster_name.value_counts()

Roger Voss           25514
Michael Schachner    15134
                     ...  
Fiona Adams             27
Christina Pickard        6
Name: taster_name, Length: 19, dtype: int64

#### Maps

> Um <font color='#4A0FF4'>**mapa**</font> é um termo, emprestado da matemática, para uma função que pega um conjunto de valores e os 'mapeia' para outro conjunto de valores.

Em ciência de dados, muitas vezes precisamos criar novas representações a partir de dados existentes ou tranformar os dados do formato em que estão agora para o formato que queremos que estejam mais tarde.

Os <font color='#4A0FF4'>**mapas**</font> são o que lidam com esse trabalho, tornando-os extremamente importante para a realização do seu trabalho!

Vamos utilizar a função <font color='#4A0FF4'>**map()**</font>!

Por exemplo, suponha que nós queremos redimensionar as notas que os vinhos receberam para 0. Podemos fazer isso da seguinte maneira:

In [40]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

0        -1.447138
1        -1.447138
            ...   
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

A função que você passa para map() deve esperar um único valor da Seires (no nosso exemplo, um valor de ponto *('points')* ) e retornar uma versão transformada desse valor.

*map retorna uma nova Series onde todos os valores foram transformados pro sua função*

<font color='#4A0FF4'>**apply()**</font> é um método equivalente, caso queira transformar um DataFrame inteiro chamando um método personalizado a cada linha.

In [41]:
def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.apply(remean_points, axis='columns')

Unnamed: 0,country,description,...,critic,index_backwards
0,Italy,"Aromas include tropical fruit, broom, brimston...",...,everyone,129971
1,Portugal,"This is ripe and fruity, a wine that is smooth...",...,everyone,129970
...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",...,everyone,2
129970,France,"Big, rich and off-dry, this is powered by inte...",...,everyone,1


Caso tivessemos chamado reviews.apply() com **axis='index'**, ao invés de passar uma função para transformar cada linha, precisaríamos fornecer uma função para transformar cada coluna.

⚠️ <font color='#F7D209'>**ATENÇÃO:**</font>
- **map()** retorna uma **Series** nova e transformada
- **apply()** retorna um **DataFrame** novo e transformado

<font color='#F7D209'>**!**</font> Eles não modificam os dados originais. Se nós olharmos a primeira linha de reviews, nós podemos ver que os **pontos** estão com os valores originais.

In [42]:
reviews.head(1)

Unnamed: 0,country,description,...,critic,index_backwards
0,Italy,"Aromas include tropical fruit, broom, brimston...",...,everyone,129971


<font color='#33FFE0'>**Pandas**</font> fornece muitas operações de mapeamentos imbutidas.

Por exemplo, aqui está um jeito mais rápido de redefinir nossa coluna de pontos.

In [43]:
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

0        -1.447138
1        -1.447138
            ...   
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

<font color='#33FFE0'>**Pandas**</font> olha para essa expressão e descobre que devemos subtrair esse valor médio de cada valor no conjunto de dados *(reviews.points - review_points_mean)*

Ele também vai entender o que fazer se nós realizarmos essas operações entre Series com o mesmo comprimento.

Por exemplo, uma maneira fácil de combinar informações de país e região, seria:

In [44]:
reviews.country + " - " + reviews.region_1

0            Italy - Etna
1                     NaN
               ...       
129969    France - Alsace
129970    France - Alsace
Length: 129971, dtype: object

Esses operadores são mais rápidos que map() ou apply() porque usam aceleradores integrados ao pandas. Todos operadores padrões do Python **(>, <, ==, etc...)** funcionam dessa maneira.

<font color='#F7D209'>**!**</font> Entretanto, eles não são tão flexíveis como map() ou apply(), que podem fazer coisas mais avançadas, como aplicar lógica condicional.

## Grouping and Sorting

### Introduction

Maps nos permite tranformar dados em um DataFrame ou Series, um valor por vez para uma coluna inteira. Entretanto, as vezes, nós queremos agrupar dados, e então, fazer alguma coisa específica para o grupo que contém os dados.

### Groupwise analysis

Uma função que temos usado massivamente até agora é a função value_counts(). Podemos replica-lá fazendo o seguinte:

In [45]:
reviews.groupby('points').points.count()

points
80     397
81     692
      ... 
99      33
100     19
Name: points, Length: 21, dtype: int64

groupby() criou um grupo de 'reviews' que atribuí os pontos dados para cada vinho com mesmo valores. Então, para cada um desses grupos, nós pegamos a coluna points() e contamos quantas vezes ela aparece. value_counts() é apenas um atalho para essa operação de groupby.

Nós conseguimos usar qualquer função de resumo que nós usamos antes com esses dados. Por exemplo, para pegar o vinho mais barato em cada categoria de pontos, nós podemos fazer o seguinte:

In [46]:
reviews.groupby('points').price.min()

points
80      5.0
81      5.0
       ... 
99     44.0
100    80.0
Name: price, Length: 21, dtype: float64

Você pode pensar em cada grupo que geramos como sendo uma fatia do nosso DataFrame contendo somente dados com valores correspondentes. Esse DataFrame é acessível para nós diretamente para nós usando o método apply(), e conseguimos manipular os dados de maneira adequada.

Por exemplo, aqui está uma maneira de selecionar o nome do primeiro vinho avaliado de cada vinícola do dataset.

In [47]:
reviews.groupby('winery').apply(lambda df: df.title.iloc[0])

winery
1+1=3                          1+1=3 NV Rosé Sparkling (Cava)
10 Knots                 10 Knots 2010 Viognier (Paso Robles)
                                  ...                        
àMaurice    àMaurice 2013 Fred Estate Syrah (Walla Walla V...
Štoka                         Štoka 2009 Izbrani Teran (Kras)
Length: 16757, dtype: object

Para um controle ainda mais refinado, você também pode agrupar mais de uma coluna.

Por exemplo, aqui está como escolheríamos o melhor vinho por país e província:

In [48]:
reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])

Unnamed: 0_level_0,Unnamed: 1_level_0,country,description,...,critic,index_backwards
country,province,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Argentina,Mendoza Province,Argentina,"If the color doesn't tell the full story, the ...",...,everyone,47217
Argentina,Other,Argentina,"Take note, this could be the best wine Colomé ...",...,everyone,51668
...,...,...,...,...,...,...
Uruguay,San Jose,Uruguay,"Baked, sweet, heavy aromas turn earthy with ti...",...,everyone,90073
Uruguay,Uruguay,Uruguay,"Cherry and berry aromas are ripe, healthy and ...",...,everyone,90610


Outro método do groupby() que vale a pena mencionar é o agg(), que permite você executar várias funções diferentes em seu DataFrame simultaneamente.

Por exemplo, nós podemos gerar um simples resumo estatístico do dataset da seguinte maneira:

In [49]:
reviews.groupby(['country']).price.agg([len, min, max])

Unnamed: 0_level_0,len,min,max
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Argentina,3800,4.0,230.0
Armenia,2,14.0,15.0
...,...,...,...
Ukraine,14,6.0,13.0
Uruguay,109,10.0,130.0


### Multi-indexes

Em todos os exemplos que vimos até agora, trabalhamos com DataFrames ou Series com um único index. Na verdade, groupby() é um pouco diferente, dependendo da operação que executamos, as vezes resultará no que chamamos de índice múltiplo.

In [50]:
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed

Unnamed: 0_level_0,Unnamed: 1_level_0,len
country,province,Unnamed: 2_level_1
Argentina,Mendoza Province,3264
Argentina,Other,536
...,...,...
Uruguay,San Jose,3
Uruguay,Uruguay,24


In [51]:
mi = countries_reviewed.index
type(mi)

pandas.core.indexes.multi.MultiIndex

Multi índices possui vários métodos para lidar com sua estrutura em camadas que estão ausentes nos índices de nível único. Eles também exigem dois níveis de labels para recuperar um valor. 

**Lidar com a saída de multi índices é uma pegadinha comum para usuários novos no pandas**

Entretanto, no geral, o método do multi índice que você usará com mais frequência é para converter de volta para um índice regular, o método **reset_index():**

In [52]:
countries_reviewed.reset_index()

Unnamed: 0,country,province,len
0,Argentina,Mendoza Province,3264
1,Argentina,Other,536
...,...,...,...
423,Uruguay,San Jose,3
424,Uruguay,Uruguay,24


### Sorting

Olhando novamente para *countries_reviewed* nós podemos ver que o agrupamento retorna dados na ordem do índice, não na ordem do valor. Isso quer dizer, quando é retornado o resultado de um *groupby*, a ordem das linhas depende dos valores no índice, não nos dados.

Para obter os dados na ordem desejada, podemos classificá-los nós mesmos. O método **sort_values()** é útil para isso.

In [53]:
countries_reviewed = countries_reviewed.reset_index()
countries_reviewed.sort_values(by='len')

Unnamed: 0,country,province,len
179,Greece,Muscat of Kefallonian,1
192,Greece,Sterea Ellada,1
...,...,...,...
415,US,Washington,8639
392,US,California,36247


Por padrão, o **sort_values()** ordena de maneira crescente. Entretanto, na maioria das vezes nós queremos a ordem descendente.

In [54]:
countries_reviewed.sort_values(by='len', ascending=False)

Unnamed: 0,country,province,len
392,US,California,36247
415,US,Washington,8639
...,...,...,...
63,Chile,Coelemu,1
149,Greece,Beotia,1


Para ordenar por valores do índice, use o método complementar **sort_index()**. Esse método possui os mesmo argumentos e a ordem padrão:

In [55]:
countries_reviewed.sort_index()

Unnamed: 0,country,province,len
0,Argentina,Mendoza Province,3264
1,Argentina,Other,536
...,...,...,...
423,Uruguay,San Jose,3
424,Uruguay,Uruguay,24


Finalmente, saiba que você pode ordenar mais de uma coluna por vez!

In [56]:
countries_reviewed.sort_values(by=['country', 'len'])

Unnamed: 0,country,province,len
1,Argentina,Other,536
0,Argentina,Mendoza Province,3264
...,...,...,...
424,Uruguay,Uruguay,24
419,Uruguay,Canelones,43


## Data Types and Missing Values

### Dtypes

O tipo de dado de uma coluna em um DataFrame ou uma Series é conhecido como **dtype.**

Você pode usar a propriedade *dtype* para pegar o tipo de uma coluna específica. Por exemplo, nós podemos pegar o *dtype* da coluna *price* no DataFrame *reviews:*

In [58]:
reviews.price.dtype

dtype('float64')

Do mesmo jeito que se usarmos o *dtypes* para o DataFrame, ele retorna o tipo de todas as colunas:

In [61]:
reviews.dtypes

country            object
description        object
                    ...  
critic             object
index_backwards     int64
Length: 15, dtype: object

Os tipos de dados nos conta algo como *pandas* armazena os dados internamente. *float64* significa que está usando um número de ponto flutuante de 64-bit; *int64* significa um número inteiro de 64-bit, e assim por diante...

⚠️ <font color='Gold'>**!** Uma peculiaridade a ter em mente é que as colunas consistindo inteiramente de *strings* não possuem seu próprio tipo; em vez disso, eles recebem o tipo de *object*</font>

É possível converter uma coluna de um tipo para outro, usando o **astype()**, desde que a conversão faça sentido. Por exemplo, nós podemos transformar a coluna *points*, cujo tipo é *int64* para *float64* 

In [62]:
reviews.points.astype('float64')

0         87.0
1         87.0
          ... 
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float64

Um índice de um DataFrame ou uma Series também possui seu próprio tipo:

In [63]:
reviews.index.dtype

dtype('int64')

🧐 <font color='RoyalBlue'>Pandas também suporta tipos de dados mais exóticos, como *categóricos* e *dados de séries temporais*. Pois esses tipos de dados são usados com menos frequência.</font>

### Missing Data

As entradas com valores ausentes recebem o nome de <font color='FireBrick'>**Nan**</font>, abreviação de *'Not a Number'*. Por razões técnicas esses valores <font color='FireBrick'>**Nan**</font> são **SEMPRE** do tipo *float64*.

Pandas fornece alguns métodos específicos para valores ausentes. Para selecionar valores <font color='FireBrick'>**Nan**</font> você pode usar **pd.isnull()** ou seu companheiro **pd.notnull()**. Vejamos:

In [64]:
reviews[pd.isnull(reviews.country)]

Unnamed: 0,country,description,...,critic,index_backwards
913,,"Amber in color, this wine has aromas of peach ...",...,everyone,129058
3131,,"Soft, fruity and juicy, this is a pleasant, si...",...,everyone,126840
...,...,...,...,...,...
129590,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",...,everyone,381
129900,,This wine offers a delightful bouquet of black...,...,everyone,71


Substituir valores ausentes é uma operação comum. Pandas fornece métodos para esse problema: **fillna()**.

**fillna()** fornece diferentes estratégias para mitigar esses dados. Por exemplo, nós conseguimos substituir cada valor **Nan** com **"Unknown"**:

In [65]:
reviews.region_2.fillna("Unknown")

0         Unknown
1         Unknown
           ...   
129969    Unknown
129970    Unknown
Name: region_2, Length: 129971, dtype: object

Ou podemos preencher cada valor ausente com o primeiro valor não nulo que aparece algum tempo depois do registro fornecido no banco de dados. Isso é conhecido como estratégia de preenchimento. <font color='LimeGreen'>**(Backfill Strategy)**</font>

Alternativamente, podemos ter um valor não nulo que gostaríamos de substituir. Por exemplo, suponha que desde que o *dataset* foi publicado, o crítico *Kerin O'Keefe* mudou seu identificador do Twitter de **@kerinokeefe** para **@kerino**. Uma maneira de refletir isso no *dataset* é usando o método **replace()**:

In [66]:
reviews.taster_twitter_handle.replace('@kerinokeefe', '@kerino')

0            @kerino
1         @vossroger
             ...    
129969    @vossroger
129970    @vossroger
Name: taster_twitter_handle, Length: 129971, dtype: object

Vale a pena mencionar o método **replace()** pois ele é útil para substituir dados ausentes que recebem algum tipo de valor sentinela no *dataset*: coisas como *"Unknown", "Undisclosed", "Invalid"* e assim por diante.

## Renaming and Combining

### Renaming

A primeira função que veremos é a **rename()**, que permite você mudar o nome de índices e/ou nome de colunas. Por exemplo, para mudar a coluna *points* para *score* no nosso *dataset*, faremos:

In [71]:
reviews.rename(columns={'points' : 'score'})

Unnamed: 0,country,description,designation,score,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critic,index_backwards
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,everyone,129971
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,everyone,129970
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,everyone,2
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,everyone,1


Aqui está um exemplo usando o **rename()** para renomear elemntos do índice

In [72]:
reviews.rename(index={0: 'firstEntry', 1: 'secondEntry'})

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critic,index_backwards
firstEntry,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,everyone,129971
secondEntry,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,everyone,129970
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,everyone,2
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,everyone,1


Você provavelmente vai renomear colunas com muita frequência, mas renomeará valores de índices muito raramente. Para isso, **set_index()** geralmente é mais conveniente.

Tanto o índice da linha como o índice da coluna podem ter seu próprio atributo nome. O método complementar **rename_axis()** pode ser usado para alterar esess nomes. Por exemplo:

In [73]:
reviews.rename_axis('wines', axis='rows').rename_axis('fields', axis='columns')

fields,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critic,index_backwards
wines,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,everyone,129971
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,everyone,129970
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,everyone,2
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,everyone,1


### Combining

Ao executar operações no *dataset*, as vezes precisaremos combinar diferentes DataFrames e/ou Series de uma maneira não trivial. Pandas tem **3** principais métodos para fazer isso. Em ordem crescente de complexidade: **concat(), join() e merge()**. A maior parte do que **merge()** pode fazer, também pode ser feito de forma mais simples com **join()**, então nós o omitiremos e focaremos nas duas primeiras funções.

O método de combinação mais simples é o **concat()**. Dado uma lista de elementos, essa função irá comprimir esses elementos juntos ao longo de um eixo.

Isso é muito útil quando temos dados em diferentes DataFrames ou Series, mas temos os mesmo campos (colunas). Um exemplo: o *YouTube Videos dataset* que divide os dados com base no país de origem. Se nós quisermos estudar vários países simultaneamente, nós podemos usar o **concat()** para juntá-los.

In [74]:
canadian_youtube = pd.read_csv(r'C:\Users\migsk\Documents\Kaggle Courses\kaggle-courses\Pandas Course\trending-youtube-video-statistics\CAvideos.csv')
british_youtube = pd.read_csv(r'C:\Users\migsk\Documents\Kaggle Courses\kaggle-courses\Pandas Course\trending-youtube-video-statistics\GBvideos.csv')

pd.concat([canadian_youtube, british_youtube])

Unnamed: 0,video_id,trending_date,title,channel_title,category_id,publish_time,tags,views,likes,dislikes,comment_count,thumbnail_link,comments_disabled,ratings_disabled,video_error_or_removed,description
0,n1WpP7iowLc,17.14.11,Eminem - Walk On Water (Audio) ft. Beyoncé,EminemVEVO,10,2017-11-10T17:00:03.000Z,"Eminem|""Walk""|""On""|""Water""|""Aftermath/Shady/In...",17158579,787425,43420,125882,https://i.ytimg.com/vi/n1WpP7iowLc/default.jpg,False,False,False,Eminem's new track Walk on Water ft. Beyoncé i...
1,0dBIkQ4Mz1M,17.14.11,PLUSH - Bad Unboxing Fan Mail,iDubbbzTV,23,2017-11-13T17:00:00.000Z,"plush|""bad unboxing""|""unboxing""|""fan mail""|""id...",1014651,127794,1688,13030,https://i.ytimg.com/vi/0dBIkQ4Mz1M/default.jpg,False,False,False,STill got a lot of packages. Probably will las...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38914,-DRsfNObKIQ,18.14.06,Eleni Foureira - Fuego - Cyprus - LIVE - First...,Eurovision Song Contest,24,2018-05-08T20:32:32.000Z,"Eurovision Song Contest|""2018""|""Lisbon""|""Cypru...",14317515,151870,45875,26766,https://i.ytimg.com/vi/-DRsfNObKIQ/default.jpg,False,False,False,Eleni Foureira represented Cyprus at the first...
38915,4YFo4bdMO8Q,18.14.06,KYLE - Ikuyo feat. 2 Chainz & Sophia Black [A...,SuperDuperKyle,10,2018-05-11T04:06:35.000Z,"Kyle|""SuperDuperKyle""|""Ikuyo""|""2 Chainz""|""Soph...",607552,18271,274,1423,https://i.ytimg.com/vi/4YFo4bdMO8Q/default.jpg,False,False,False,Debut album 'Light of Mine' out now: http://ky...


**join()** permite que você combine diferentes DataFrames que possua índices em comum. Por exemplo, para baixar vídeos que estavam em alta no mesmo dia no Canadá e no Reino Unido, poderíamos fazer o seguinte:

In [77]:
left = canadian_youtube.set_index(['title', 'trending_date'])
right = british_youtube.set_index(['title', 'trending_date'])

left.join(right, lsuffix='_CAN', rsuffix='_UK')

Unnamed: 0_level_0,Unnamed: 1_level_0,video_id_CAN,channel_title_CAN,category_id_CAN,publish_time_CAN,tags_CAN,views_CAN,likes_CAN,dislikes_CAN,comment_count_CAN,thumbnail_link_CAN,comments_disabled_CAN,ratings_disabled_CAN,video_error_or_removed_CAN,description_CAN,video_id_UK,channel_title_UK,category_id_UK,publish_time_UK,tags_UK,views_UK,likes_UK,dislikes_UK,comment_count_UK,thumbnail_link_UK,comments_disabled_UK,ratings_disabled_UK,video_error_or_removed_UK,description_UK
title,trending_date,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1
!! THIS VIDEO IS NOTHING BUT PAIN !! | Getting Over It - Part 7,18.04.01,PNn8sECd7io,Markiplier,20,2018-01-03T19:33:53.000Z,"getting over it|""markiplier""|""funny moments""|""...",835930,47058,1023,8250,https://i.ytimg.com/vi/PNn8sECd7io/default.jpg,False,False,False,Getting Over It continues with RAGE BEYOND ALL...,,,,,,,,,,,,,,
"#1 Fortnite World Rank - 2,323 Solo Wins!",18.09.03,DvPW66IFhMI,AlexRamiGaming,20,2018-03-09T07:15:52.000Z,"PS4 Battle Royale|""PS4 Pro Battle Royale""|""Bat...",212838,5199,542,11,https://i.ytimg.com/vi/DvPW66IFhMI/default.jpg,False,False,False,Discord For EVERYONE - https://discord.gg/nhud...,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
🚨 BREAKING NEWS 🔴 Raja Live all Slot Channels Welcome 🎰,18.07.05,Wt9Gkpmbt44,TheBigJackpot,24,2018-05-07T06:58:59.000Z,"Slot Machine|""win""|""Gambling""|""Big Win""|""raja""...",28973,2167,175,10,https://i.ytimg.com/vi/Wt9Gkpmbt44/default.jpg,False,False,False,The Raja takes matters in to his own hands ton...,,,,,,,,,,,,,,
🚨Active Shooter at YouTube Headquarters - LIVE BREAKING NEWS COVERAGE,18.04.04,Az72jrKbANA,Right Side Broadcasting Network,25,2018-04-03T23:12:37.000Z,"YouTube shooter|""YouTube active shooter""|""acti...",103513,1722,181,76,https://i.ytimg.com/vi/Az72jrKbANA/default.jpg,False,False,False,An active shooter has been reported at the You...,,,,,,,,,,,,,,


Os parâmetros **lsuffix** e **rsuffix** são necessários aqui pois os dados possuem o mesmo nome da coluna nois dois *datasets*. Se isso não fosse verdade, não precisaríamos deles.