# Introdução à Ciência de Dados - UFPB
Professor: Yuri Malheiros


## Pandas

Pandas é um biblioteca que possibilita a criação e manipulação de DataFrames, que são arrays multidimensionais com rótulos nas linhas e nas colunas, uma estrutura semelhante a uma tabela.

O pandas costuma ser importado da seguinte forma:

In [3]:
import pandas as pd

O Pandas possui duas classes principais: `Series` e `DataFrame`. Ambas são semelhantes aos arrays do NumPy, mas possuem rótulos para identificar linhas e colunas.

### Series

A classe `Series` implementa um array unidimensional. Podemos criar uma Series assim:

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

Podemos acessar os seus valores e índices:

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

Para acessar os valores de uma `Series` usamos os índices:

In [9]:
data[0]

0.25

In [10]:
data[1:3]

1    0.50
2    0.75
dtype: float64

Uma `Series` pode ter índices que não são números:

In [11]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=["a", "b", "c", "d"])

data["a"]

0.25

Podemos criar uma `Series` a partir de um dicionário:

In [12]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### DataFrame

A classe `DataFrame` é uma estrutura semelhante a uma tabela. Podemos entendê-lo como uma sequência de `Series` que compartilham um mesmo índice.

In [13]:
area_dict = {'California': 423967, 'Texas': 695662,
             'New York': 141297, 'Florida': 170312,
             'Illinois': 149995}

area = pd.Series(area_dict)

# notem que population_dict e area_dict possuem as mesmas chaves
states = pd.DataFrame({"population": population, "area": area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Os `DataFrames` possuem valores, índices e colunas.

In [14]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

In [15]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [16]:
states.columns

Index(['population', 'area'], dtype='object')

Um `DataFrame` mapeia uma coluna para uma `Series`, assim, através do nome da coluna, nós acessamos sua `Series` correspondente:

In [17]:
states["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Podemos construir um `DataFrame` a partir de um array bidimensional. O array representa os valores:

In [18]:
import numpy as np

data = np.random.random((2,2))
pd.DataFrame(data)

Unnamed: 0,0,1
0,0.922765,0.685115
1,0.852211,0.654043


Para definir os nomes dos índices e columas, temos:

In [19]:
pd.DataFrame(data, columns=["a", "b"], index=["x", "y"])

Unnamed: 0,a,b
x,0.922765,0.685115
y,0.852211,0.654043


### Indexação

Como o Pandas utiliza o NumPy nas suas implementações, então várias operações para trabalhar com os arrays estão disponíveis para as `Series` e `DataFrames`:

In [21]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=["a", "b", "c", "d"])

In [22]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [23]:
data["a":"c"]  # nesse caso, o slice inclui o limite final

a    0.25
b    0.50
c    0.75
dtype: float64

In [24]:
data[data > 0.3]

b    0.50
c    0.75
d    1.00
dtype: float64

In [25]:
data[["a", "d"]]

a    0.25
d    1.00
dtype: float64

Para atribuir um valor, basta usar o operador de atribuição:

In [26]:
data["a"] = 10
data

a    10.00
b     0.50
c     0.75
d     1.00
dtype: float64

Se o índice não existir, uma nova entrada é criada:

In [27]:
data["x"] = 99
data

a    10.00
b     0.50
c     0.75
d     1.00
x    99.00
dtype: float64

É possível fazer slices pelo número da linha:

In [28]:
data[1:3]  # nesse caso, o slice não inclui o limite final

b    0.50
c    0.75
dtype: float64

Como os índices podem ser numéricos, então fazer slices com os números das linhas pode causar confusão:

In [31]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 3, 4, 5])

data

2    0.25
3    0.50
4    0.75
5    1.00
dtype: float64

In [33]:
data[2:4]  # 2 e 4 são os índices ou os números das linhas? (Resposta: número das linhas)

4    0.75
5    1.00
dtype: float64

Para não ter ambiguidade, o Pandas fornece dois atributos para diferenciar o número da linha do valor do índice. `.loc` referencia o índice real e `.iloc` referencia o número da linha:

In [39]:
data.loc[2]

0.25

In [40]:
data.iloc[2]

0.75

In [41]:
data.loc[2:3]

2    0.25
3    0.50
dtype: float64

In [42]:
data.iloc[2:3]

4    0.75
dtype: float64

Para um Dataframe, podemos acessar suas colunas assim:

In [43]:
states["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Ou assim:

In [44]:
states.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

Apenas colunas que são strings e valores válidos no Python podem ser acessadas através do `.`. Além disso, precisamos ter cuidado, pois o nome de uma coluna pode ser o mesmo de um método da classe `DataFrame`.

Podemos modificar uma coluna usando o operador de atribuição:

In [45]:
states["area"] = pd.Series({'California': 423968, 'Texas': 695662,
                            'New York': 141297, 'Florida': 170312,
                            'Illinois': 149995})
states

Unnamed: 0,population,area
California,38332521,423968
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


Ou criar uma coluna se o nome da coluna existir:

In [49]:
# a divisão se comporta como a divisão de dois arrays do numpy,
# ou seja, operação elemento por elemento
states["density"] = states["population"] / states["area"]

states

Unnamed: 0,population,area,density
California,38332521,423968,90.413713
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121
Illinois,12882135,149995,85.883763


Para inverter linhas e colunas, temos:

In [50]:
states.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
population,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
area,423968.0,695662.0,141297.0,170312.0,149995.0
density,90.41371,38.01874,139.0767,114.8061,85.88376


Os atributos `.loc` e `.iloc` também funcionam com os `DataFrames`:

In [51]:
states.loc["California"]  # retorna a linha com índice "California"

population    3.833252e+07
area          4.239680e+05
density       9.041371e+01
Name: California, dtype: float64

In [53]:
# retorna o valor da coluna "area" da linha de índice "California"
states.loc["California", "area"]

423968

In [56]:
states.loc["Texas":"Florida"]  # slice das linhas

Unnamed: 0,population,area,density
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121


In [57]:
states.loc["Texas":"Florida", "area":"density"]  # slice das linhas e colunas

Unnamed: 0,area,density
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121


In [58]:
states.iloc[0]  # retorna a primeira linha

population    3.833252e+07
area          4.239680e+05
density       9.041371e+01
Name: California, dtype: float64

In [60]:
# retorna o valor da segunda coluna (índice 1) da primeira linha (índice 0)
states.iloc[0, 1]

423968

In [62]:
states.iloc[1:4] # slice das linhas

Unnamed: 0,population,area,density
Texas,26448193,695662,38.01874
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121


In [66]:
states.iloc[1:4, 1:3] # slice das linhas e colunas

Unnamed: 0,area,density
Texas,695662,38.01874
New York,141297,139.076746
Florida,170312,114.806121


Podemos usar alguns padrões de acesso existentes no NumPy:

In [68]:
# retorna as linhas com índices "California" e "New York"
states.loc[["California", "New York"]]

Unnamed: 0,population,area,density
California,38332521,423968,90.413713
New York,19651127,141297,139.076746


In [69]:
# retorna as linhas que possuem a coluna "density" maiores que 100
states.loc[states.density > 100]

Unnamed: 0,population,area,density
New York,19651127,141297,139.076746
Florida,19552860,170312,114.806121


In [72]:
# retorna as colunas "population" e "density" das linhas que
# possuem a coluna "density" maiores que 100
states.loc[states.density > 100, ["population", "density"]]

Unnamed: 0,population,density
New York,19651127,139.076746
Florida,19552860,114.806121


### Entrada e Saída

Os dados que trabalhos frequentemente estão em fontes externas. Uma das fontes mais comuns são os arquivos CSV (Comma Separated Values).

O Pandas traz a função `.read_csv()` que carrega arquivos CSV e os transforma em um `DataFrame`:

In [75]:
movies_df = pd.read_csv("../datasets/movies.csv")
movies_df

Unnamed: 0,Title,US Gross,Worldwide Gross,US DVD Sales,Production Budget,Release Date,MPAA Rating,Running Time (min),Distributor,Source,Major Genre,Creative Type,Director,Rotten Tomatoes Rating,IMDB Rating,IMDB Votes
0,The Land Girls,146083.0,146083.0,,8000000.0,12-Jun-98,R,,Gramercy,,,,,,6.1,1071.0
1,"First Love, Last Rites",10876.0,10876.0,,300000.0,7-Aug-98,R,,Strand,,Drama,,,,6.9,207.0
2,I Married a Strange Person,203134.0,203134.0,,250000.0,28-Aug-98,,,Lionsgate,,Comedy,,,,6.8,865.0
3,Let's Talk About Sex,373615.0,373615.0,,300000.0,11-Sep-98,,,Fine Line,,Comedy,,,13.0,,
4,Slam,1009819.0,1087521.0,,1000000.0,9-Oct-98,R,,Trimark,Original Screenplay,Drama,Contemporary Fiction,,62.0,3.4,165.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3196,Zack and Miri Make a Porno,31452765.0,36851125.0,21240321.0,24000000.0,31-Oct-08,R,101.0,Weinstein Co.,Original Screenplay,Comedy,Contemporary Fiction,Kevin Smith,65.0,7.0,55687.0
3197,Zodiac,33080084.0,83080084.0,20983030.0,85000000.0,2-Mar-07,R,157.0,Paramount Pictures,Based on Book/Short Story,Thriller/Suspense,Dramatization,David Fincher,89.0,,
3198,Zoom,11989328.0,12506188.0,6679409.0,35000000.0,11-Aug-06,PG,,Sony Pictures,Based on Comic/Graphic Novel,Adventure,Super Hero,Peter Hewitt,3.0,3.4,7424.0
3199,The Legend of Zorro,45575336.0,141475336.0,,80000000.0,28-Oct-05,PG,129.0,Sony Pictures,Remake,Adventure,Historical Fiction,Martin Campbell,26.0,5.7,21161.0


Apesar do nome, em alguns casos os valores do CSV não estão separados por vírgula. Se isto acontece, podemos usar o parâmetro `sep` ao executar o `.read_csv()`. Por exemplo, se os valores estiverem separados por `;`, temos: `pd.read_csv("nome_do_arquivo.csv", sep=";")`.

Também é possível escrever um `DataFrame` em um arquivo:

In [76]:
movies_df.to_csv("out.csv")

O Pandas suporta ler e escrever em outros formatos de arquivo, por exemplo, JSON, pickle e xslx.

### Agregação

Podemos computar somas, médias, valores máximos e mínimos, entre outras operações que sumarizam os valores de um dataset. Para calcular a média das colunas, temos:

In [77]:
movies_df.mean()

US Gross                  4.400209e+07
Worldwide Gross           8.534340e+07
US DVD Sales              3.490155e+07
Production Budget         3.106917e+07
Running Time (min)        1.101935e+02
Rotten Tomatoes Rating    5.433692e+01
IMDB Rating               6.283467e+00
IMDB Votes                2.990864e+04
dtype: float64

Para valores máximos e mínimos:

In [79]:
movies_df.min()

US Gross                         0
Worldwide Gross                  0
US DVD Sales                618454
Production Budget              218
Release Date              1-Apr-05
Running Time (min)              46
Rotten Tomatoes Rating           1
IMDB Rating                    1.4
IMDB Votes                      18
dtype: object

In [80]:
movies_df.max()

US Gross                  7.60168e+08
Worldwide Gross           2.76789e+09
US DVD Sales              3.52582e+08
Production Budget               3e+08
Release Date                      TBD
Running Time (min)                222
Rotten Tomatoes Rating            100
IMDB Rating                       9.2
IMDB Votes                     519541
dtype: object

Podemos usar as agregações agrupando os resultados por valores de alguma coluna.

Por exemplo, para calcular a média dos valores para cada distribuidor (coluna "Distributor:"), usamos:

In [85]:
movies_df.groupby("Distributor").mean()

Unnamed: 0_level_0,US Gross,Worldwide Gross,US DVD Sales,Production Budget,Running Time (min),Rotten Tomatoes Rating,IMDB Rating,IMDB Votes
Distributor,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
20th Century Fox,7.344460e+07,1.517022e+08,4.109484e+07,4.196769e+07,107.716814,47.948864,5.972642,33339.014151
3D Entertainment,3.857498e+06,8.626144e+06,,5.500000e+06,,,,
8X Entertainment,6.047691e+06,6.047691e+06,,2.200000e+07,,11.000000,,
Access Motion Picture Group,6.382270e+05,1.075504e+06,,2.000000e+06,,,7.200000,2991.000000
AdLab Films,1.430721e+06,3.243072e+07,,1.000000e+07,,100.000000,6.100000,2735.000000
...,...,...,...,...,...,...,...,...
Wolfe Releasing,0.000000e+00,0.000000e+00,,4.000000e+05,,,5.900000,288.000000
Women Make Movies,3.331200e+04,3.331200e+04,,3.000000e+05,,,6.700000,203.000000
Yari Film Group Releasing,3.986864e+07,8.427618e+07,3.820072e+07,1.650000e+07,110.000000,74.000000,7.700000,92040.000000
Yash Raj Films,1.470325e+06,1.094311e+07,,5.504000e+06,,67.000000,5.800000,2252.800000


Ainda podemos ordenar os valores de acordo com alguma coluna, para isso temos o método `.sort_values()`. Vamos ordenar os filmes de acordo com a sua nota no IMDB (coluna "IMDB Rating") e exibir apenas as colunas "Title" e "IMDB Rating":

In [96]:
movies_df.sort_values(by="IMDB Rating")[["Title", "IMDB Rating"]]

Unnamed: 0,Title,IMDB Rating
1247,Super Babies: Baby Geniuses 2,1.4
406,The Helix... Loaded,1.5
1754,From Justin to Kelly,1.6
1590,Disaster Movie,1.7
1515,Crossover,1.7
...,...,...
3182,Yes,
3188,Y Tu Mama Tambien (And Your Mother Too),
3189,Yu-Gi-Oh,
3192,Zathura,


Para exibir de maior para o menor, usamos o parâmetro `ascending` com valor `False`:

In [97]:
movies_df.sort_values(by="IMDB Rating", ascending=False)[["Title", "IMDB Rating"]]

Unnamed: 0,Title,IMDB Rating
841,The Shawshank Redemption,9.2
369,The Godfather,9.2
2025,Inception,9.1
366,The Godfather: Part II,9.0
675,One Flew Over the Cuckoo's Nest,8.9
...,...,...
3182,Yes,
3188,Y Tu Mama Tambien (And Your Mother Too),
3189,Yu-Gi-Oh,
3192,Zathura,
