## Pandas

Pandas é uma das bibliotecas mais utilizadas no mundo de Data Science. Sua aceitação se dá pelo fato de trabalhar com dados tabulares (tabelas, planilhas, etc) e permitir que você processe, visualize, limpe, entre outras operações, essas tabelas (tudo isso usando Python!).
No pandas, chamamos uma tabela de **DataFrame**.

![](imgs/img1.JPG)

Além disso, outro fator importante é quantidade de diferentes fontes de dados que ele permite que você leia e escreva, sendo possível ler, processar e salvar rapidamente.

![](imgs/img2.JPG)

**Como instalar**

- ```bash
conda install pandas
```

Ou

- ```bash
pip install pandas
```


**Documentação**

- https://pandas.pydata.org/
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [3]:
import pandas as pd
import numpy as np

## Series e DataFrames

### Series

Cada coluna em um DataFrame é uma Series.

Quais estruturas seriam semelhantes a uma coluna?

- Lista
- Numpy array

Mas como criar uma Series?

In [5]:
lista = [1, 2, 3, 4, 5]

array_numpy = np.array(lista)

lista, array_numpy

([1, 2, 3, 4, 5], array([1, 2, 3, 4, 5]))

In [9]:
pd.Series(data=lista)

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [10]:
# Podemos usar o dtype para especificar o tipo
pd.Series(data=lista, dtype=float)

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

Mas o que são esses números que apareceram no lado esquerdo? São o índice!

Toda Series, caso você não passe o índice, gera um automaticamente.

In [13]:
minha_series = pd.Series(data=lista)
minha_series.index

RangeIndex(start=0, stop=5, step=1)

In [31]:
# Caso você queira especificar um índice
minha_series = pd.Series(data=lista, index=['primeira', 'segunda', 'terceira', 'quarta', 'quinta'])
minha_series

primeira    1
segunda     2
terceira    3
quarta      4
quinta      5
dtype: int64

Para indexar uma Series (pegar uma linha) temos duas opções que são as mais recomendadas:

- loc: Pega pelo índice nominal (o que você passa) --> Inclusivo
- iloc: Pega pelo índice numérico --> Exclusivo

In [38]:
minha_series.loc["primeira": "segunda"]

primeira    1
segunda     2
dtype: int64

In [39]:
minha_series.iloc[0:1]

primeira    1
dtype: int64

### Operações com Series

In [43]:
minha_series = pd.Series(data=lista)

In [44]:
# Voltar para lista
minha_series.tolist()

[1, 2, 3, 4, 5]

In [45]:
# soma todos os valores da Series
minha_series.sum()

15

In [46]:
# quantidade de linhas 
minha_series.count()

5

In [47]:
# média da Series
minha_series.mean()

3.0

In [48]:
# desvio padrão da Series
minha_series.std()

1.5811388300841898

In [42]:
# desvio padrão da Series
minha_series.unique()

array([1, 2, 3, 4, 5], dtype=int64)

In [51]:
# Podemos fazer filtros
minha_series[minha_series < 4]

0    1
1    2
2    3
dtype: int64

### Operações entre Series

In [52]:
minha_series_2 = pd.Series(data=[elemento**2 for elemento in lista])
minha_series_2

0     1
1     4
2     9
3    16
4    25
dtype: int64

In [53]:
minha_series + minha_series_2

0     2
1     6
2    12
3    20
4    30
dtype: int64

In [54]:
minha_series * 2

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [55]:
minha_series - minha_series_2

0     0
1    -2
2    -6
3   -12
4   -20
dtype: int64

In [56]:
# Podemos gerar um nova Series
minha_series_3 = minha_series * minha_series_2
minha_series_3

0      1
1      8
2     27
3     64
4    125
dtype: int64

### Dataframes

É um conjunto de Series. Pode ser entendido como uma tabela.

In [57]:
df = pd.DataFrame()

# ao invés de Series, podemos atribuir uma lista para a coluna
df['coluna1'] = [1, 2, 3, 4, 5]
df['coluna2'] = minha_series_2
df['coluna 3'] = minha_series_3
df

Unnamed: 0,coluna1,coluna2,coluna 3
0,1,1,1
1,2,4,8
2,3,9,27
3,4,16,64
4,5,25,125


In [58]:
dicionario = {
    'coluna1': [1, 2, 3, 4, 5],
    'coluna2': [1, 4, 9, 16, 25],
    'coluna 3': [1, 8, 27, 64, 125]
}
df = pd.DataFrame(dicionario)
df

Unnamed: 0,coluna1,coluna2,coluna 3
0,1,1,1
1,2,4,8
2,3,9,27
3,4,16,64
4,5,25,125


In [59]:
lista = [[1, 2, 3, 4, 5], [1, 4, 9, 16, 25], [1, 8, 27, 64, 125]]
df = pd.DataFrame(lista, )
df

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,5
1,1,4,9,16,25
2,1,8,27,64,125


### Acessando DataFrames

- loc
- iloc

In [79]:
dicionario = {
    'coluna1': [1, 2, 3, 4, 5],
    'coluna2': [1, 4, 9, 16, 25],
    'coluna 3': [1, 8, 27, 64, 125]
}
df = pd.DataFrame(dicionario)
df

Unnamed: 0,coluna1,coluna2,coluna 3
0,1,1,1
1,2,4,8
2,3,9,27
3,4,16,64
4,5,25,125


In [81]:
df.loc[0]

coluna1     1
coluna2     1
coluna 3    1
Name: 0, dtype: int64

In [82]:
df.loc[0, 'coluna1']

1

In [83]:
df.loc[0:1, ['coluna1', 'coluna 3']]

Unnamed: 0,coluna1,coluna 3
0,1,1
1,2,8


In [84]:
df.iloc[0]

coluna1     1
coluna2     1
coluna 3    1
Name: 0, dtype: int64

In [88]:
# Tudo deve ser índice
df.iloc[0:2, :]

Unnamed: 0,coluna1,coluna2,coluna 3
0,1,1,1
1,2,4,8


### Filtros

In [92]:
df['coluna1'] < 3

0     True
1     True
2    False
3    False
4    False
Name: coluna1, dtype: bool

In [93]:
df[df['coluna1'] < 3]

Unnamed: 0,coluna1,coluna2,coluna 3,coluna4
0,1,1,1,2
1,2,4,8,6


### Operações com DataFrame

In [89]:
df * 3

Unnamed: 0,coluna1,coluna2,coluna 3
0,3,3,3
1,6,12,24
2,9,27,81
3,12,48,192
4,15,75,375


In [90]:
df['coluna4'] = df['coluna1'] + df['coluna2']

In [91]:
df

Unnamed: 0,coluna1,coluna2,coluna 3,coluna4
0,1,1,1,2
1,2,4,8,6
2,3,9,27,12
3,4,16,64,20
4,5,25,125,30


## Lendo dados

Vamos aprender aqui o ```read_csv``` e o ```read_excel```. Claro que existem outros, mas escolhemos esses por ser os mais utilizados (o uso entre eles é bem parecido).

![](imgs/img2.JPG)

### read_csv

In [74]:
df = pd.read_csv('./titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [75]:
df.shape

(891, 12)

Também temos alguns argumentos que podem nos ajudar em alguns casos:
* sep: separador do arquivo CSV;
* usecols: as colunas que você quer ler do CSV;
* nrows: a quantidade de linhas que você quer ler;
* skiprows: as linhas que você não quer ler ao carregar o arquivo;
* dentre outros...

In [73]:
usecols = ['PassengerId', 'Survived', 'Pclass']
df = pd.read_csv('./titanic.csv', sep=',', usecols=usecols, nrows=2, skiprows=[1, 2])
df.head()

Unnamed: 0,PassengerId,Survived,Pclass
0,3,1,3
1,4,1,1


Também podemos ler CSV's em chunks. Onde você carrega uma quantidade n de linhas por vez e processa, com o objetivo de economizar recursos ou viabilizar a execução pela falta de recursos.

In [71]:
# onde o chunksize é a quantidade de linhas lidas por vez
df_ = pd.read_csv('./titanic.csv', chunksize=200)
for df in df_:
    # processamento: aqui poderia ser a chamada de uma função ou qualquer outro processamento
    value_counts = df['Survived'].value_counts(normalize=True)
    print(f'valuecounts: \n{value_counts} \n')

valuecounts: 
0    0.655
1    0.345
Name: Survived, dtype: float64 

valuecounts: 
0    0.56
1    0.44
Name: Survived, dtype: float64 

valuecounts: 
0    0.605
1    0.395
Name: Survived, dtype: float64 

valuecounts: 
0    0.64
1    0.36
Name: Survived, dtype: float64 

valuecounts: 
0    0.626374
1    0.373626
Name: Survived, dtype: float64 



### read_excel

In [77]:
df = pd.read_excel('./titanic.xlsx')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S


In [78]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,2345,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,775,,Q


## Salvando DataFrames

In [None]:
# é importante o index ser None para não salvá-lo no arquivo
df.to_excel('./titanic_saved.xlsx', index=None)
# ou
df.to_csv('./titanic_saved.csv', index=None, sep=',')