## Pandas

Pandas é uma das bibliotecas mais utilizadas no mundo de Data Science. Sua aceitação se dá pelo fato de trabalhar com dados tabulares (tabelas, planilhas, etc) e permitir que você processe, visualize, limpe, entre outras operações, essas tabelas (tudo isso usando Python!).
No pandas, chamamos uma tabela de **DataFrame**.

![](imgs/img1.JPG)

Além disso, outro fator importante é quantidade de diferentes fontes de dados que ele permite que você leia e escreva, sendo possível ler, processar e salvar rapidamente.

![](imgs/img2.JPG)

**Como instalar**

- ```bash
conda install pandas
```

Ou

- ```bash
pip install pandas
```


**Documentação**

- https://pandas.pydata.org/
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [1]:
import pandas as pd
import numpy as np

## Series e DataFrames

### Series

Cada coluna em um DataFrame é uma Series.

Quais estruturas seriam semelhantes a uma coluna?

- Lista
- Numpy array

Mas como criar uma Series?

In [5]:
lista = [1,2,3,4,5]

array_numpy = np.array(lista)

lista, array_numpy

([1, 2, 3, 4, 5], array([1, 2, 3, 4, 5]))

In [7]:
pd.Series(data=lista, dtype=float)

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
dtype: float64

In [11]:
minha_series = pd.Series(data=array_numpy)
minha_series

0    1
1    2
2    3
3    4
4    5
dtype: int32

In [13]:
minha_series.index, minha_series.values

(RangeIndex(start=0, stop=5, step=1), array([1, 2, 3, 4, 5]))

In [20]:
meus_indices = ['primeiro', 'segundo', 'terceiro', 'quarto', 'quinto']
minha_series = pd.Series(index=meus_indices, data=array_numpy)
minha_series

primeiro    1
segundo     2
terceiro    3
quarto      4
quinto      5
dtype: int32

In [15]:
minha_series.index, minha_series.values

(Index(['primeiro', 'segundo', 'terceiro', 'quarto', 'quinto'], dtype='object'),
 array([1, 2, 3, 4, 5]))

### Indexing

In [21]:
minha_series

primeiro    1
segundo     2
terceiro    3
quarto      4
quinto      5
dtype: int32

0 primeiro 1
1 segundo  2
2 terceiro 3
3 quarto   4
4 quinto   5

In [26]:
minha_series[2]

3

- loc: você passa o índice definido -> Inclusivo ([primeiro:segundo] eu retorno ambos)
- iloc: você passa o índice numérico -> Exclusivo ([0:2] eu retorno apenas 0, 1)

In [29]:
minha_series.loc["primeiro":"quarto"]

primeiro    1
segundo     2
terceiro    3
quarto      4
dtype: int32

In [33]:
minha_series.iloc[0:4]

primeiro    1
segundo     2
terceiro    3
quarto      4
dtype: int32

In [34]:
minha_series = pd.Series(data=lista)
minha_series

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [35]:
minha_series.loc[0:4]

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [36]:
minha_series.iloc[0:4]

0    1
1    2
2    3
3    4
dtype: int64

### Operações com Series

In [39]:
minha_series

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [40]:
minha_series * 3

0     3
1     6
2     9
3    12
4    15
dtype: int64

In [42]:
minha_series.to_list()

[1, 2, 3, 4, 5]

In [43]:
minha_series + minha_series

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [44]:
minha_series.sum()

15

In [45]:
minha_series.mean()

3.0

In [46]:
minha_series.max()

5

In [47]:
minha_series.std()

1.5811388300841898

In [50]:
minha_series < 4

0     True
1     True
2     True
3    False
4    False
dtype: bool

In [49]:
minha_series[minha_series < 4]

0    1
1    2
2    3
dtype: int64

### Operações entre Series

In [51]:
minha_series + minha_series

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [52]:
minha_series_nova = pd.Series([1,3,3,4,6])
minha_series_nova

0    1
1    3
2    3
3    4
4    6
dtype: int64

In [53]:
minha_series == minha_series_nova

0     True
1    False
2     True
3     True
4    False
dtype: bool

In [54]:
minha_series * minha_series_nova

0     1
1     6
2     9
3    16
4    30
dtype: int64

### Dataframes

É um conjunto de Series. Pode ser entendido como uma tabela.

In [61]:
df = pd.DataFrame()
df['coluna1'] = [1,2,3,4,5]
df['coluna2'] = [1,2,3,4,5]
df['coluna3'] = [1,2,3,4,5]
df['coluna4'] = df['coluna1'] + df['coluna2']
df

Unnamed: 0,coluna1,coluna2,coluna3,coluna4
0,1,1,1,2
1,2,2,2,4
2,3,3,3,6
3,4,4,4,8
4,5,5,5,10


In [64]:
type(df)

pandas.core.frame.DataFrame

In [63]:
type(df['coluna1'])

pandas.core.series.Series

In [65]:
df.columns

Index(['coluna1', 'coluna2', 'coluna3', 'coluna4'], dtype='object')

In [66]:
meu_dicionario = {
    "coluna1": [1,2,3,4,5],
    "coluna2": [1,2,3,4,5],
    "coluna3": [1,2,3,4,5]
}
meu_dicionario

{'coluna1': [1, 2, 3, 4, 5],
 'coluna2': [1, 2, 3, 4, 5],
 'coluna3': [1, 2, 3, 4, 5]}

In [68]:
df = pd.DataFrame(meu_dicionario)
df

Unnamed: 0,coluna1,coluna2,coluna3
0,1,1,1
1,2,2,2
2,3,3,3
3,4,4,4
4,5,5,5


In [69]:
minha_lista = [[1,1,1],
               [2,2,2],
               [3,3,3],
               [4,4,4],
               [5,5,5]]
minha_lista

[[1, 1, 1], [2, 2, 2], [3, 3, 3], [4, 4, 4], [5, 5, 5]]

In [72]:
df = pd.DataFrame(minha_lista, columns=['coluna1', 'coluna2', 'coluna3'])
df

Unnamed: 0,coluna1,coluna2,coluna3
0,1,1,1
1,2,2,2
2,3,3,3
3,4,4,4
4,5,5,5


### Acessando DataFrames

- loc
- iloc

In [103]:
meus_indices = ['b', 'a', 'c', 'd', 'e']
df = pd.DataFrame(minha_lista, columns=['coluna1', 'coluna2', 'coluna3'], index=meus_indices)
df

Unnamed: 0,coluna1,coluna2,coluna3
b,1,1,1
a,2,2,2
c,3,3,3
d,4,4,4
e,5,5,5


In [109]:
df.loc[['b','d'], ['coluna1','coluna3']]

Unnamed: 0,coluna1,coluna3
b,1,1
d,4,4


In [97]:
df.columns

Index(['coluna1', 'coluna2', 'coluna3'], dtype='object')

In [112]:
df.iloc[:, 0]

b    1
a    2
c    3
d    4
e    5
Name: coluna1, dtype: int64

### Filtros

In [117]:
minha_lista = [[1,5,7],
               [2,10,100],
               [3,12,200],
               [4,15,1000],
               [5,20,4000]]
minha_lista

[[1, 5, 7], [2, 10, 100], [3, 12, 200], [4, 15, 1000], [5, 20, 4000]]

In [118]:
meus_indices = ['b', 'a', 'c', 'd', 'e']
df = pd.DataFrame(minha_lista, columns=['coluna1', 'coluna2', 'coluna3'], index=meus_indices)
df

Unnamed: 0,coluna1,coluna2,coluna3
b,1,5,7
a,2,10,100
c,3,12,200
d,4,15,1000
e,5,20,4000


In [119]:
df['coluna1'] > 2

b    False
a    False
c     True
d     True
e     True
Name: coluna1, dtype: bool

In [120]:
df[df['coluna1'] > 2]

Unnamed: 0,coluna1,coluna2,coluna3
c,3,12,200
d,4,15,1000
e,5,20,4000


and -> &

or -> |

not -> ~

In [122]:
filtro = (df['coluna1'] > 2) & (df['coluna2'] > 12)

In [127]:
df[filtro]

Unnamed: 0,coluna1,coluna2,coluna3
d,4,15,1000
e,5,20,4000


In [126]:
df

Unnamed: 0,coluna1,coluna2,coluna3
b,1,5,7
a,2,10,100
c,3,12,200
d,4,15,1000
e,5,20,4000


In [125]:
df[[False, True, False, True, True]]

Unnamed: 0,coluna1,coluna2,coluna3
a,2,10,100
d,4,15,1000
e,5,20,4000


### Operações com DataFrame

In [128]:
df

Unnamed: 0,coluna1,coluna2,coluna3
b,1,5,7
a,2,10,100
c,3,12,200
d,4,15,1000
e,5,20,4000


In [129]:
df * 3

Unnamed: 0,coluna1,coluna2,coluna3
b,3,15,21
a,6,30,300
c,9,36,600
d,12,45,3000
e,15,60,12000


In [130]:
df['coluna4'] = df['coluna1'] + 2

In [131]:
df

Unnamed: 0,coluna1,coluna2,coluna3,coluna4
b,1,5,7,3
a,2,10,100,4
c,3,12,200,5
d,4,15,1000,6
e,5,20,4000,7


## Lendo dados

Vamos aprender aqui o ```read_csv``` e o ```read_excel```. Claro que existem outros, mas escolhemos esses por ser os mais utilizados (o uso entre eles é bem parecido).

![](imgs/img2.JPG)

### read_csv

In [137]:
df = pd.read_csv('titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [138]:
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [139]:
df.shape

(891, 12)

Também temos alguns argumentos que podem nos ajudar em alguns casos:
* sep: separador do arquivo CSV;
* usecols: as colunas que você quer ler do CSV;
* nrows: a quantidade de linhas que você quer ler;
* skiprows: as linhas que você não quer ler ao carregar o arquivo;
* encoding: corrige formatacoes de diferente linguas
* dentre outros...

In [147]:
pd.read_csv('titanic.csv', sep=',',
            usecols=['PassengerId', 'Survived'],
            encoding='utf-8',
            nrows=10,
            skiprows=[1,2], decimal=',')

Unnamed: 0,PassengerId,Survived
0,3,1
1,4,1
2,5,0
3,6,0
4,7,0
5,8,0
6,9,1
7,10,1
8,11,1
9,12,1


In [146]:
df.shape

(891, 12)

In [154]:
df_ = pd.read_csv('titanic.csv', chunksize=200)

In [150]:
for df in df_:
    print(df['PassengerId'].max())

200
400
600
800
891


In [162]:
df_ = pd.read_csv('titanic.csv', chunksize=200)

In [163]:
age_total = 0
passenger = 0
for df in df_:
    age_total += df['Age'].sum()
    passenger += df['Age'].count()

In [168]:
passenger

714

In [166]:
age_total / passenger

29.69911764705882

In [158]:
df = pd.read_csv('titanic.csv')
df['Age'].mean()

29.69911764705882

In [167]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
800,801,0,2,"Ponesell, Mr. Martin",male,34.00,0,0,250647,13.0000,,S
801,802,1,2,"Collyer, Mrs. Harvey (Charlotte Annie Tate)",female,31.00,1,1,C.A. 31921,26.2500,,S
802,803,1,1,"Carter, Master. William Thornton II",male,11.00,1,2,113760,120.0000,B96 B98,S
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
804,805,1,3,"Hedman, Mr. Oskar Arvid",male,27.00,0,0,347089,6.9750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.00,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.00,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.00,0,0,111369,30.0000,C148,C


### read_excel

sheet_name é um parâmetro importante para selecionar uma planilha (aba) específica

In [172]:
df = pd.read_excel('titanic.xlsx')
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,725,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,712833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,531,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,805,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,2345,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30,C148,C


## Salvando DataFrames

In [176]:
df.to_csv('titanic_exported.csv', index=None)

In [177]:
df.to_excel('titanic_exported.xlsx', index=None)