In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

# 1. Series

In [5]:
notas = pd.Series([2,7,5,10,6])
notas

### 1.1. Métodos (values e index)

In [10]:
notas.index

In [11]:
notas.values

### 1.2. Series com índices

In [13]:
notas = pd.Series([2,7,5,10,6], index=["Wilfred", "Abbie", "Harry", "Julia", "Carrie"])
notas

#### 1.2.1. Rótulo

In [14]:
notas["Wilfred"]

### 1.3. Estatísticas (mean, std, describe)

In [16]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())
print("Estatísticas")
print(notas.describe())

### 1.4. Funções matemáticas

In [23]:
print(notas**2)

#### 1.4.1. NumPy: 

NumPy is the fundamental package for scientific computing with Python. 

In [24]:
print(np.log(notas))

# 2. DataFrame

In [26]:
 df = pd.DataFrame(
     {'Aluno' : ["Wilfred", "Abbie", "Harry", "Julia", "Carrie"],
      'Faltas' : [3,4,2,1,4],
      'Prova' : [2,7,5,10,6],
      'Seminário': [8.5,7.5,9.0,7.5,8.0]
     })
df

### 2.1. Tipos de dados

In [27]:
df.dtypes

### 2.2. Colunas

In [28]:
df.columns

In [29]:
df["Seminário"]

### 2.3. Estatística

_OBS: dados numéricos ou categóricos_

In [30]:
df.describe()

### 2.4. Sort

In [31]:
df.sort_values(by="Seminário")

_Não altera o df original_

In [32]:
df

### 2.5. Selecionar valores

In [33]:
df.loc[3]

### 2.6. Boolean Indexing

In [35]:
df[df["Seminário"] > 8.0]

### 2.7. Operadores bitwise

In [36]:
df[(df["Seminário"] > 8.0) & (df["Prova"] > 3)]

# 3. Leitura de Dados

In [39]:
df = pd.read_csv("data/master.csv")
df

### 3.1. Head e Tail

In [46]:
df.head(n=10)

In [45]:
df.tail()

### 3.2. Unique

In [48]:
df["country"].unique()

### 3.3. Values Count

In [51]:
df["sex"].value_counts()

#### 3.3.1 Normalize

In [53]:
df["country"].value_counts(normalize=True)

### 3.4. Group By

In [54]:
df.groupby("country").mean()

#### 3.4.1 Dados de uma coluna

In [55]:
df.groupby("country").mean()["suicides_no"].sort_values()

### 3.5. Function 

In [56]:
def truncar(sexo):
    return sexo[:1]

In [57]:
df["sex"].apply(truncar)

#### 3.5.1. Lambda

In [59]:
df["sex"].apply(lambda x: x[:1])

### 3.6. Not a Number

_Not a Number (NaN) é um valor especial definido no Numpy_

#### 3.6.1. Remoção

In [66]:
df

In [68]:
df.dropna()

#### 3.6.2. Preenchimento

In [69]:
df.fillna(0.)

#### 3.6.3. True or False

In [70]:
df.isna()

# 4. Visualização de Dados

### 4.1. Histograma

Frequência do índice de desenvolvimento humano

In [73]:
df["HDI for year"].plot.hist(bins=30, edgecolor='black')

### 4.2. Barras

In [81]:
df["country"].head(n=2000).value_counts().plot.bar()

In [82]:
df["country"].head(n=2000).value_counts().plot.barh()

### 4.2. Dispersão

In [87]:
df.plot.scatter(x='suicides/100k pop', y='HDI for year')

# 5. Salvando 