# Lendo e mostrando informações do arquivo

In [None]:
import pandas as pd

df = pd.read_csv("titanic.csv")
# read_excel

df.head()
# df.head(6)

## Últimas linhas

In [None]:
df.tail()

## Informações do arquivo: nome da coluna, número de linhas por coluna, tipo de dados e quantidade de memória

In [None]:
df.info()

# Indexação do DataFrame

In [None]:
df.index

In [None]:
df.head(7)

## Definindo uma coluna como índice

In [None]:
df.set_index('PassengerId', inplace=True)
df.head(7)


### ‘PassegerId’ não é mais uma coluna, passou a ser o índice do nosso Dataframe.

In [None]:
df.info()

In [None]:
df.reset_index(inplace=True)
df.index

# Verificando as colunas e seus respectivos valores

In [None]:
df.columns

## retorna um array numpy com os valores do DataFrame

In [None]:
df.values

# Consultando dados com o loc

## loc: seleciona um subconjunto de linhas e colunas de um DataFrame usando a indexação baseada em um rótulo

### retorna todas informações do passageiro cujo index é 1

In [None]:
df.loc[1]

### retorne as mesmas informações para vários passageiros

In [None]:
# recebe uma lista
df.loc[[1,3,5]]

### seleciona vários índices e colunas de uma vez só

In [None]:
df.loc[[1,2], ['Name','Sex','Age']]

### slice (fatiamento) >> df.loc[start : stop]

In [None]:
df.loc[5:10]

### df.loc[start : stop : step]

In [None]:
df.loc[5:10:2]

### Passageiros com index 5 até o último

In [None]:
df.loc[5:]

### Sliece de linhas e colunas

In [None]:
df.loc[3:10, ['Name','Age','Sex']]

# Consultando dados com o query

* semelhante as queries do SQL
* operadores lógicos AND(&) e OR( | )
* expressões lógicas (==, != , >, <, >= e <=)

In [None]:
df.query('Age > 20').head(6)

In [None]:
df.query('Age > 20 & Sex=="male"').head(10)

In [None]:
df.query('Age > 20 | Sex=="male"').head(10)

### Comando in: 5 primeiras linhas onde o valor da coluna Embarked é igual a C ou Q. DataFrame original será substituído pelo novo DataFrame com a condição que foi passada.

In [None]:
df.query('Embarked in ["C","Q"]', inplace=True)
df.head()

In [None]:
df.info()

In [None]:
df = pd.read_csv("titanic.csv")
df.info()

## Filtrando os dados do tipo object e float

In [None]:
df.select_dtypes(include=['object'])

In [None]:
df.select_dtypes(include=['float'])

# Agregação de Dados

## Divide os dados em grupos diferentes. Ex.: soma, contagem, média.

In [None]:
df.groupby(by='Sex').size()

## Média das idades por sexo

In [None]:
df_sexo = df.groupby(by='Sex')
df_sexo.first()

In [None]:
df.groupby(by='Sex')['Age'].mean()

## Para trabalhar com os dados use o index e os values

In [None]:
df_sexo = df.groupby(by='Sex')['Age'].mean()
df_sexo.index.values.tolist()

In [None]:
df_sexo.values.tolist()

## Média de idade e a quantidade de passageiros que sobreviveram e que não sobreviveram por sexo

In [None]:
import numpy as np
df.groupby(['Sex','Survived']).agg({'Age': np.mean, 'PassengerId': np.size})

# Data Cleaning e Pré-processamento de dados

In [None]:
df.head()

## Gerando amostras aleatórias dos dados

In [None]:
# 50 amostras aleatórias
df.sample(n=50).head()

In [None]:
# 15% de dados aleatórios
df.sample(frac=.15).head()

## Tratando Missing Values

In [None]:
df.head()

In [None]:
df.isnull().sum()

## Métodos de preenchimento de valores faltantes.

* df.fillna(0)
* df.fillna(df.Age.mean())
* df.fillna(method='ffill') # forward fill
* df.fillna(method='bfill') # backward fill
* values = {'A': 0, 'B': 1, 'C': 2, 'D': 3} -> df.fillna(value=values)


### Preencher os valores faltantes da coluna ‘Age’ e da coluna ‘Embarked’ com a moda. Para coluna ‘Cabin’, substituir todos os valores faltantes pela sigla SC (Sem Cabine).

In [None]:
values = {'Age': df.Age.mode()[0], 'Cabin': 'SC', 'Embarked': df.Embarked.mode()[0]}
print(values)

In [None]:
# Atribuido os novos valores
df.fillna(value=values, inplace=True)

In [None]:
df.isnull().sum()

In [None]:
teste = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
teste

In [None]:
# forward fill
teste.fillna(method='ffill')

In [None]:
# backward fill
teste.fillna(method='bfill')

# Manipulando strings

* rstrip() remove espaços à direita
* lstrip() remove espaços à esquerda
* lower() transforma o texto em minúsculo
* upper() transforma o texto em maiúsculo

In [None]:
df.Name.str.rstrip().head()

In [None]:
df.Name.str.upper().head()

### Cleaning textos

In [None]:
# Remove todos esses parênteses na coluna 'Name'
def remove_parenteses(item):
  if '(' in item:
    return item.replace('(','').replace(')','')
  else:
    return item

df.Name.head(10).apply(remove_parenteses)

# Trabalhando com grandes bases de dados

**Dica**: Se estiver no linux use o comando head para ler as 5 primeiras linhas do arquivo:

head -n 5 dataset.csv


In [None]:
! head -n 5 titanic.csv

## Tente trabalhar apenas com as colunas que você vai realmente precisar.

In [None]:
df = pd.read_csv("titanic.csv", usecols=['PassengerId','Survived','Name','Sex'])
# df = pd.read_csv("titanic.csv", usecols=[0,1,3,4])
df.head()

### Leia todas as colunas exceto algumas

In [None]:
df = pd.read_csv("titanic.csv", usecols = lambda column : column not in ["Parch" , "Ticket", "Fare","Cabin"])
df.head()

## Atente para o tipo de dado de cada coluna.

### Tipos de variáveis
* numéricas
    * contínuas (float)
    * discretas (valores inteiros)
* categóricas
    * nominais (ex: cor dos olhos)
    * ordinais (ex: P,M e G).

In [None]:
df = pd.read_csv("titanic.csv")
df.info()

#### A coluna ‘Sex’ foi classificada como object, mas ela pode ser convertida para ‘category’, pois o sexo na verdade é uma característica. Com essas conversões conseguimos diminuir o consumo de memória.


In [None]:
# Convertendo os tipos de dados
df.Sex = df.Sex.astype('category')
df.Embarked = df.Embarked.astype('category')
df.Survived = df.Survived.astype('category')
df.Pclass = df.Pclass.astype('category')
df.PassengerId = df.PassengerId.astype('int32')
df.Parch = df.Parch.astype('int32')
df.SibSp = df.SibSp.astype('int32')

df.info()

## Use chunksize para dividir o processamento por quantidade de linhas.

In [None]:
for d in pd.read_csv("titanic.csv", chunksize=200):
    print("Chunk >>>")
#     print(d.count())
    print(d.head())