# 1. Coleta de dados

### Bibliotecas

In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split

#### 1.1 Lendo arquivos

In [6]:
# Leitura do arquivo na propria pasta (to_excel... em video)
df_completo= pd.read_csv("iris.csv")


In [14]:
'''Usando train test split só para separarmos em 2 tabelas
vamos precisar mais a frente'''
X = df_completo
y = df_completo['class']

train, test, y_train, y_test = train_test_split(X, y)

#### 1.2 Salvando tabelas

In [20]:
# detalhes como sep e encoding na aula em vídeo
train.to_csv('treino.csv', index = False)
test.to_csv('teste.csv', index = False)

In [37]:
# lendo para continuar a aula

df_teste = pd.read_csv('teste.csv')


#### 1.3 Leitura seletiva

In [82]:
# lendo uma quantidade de colunas e linhas definida
pd.set_option('display.max_columns', 15)
df_treino = pd.read_csv("treino.csv")
df_treino.head(2)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,6.0,2.9,4.5,1.5,Iris-versicolor
1,5.2,2.7,3.9,1.4,Iris-versicolor


In [40]:
# lendo colunas específicas (economiza memória)
df_col = pd.read_csv('treino.csv', usecols=['class', 'petalwidth'])
df_col

Unnamed: 0,petalwidth,class
0,1.5,Iris-versicolor
1,1.4,Iris-versicolor
2,1.9,Iris-virginica
3,1.6,Iris-virginica
4,1.6,Iris-versicolor
...,...,...
107,2.3,Iris-virginica
108,0.1,Iris-setosa
109,0.4,Iris-setosa
110,1.5,Iris-versicolor


#### 1.4 Lendo nome de vários arquivos de uma vez em uma pasta

In [42]:
# usaremos uma biblioteca especial GLOB
from glob import glob
# agora podemosimportar todos os.csv de uma pasta de uma vez
arquivos = sorted(glob('*.csv'))
arquivos

['iris.csv', 'teste.csv', 'treino.csv']

In [80]:
# agora podemos ler e concatena-los por linha
pd.concat((pd.read_csv(arquivo) for arquivo in arquivos), ignore_index=True)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
295,7.7,3.0,6.1,2.3,Iris-virginica
296,5.2,4.1,1.5,0.1,Iris-setosa
297,5.4,3.9,1.7,0.4,Iris-setosa
298,5.9,3.0,4.2,1.5,Iris-versicolor


In [83]:
# agora podemos ler e concatena-los por colunas
pd.concat((pd.read_csv(arquivo) for arquivo in arquivos), axis='columns')

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class,sepallength.1,sepalwidth.1,petallength.1,petalwidth.1,class.1,sepallength.2,sepalwidth.2,petallength.2,petalwidth.2,class.2
0,5.1,3.5,1.4,0.2,Iris-setosa,6.1,2.9,4.7,1.4,Iris-versicolor,6.0,2.9,4.5,1.5,Iris-versicolor
1,4.9,3.0,1.4,0.2,Iris-setosa,4.6,3.1,1.5,0.2,Iris-setosa,5.2,2.7,3.9,1.4,Iris-versicolor
2,4.7,3.2,1.3,0.2,Iris-setosa,4.8,3.0,1.4,0.3,Iris-setosa,5.8,2.7,5.1,1.9,Iris-virginica
3,4.6,3.1,1.5,0.2,Iris-setosa,4.8,3.1,1.6,0.2,Iris-setosa,7.2,3.0,5.8,1.6,Iris-virginica
4,5.0,3.6,1.4,0.2,Iris-setosa,4.9,3.0,1.4,0.2,Iris-setosa,6.3,3.3,4.7,1.6,Iris-versicolor
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,,,,,,,,,,
146,6.3,2.5,5.0,1.9,Iris-virginica,,,,,,,,,,
147,6.5,3.0,5.2,2.0,Iris-virginica,,,,,,,,,,
148,6.2,3.4,5.4,2.3,Iris-virginica,,,,,,,,,,


# 2. Trabalhando com Colunas

In [87]:
# visualizar
df_completo.head(2)

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa


#### 2.1 Renomeando

In [91]:
# basta criar um dicionario com as col e valores a modificar e usar rename
novas_col = {'sepallength': 's_lar', 'sepalwidth': 's_alt'}
df_col_modf = df_completo.rename(novas_col, axis=1)
df_col_modf.head(2)

Unnamed: 0,s_lar,s_alt,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa


#### 2.2 Replace nas colunas

In [119]:
# Usando replace nas colunas (substituir caracteres)

df_col_modf.columns = df_col_modf.columns.str.replace('_', '-')
df_col_modf.head(2)

Unnamed: 0,s-lar,s-alt,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa


#### 2.3 Adicionando prefixo e sufixo

In [124]:
df_completo.add_prefix('1_').head(2)
#df_completo.add_suffix('_2')
# não atribui para naomodificar a tabela original

Unnamed: 0,1_sepallength,1_sepalwidth,1_petallength,1_petalwidth,1_class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
