<a href="https://colab.research.google.com/github/tvaditya/estatistica/blob/main/%5BIntroStats%5D1_CarregandoDados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Formas de carregar dados com Python

O Python possui algumas formas de carregar dados vindos de arquivos entre eles:
  - np.loadtxt
  - np.genfromtxt
  - pd.read_csv ( entre outros do pandas)
  - pickle 

Cada um deles com suas peculiaridades.

In [1]:
from IPython.display import HTML,IFrame

Abaixo um vídeo com outras formas.

In [2]:
# Descomente a linha abaixo para ver mais sobre formas de carregar arquivos com Python
HTML('<iframe width="560" height="315" src="https://www.youtube.com/watch?v=9xcY6YDu-Ks" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

In [5]:
# importando as bibliotecas necessárias

import numpy as np
import pandas as pd
import pickle

Apenas por curiosodade vamos olhar como fazer para carrgar um arquivo .csv na mão ( torna-se desnecessário devido as funçoes existentes implementadas mas é bom saber). 

In [7]:
cols = None
data = []
with open('/content/load.csv') as f:
    for line in f.readlines():
        vals = line.replace("\n", "").split(",")
        if cols is None:
            cols = vals
        else:
            data.append([float(x) for x in vals])
df = pd.DataFrame(data, columns=cols)
print(f"Os tipos dos parâmetros \n:{df.dtypes} \n \n O dataset:")
df.head()

Os tipos dos parâmetros 
:A    float64
B    float64
C    float64
D    float64
E    float64
dtype: object 
 
 O dataset:


Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528.0
1,1.002,21.95,61.697,204.484,514.0
2,1.114,22.454,63.522,205.608,514.0
3,1.133,22.494,61.59,206.565,501.0
4,0.845,21.654,63.729,201.289,532.0


Mas como já falamos existem maneiras mais práticas e mais fáceis que carregar o arquivo "manualmente", aliás formas mais inteligente, vamos para eles.

O primeiro deles o loadtxt do numpy.

In [8]:
arr = np.loadtxt('/content/load.csv', skiprows=1, delimiter=",")
print(arr.dtype)
print(arr[:5, :])
type(arr)

float64
[[  1.276  21.4    63.957 216.204 528.   ]
 [  1.002  21.95   61.697 204.484 514.   ]
 [  1.114  22.454  63.522 205.608 514.   ]
 [  1.133  22.494  61.59  206.565 501.   ]
 [  0.845  21.654  63.729 201.289 532.   ]]


numpy.ndarray

Vemos que ainda assim é um pouco complicado de mexer.

In [9]:
arr = np.loadtxt('/content/load.csv', delimiter=",")
print(arr.dtype)
print(arr[:5, :])
type(arr)

ValueError: ignored

Ele é ótimo quando se quer salvar arrays no formato numpy, mas estes casos são raros. Praticamente não permite nenhuma formatação. Não aceitando tipos diferentes como vimos.

In [None]:
# Descomente a linha abaixo para ver mais sobre np.loadtxt e np.savetxt
# HTML('<iframe width="560" height="315" src="https://www.youtube.com/watch?v=bqo3BmzyXeI" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

Algo um pouco melhor seria o np.genfromtxt, ele aceita nomes de colunas e tipos diferentes.

In [10]:
arr_gft = np.genfromtxt('/content/load.csv', delimiter=",", names=True, dtype=None)
print(arr_gft.dtype)
print(arr_gft[:5])
type(arr_gft)

[('A', '<f8'), ('B', '<f8'), ('C', '<f8'), ('D', '<f8'), ('E', '<i8')]
[(1.276, 21.4  , 63.957, 216.204, 528)
 (1.002, 21.95 , 61.697, 204.484, 514)
 (1.114, 22.454, 63.522, 205.608, 514)
 (1.133, 22.494, 61.59 , 206.565, 501)
 (0.845, 21.654, 63.729, 201.289, 532)]


numpy.ndarray

Em algumas situações receberemos dados que é necessário salvar em formato de array, são raros mas existem e aí que se faz útil o uso dos métodos mencionados acima.

In [11]:
# Descomente a linha abaixo para ver mais sobre np.genfromtxt
# HTML('<iframe width="560" height="315" src="https://www.youtube.com/watch?v=n-WGUz3ZkBY" frameborder="0" allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

Mas no curso de pandas viram a maneira mais usada para se importar ou carregar dados o read_csv ou read_excel, que é o mais usado pela comunidade de Data Science e Machine Learning

In [None]:
df = pd.read_csv('/content/load.csv')

df.head()

Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528
1,1.002,21.95,61.697,204.484,514
2,1.114,22.454,63.522,205.608,514
3,1.133,22.494,61.59,206.565,501
4,0.845,21.654,63.729,201.289,532


Muitas vezes é necessário salvar objetos que criamos o para isso existe o pickle, vamos aprender a usá-lo. 

Primeiro utilizando o próprio pickle.

In [12]:
pickle.dump(df, open('save_pickle_with_pickle.pickle', 'wb'))

Agora usando a funçao pronta do pandas.





In [13]:
df.to_pickle('save_pickle_with_pandas.pickle')

Vamos agora carregar 1 por 1 com o load

In [15]:
with open("/content/load_pickle.pickle", "rb") as f:
    df_pkl = pickle.load(f)
print(df_pkl.dtypes)
print(type(df_pkl))
df_pkl.head()

A    float64
B    float64
C    float64
D    float64
E      int32
dtype: object
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C,D,E
0,1.276405,21.400157,63.957476,216.204466,528
1,1.002272,21.950088,61.697286,204.483906,514
2,1.114404,22.454274,63.522075,205.608375,514
3,1.133367,22.494079,61.589683,206.565339,501
4,0.844701,21.653619,63.728872,201.289175,532


In [16]:
with open("/content/save_pickle_with_pickle.pickle", "rb") as f:
    df_pkl_pkl = pickle.load(f)
print(df_pkl_pkl.dtypes)
print(type(df_pkl_pkl))
df_pkl_pkl.head()

A    float64
B    float64
C    float64
D    float64
E    float64
dtype: object
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528.0
1,1.002,21.95,61.697,204.484,514.0
2,1.114,22.454,63.522,205.608,514.0
3,1.133,22.494,61.59,206.565,501.0
4,0.845,21.654,63.729,201.289,532.0


In [17]:
with open("/content/save_pickle_with_pandas.pickle", "rb") as f:
    df_pkl_pd = pickle.load(f)
print(df_pkl_pd.dtypes)
print(type(df_pkl_pd))
df_pkl_pd.head()

A    float64
B    float64
C    float64
D    float64
E    float64
dtype: object
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C,D,E
0,1.276,21.4,63.957,216.204,528.0
1,1.002,21.95,61.697,204.484,514.0
2,1.114,22.454,63.522,205.608,514.0
3,1.133,22.494,61.59,206.565,501.0
4,0.845,21.654,63.729,201.289,532.0


O pickle servirá para salvarmos nossos modelos de Machine Learning e utiliza-los depois para fazer predições.