<img src="imgs/mesttra.png" alt="mesttra_logo" style="width: 200px;"/>

# Pandas
___

Pandas é a principal biblioteca de manipulação e análise de dados em Python. Ela é perfeita para análises exploratórias, pois permite ler, manipular, agregar e até plotar um conjunto de dados em poucos passos. Pandas possui duas estruturas básicas, a primeira é a Série (uma dimensão) e o DataFrame(duas dimensões) resumidamente chamado de ```df```.

In [4]:
## importando os pandas

import pandas

Ao importar uma biblioteca podemos atribuir um apelido (alias) a ela. Isso é uma boa prática e existem alguns apelidos que são tão utilizados que já viraram sinônimo da própria biblioteca.

In [None]:
import pandas as pd
import numpy as np

pandas.read_csv('/content/sample_data/california_housing_train.csv')

Podemos ainda escolher exatamente a função que gostaríamos de importar. Esse não é um método recomendado, pois causa confusão na leitura do código.

In [None]:
from pandas import read_csv

read_csv('/content/sample_data/california_housing_train.csv')

In [None]:
## coletando os dados

!wget 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv'

In [None]:
df = pd.read_csv('winequality-white.csv',sep=';')
df.head()

## O Dataframe

In [7]:
## criando um dataframe

arr = np.arange(36).reshape(6,6)
df = pd.DataFrame(arr,                                                                       ## dados
                  columns=['idade','altura','tamanho do pe','salario','cor_do_olho','peso'], ##nome das colunas
                  index=['nasser','joao','marcelo','maria','joana','raquel'])                ## indices

df

Unnamed: 0,idade,altura,tamanho do pe,salario,cor_do_olho,peso
nasser,0,1,2,3,4,5
joao,6,7,8,9,10,11
marcelo,12,13,14,15,16,17
maria,18,19,20,21,22,23
joana,24,25,26,27,28,29
raquel,30,31,32,33,34,35


In [8]:
## acessando a série idade do dataframe acima

df.idade

nasser      0
joao        6
marcelo    12
maria      18
joana      24
raquel     30
Name: idade, dtype: int64

In [9]:
df['cor do olho']

KeyError: 'cor do olho'

In [10]:
df.columns

Index(['idade', 'altura', 'tamanho do pe', 'salario', 'cor_do_olho', 'peso'], dtype='object')

In [11]:
df.columns = [x.replace(' ','_') for x in df.columns]

In [12]:
df

Unnamed: 0,idade,altura,tamanho_do_pe,salario,cor_do_olho,peso
nasser,0,1,2,3,4,5
joao,6,7,8,9,10,11
marcelo,12,13,14,15,16,17
maria,18,19,20,21,22,23
joana,24,25,26,27,28,29
raquel,30,31,32,33,34,35


In [13]:
for coluna in df.columns:
    print(coluna)

idade
altura
tamanho_do_pe
salario
cor_do_olho
peso


In [14]:
df.cor_do_olho

nasser      4
joao       10
marcelo    16
maria      22
joana      28
raquel     34
Name: cor_do_olho, dtype: int64

In [15]:
pd.Series([1,2,3,4,10],index=['a','b','c','d','e'],name='numeros',dtype='int64')

a     1
b     2
c     3
d     4
e    10
Name: numeros, dtype: int64

In [16]:
df['altura'] = 0

In [17]:
df['dedos_da_mao'] = [9,10,np.nan,10.0,10,10]

In [18]:
df.dedos_da_mao.dtype

dtype('float64')

In [19]:
df.dedos_da_mao.marcelo

nan

In [21]:
df.dedos_da_mao.joao = 5

In [22]:
df

Unnamed: 0,idade,altura,tamanho_do_pe,salario,cor_do_olho,peso,dedos_da_mao
nasser,0,0,2,3,4,5,9.0
joao,6,0,8,9,10,11,5.0
marcelo,12,0,14,15,16,17,
maria,18,0,20,21,22,23,10.0
joana,24,0,26,27,28,29,10.0
raquel,30,0,32,33,34,35,10.0


## read_csv()

In [None]:
## lendo um arquivo csv

df = pd.read_csv('/content/winequality-white.csv',sep=';')
df.head()

In [None]:
df.shape

In [None]:
type(df)

In [None]:
## lendo um arquivo csv com chunks

ls_quality = []
ls_alcohol = []

df_chunk = pd.read_csv('/content/winequality-white.csv',sep=';',chunksize=100)
type(df_chunk)

In [None]:
for chunk in df_chunk:
    ls_quality.append(chunk.quality.values)
    ls_alcohol.append(chunk.alcohol.values)

In [None]:
boas_qualidades = []

x = pd.read_csv('winequality-white.csv',sep=';',chunksize=100)

for a in x:
    for value in a['quality']:
        if value > 5:
            boas_qualidades.append(value)

In [None]:
len(boas_qualidades)

## head, tail, info, shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.shape

In [None]:
df.info()

## indexação / fatiamento