# PANDAS

In [None]:
!pip install -q pandas==1.5.3

In [None]:
import pandas as pd
pd.__version__

In [None]:
# Manipulando Dados em DataFrames do Pandas
# Com o pandas a manipulação de dados é mais rápida e mais fácil, simplificando e agilizando o trabalho

#CRIO UM DICIONÁRIO:
dados = {'Estado': ['Santa Catarina', 'Rio de Janeiro', 'Tocantis', 'Bahia', 'Minas Gerais'],
        'Ano': [2004, 2005, 2006, 2007, 2008],
        'Taxa de Desemprego': [1.5, 1.7, 1.6, 2.4, 2.7]}
print(dados, '\n \n')

# importo a função dataframe do pandas:
from pandas import DataFrame as daf
# converto o dicionário criado em um dataframe:
df = daf(dados)
print(df)

# VISUALIZANDO AS 5 PRIMEIRAS LINHAS, CONVERTIDO EM UMA TABELA QUE TEM LINHAS E COLUNAS:
df.head()


In [None]:
# REORGANIZANDO A ORDEM DAS COLUNAS:
daf(dados, columns = ['Estado', 'Taxa de Desemprego', 'Ano'])


In [None]:
# CRIANDO OUTRO DATAFRAME COM OS MESMOS DADOS MAS ADICIONANDO UMA OUTRA COLUNA:
df2 = daf(dados,
         columns = ['Estado', 'Taxa de Desemprego', 'Taxa de Crescimento', 'Ano'],
         index = ['Estado1', 'Estado2', 'Estado3', 'Estado4', 'Estado5'])
df2

In [None]:
print(df2.values, '\n')
print(df2.dtypes, '\n')
print(df2.columns, '\n')

In [None]:
# Imprimindo apenas uma coluna do DataFrame:
print(df2['Estado'], '\n')
print(df2[ ['Taxa de Desemprego', 'Ano'] ]) # dois colchetes

#filtrando pelo índice
df2.index
df2.filter(items = ['Estado3'], axis = 0)

# USANDO NUMPY E PANDAS

In [None]:
df2.head()

In [None]:
#resumo estatístico do DataFrame:
df2.describe() #apenas de colunas do tipo numérico

In [None]:
print(df2.isna(), '\n') #verificar se existe valor ausente - ausência de informação (Retorna valores booleanos)
print(df2['Taxa de Crescimento'].isna()) #verificando por coluna 


In [None]:
import numpy as np

#usando o numpy para alimentar uma das colunas do dataframe:
df2['Taxa de Crescimento'] = np.arange(5.)
print(df2, '\n')
print(df2['Taxa de Crescimento'].isna())

In [None]:
# SLICING de DataFrames do Pandas: -fatiamento
df2

In [None]:
df2['Estado2': 'Estado4'] # o 4 não é exclusivo, ou seja, ele entra no resultado

In [None]:
df2[ df2['Taxa de Desemprego'] < 2 ] #a minha regra é que eu filtro o dataframe na coluna taxa de desemprego e puxo os vaores quue são menores que dois

In [None]:
df2[ ['Estado', 'Taxa de Crescimento'] ]

In [None]:
# Preenchendo valores ausentes em dataframes no python:
# a função fillna() é usada para preencher os valores ausentes
# primeiro importamos um dataset:
dsa_df = pd.read_csv('dataset.csv')
dsa_df.head(5)

In [None]:
dsa_df.isna().sum()

In [None]:
#moda da coluna quantity
moda = dsa_df['Quantidade'].value_counts().index[0]
print(moda)

#preenchenado os valores na com a moda:
dsa_df['Quantidade'].fillna(value = moda, inplace = True) #inpace = True salva a alteração no dataframe, ao invés de fazer somente na cópia.
dsa_df.isna().sum() # nao retorna mais os valores ausentes

# Consulta de dados no DataFrame do Pandas - QUERY:

In [None]:
dsa_df.head()

In [None]:
dsa_df.Valor_Venda.describe() #resumo estatístico do valor venda:

In [None]:
#geramos um novo dataframe apenas com o intervalo de vendas entre 229 e 10000
df2 = dsa_df.query('299 < Valor_Venda < 10000')

#então confirmamos os valores mínimos e máximos:
df2.Valor_Venda.describe()

#geramos um novo dataframe apenas com os valores de venda acima da média:
df3 = df2.query('Valor_Venda > 766')

In [None]:
df3.head()

In [None]:
# VERIFICANDO A OCORRÊNCIA DE DIVERSOS VALORES EM UMA COLUNA:
dsa_df.shape #retorna número de linhas e número de colunas

In [None]:
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])]

In [None]:
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])].shape

In [None]:
dsa_df[dsa_df['Quantidade'].isin([5, 7, 9, 11])][:10]

In [None]:
# Filtrando as vendas que ocorreram para o segmento de Home Office e na região South
dsa_df[ (dsa_df.Segmento == 'Home Office') & (dsa_df.Regiao == 'South') ].head()

In [None]:
# Filtrando as vendas que ocorreram para o segmento de Home Office ou região South
dsa_df[(dsa_df.Segmento == 'Home Office') | (dsa_df.Regiao == 'South')].tail()

In [None]:
# Filtrando as vendas que não ocorreram para o segmento de Home Office e nem na região South
dsa_df[(dsa_df.Segmento != 'Home Office') & (dsa_df.Regiao != 'South')].sample(5)

In [None]:
# Agrupamento de Dados em DataFrame com Group By
dsa_df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).mean()

In [None]:
#Agregação múltipla:
dsa_df[['Segmento', 'Regiao', 'Valor_Venda']].groupby(['Segmento', 'Regiao']).agg(['mean', 'std', 'count'])

In [None]:
#filtrando dataframe com base em strings:
dsa_df.head()

In [None]:
dsa_df[dsa_df.Segmento.str.startswith('Con')].head()

# Gráficos a partir do pandas:

In [None]:
!pip install -q scikit-learn==1.2.1
import sklearn
sklearn.__version__
from sklearn.datasets import load_iris
data = load_iris()
import pandas as pd

In [None]:
df = pd.DataFrame(data['data'], columns = data['feature_names'])
df['species'] = data['target']
df.head()

In [None]:
# para criar o gráfico:
df.plot()

In [None]:
# Scatter plot com duas variáveis:
df.plot.scatter(x = 'sepal length (cm)', y = 'sepal width (cm)')

In [None]:
# E mesmo gráficos mais complexos, como um gráfico de área, pode ser criado:
columns = ['sepal length (cm)', 'petal length (cm)', 'petal width (cm)', 'sepal width (cm)']
df[columns].plot.area()

In [None]:
# Calculamos a média das colunas agrupando pela coluna species e criamos um gráfico de barras com o resultado
df.groupby('species').mean().plot.bar()

In [None]:
# Ou então, fazemos a contagem de classes da coluna species e plotamos em um gráfico de pizza
df.groupby('species').count().plot.pie(y = 'sepal length (cm)')

In [None]:
# Gráfico KDE (Kernel Density Function) para cada variável do dataframe
df.plot.kde(subplots = True, figsize = (8,8))