# Python - Pandas Com Exemplos
[Documentação  oficial](https://pandas.pydata.org/docs/) 

### Importando o  pacote Pandas

In [None]:
# Importando o Pandas
import pandas as pd

### Carregando e verificando dados do arquivo

In [None]:
# Carregando os dados que estão em um arquivo csv
animes = pd.read_csv('animes.csv')

In [None]:
# Verificando os dados
animes

In [None]:
# Verificando os dados iniciais
animes.head(3)

In [None]:
# Verificando os dados finais
animes.tail(3)

In [None]:
# Informações sobre os dados
animes.info()

In [None]:
# Estatísticas sobre os dados
animes.describe()

In [None]:
# Nome das colunas
animes.columns

In [None]:
# Mostrando os dados de uma coluna
animes['title']

In [None]:
# Mostrando os dados de uma coluna em um intervalo
animes['title'][0:5]

In [None]:
# Mostrando os dados de uma coluna como um atributo
animes.title

In [None]:
# Mostrando os dados de mais de uma coluna
animes[['title', 'ranked', 'score']]

In [None]:
# Acessando um registro (linha)
animes.iloc[1]

In [None]:
# Acessando múltiplos registros (linhas)
animes.iloc[1:4]

In [None]:
# Acessando uma posição específica (Linha, Coluna)
animes.iloc[3,1]

In [None]:
# Loop para acessar o índice e linha
for indice, linha in animes.iterrows():
  print(indice, linha)

In [None]:
# Loop para acessar o índice e uma coluna na linha
for indice, linha in animes.iterrows():
  print(indice, linha['title'])

### Pesquisando dados

In [None]:
# Pesquisando com condicional
animes.loc[animes['episodes'] > 1000]

In [None]:
# Pesquisando com um texto específico
animes.loc[animes['title'] == 'One Piece']

### Ordenações

In [None]:
# Ordenação
animes.sort_values('ranked')

In [None]:
# Ordenação decrescente
animes.sort_values('ranked', ascending=False)

In [None]:
# Ordenação decrescente - Top 5
animes.sort_values('ranked', ascending=False).head(5)

In [None]:
# Ordenação de duas colunas
animes.sort_values(['episodes','ranked'])

In [None]:
# Ordenação de duas colunas - descrescente
animes.sort_values(['episodes','ranked'], ascending=False)

In [None]:
# Ordenação alternada de duas colunas - crescente e descrescente
animes.sort_values(['episodes','ranked'], ascending=[True, False])

### Operações iniciais com colunas

In [None]:
# Criar uma nova coluna baseada em dados de outras - Método 1
animes['sucess'] = animes['popularity'] / animes['members']
animes.head(5)

In [None]:
# Removendo uma coluna
animes.drop(columns='sucess', inplace=True)
animes.head(5)

In [None]:
# Criar uma mova coluna baseada em dados de outras - Método 2
# Soma do ranked com score
animes['total'] = animes.iloc[:,8:10].sum(axis=1)
animes.head(3)

### Trocando a ordem das colunas

In [None]:
# Criando uma lista com os nomes das colunas
colunas = list(animes.columns)
colunas

In [None]:
# Colocar a coluna total após a coluna title
animes = animes[colunas[0:2] + [colunas[-1]] + colunas[2:-1]]
animes.head(3)

### Salvando o dataframe para um arquivo csv

In [None]:
# Utilizando o recurso de salvamento do Pandas
animes.to_csv('modificado.csv', index=False)

In [None]:
# Lendo o arquivo salvo
modificado = pd.read_csv('modificado.csv')
modificado.head(3)

### Filtrando os dados

In [None]:
# Pesquisando com um texto específico uma coluna
animes.loc[animes['title'] == 'One Piece']

In [None]:
# Pesquisando em duas colunas
animes.loc[(animes['popularity'] == 800) & (animes['episodes'] == 12.0)]

In [None]:
# Pesquisando em três colunas
animes.loc[((animes['popularity'] == 800) | (animes['episodes'] == 12.0)) & (animes['ranked'] >= 15)]

In [None]:
# Pesquisando por um trecho do texto
animes.loc[animes['title'].str.contains('full', case=False)]

In [None]:
# Pesquisando por um trecho do texto negado
animes.loc[~animes['title'].str.contains('full', case=False)]

In [None]:
# Pesquisando com expressões regulares 1
import re

animes.loc[animes['title'].str.contains('sword|king', regex=True, flags=re.I)]

In [None]:
# Pesquisando com expressões regulares 2
import re

animes.loc[animes['title'].str.contains('^ha[i|t]', regex=True, flags=re.I)]

In [None]:
# Salvar o filtro em outro dataframe
animes_comedias = animes.loc[animes['genre'].str.contains('comedy', case=False)]
animes_comedias

In [None]:
# Reiniciando os índices
animes_comedias.reset_index(drop=True, inplace=True)
animes_comedias

### Alterando valor baseado em uma condição

In [None]:
#  Colocando o primeiro  genero como principal e descartando os demais
animes['genre'] = animes['genre'].str.extract("'(.*?)'", expand=True)
animes.head()

In [None]:
# Salvando esse dataframe para ter a alteração do gênero
animes.to_csv('animes_genero.csv', index=False)

In [None]:
# Contando os totais
animes.groupby('total').count()

In [None]:
# Alterando todos os totais com valor 0.00 para 0.01
animes.loc[animes['total'] == 0.00, 'total'] = 0.01

In [None]:
# Verificando a contagem dos totais
animes.groupby('total').count()

In [None]:
# Desfazendo a alteração
animes.loc[animes['total'] == 0.01, 'total'] = 0.00

In [None]:
# Verificando se a contagem dos totais retornou aos valores iniciais
animes.groupby('total').count()

In [None]:
# Alterando uma coluna baseada no valor de outra
# Alterando a coluna ranked baseada no total
# Se o total é igual a zero , o ranked será -1
animes.loc[animes['total'] == 0.00, 'ranked'] = -1

In [None]:
# Verificando a contagem do ranked e total
animes.groupby(['ranked','total']).count()

In [None]:
# Alterando duas colunas baseada no valor de outra coluna
# Alterando as colunas popularity e score baseada no total
# Se o total é igual a zero , popularity e score serão -1
animes.loc[animes['total'] == 0.00, ['popularity', 'score']] = -1

In [None]:
# Verificando a contagem do popularity e score
animes.groupby(['total','popularity', 'score']).count()

In [None]:
# Alterando duas colunas baseada no valor de outra coluna com  valores diferentes
# Alterando as colunas popularity e score baseada no total
# Se o total é igual a zero , popularity  será 1 e score será 0
animes.loc[animes['total'] == 0.00, ['popularity', 'score']] = [1, 0]

In [None]:
# Verificando a contagem do popularity e score
animes.groupby(['total','popularity', 'score']).count()

### Utilizando o GroupBy

In [None]:
# Retornando ao dataframe com um genero que foi salvo
animes = pd.read_csv('animes_genero.csv')
animes.head(3)

In [None]:
# Groupby com média
animes.groupby('genre').mean().sort_values('score', ascending=False)

In [None]:
# Groupby com soma
animes.groupby('genre').sum().sort_values('score', ascending=False)

In [None]:
# Groupby com contagem
animes.groupby('genre').count().sort_values('title', ascending=False)

In [None]:
# Groupby com contagem simplificada
# Criando uma coluna com valor fixo 1
animes['count'] = 1
animes.head(3)

In [None]:
# Faço o count usando a coluna criada
animes.groupby('genre').count()['count'].sort_values(ascending=False)

In [None]:
# Groupby com contagem de duas colunas
animes.groupby(['genre','episodes']).count()['count']

### Trabalhando com uma grande quantidade de dados

In [None]:
# Dividir em pedaços (chunks) --> número de linhas na memória 
# O nosso dataframe tem 19311 linhas
# Utilizando o laço for para demonstração
for df in pd.read_csv('animes_genero.csv', chunksize=5000):
  print('Pedaço do  Dataframe')
  print(df)

In [None]:
# Uso do chunk para criar um dataframe menor 1
# Criar um dataframe filtrando o genero ação dos animes

# criar uma lista vazia
animes_acao = []

# Utilizar o loop para adicionar a lista somente os animes do gênero ação --> Action
for df in pd.read_csv('animes_genero.csv', chunksize=5000):
  df_acao = df.loc[df['genre'] == 'Action']
  animes_acao.append(df_acao)

In [None]:
# Verificando o tipo
type(df_acao)

In [None]:
# Listando as  linhas iniciais
df_acao.head()

In [None]:
# Uso de memória - animes
animes.info()

In [None]:
# Uso de memória -  df_acao
df_acao.info()

In [None]:
# Uso do chunk para criar um dataframe menor 2
# Criar um dataframe contando os generos dos animes

# criar uma lista vazia
animes_genero = []

# Utilizar o loop para adicionar a lista a contagem dos gêneros em cada chunk
for df in pd.read_csv('animes_genero.csv', chunksize=5000):
  df_generos = df['genre'].value_counts()
  animes_genero.append(df_generos)

animes_genero = pd.concat(animes_genero, ignore_index=False)

In [None]:
# Verificando o tipo
type(animes_genero)

In [None]:
# Contagem por gênero
animes_genero.groupby(level=0).sum()

# FIM