---
layout: post
title: Pandas e Geopandas
subtitle: Exercícios e Referências
tags: [python, pycharm, jupyter, package, pandas]
image: /img/posts/pandas_icon.png
bigimg: /img/posts/pandas_big.png
gh-repo: michelmetran/package_pandas
gh-badge: [follow, star, watch, fork]
comments: true

---

O <a title="Link do Pandas" href="https://pandas.pydata.org/" target="_blank">**_Pandas_**</a> é um pacote que possibilita o manejo dos dados.

{: .alert .alert-danger}
**Aviso:** Esse _post_ tem a finalidade de mostrar os comandos básicos e me deixar com uma "cola" rápida para meu uso cotidiano. Todas os códigos são exemplificativos e podem/devem ser alterados, indicando o nome dos arquivos e diretórios corretamente.

{: .box-note}
**Nota:** É possível acessar esse _post_ em formato <a title="Link do Folium" href="https://github.com/michelmetran/package_pandas/raw/master/docs/pandas.pdf" target="_blank">**_pdf_**</a>, diretamente por meio do <a title="Link do Repositório" href="https://github.com/michelmetran/package_pandas" target="_blank">**repositório do GitHub**</a> ou ainda, de maneira interativa, usando o [![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/michelmetran/package_pandas/master).

<br>

# Pandas

As bibliotecas básicas, ou _packages_, necessárias para criação do mapa são:
- O **_Pandas_**, que tem a missão de trabalhar com dados, criar _subsets_, selecionar e filtros dados e;
- O **_Geopandas_**, que é a biblioteca lê geojson!

In [None]:
import os
import pandas as pd

## Ler CSV

In [None]:
tab = pd.read_csv('data/empresas.xz',
                 delimiter=',',
                 decimal='.',
                 #encoding=file_encoding,
                 )
tab = tab[tab['state'] == 'SP']
tab = tab[tab['city'] == 'SANTOS']

tab.dtypes
tab.head(2)

## Ler JSON de um arquivo _.json_

In [None]:
tab = pd.read_json(os.path.join('data', 'tab.json'))
tab

## Ler JSON de um objeto _.json_

In [None]:
#tab = pd.DataFrame(JSON_object)
#tab

## Ler XLS

In [None]:
#tab = pd.read_excel(os.path.join('data', 'tab.xls'))
tab

## Seleciona Linhas (Filtrar dados)

In [None]:
# Lê a tabela
df = pd.read_csv('data/empresas.xz')

# Filtra por Coincidência Idêntica aos Campos
df = df[df['state'] == 'SP']
df = df[df['city'] == 'SANTOS']

# Filtra por 'inicia com'
df = df[df['address'].str.startswith(('R C'))]

# Filtra por 'NÃO inicia com'
df = df[~df['address'].str.startswith(('R A', 'AV '))]

# Filtra por 'termina com'
df = df[df['name'].str.endswith(('A'))]

# Filtra por 'NÃO termina com'
df = df[~df['name'].str.endswith(('LTDA'))]

# Seleciona com mais de um argumento
#df = df[df['CNPJ_FUNDO'].isin(['00.017.024/0001-53', '00.068.305/0001-35'])]

df

## Exclui Colunas

In [None]:
df = pd.read_csv('data/empresas.xz')

# Exclui coluna pela posição
#df.drop(df.columns[[0, 2]], axis=1, inplace=True)

# Exclui coluna pelo Nome. Adicionando o parâmetros (erros='ignore'), caso a coluna não exista, não travará.
#df = df.drop(['state', 'longitude'], axis=1)
df.drop(['state', 'longitude', 'sss'], axis=1, inplace=True, errors='ignore')

# Mantem apenas a que vc quer
#df = df[['cnpj','latitude']]

# Resultados
display(df)

## Renomeia Colunas

In [None]:
import pandas as pd

df = pd.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6], "C": ['sss', 'rrrr', 'ssssss']})
df

In [None]:
# Define que é tudo minúsculo

df.rename(str.lower, axis='columns', inplace=True)
df

In [None]:
# Define que é tudo maiúsculo

df.rename(str.upper, axis='columns', inplace=True)
df

In [None]:
# Substituí por outras coisas

df.rename(columns={'A': 'Abacate',
                    'B': 'Banana',
                    'C': 'Carambola'}, inplace=True)

df

In [None]:
# Para tudo para Minúsculas

df.columns = [x.lower() for x in df.columns]
df

In [None]:
# Para tudo para Maiúscula

df.columns = [x.upper() for x in df.columns]
df

In [None]:
itens = df['CARAMBOLA']
itens = list(set(itens))
itens = sorted(itens)
itens

In [None]:
# Renomear de uma coisa por outra

tab = tab.rename(columns=lambda x: x.replace('ABACATE', 'zzz'))
tab

In [None]:
# Function to Rename all tables

replace_table = {'zzz'  : 'Pera'   ,
                 'BANANA'  : 'Uva' ,
                 '  ' : ' ', 
                 'AAAA' : 'QQQ'}

def rename_columns(df):
    for i, o in replace_table.items():
        df.rename(columns=lambda x: x.replace(i, o), inplace=True)
        
rename_columns(tab)
tab

In [None]:
# Function to Rename all tables

def change_string(tab):
    return(tab.
           replace('zzz', 'Pera').
           replace('/', ' / ').
           replace('  ', ' ').
           replace('  ', ' '))

tab.rename(columns=lambda x: change_string(x), inplace=True)
tab

## Operações com Colunas

In [None]:
# Cria coluna com constante

tab['cosunt'] = 'a'
tab

In [None]:
# Remove os espaços em branco
# https://stackoverflow.com/questions/33788913/pythonic-efficient-way-to-strip-whitespace-from-every-pandas-data-frame-cell-tha

import numpy as np

def strip_obj(col):
    if col.dtypes == object:
        return (col.astype(str)
                   .str.strip()
                   .replace({'nan': np.nan}))
    return col

tabs = tabs.apply(strip_obj, axis=0)

In [None]:
# Remove espaços em branco de uma determinada coluna
#tab['neighborhood'] = tab['neighborhood'].str.strip()

## Dividindo Colunas

https://cmdlinetips.com/2018/11/how-to-split-a-text-column-in-pandas/

## Descritivo da Tabela

In [None]:
tab = pd.read_csv('data/empresas.xz')
tab = tab[tab['state'] == 'SP']
tab = tab[tab['city'] == 'SANTOS']

In [None]:
# Quantos registros tem por coluna
tab.count()

In [None]:
# Tipos das colunas
tab.dtypes

In [None]:
# Início da Tabela
tab.head(3)

In [None]:
# Descrição de parâmetros básicos apenas dos campos numéricos
tab.describe()

In [None]:
# Lista o nome das colunas
tab.columns

In [None]:
# Para descobrir quais os nomes das colunas

for col in tab.keys():
    print(col)

In [None]:
tab.keys

## Group By
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

In [None]:
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

___
<br>

# Exportando o _Juptyter Notebook_ para outros formatos
O arquivo _.ipynb_ pode ser exportado em formatos diversos. Abaixo carrego uma função que escrevi para facilitar o processo de exportação do arquivo em diferentes locais do PC para, posteriormente, atualizar os repositórios contidos no <a title="Link do GitHub" href="https://github.com/michelmetran" target="_blank">_GitHub_</a>.

In [None]:
# %load '~/Documents/SourceCode/codes/files/export_jupyter.py'
def export_jupyter(path, extensions=['html', 'markdown', 'latex', 'pdf', 'python'], today=True):
    """
    Export .ipynb file to others formats
    :return: File in other formats
    """
    # Import Packages
    import os
    import datetime

    # Data
    timestamp = datetime.datetime.now()
    srt_today = (str(timestamp.year) + '-' +
                 str(f"{timestamp.month:02d}") + '-' +
                 str(f"{timestamp.day:02d}"))

    # Extensions
    for extension in extensions:
        if today==True:
            os.system('jupyter nbconvert --to {} {} --output {}'.
                      format(extension, get_jupyternotebook_name(),
                             os.path.join(path, srt_today+'-'+get_jupyternotebook_name().split('.')[0])))
            print('Arquivo {} exportado corretamente para o formato {} usando prefixo da data.'.
                  format(get_jupyternotebook_name(), extension))

        else:
            os.system('jupyter nbconvert --to {} {} --output {}'.
                      format(extension, get_jupyternotebook_name(),
                             os.path.join(path, get_jupyternotebook_name().split('.')[0])))
            print('Arquivo {} exportado corretamente para o formato {} sem usar prefixo da data.'.
                  format(get_jupyternotebook_name(), extension))


In [None]:
# %load '~/Documents/SourceCode/codes/files/get_jupyternotebook_name.py'
def get_jupyternotebook_name():
    """
    Returns the name of the current notebook as a string
    From https://mail.scipy.org/pipermail/ipython-dev/2014-June/014096.html
    :return: Returns the name of the current notebook as a string
    """
    # Import Packages
    from IPython.core.display import Javascript
    from IPython.display import display

    display(Javascript('IPython.notebook.kernel.execute("theNotebook = " + \
    "\'"+IPython.notebook.notebook_name+"\'");'))

    # Result
    return theNotebook


Com as funções para exportar o _Jupyter Notebook_ e para obter o nome do arquivo _.ipynb_ carregadas, basta exportar o arquivo, inicialmente para a pasta _docs_ dentro do projeto e também, visando atualizar os _posts_ do site, para a respectiva pasta.

In [None]:
export_jupyter('docs',['pdf'], False)
export_jupyter('/home/michel/Documents/SourceCode/michelmetran.github.io/_posts', ['markdown'], True)

<br>

# Atualizando Repositórios
Após as exportações dos arquivos nos formatos necessários, basta atualizar o repositório diretamente pelo  _Jupyter Notebook_.
Abaixo é atualizado o repositório desse projeto específico, bem como a derivação desse projeto no <a title="Link do Folium" href="https://michelmetran.github.io/" target="_blank">**_site_**</a>.

In [None]:
%run '~/Documents/SourceCode/codes/git/update_github.py'

git_full('/home/michel/Documents/SourceCode/package_pandas', '.', 'Atualizando')
git_full('/home/michel/Documents/SourceCode/michelmetran.github.io', '.', 'Atualizando')

# _Requirements_
Abaixo é criado o arquivo _requirements.txt_ na raiz do projeto para possibilitar o correto funcionamento do _Jupyter Notebook_ no <a title="Link do My Binder" href="https://mybinder.org/" target="_blank">**_My Binder_**</a>. Após a criação do arquivo, sugere-se a edição manual, visando manter apenas os _packages_ realmente essenciais, listados com o comando _import_ no início do _script_.

In [None]:
#pip freeze > requirements.txt