---
jupytext:
  formats: md:myst
  text_representation:
    extension: .md
    format_name: myst
    format_version: 0.13
    jupytext_version: 1.11.5
kernelspec:
  display_name: Python 3
  language: python
  name: python3
---

# Python para Ciência de Dados


## Manipulação de Dados Tabulares com Pandas - Funções Básicas

In [None]:
:tags: [remove-output]
import pandas as pd

In [None]:
cidades = pd.DataFrame(
    [
        ['Paraná', 'Londrina', 575377, 1356.00],
        ['São Paulo', 'São Carlos', 254484, 1508.00],
        ['Santa Catarina', 'Florianópolis', 508826, 1798.00],
        ['Paraná', 'Curitiba', 1963726, 2293.00],
        ['São Paulo', 'Campinas', 1223237, 1710.00]
    ], columns=['Estado', 'Cidade', 'Habitantes', 'Salário-Médio'])

cidades

In [None]:
:tags: [remove-output]
df = pd.read_csv('qualidade_vinho.csv', sep=',', header=0)
df.head(2)

In [None]:
cidades.head(2) # Retorna um novo dataframe com as n primeiras amostras

In [None]:
cidades.tail(2) # Retorna um novo dataframe com as n últimas amostras

In [None]:
cidades.shape # Retorna uma tupla com o número de linhas e colunas

In [None]:
cidades.info() # Retorna vazio e imprime na tela as informações gerais do dataframe

In [None]:
cidades.columns # Retorna uma lista com o nome de todas as colunas

In [None]:
cidades['Salário-Médio'].describe() # Retorna um objeto DataFrame com as medidas estatísticas para cada coluna

## Tipos de Dados com Pandas

In [None]:
cidades.dtypes
cidades.info()

In [None]:
cidades['Habitantes'] = cidades['Habitantes'].astype('float64')
cidades.dtypes

In [None]:
cidades['Data'] = ['3-8-2021', '3-9-2021', '3-10-2021', '3-11-2021', '3-12-2021']

cidades['Data'] = pd.to_datetime(cidades['Data'], format='%d-%m-%Y') # Dia, Mês, Ano

cidades

In [None]:
cidades['Data'] = cidades['Data'].dt.strftime('%d-%m-%Y') # Dia, Mês, Ano
cidades # Novo Formato

## Renomeando Colunas

In [None]:
cidades.rename(columns={'Habitantes': 'N Habitantes', 'Data': 'Data - Censo'}, inplace=True)
cidades

## Selecionando Linhas e Colunas

In [None]:
cidadesHab = cidades[['N Habitantes', 'Salário-Médio']] # Seleciona as duas colunas com os nomes especificados
cidadesHab

In [None]:
cidades.loc[[1, 2]] # Seleciona as duas linhas com os nomes especificados (note que o "rótulo" de cada linha está presente na forma de números inteiros)

In [None]:
cidades.iloc[1:3] # Seleciona as linhas do dataframe original, referentes ao índice determinado

In [None]:
cidades.iloc[:, 0:2] # Seleciona todas as linhas e as duas primeiras colunas do dataframe original

In [None]:
cidades.iloc[1:3, :3] # Seleciona as duas primeiras linhas e as três primeiras colunas

In [None]:
cidades.iloc[:, [1, 3, 0, 2]] # Seleciona todas as linhas e as colunas determinadas

## Adicionando e Removendo Colunas

In [None]:
cidades.insert(2, 'Sigla', ['PR', 'SP', 'SC', 'PR', 'SP']) # Adiciona novos dados no índice dois
cidades.insert(2, 'Sigla-Repetida', cidades['Sigla']) # Adiciona uma coluna repetida "Sigla"
cidades

In [None]:
cidades.pop('Sigla-Repetida')

# ou

cidades = cidades.drop(['Sigla-Repetida'], axis=1)
cidades

## Operações Básicas - Consultas

In [None]:
cidades.query('`Salário-Médio` > 1400.0')

In [None]:
cidades.query('Estado == "São Paulo"')

In [None]:
cidades.query('`N Habitantes` > 500000 and `N Habitantes` < 1300000')

## Operações Básicas - Ordenação

In [None]:
cidades.sort_values(by='Cidade', inplace=True)
cidades

In [None]:
cidades.sort_values(by='Salário-Médio', inplace=True)
cidades

## Operações Básicas - Combinando DataFrames

In [None]:
cidades_salarios = pd.DataFrame(
    [
        ['Paraná', 'Londrina', 1356.00],
        ['São Paulo', 'São Carlos', 1508.00],
        ['Santa Catarina', 'Florianópolis', 1798.00],
        ['Paraná', 'Curitiba', 2293.00],
        ['São Paulo', 'Campinas', 1710.00]
    ], columns=['Estado', 'Cidade', 'Salário-Médio'])

cidades_salarios

In [None]:
cidades_pop = pd.DataFrame(
    [
        ['Londrina', 575377],
        ['São Carlos', 254484],
        ['Florianópolis', 508826],
        ['Curitiba', 1963726],
        ['Campinas', 1223237]
    ], columns=['Cidade', 'Habitantes'])

cidades_pop

In [None]:
pd.merge(left=cidades_salarios, right=cidades_pop, on="Cidade")

In [None]:
pd.merge(left=cidades_salarios, right=cidades_pop, on="Cidade", how="outer")

In [None]:
cidades_df1 = pd.DataFrame(
    [
        ['Londrina', 575377],
        ['São Carlos', 254484],
        ['Florianópolis', 508826],
    ], columns=['Cidade', 'Habitantes'])

cidades_df1

In [None]:
cidades_df2 = pd.DataFrame(
    [
        ['Curitiba', 1963726],
        ['Campinas', 1223237]
    ], columns=['Cidade', 'Habitantes'])

cidades_df2

In [None]:
pd.concat([cidades_df1, cidades_df2], ignore_index=True)

## Operações Básicas - Salvando DataFrames

In [None]:
cidades.to_csv("my_df.csv")
cidades.to_html("my_df.html")
cidades.to_json("my_df.json")