# Aula 02 - Python 101

## Listas

Listas são similares a vetores e arrays de outras linguagens, ou seja, uma lista é simplesmente uma sequência de elementos separados por vírgulas. Os elementos de uma lista devem ser envolvidos por ``[]``.

Como criar uma lista vazia:

In [None]:
lista = []
lista

ou

In [None]:
lista = list()
lista

Vamos criar algumas listas. Elas podem ser formadas por quaisquer tipos de dados.

In [None]:
lista1 = [1, 2, 3]
lista2 = ['a', 'b', 'c', 'd']
lista3 = ['a', 127, 42, 'chora, bebê!']

print(lista1)
print(lista2)
print(lista3)

Podemos ver o tamanho de uma lista por meio da função ``len()``.

In [None]:
len(lista3)

Também podemos concatenar (juntar) duas ou mais listas. Basta utilizar o símbolo de soma.

In [None]:
lista4 = lista1 + lista2

lista4

Também é possível ordenar uma lista. Entretanto, para isso, todos os elementos da lista precisam ser do mesmo tipo.

In [None]:
lista5 = [4, 3, 2, 1]
lista5.sort()
lista5

Também podemos acessar cada elemento de acordo com sua posição. Chamamos a "posição" de cada elemento de "índice". O primeiro elemento possui índice 0; o segundo, índice 1 e por aí vai.

Sendo assim, uma lista com 10 elementos possui as seguintes características: o primeiro elemento possui índice 0 e o último possui índice 9.

In [None]:
lista2[0]

In [None]:
lista2[3]

In [None]:
lista2[1]

In [None]:
lista2[-1]

Algo que é muito útil é a utilização de apenas uma parte da lista. Chamamos isso de slicing. Utilizamos a sintaxe ``lista[x:y]`` e isso indica que serão selecionados os elementos desde o índice ``x`` até o índice ``y - 1``. Veja um exemplo:

In [None]:
lista_louca = list(range(15))

print(lista_louca)

sub_lista_louca = lista_louca[2:9] # vamos pegar apenas os elementos de 2 até 8

print(sub_lista_louca)

## Tuplas

Tuplas são a estrutura mais simples que podemos encontrar no Python. Elas são similares a listas, porém elas são delimitadas por parênteses ``()``. A diferença entre tuplas e listas é que as tuplas são imutáveis, ou seja, depois de criadas, não podem ser alteradas. As listas, por sua vez, podem ser alteradas.

In [None]:
tupla1 = (1, 2, 3, 4, 5)
print(tupla1)

print(tupla1[0:3])

Veja que a célula abaixo resulta em erro.

In [None]:
tupla1[0] = 9

tupla1

## Dicionários

Essa estrutura é similar a uma tabela hash, ou seja, iremos associar um valor a uma chave. Aqui, o índice não é definido de acordo com a posição do elemento na tabela, mas sim de acordo com a sua chave (que pode ser um número ou até mesmo uma letra ou palavra).

Note que aqui usamos ``{}`` para delimitar o dicionário.

Importante: cada chave/índice só pode ocorrer uma única vez dentro de um dicionário.

Como criar um dicionário vazio:

In [None]:
dicionario = {}
dicionario

ou

In [None]:
dicionario = dict()
dicionario

Vamos criar um dicionário com alguns valores...

In [None]:
meu_dicionario = {'a': 12,
                  'b': 100,
                  'f': 95}

meu_dicionario

Veja como podemos acessar o valor que está associado à letra ``b``: utilizamos a mesma sintaxe que usamos para realizar indexação em listas e tuplas.

In [None]:
meu_dicionario['b']

Outro exemplo:

In [None]:
pessoa = {'nome': 'Mateus Mendelson', 'idade': 27, 'peso': 'gostoso'}

print(f'Meu nome é {pessoa["nome"]}, tenho {pessoa["idade"]} anos e aqui está o meu peso: {pessoa["peso"]}')

Também podemos checar se uma chave está no dicionário:

In [None]:
if 'nome' in pessoa:
    print('A pessoa tem nome')
else:
    print('A pessoa não tem nome!')

Para adicionar uma nova chave, basta realizar a atribuição como se ela já existisse:

In [None]:
pessoa['cor dos olhos'] = 'verde'

pessoa

Por fim, podemos também pegar a listagem das chaves de um dicionário:

In [None]:
pessoa.keys()

In [None]:
list(pessoa.keys())

## Funções - revisão e incrementos

Função são nada mais, nada menos do que um bloco de código ao qual damos um nome. A grande vantagem é que escrevemos aquele código apenas uma vez e, então, podemos utilizá-lo por quantas vezes quisermos.

Para criar uma função, devemos primeiro definí-la. Precisamos de 4 elementos para isso:
- O uso da palavra reservada ``def``
- O identificador da função (um nome para ela)
- Seus parâmetros entre parênteses
- Seu corpo

A célula abaixo define uma função que calcula o valor de ``1 + 2`` e o imprime na tela. Note que ela apenas define a função. Ela só é executada na celula seguinte.

In [None]:
def soma():
    resultado = 1 + 2
    print(f'O resultado é {resultado}')

In [None]:
soma()

Também é possível parametrizar os valores que a função irá utilizar. Para isso, basta adicionar os nomes dos parâmetros na definição da função e utilizá-los como variáveis.

In [None]:
def somar_dois_numeros(numero1, numero2):
    resultado = numero1 + numero2
    print(f'A soma de {numero1} com {numero2} é igual a {resultado}')

In [None]:
somar_dois_numeros(7, 10)

Outro recurso muito útil é a definição de valores padrões para alguns parâmetros. Veja abaixo.

In [None]:
def somar(valor_inicial, valor_a_ser_somado=1):
    resultado = valor_inicial + valor_a_ser_somado
    print(f'O resultado é {resultado}')

In [None]:
somar(10)

In [None]:
somar(10, 5)

Por fim, o recurso que mais iremos utilizar não é a impressão do valor na tela. Geralmente, queremos realizar um cálculo e armazenar seu resultado em uma variável. Para isso, utilizamos a palavra reserva ``return``, que serve para retornar o resultado obtido dentro de uma função. Em Python, é possível retornar quantos valores quisermos.

In [None]:
def somar_elementos_lista(lista):
    total = 0
    for elemento in lista:
        total += elemento
        
    return total

def juntar_listas_e_somar_elementos(lista1, lista2):
    lista3 = lista1 + lista2
    soma_elementos = somar_elementos_lista(lista3)
    
    return lista3, soma_elementos

In [None]:
primeira_lista = [1, 2, 3]
segunda_lista = [4, 5, 6]

juntar_listas_e_somar_elementos(primeira_lista, segunda_lista)

Note, na saída da célula acima, que quando uma função retorna mais de um elemento, os elementos são retornados como uma tupla (delimitados por parênteses). Podemos armazenar esses valores de retorno de duas formas:

In [None]:
(lista_final, soma_lista) = juntar_listas_e_somar_elementos(primeira_lista, segunda_lista)

print(lista_final)
print(soma_lista)

ou

In [None]:
lista_final, soma_lista = juntar_listas_e_somar_elementos(primeira_lista, segunda_lista)

print(lista_final)
print(soma_lista)

## DataFrames

DataFrame é uma estrutura de dados disponibilizada através do pacote Pandas, um dos mais populares para Ciência de Dados em Python.

Pense que um DataFrame é uma tabela de dados. Cada linha dessa tabela representa uma entrada de dados e cada coluna representa uma característica desse dado.

A primeira coisa que iremos fazer é carregar nossos dados a partir de um arquivo csv. A função ``read_csv`` possui vários parâmetros, veja-os [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('data/us-counties-covid-19-dataset.csv')

df.head(15)

In [None]:
df.shape

### Acessando elementos via índice

Podemos acessar linhas e colunas específicas de acordo com seus índices. Para isso, podemos utilizar os métodos ``iloc`` (utilizando apenas índices numéricos) ou ``loc`` (utilizando os nomes dos índices).

Suponha que queremos acessar a linha 2 e a coluna ``cases``, que nos dá o valor ``1``. Podemos fazer isso de duas formas:

In [None]:
print(df.iloc[2][4]) # note que usamos o índice 4 para a coluna "cases"

In [None]:
print(df.loc[2]['cases']) # note que usamos o próprio nome da coluna "cases"

Também podemos selecionar uma linha inteira ou uma coluna inteira.

In [None]:
print(df.loc[2])

In [None]:
print(df['cases'])

### Adicionando uma nova linha

Vamos adicionar uma nova linha ao nosso DataFrame. Aqui, iremos adicionar no final e, para isso, vamos utilizar o método ``tail`` para a nossa análise.

In [None]:
df.tail()

In [None]:
df.loc[45880] = ['2020-04-09', 'LUGAR NOVO', 'ESTADO NOVO', 50000, 1, 0]

In [None]:
df.tail()

### Adicionando uma nova coluna

Para adicionar uma nova coluna, precisamos ter uma lista de elementos com a mesma quantidade de linhas que o DataFrame possui para que a adição tenha sucesso.

In [None]:
dados_nova_coluna = [195]*df.shape[0] # estamos criando uma lista que possui o valor 195 aparecendo por 45881 vezes

# dados_nova_coluna

In [None]:
df['nova_coluna'] = dados_nova_coluna

df.head()

### Deletando colunas e linhas

Também pode vir a ser útil a tarefa de deletar uma ou mais colunas do nosso DataFrame. Para isso, utilizamos o método ``drop``.

In [None]:
novo_df = df.drop(['deaths', 'nova_coluna'], axis=1)

# Também podemos realizar a remoção alterando a própria variável.
# Para isso, basta utilizar o parâmetro "inplace" como "True".
# df.drop(['deaths', 'nova_coluna'], axis=1, inplace=True)

novo_df.head()

Da mesma forma que podemos deletar uma coluna, também podemos deletar uma linha de acordo com seu índice.

In [None]:
linha_removida_df = df.drop([0], axis=0)

linha_removida_df.head()

### Aplicando uma operação sobre o DataFrame

Podemos aplicar uma operação a todos os elementos de uma coluna ou linha. Basta utilizar o método ``apply``.

In [None]:
def dobrar_valor(x):
    return 2*x

In [None]:
# Dobrando os valores de uma coluna
novo_df['cases'] = novo_df['cases'].apply(dobrar_valor)

novo_df.head()

In [None]:
# Dobrando os valores de uma linha
novo_df.loc[0] = novo_df.loc[0].apply(dobrar_valor)

novo_df.head()

### Agrupamento

Outro recurso muito útil é o agrupamento de acordo com os valores de uma coluna. Por exemplo, iremos agrupar aqui todos os dados de acordo com o condado e iremos somar os valores das outras colunas.

Podemos aplicar diversos cálculos aqui, não apenas a soma dos elementos, como ``count`` e ``mean``. Também é possível aplicar uma operação para cada coluna individualmente (deixo aqui como um exercícios para vocês a pesquisa sobre como realizar essa tarefa).

In [None]:
agrupado_df = df.groupby(by='county').sum()

agrupado_df.head()

### Ordenação

Também é possível ordenar um DataFrame de acordo com os valores de suas colunas. Por exemplo, vamos ordenar nossos dados de acordo com a quantidade de mortes.

In [None]:
agrupado_df.sort_values(by=['deaths'], ascending=False)

### Valores vazios

Há situações em que a nossa base de dados possui alguns dados faltantes ou inválidos. O que representa essa situação é o ``NaN``.

Primeiro, vamos contar quantos valores nulos temos em cada coluna.

In [None]:
df.isna().sum()

A coluna ``fips`` possui 626 entradas inválidas. Vamos dar uma olhada nessas colunas.

In [None]:
df[df['fips'].isnull()]

Realmente temos valores nulos... Como podemos lidar com isso?

Aqui, iremos lidar com três possíveis abordagens:
- Substituir os valores nulos por algum outro valor (zero, a média dos valores existentes etc)
- Remover as linhas que possuem valores nulos
- Remover a coluna que possui valores nulos

A primeira abordagem é extremamente simples. Iremos substituir os valores nulos pela média dos valores encontrados nessa coluna.

In [None]:
media = df['fips'].mean()

media

In [None]:
novo_df = df.fillna(media)

In [None]:
novo_df.isna().sum()

Pronto, já não temos mais nenhum valor nulo.

A segunda abordagem é ainda mais simples.

In [None]:
novo_df = df.dropna()

print(df.shape)
print(novo_df.shape)

In [None]:
novo_df.isna().sum()

Também nos livramos de todos os valores nulos. O problema dessa abordagem é que, caso haja muitos valores nulos, há a possibilidade de ficarmos com poucos dados restantes para trabalhar.

A terceira e última abordagem, por sua vez, é semelhante à segunda e possui as mesmas desvantagens.

In [None]:
novo_df = df.dropna(axis=1)

print(df.shape)
print(novo_df.shape)

In [None]:
novo_df.isna().sum()

### Salvando o DataFrame em um arquivo

Por fim, depois de tanto mexer no nosso DataFrame, vamos salvá-lo em um arquivo.

In [None]:
novo_df.to_csv('data/output.csv', index=False)

## Exercícios

1. Escreva um programa que, dada uma palavra, a armazene em outra variável, porém com seu conteúdo invertido. Imprima-a na tela.

In [None]:
palavra = input('Digite uma palavra: ')

tamanho = len(palavra)
indice_ultima_letra = tamanho - 1

palavra_invertida = ''


for i in range(tamanho):
    letra = palavra[indice_ultima_letra - i]
    palavra_invertida = palavra_invertida + letra
    
print(palavra_invertida)

2. Escreva uma função que receba uma lista como parâmetro de entrada e que imprima na tela todos os valores daquela lista junto com seus respectivos índices. Observação: você pode fazer o código completo ou pode utilizar a função ``enumerate``.

In [None]:
def imprimir(lista):
    indice = 0
    
    for elemento in lista:
        print(f'Indice: {indice}\tValor: {elemento}')
        indice += 1

In [None]:
lista = [5, 8, 10, 12]
imprimir(lista)

3. Escreva uma função que recebe como parâmetros de entrada duas listas. Uma terceira lista deve ser montada e retornada, sendo ela composta pela primeira lista, porém com seu último elemento substituído pelos elementos da segunda lista.

Exemplo:
- Entrada: [1, 3, 5, 7, 9, 10] e [2, 4, 6, 8]
- Saída: [1, 3, 5, 7, 9, 2, 4, 6, 8]

In [None]:
def realizar_troca(lista1, lista2):
    lista3 = lista1
    
    for indice, elemento in enumerate(lista2):
        if indice == 0:
            lista3[-1] = lista2[0]
        else:
            lista3.append(elemento)
            
    return lista3

lista1 = [1, 3, 5, 7, 9, 10]
lista2 = [2, 4, 6, 8]

realizar_troca(lista1, lista2)

4. Escreva uma função que recebe duas tuplas como parâmetro de entrada e retorna uma lista que possui essas duas tuplas.

Exemplo:
- Entrada: (1, 3) e (45, 80, 2)
- Saída: [(1, 3), (45, 80, 2)]

In [None]:
def montar_lista(tupla1, tupla2):
    lista = [tupla1, tupla2]
    
    return lista

montar_lista((1, 3), (45, 80, 2))

5. Escreva uma função que recebe um dicionário e realiza as seguintes tarefas:
- Imprime na tela todas as chaves e seus respectivos valores
- Imprime na tela a quantidade de chaves que aquele dicionário possui
- Retorna "True" caso a chave 'oi' esteja presente no dicionário; "False", caso contrário.

In [None]:
def realizar_tarefa(dicionario):
    chaves = dicionario.keys()
    for chave in chaves:
        print(f'Chave: {chave}\tValor: {dicionario[chave]}')
        
    print(f'Quantidade de chaves: {len(chaves)}')
    
    if 'oi' in chaves:
        return True
    else:
        return False



dicionario = {1: 10,
              2: 20,
              3: 30,
              4: 40,
              5: 50,
              6: 60, 
              'vai': 100}

possui_chave = realizar_tarefa(dicionario)

print(possui_chave)

6. **Neste exercício, será necessário que você exercite suas habilidades de pesquisa, pois algumas tarefas não foram apresentadas na exposição teórica.**

Utilizando o arquivo de exemplo na parte de DataFrames, carregue-o em imprima os seguintes dados na tela:
- O maior valor da coluna ``deaths``
- As linhas que possuem o valor calculado no item anterior
- As linhas que possuem valor de ``deaths`` maior do que metade do valor do primeiro item
- Realize o agrupamento de acordo com a data. Para as colunas ``county`` e ``state``, aplique a operação ``count``; para as demais colunas, aplique ``sum``

In [None]:
df = pd.read_csv('data/us-counties-covid-19-dataset.csv')

df.head()

In [None]:
maximo_deaths = df['deaths'].max()

maximo_deaths

In [None]:
novo_df = df[df['deaths'] == maximo_deaths]

novo_df

In [None]:
novo_df = df[df['deaths'] > maximo_deaths/2]

novo_df

In [None]:
novo_df = df.groupby('date').agg({'county': 'count',
                                  'state': 'count',
                                  'fips': 'sum',
                                  'cases': 'sum',
                                  'deaths': 'sum'})

novo_df