# Introdução ao Pandas

Este notebook complementa o texto de Introdução ao Pandas no Medium. Neste repositório você localiza a base de dados "dividas.csv", que será o nosso objeto de estudos. Siga as instruções abaixo para realizar seus exercícios.

### Referências

Você pode consultar as referências que julgar necessário. Listo algumas úteis:

* http://pandas.pydata.org/pandas-docs/stable/
* https://www.python.org/doc/

### Importar as bibliotecas que serão utilizadas no exercício

In [1]:
import pandas as pd
import cenarios_unittest as testes

### Cenário #01 - Leitura do arquivo CSV

In [2]:
# TODO: crie um dataframe a partir do arquivo "dividas.csv"
df = pd.read_csv('dividas.csv')

# Não altere nada abaixo desta linha
testes.verificar_cenario_01(df)

Parabéns! Os testes passaram.


### Cenário #02 - Extraindo as 5 primeiras linhas do dataframe

In [3]:
# TODO: extraia as cinco primeiras linhas do dataframe
cinco_primeiras_linhas = df.head(5)

# Não altere nada abaixo desta linha
testes.verificar_cenario_02(cinco_primeiras_linhas)

Parabéns! Os testes passaram.


### Cenário #03 - Conversão dos tipos numéricos que estão como string

Crie uma função chamada converter_string_para_float que verifica se o argumento já é do tipo float e o retorna caso positivo. Caso negativo, ele será uma string (ex.: "123,45"; "1.234,56"). Quando for uma string, converta-o para float antes de retornar o valor numérico.

In [4]:
# TODO: retorne o valor float a partir de um argumento que pode ser uma string
def converter_string_para_float(x):
    if type(x) == float:
        return x
    return float(x.replace('.', '').replace(',', '.'))

# Não altere nada abaixo desta linha
testes.verificar_cenario_03(converter_string_para_float)

Parabéns! Os testes passaram.


### Cenário #04 - Aplique a função de conversão nas colunas ValorVencido e ValorPago

Como podemos ver abaixo, as séries ValorVencido e ValorPago são do tipo object. Utilize a função que você criou acima para converter os valores.

In [5]:
df['ValorVencido'].head(5)

0    267,34
1    351,74
2     79,94
3    217,91
4    441,19
Name: ValorVencido, dtype: object

In [6]:
df['ValorPago'].head(5)

0    109,93
1    142,19
2     53,99
3    200,01
4    489,06
Name: ValorPago, dtype: object

In [7]:
# TODO: aplique a função converter_string_para_float e substitua as séries com os novos dados
df['ValorVencido'] = df['ValorVencido'].apply(converter_string_para_float)
df['ValorPago'] = df['ValorPago'].apply(converter_string_para_float)

# Não altere nada abaixo desta linha
testes.verificar_cenario_04(df)

Parabéns! Os testes passaram.


In [8]:
df['ValorVencido'].head(5)

0    267.34
1    351.74
2     79.94
3    217.91
4    441.19
Name: ValorVencido, dtype: float64

In [9]:
df['ValorPago'].head(5)

0    109.93
1    142.19
2     53.99
3    200.01
4    489.06
Name: ValorPago, dtype: float64

### Cenário #05 - Média e Soma

Responda as pergundas abaixo, salvando os valores nas variáveis especificadas.

In [10]:
# TODO: Calcule a média das dívidas e dos pagamentos, e a proporção recebida em relação ao total devido
media_das_dividas = df['ValorVencido'].mean()
media_dos_pagamentos = df['ValorPago'].mean()

total_pago = df['ValorPago'].sum()
total_devido = df['ValorVencido'].sum()

razao_entre_total_pago_e_total_devido = total_pago / total_devido

# Não altere nada abaixo desta linha
testes.verificar_cenario_05("media_das_dividas", media_das_dividas)
testes.verificar_cenario_05("media_dos_pagamentos", media_dos_pagamentos)
testes.verificar_cenario_05("razao_entre_total_pago_e_total_devido", razao_entre_total_pago_e_total_devido)

Parabéns! Os testes passaram.
Parabéns! Os testes passaram.
Parabéns! Os testes passaram.


### Cenário #06 - Separação dos dados entre casados, solteiros e outros

In [11]:
df['EstadoCivil'].value_counts()

CASADO           16337
SOLTEIRO          7558
Outros            5147
SOLTEIRA           164
CASADA              94
Casado              71
Solteiro            52
DIVORCIADA          17
VIUVA                5
DIVORCIADO           3
SOLTERIO             2
Divorciado           2
Viúvo                1
UNIAO ESTAVEL        1
OUTROS               1
SOLITEIRA            1
UNIÃO ESTÁVEL        1
 SOLTEIRO            1
SEPARADA             1
Name: EstadoCivil, dtype: int64

In [12]:
def porcentagem_recebida(dataframe):
    valor_pago = dataframe['ValorPago'].sum()
    valor_recebido = dataframe['ValorVencido'].sum()
    
    return valor_pago / valor_recebido

# TODO: separe os dados do dataframe por estado civil, utilizando apenas as quantidades mais expressivas
casados = df[df.EstadoCivil == 'CASADO']
solteiros = df[df.EstadoCivil == 'SOLTEIRO']
outros = df[df.EstadoCivil == 'Outros']

# TODO: calcule a proporção recebida em relação ao total devido de cada grupo
razao_casados = porcentagem_recebida(casados)
razao_solteiros = porcentagem_recebida(solteiros)
razao_outros = porcentagem_recebida(outros)

# Não altere nada abaixo desta linha
testes.verificar_cenario_06_dataframe("casados", casados)
testes.verificar_cenario_06_dataframe("solteiros", solteiros)
testes.verificar_cenario_06_dataframe("outros", outros)

testes.verificar_cenario_06_razao("casados", razao_casados)
testes.verificar_cenario_06_razao("solteiros", razao_solteiros)
testes.verificar_cenario_06_razao("outros", razao_outros)

Parabéns! Os testes passaram.
Parabéns! Os testes passaram.
Parabéns! Os testes passaram.
Parabéns! Os testes passaram.
Parabéns! Os testes passaram.
Parabéns! Os testes passaram.


# Desafios

Esta nova seção apresenta dois desafios para você exercitar os conceitos aprendidos até aqui. No primeiro, você será avaliado por um caso de teste parecido com o Cenário #06, a diferença é que você utilizará a série Sexo. No segundo desafio, você calculará a mesma razão entre o valor pago e o valor devido entre as décadas, calculada a partir da data de nascimento.

### Desafio #01 - Separação dos dados pela série Sexo

In [13]:
mulheres = df[df.Sexo == 'F']
homens = df[df.Sexo == 'M']

razao_mulheres = porcentagem_recebida(mulheres)
razao_homens = porcentagem_recebida(homens)

# Não altere nada abaixo desta linha
testes.verificar_desafio_01_dataframe("mulheres", mulheres)
testes.verificar_desafio_01_dataframe("homens", homens)

testes.verificar_desafio_01_razao("mulheres", razao_mulheres)
testes.verificar_desafio_01_razao("homens", razao_homens)

Parabéns! Os testes passaram.
Parabéns! Os testes passaram.
Parabéns! Os testes passaram.
Parabéns! Os testes passaram.


### Desafio #02 - Separação dos dados pela década

No nosso dataframe não existe uma série específica para a década, mas existe a data de nascimento e podemos calcular este dado a partir dela. Você vai criar uma função que recebe um inteiro representando o ano e retorna a década (ex.: f(1989) = 80). Com a função pronta, você vai criar uma série chamada Decada. Por fim, você exibirá a razão entre o valor pago e o valor devido para as décadas de 1920 à 2000.

In [14]:
# TODO: Implemente a função década que recebe um inteiro e retorna outro inteiro representando a década
def decada(ano):
    diferenca = ano % 10
    return ano - 1900 - diferenca

# Não altere nada abaixo desta linha
testes.verificar_desafio_02_decada(decada)

Parabéns! Os testes passaram.


In [15]:
# TODO: crie uma série Decada do tipo inteiro, utilizando o campo DataNascimento que é string
# TODO: caso haja algum valor NaN, preencha ele com 0.
def obter_decada(x):
    data = pd.to_datetime(x, errors='ignore')
    try:
        return decada(data.year)
    except Exception:
        return 0

df['Decada'] = df['DataNascimento'].apply(obter_decada)
df['Decada'] = df['Decada'].fillna(0.0)

# Não altere nada abaixo desta linha
testes.verificar_desafio_02_serie_decada(df)

Parabéns! Os testes passaram.


In [17]:
# TODO: calcule a razão entre o valor pago e o valor devido referente a cada década entre 1920 e 2000.
# TODO: crie um dicionário, sendo que a chave é a década e o valor é a razão (ex.: {20: 1.23, 30: 4.56})
dicionario_decadas = {}

for decada in range(20, 101, 10):
    decada_serie = df[df.Decada == decada]
    razao = porcentagem_recebida(decada_serie)
    print('Década', decada, ':', razao)
    dicionario_decadas[decada] = razao

# Não altere nada abaixo desta linha
testes.verificar_desafio_02_razao_decadas(dicionario_decadas)

Década 20 : 1.0
Década 30 : 0.206711340173
Década 40 : 0.439225664299
Década 50 : 0.407360040771
Década 60 : 0.421985946164
Década 70 : 0.480609822825
Década 80 : 0.581209645743
Década 90 : 0.586700556635
Década 100 : 0.202271441987
Parabéns! Os testes passaram.
