### Precisamos antes de tudo, importar a biblioteca. É um padrão abreviar o nome da biblioteca para 'pd' por meio de um alias.

In [1]:
import pandas as pd

# Séries - Análise Unidimensional

### Uma série em pandas representa uma estrutura unidimensional, junto a um índice.

Vamos criar uma série números múltiplos de 10.

In [2]:
serie = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90])

Podemos usar os métodos Head e Tail para ler os primeiros e últimos elementos em uma série

In [3]:
serie.head()

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [4]:
serie.tail()

4    50
5    60
6    70
7    80
8    90
dtype: int64

In [5]:
print(serie)

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64


Em arquivos do tipo ipynb (notebooks), é possível utilizar também o método display para exibir os dados.

In [6]:
display(serie)

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

Podemos acessar elementos da série através dos seus índices, assim como é feito nas listas.

In [7]:
print(serie[3])

40


In [8]:
display(serie[4:7])

4    50
5    60
6    70
dtype: int64

Podemos obter informações estatísticas básicas a partir da série.

In [9]:
serie.describe()

count     9.000000
mean     50.000000
std      27.386128
min      10.000000
25%      30.000000
50%      50.000000
75%      70.000000
max      90.000000
dtype: float64

Média Aritimética (Soma de todos elementos dividido pela quantidade de elementos)

In [10]:
tamanho = serie.size
print(f'Total de Elementos: {tamanho}')

Total de Elementos: 9


In [11]:
media = serie.mean()
print(f'Média: {media}')

Média: 50.0


Maior Valor

In [12]:
maximo = serie.max()
print(f'Maior Valor: {maximo}')

Maior Valor: 90


Menor Valor

In [13]:
minimo = serie.min()
print(f'Menor Valor: {minimo}')

Menor Valor: 10


A Mediana, o elemento localizado no centro ao considerar a série ordenada em ordem crescente.

In [14]:
mediana = serie.median()
print(f'Mediana: {mediana}')

Mediana: 50.0


Vamos adicionar mais um elemento no próximo índice da série

In [15]:
serie[9] = 100
print(serie)

0     10
1     20
2     30
3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64


Se a mediana é o elemento central, como calculá-la em um cojunto de elementos com número de itens par?

In [16]:
mediana = serie.median()
print(f'Mediana: {mediana}')

Mediana: 55.0


É possível realizar ações de filtragem na série

In [17]:
display(serie[serie > 30])

3     40
4     50
5     60
6     70
7     80
8     90
9    100
dtype: int64

In [18]:
display(serie[serie % 3 == 0])

2    30
5    60
8    90
dtype: int64

In [19]:
display(serie[serie > serie.mean()])

5     60
6     70
7     80
8     90
9    100
dtype: int64

Podemos também, aplicar cálculos para todos os elementos das séries

In [20]:
serie_metade = serie/2

display(serie_metade)

0     5.0
1    10.0
2    15.0
3    20.0
4    25.0
5    30.0
6    35.0
7    40.0
8    45.0
9    50.0
dtype: float64

E também fazer operações entre duas séries. Nesse caso, o índice é utilizado como referência para correlacionar os registros

In [21]:
display(serie + serie_metade)

0     15.0
1     30.0
2     45.0
3     60.0
4     75.0
5     90.0
6    105.0
7    120.0
8    135.0
9    150.0
dtype: float64

Se o número de elementos for par, a mediana é a média aritmética dos dois valores centrais.

### Além dos índices numéricos autoincrementais, é possível fornecer um conjunto de índices customizado, que pode ser utilizado para acrescentar informações à análise.

Vamos criar uma série com as temperaturas médias por mês do ano em Petrópolis.

Fonte: https://www.climatempo.com.br/previsao-do-tempo/15-dias/cidade/317/petropolis-rj

In [22]:
temperatura_minima = {'13/05': 13,
                     '14/05': 12,
                     '15/05': 15,
                     '16/05': 14,
                     '17/05': 14,
                     '18/05': 15,
                     '19/05': 14,
                     '20/05': 15,
                     '21/05': 16,
                     '22/05': 16}

In [23]:
temperatura_min = pd.Series(temperatura_minima)

In [24]:
temperatura_min.head()

13/05    13
14/05    12
15/05    15
16/05    14
17/05    14
dtype: int64

In [25]:
temperatura_min.describe()

count    10.000000
mean     14.400000
std       1.264911
min      12.000000
25%      14.000000
50%      14.500000
75%      15.000000
max      16.000000
dtype: float64

Ou até mesmo, acessar diretamente pelos índices

In [26]:
temperatura_min[['14/05','18/05','20/05','22/05']]

14/05    12
18/05    15
20/05    15
22/05    16
dtype: int64

Ainda é possível buscar por posição, através do método iLoc

In [27]:
temperatura_min.iloc[0:3]

13/05    13
14/05    12
15/05    15
dtype: int64

Podemos também usar o método Plot para gerar visualizacoes sobre os dados

In [28]:
temperatura_min.plot()

ImportError: matplotlib is required for plotting when the default backend "matplotlib" is selected.

In [None]:
temperatura_min.plot(kind='bar')

## **Prática**

A partir do conjunto de dados de temperaturas mínimas do exemplo, junto ao conjunto de dados a seguir de temperaturas máximas, mais as regras de negócios fornecidas resolva a seguinte questão. Utilize Series Pandas e demais conhecimentos de python aprendidos.

Seu objetivo é ajudar um turista a planejar quais roupas deverá usar ou levar ao sair de casa para passar um dia inteiro de outono em Petrópolis, as regras são as seguintes:


*   **Casaco**: se a temperatura mínima do dia for menor que 16ºc
*   **Gorro**: se a temperatura mínima do dia for menor que a média de temperaturas mínimas
*   **Mochila**: quando a amplitude térmica for maior ou igual a 5ºc, será necessário levar uma mochila para guardar as roupas de frio
*   **Bermuda**: Se a temperatura máxima for pelo menos 22ºc e a mínima for acima das médias de temperaturas mínimas
*   **Luvas**: Se a temperatura mínima for a menor do período analisado


####*Amplitude Térmica*: Diferença entre a maior a menor temperatura em um período analisado. Nesse caso, estamos analisando por dia. (Máxima Dia - Mínima Dia)
####*Efeito Chuva*: Se chover, a sensação térmica ficará menor, com isso, todas as temperaturas serão consideradas 2ºc menores, tanto para máximas quanto para mínimas.


**Crie scripts para responder as seguintes questões**

1.   Se as temperaturas mínimas e máximas oscilarem 1ºc para cima em todos os dias, quantos dias o turista será recomendado a usar bermuda?
2.   Em quais dias será necessário levar mochila?
3.   Em algum dos dias o Turista será indicado a usar tanto bermuda quanto luvas?
4.   Quais serão os itens indicados para o dia 17/05?
5.   Em quais dias, que normalmente não necessitariam o uso de casaco, o item passaria a ser necessário em caso de chuva?
6.   Gere um gráfico com a evolução da amplitude térmica.
7.   Gere um gráfico que retorne quantas vezes cada item será utilizado.

In [None]:
temperatura_maxima = {'13/05': 21,
                     '14/05': 20,
                     '15/05': 21,
                     '16/05': 22,
                     '17/05': 23,
                     '18/05': 22,
                     '19/05': 23,
                     '20/05': 23,
                     '21/05': 25,
                     '22/05': 25}

# DataFrames

### Assim como nas seríes é possível usar as estruturas comuns da linguagem para a criação dos DataFrames. Também é possível importar de arquivos (txt, csv, excel, etc) ou da Web.

In [29]:
#Campos: ID da Transação, Codigo Cliente, Modelo, Data do Aluguel, Data de Devolução, Valor Locacao, Taxa Administrativa

alugueis = [
    (1, 1023, "Onix", "2025-01-05", "2025-01-10", 1250.00, "R$ 150,00"),
    (2, 1045, "HB20", "2025-01-07", "2025-01-12", 1400.00, "R$ 150,00"),
    (3, 1102, "Tracker", "2025-01-10", "2025-01-15", 1750.50, "R$ 200,00"),
    (4, 1150, "T-Cross", "2025-01-12", "2025-01-16", 1120.75, "R$ 200,00"),
    (5, 1201, "Civic", "2025-01-15", "2025-01-17", 800.00, "R$ 250,00"),
    (6, 1254, "Civic", "2025-01-18", "2025-01-31", 4525.25, "R$ 250,00"),
    (7, 1300, "L200", "2025-01-20", "2025-01-29", 4875.00, "R$ 300,00"),
    (8, 1356, "Compass", "2025-01-22", "2025-01-28", 3400.60, "R$ 400,00"),
    (9, 1025, "Onix", "2025-02-01", "2025-02-05", 1000.00, "R$ 150,00"),
    (10, 1023, "HB20", "2025-02-03", "2025-02-07", 1120.00, "R$ 150,00"),
    (11, 1122, "Tracker", "2025-02-05", "2025-02-07", 425.75, "R$ 200,00"),
    (12, 1177, "T-Cross", "2025-02-08", "2025-02-12", 1240.50, "R$ 200,00"),
    (13, 1225, "Civic", "2025-02-10", "2025-02-15", 1750.00, "R$ 250,00"),
    (14, 1270, "Civic", "2025-02-12", "2025-02-17", 2000.00, "R$ 250,00"),
    (15, 1300, "L200", "2025-02-14", "2025-02-15", 500.00, "R$ 300,00"),
    (16, 1375, "Compass", "2025-02-16", "2025-02-21", 3600.00, "R$ 400,00"),
    (17, 1005, "Onix", "2025-02-18", "2025-02-19", 400.00, "R$ 150,00"),
    (18, 1150, "Tracker", "2025-02-20", "2025-02-25", 1925.00, "R$ 250,00"),
    (19, 1105, "T-Cross", "2025-02-22", "2025-02-26", 1300.00, "R$ 200,00"),
    (20, 1023, "Civic", "2025-02-20", "2025-02-28", 3850.00, "R$ 250,00")
]

### Com isso, conseguimos instanciar a classe Dataframe, a partir da leitura do CSV. A partir de agora, os dados estão disponíveis para serem trabalhados em memória.

In [30]:
df = pd.DataFrame(alugueis)

In [31]:
df.to_csv('alugueis_carros.csv', index= False, header = False)

In [32]:
df.tail()

Unnamed: 0,0,1,2,3,4,5,6
15,16,1375,Compass,2025-02-16,2025-02-21,3600.0,"R$ 400,00"
16,17,1005,Onix,2025-02-18,2025-02-19,400.0,"R$ 150,00"
17,18,1150,Tracker,2025-02-20,2025-02-25,1925.0,"R$ 250,00"
18,19,1105,T-Cross,2025-02-22,2025-02-26,1300.0,"R$ 200,00"
19,20,1023,Civic,2025-02-20,2025-02-28,3850.0,"R$ 250,00"


In [33]:
df = pd.read_csv('alugueis_carros.csv',header=None)

In [34]:
display(df)

Unnamed: 0,0,1,2,3,4,5,6
0,1,1023,Onix,2025-01-05,2025-01-10,1250.0,"R$ 150,00"
1,2,1045,HB20,2025-01-07,2025-01-12,1400.0,"R$ 150,00"
2,3,1102,Tracker,2025-01-10,2025-01-15,1750.5,"R$ 200,00"
3,4,1150,T-Cross,2025-01-12,2025-01-16,1120.75,"R$ 200,00"
4,5,1201,Civic,2025-01-15,2025-01-17,800.0,"R$ 250,00"
5,6,1254,Civic,2025-01-18,2025-01-31,4525.25,"R$ 250,00"
6,7,1300,L200,2025-01-20,2025-01-29,4875.0,"R$ 300,00"
7,8,1356,Compass,2025-01-22,2025-01-28,3400.6,"R$ 400,00"
8,9,1025,Onix,2025-02-01,2025-02-05,1000.0,"R$ 150,00"
9,10,1023,HB20,2025-02-03,2025-02-07,1120.0,"R$ 150,00"


Podemos incluir o nome das colunas, já na criação do DataFrame

In [35]:
df = pd.DataFrame(alugueis, columns=[
    "id_transacao", "cod_cliente", "modelo", "data_aluguel", "data_devolucao", "valor_locacao", "taxa_administrativa"
])

In [36]:
df.head(10)

Unnamed: 0,id_transacao,cod_cliente,modelo,data_aluguel,data_devolucao,valor_locacao,taxa_administrativa
0,1,1023,Onix,2025-01-05,2025-01-10,1250.0,"R$ 150,00"
1,2,1045,HB20,2025-01-07,2025-01-12,1400.0,"R$ 150,00"
2,3,1102,Tracker,2025-01-10,2025-01-15,1750.5,"R$ 200,00"
3,4,1150,T-Cross,2025-01-12,2025-01-16,1120.75,"R$ 200,00"
4,5,1201,Civic,2025-01-15,2025-01-17,800.0,"R$ 250,00"
5,6,1254,Civic,2025-01-18,2025-01-31,4525.25,"R$ 250,00"
6,7,1300,L200,2025-01-20,2025-01-29,4875.0,"R$ 300,00"
7,8,1356,Compass,2025-01-22,2025-01-28,3400.6,"R$ 400,00"
8,9,1025,Onix,2025-02-01,2025-02-05,1000.0,"R$ 150,00"
9,10,1023,HB20,2025-02-03,2025-02-07,1120.0,"R$ 150,00"


### Podemos utilizar alguns métodos para explorar e entender melhor o conjunto de dados.

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id_transacao         20 non-null     int64  
 1   cod_cliente          20 non-null     int64  
 2   modelo               20 non-null     object 
 3   data_aluguel         20 non-null     object 
 4   data_devolucao       20 non-null     object 
 5   valor_locacao        20 non-null     float64
 6   taxa_administrativa  20 non-null     object 
dtypes: float64(1), int64(2), object(4)
memory usage: 1.2+ KB


In [38]:
df.describe()

Unnamed: 0,id_transacao,cod_cliente,valor_locacao
count,20.0,20.0,20.0
mean,10.5,1161.55,1911.6675
std,5.91608,119.370928,1373.165751
min,1.0,1005.0,400.0
25%,5.75,1040.0,1090.0
50%,10.5,1150.0,1350.0
75%,15.25,1258.0,2350.15
max,20.0,1375.0,4875.0


In [39]:
df[['modelo','valor_locacao']].head(15)

Unnamed: 0,modelo,valor_locacao
0,Onix,1250.0
1,HB20,1400.0
2,Tracker,1750.5
3,T-Cross,1120.75
4,Civic,800.0
5,Civic,4525.25
6,L200,4875.0
7,Compass,3400.6
8,Onix,1000.0
9,HB20,1120.0


### Mesmo em conjuntos de dados simples, podemos descobrir informações valiosas manipulando os dados.

In [40]:
df.groupby('modelo')['valor_locacao'].mean()

modelo
Civic      2585.050000
Compass    3500.300000
HB20       1260.000000
L200       2687.500000
Onix        883.333333
T-Cross    1220.416667
Tracker    1367.083333
Name: valor_locacao, dtype: float64

Um tratamento comum de ser feito é a alteração de tipagens de dados

In [41]:
df['data_aluguel'] = pd.to_datetime(df['data_aluguel'], format='%Y-%m-%d')
df['data_devolucao'] = pd.to_datetime(df['data_devolucao'], format='%Y-%m-%d')

Podemos incluir a informação de duração prevista do aluguel

In [42]:
df['duracao_dias'] = (df['data_devolucao'] - df['data_aluguel']).dt.days

In [43]:
df.head(20)

Unnamed: 0,id_transacao,cod_cliente,modelo,data_aluguel,data_devolucao,valor_locacao,taxa_administrativa,duracao_dias
0,1,1023,Onix,2025-01-05,2025-01-10,1250.0,"R$ 150,00",5
1,2,1045,HB20,2025-01-07,2025-01-12,1400.0,"R$ 150,00",5
2,3,1102,Tracker,2025-01-10,2025-01-15,1750.5,"R$ 200,00",5
3,4,1150,T-Cross,2025-01-12,2025-01-16,1120.75,"R$ 200,00",4
4,5,1201,Civic,2025-01-15,2025-01-17,800.0,"R$ 250,00",2
5,6,1254,Civic,2025-01-18,2025-01-31,4525.25,"R$ 250,00",13
6,7,1300,L200,2025-01-20,2025-01-29,4875.0,"R$ 300,00",9
7,8,1356,Compass,2025-01-22,2025-01-28,3400.6,"R$ 400,00",6
8,9,1025,Onix,2025-02-01,2025-02-05,1000.0,"R$ 150,00",4
9,10,1023,HB20,2025-02-03,2025-02-07,1120.0,"R$ 150,00",4


In [44]:
df['valor_dia'] = (df['valor_locacao'] / df['duracao_dias']).round(2)

In [45]:
df.head()

Unnamed: 0,id_transacao,cod_cliente,modelo,data_aluguel,data_devolucao,valor_locacao,taxa_administrativa,duracao_dias,valor_dia
0,1,1023,Onix,2025-01-05,2025-01-10,1250.0,"R$ 150,00",5,250.0
1,2,1045,HB20,2025-01-07,2025-01-12,1400.0,"R$ 150,00",5,280.0
2,3,1102,Tracker,2025-01-10,2025-01-15,1750.5,"R$ 200,00",5,350.1
3,4,1150,T-Cross,2025-01-12,2025-01-16,1120.75,"R$ 200,00",4,280.19
4,5,1201,Civic,2025-01-15,2025-01-17,800.0,"R$ 250,00",2,400.0


In [46]:
df.groupby('modelo')['valor_dia'].mean()

modelo
Civic      395.870000
Compass    643.385000
HB20       280.000000
L200       520.835000
Onix       300.000000
T-Cross    305.103333
Tracker    315.993333
Name: valor_dia, dtype: float64

## **Prática**

A partir do conteúdo apresentado sobre DataFrames, Séries e demais conhecimentos em Python. Utilize o conjunto de dados sobre locação veiculas abordado até aqui e responda as seguintes perguntas. Se necessário, faça tratamentos de manipulações no DataFrame.

### **Regras:**

**Classificação da duração do aluguel:**

*   **Curta** - Até 3 dias
*   **Média** - 4-7
*   **Longa** - Acima de 7 dias


**Valor Total:**

*   Soma do Total do Aluguel com a Taxa Administrativa

*Repare que o campo da Taxa Administrativa precisa ser tratado para poder ser utilizado como um campo numérico*

**Definição do Impacto das Taxas Administrativas na Composição do Preço:**

*   **Baixa** - Menos de 8% do Valor Total
*   **Média** - Entre 8% e 15% do Valor Total
*   **Alta** - Acima de 15% do Valor Total

**Desconto:**

*   Os descontos são aplicados após o cálculo do valor total. Existem 2 tipos de desconto, e eles são acumulativos.

1.   Desconto de Taxa: Caso a Classificação de Impacto das Taxas seja **Alta**, será ofertado um desconto que subtraído do valor da taxa, a deixe no patamar de 15%.
2.   Desconto de Duração: Será ofertado um desconto de **8%** para locações de duração **Média** e **12%** para locações de duração **Longa**.
3.   Desconto Total: Desconto de Duração + Desconto de Taxa.

*Formate com 2 casas decimais*

**Valor Final:**

*   Total - Desconto de Taxa - Desconto de Duração

**Percentual de Desconto:**

*   1 - (valor_final/valor_inicial)

*Formate com 1 casa decimal*

**Crie scripts para responder as seguintes questões**



1.    Qual é a proporção (%) de contratos curtos, médios e longos no período analisado?
2.   Quem são os três clientes (Código Cliente) que mais geraram receita total no período? Quanto (R$) cada um gastou?
3.   Calcule o total de desconto concedido pode modelo de carro.
4.   Ordene os aluguéis por % de desconto
5.   Calcule o Total de Diárias e o valor médio de diária por mês de aluguel (data_aluguel)
6.   Bônus: Exporte um Excel com todos os campos originais, além das informações enriquecidas: Classificador de Duração, Desconto Total, Valor Final e Percentual de Desconto.




