# Coletando os dados

In [1]:
# abrir a conexao com o banco de dados
import sqlite3
import pandas as pd

In [2]:
# abrindo a conexão com o banco de dados
conn = sqlite3.connect( "database.db" )

In [3]:
# coletando os dados
consulta_atividade = """
SELECT *
FROM
flight_activity fa LEFT JOIN flight_loyalty_history flh
ON (fa.loyalty_number = flh.loyalty_number )
"""

In [4]:
# executando a consulta
df_atividade = pd.read_sql_query( consulta_atividade, conn )

# Inspecionando a planilha de dados

In [5]:
# verificando a quantidade de linhas
numero_linhas = df_atividade.shape[0]
print( 'O numero de linhas eh:', numero_linhas )

O numero de linhas eh: 405624


In [6]:
# verificando a quantidade de colunas
numero_colunas = df_atividade.shape[1]
print( 'O numero de linhas eh:', numero_linhas )

O numero de linhas eh: 405624


In [7]:
# descobrindo as informacoes gerais sobre a planilha de dados
df_atividade.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 405624 entries, 0 to 405623
Data columns (total 26 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   loyalty_number               405624 non-null  int64  
 1   year                         405624 non-null  int64  
 2   month                        405624 non-null  int64  
 3   flights_booked               405624 non-null  int64  
 4   flights_with_companions      405624 non-null  int64  
 5   total_flights                405624 non-null  int64  
 6   distance                     405624 non-null  int64  
 7   points_accumulated           405624 non-null  float64
 8   points_redeemed              405624 non-null  int64  
 9   dollar_cost_points_redeemed  405624 non-null  int64  
 10  loyalty_number               405624 non-null  int64  
 11  country                      405624 non-null  object 
 12  province                     405624 non-null  object 
 13 

In [8]:
# Somar a colunas "total_flights"
df_atividade.loc[:, 'total_flights'].sum()

2087689

In [9]:
# Somar a colunas "distance"
df_atividade.loc[:, 'distance'].mean()

1208.880058872256

In [10]:
# Valor mínimo de salário
df_atividade.loc[:, 'distance'].min()

0

In [11]:
# Valor máximo de salário
df_atividade.loc[:, 'distance'].max()

6293

In [12]:
# checando o número de dados faltante nas colunas
df_atividade.isna().sum()

loyalty_number                      0
year                                0
month                               0
flights_booked                      0
flights_with_companions             0
total_flights                       0
distance                            0
points_accumulated                  0
points_redeemed                     0
dollar_cost_points_redeemed         0
loyalty_number                      0
country                             0
province                            0
city                                0
postal_code                         0
gender                              0
education                           0
salary                         102672
marital_status                      0
loyalty_card                        0
clv                                 0
enrollment_type                     0
enrollment_year                     0
enrollment_month                    0
cancellation_year              355560
cancellation_month             355560
dtype: int64

#### Qual o valor da soma total da distância percorrida pelos voos registrados na planilha de dados?

In [13]:
# Somar a colunas "distance"
df_atividade.loc[:, "distance"].sum()

490350765

#### Qual o salário médio dos passageiros?

In [14]:
# Somar a colunas "distance"
df_atividade.loc[:, 'salary'].mean()

79268.82595262615

#### Qual o valor total de pontos acumulados?

In [15]:
# Somar a colunas "distance"
df_atividade.loc[:, 'points_accumulated'].sum()

50172736.25

## Seleção de linhas e colunas

In [16]:
# Selecionar os números do cartão de fidelidade dos passeiros, a cidade e o gênero, dos passageiros que tem o
# cartão Star de fidelidade, mas nunca realizaram nenhuma viagem de avião ( Atenção: “loyalty_card” = “Star” e
# “distance” = 0 )

consulta_atividade = """
SELECT
    fa.loyalty_number,
    flh.city,
    flh.gender,
    flh.loyalty_card
FROM
    flight_activity fa LEFT JOIN flight_loyalty_history flh
    ON (fa.loyalty_number = flh.loyalty_number)
WHERE
    fa.distance = 0 AND flh.loyalty_card = "Star"
"""
df_atividade = pd.read_sql_query(consulta_atividade, conn)

df_atividade.head()

Unnamed: 0,loyalty_number,city,gender,loyalty_card
0,480934,Toronto,Female,Star
1,480934,Toronto,Female,Star
2,480934,Toronto,Female,Star
3,480934,Toronto,Female,Star
4,549612,Edmonton,Male,Star


In [17]:
# Selecionar os números do cartão de fidelidade, o gênero e a cidade de todos os passageiros do sexo feminino que
# moram na cidade de Toronto, fizeram mais de 30 viagens no total e tem o cartão de fidelidade do tipo Aurora.

consulta_atividade = """
SELECT
    fa.loyalty_number,
    fa.total_flights,
    flh.city,
    flh.gender,
    flh.loyalty_card
FROM 
    flight_activity fa LEFT JOIN flight_loyalty_history flh
    ON (fa.loyalty_number = flh.loyalty_number)
WHERE
    flh.gender = "Female"
    AND flh.city = "Toronto"
    AND fa.total_flights = 30
    AND flh.loyalty_card = "Aurora"
    """
df_atividade = pd.read_sql_query(consulta_atividade, conn)

df_atividade.head()

Unnamed: 0,loyalty_number,total_flights,city,gender,loyalty_card
0,896861,30,Toronto,Female,Aurora
1,442792,30,Toronto,Female,Aurora
2,856496,30,Toronto,Female,Aurora
3,615411,30,Toronto,Female,Aurora


In [18]:
# Selecionar os números do cartão de fidelidade, o tipo do cartão, o genero e os pontos acumulados, dos passageiros
# com salário acima de 13200, estado civil como casado e nível acadêmico como mestrado e número de voos
# agendados igual ao número total de voos.

consulta_atividade = """
SELECT
    fa.loyalty_number,
    flh.loyalty_card,
    flh.gender,
    fa.points_accumulated
FROM
    flight_activity fa LEFT JOIN flight_loyalty_history flh
    ON(fa.loyalty_number = flh.loyalty_number)
WHERE
    flh.salary > 132000
    AND flh.marital_status = "Married"
    AND flh.education = "Master"
    AND ( fa.total_flights = fa.flights_booked )
"""
df_atividade = pd.read_sql_query(consulta_atividade, conn)

df_atividade.head()

Unnamed: 0,loyalty_number,loyalty_card,gender,points_accumulated
0,410982,Star,Male,0.0
1,410982,Star,Male,0.0
2,410982,Star,Male,0.0
3,410982,Star,Male,0.0
4,410982,Star,Male,0.0


In [19]:
# Selecionar os números do cartão de fidelidade, o tipo do cartão, o genero e os pontos acumulados, dos passageiros
# com salário acima de 13200, estado civil como casado e nível acadêmico como mestrado e número de voos
# agendados igual ao número total de voos.

consulta_atividade = """
SELECT
    fa.loyalty_number,
    flh.loyalty_card,
    flh.gender,
    fa.points_accumulated
FROM
    flight_activity fa LEFT JOIN flight_loyalty_history flh
    ON ( fa.loyalty_number = flh.loyalty_number )
WHERE
    flh.salary > 132000
    AND flh.marital_status = "Married"
    AND flh.education = "Master"
    AND ( fa.total_flights = fa.flights_booked )
    """
df_atividade = pd.read_sql_query(consulta_atividade, conn)

df_atividade.head()

Unnamed: 0,loyalty_number,loyalty_card,gender,points_accumulated
0,410982,Star,Male,0.0
1,410982,Star,Male,0.0
2,410982,Star,Male,0.0
3,410982,Star,Male,0.0
4,410982,Star,Male,0.0


In [20]:
# fecha a conexao com o banco de dados
conn.close()