In [1]:
import numpy as np
import pandas as pd
import math

df = pd.read_csv("/kaggle/input/insurance/insurance.csv")
df.head() ## Primeiras 5 linhas da tabela

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [2]:
df.tail() ## Ultimas 5 linhas da tabela

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
1333,50,male,30.97,3,no,northwest,10600.5483
1334,18,female,31.92,0,no,northeast,2205.9808
1335,18,female,36.85,0,no,southeast,1629.8335
1336,21,female,25.8,0,no,southwest,2007.945
1337,61,female,29.07,0,yes,northwest,29141.3603


In [3]:
df.shape ## (QUANTIDADE DE LINHAS, QUANTIDADE DE COLUNAS)

(1338, 7)

In [4]:
df.info() 
## Primeiro, logo após RageIndex, temos o número de observações, i.e. linhas, do DataFrame (1338 entries);
## Em seguida, temos o total de colunas especificado ("total 7 columns");
## Temos listadas todas as colunas, incluindo o número de entrada não-nulas e seu tipo. Veja, a variável age (idade) possui 1338 entradas não-nulas e é do tipo int64. Como temos 1338 observações no conjunto de dados, a variável idade não traz nenhum valor missing. Se tivéssemos 1330 ao invés de 1338, isso indicaria a existência de 8 linhas missing nesta coluna.
## Ao fim da listagem de colunas, temos um resumo dos tipos encontrados: duas colunas float64, duas int64 e 3 do tipo objeto.
## Para fechar, temos a memória utilizada pelo DataFrame, 73.3 KB.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


In [5]:
print(f"Temos {df.shape[0]} linhas e {df.shape[1]} colunas.")

Temos 1338 linhas e 7 colunas.


In [6]:
# Maneiras de Acessar uma coluna
print(df['age']) #Usando colchetes

# Usando notação de ponto
print(df.age)

0       19
1       18
2       28
3       33
4       32
        ..
1333    50
1334    18
1335    18
1336    21
1337    61
Name: age, Length: 1338, dtype: int64
0       19
1       18
2       28
3       33
4       32
        ..
1333    50
1334    18
1335    18
1336    21
1337    61
Name: age, Length: 1338, dtype: int64


In [7]:
# Exibe da linha 3 a 8
df['age'][3:8]

3    33
4    32
5    31
6    46
7    37
Name: age, dtype: int64

In [8]:
# Exibe linha 4
df['age'][4]

32

In [9]:
# Trazendo várias colunas -- Devem ser colocadas dentro de uma lista
df[['age','sex','bmi']]

Unnamed: 0,age,sex,bmi
0,19,female,27.900
1,18,male,33.770
2,28,male,33.000
3,33,male,22.705
4,32,male,28.880
...,...,...,...
1333,50,male,30.970
1334,18,female,31.920
1335,18,female,36.850
1336,21,female,25.800


In [10]:
# Selecionando a primeira linha
df.loc[0]

age                19
sex            female
bmi              27.9
children            0
smoker            yes
region      southwest
charges     16884.924
Name: 0, dtype: object

In [11]:
# Seleciona a linha 0 e 2
df.loc[[0,2]]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
2,28,male,33.0,3,no,southeast,4449.462


In [12]:
# Seleciona a célula 0 da coluna bmi
df.loc[0, 'bmi']

27.9

In [13]:
# Seleciona quem tem mais de 40 anos
df.loc[df['age'] > 40]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
6,46,female,33.44,1,no,southeast,8240.58960
9,60,female,25.84,0,no,northwest,28923.13692
11,62,female,26.29,0,yes,southeast,27808.72510
13,56,female,39.82,0,no,southeast,11090.71780
16,52,female,30.78,1,no,northeast,10797.33620
...,...,...,...,...,...,...,...
1329,52,male,38.60,2,no,southwest,10325.20600
1330,57,female,25.74,2,no,southeast,12629.16560
1332,52,female,44.70,3,no,southwest,11411.68500
1333,50,male,30.97,3,no,northwest,10600.54830


In [14]:
# Seleciona homens acima de 30 anos
df.loc[((df['age'] > 30) & (df['sex'] == 'male'))]

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.880,0,no,northwest,3866.85520
8,37,male,29.830,2,no,northeast,6406.41070
18,56,male,40.300,0,no,southwest,10602.38500
24,37,male,28.025,2,no,northwest,6203.90175
...,...,...,...,...,...,...,...
1324,31,male,25.935,1,no,northwest,4239.89265
1325,61,male,33.535,0,no,northeast,13143.33665
1327,51,male,30.030,1,no,southeast,9377.90470
1329,52,male,38.600,2,no,southwest,10325.20600


In [15]:
# Adiciona colunas
df['Ano_Analise'] = 2023

# Adicionando coluna com condição
df['Cobrança_Abusiva'] = np.where(
    df['charges'] > 20000,
    "Sim",
    "Não"
)

df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,Ano_Analise,Cobrança_Abusiva
0,19,female,27.9,0,yes,southwest,16884.924,2023,Não
1,18,male,33.77,1,no,southeast,1725.5523,2023,Não
2,28,male,33.0,3,no,southeast,4449.462,2023,Não
3,33,male,22.705,0,no,northwest,21984.47061,2023,Sim
4,32,male,28.88,0,no,northwest,3866.8552,2023,Não


In [16]:
# Excluir colunas, -- caso o inplace não seja colocado na função, a coluna não será excluída! 
# Isso porque drop, assim como outras funções modificadoras de DataFrame do Pandas, não alteram o objeto efetivamente, 
# Mas apenas nos dão uma view de como eles são com aquela modificação. --
df.drop(columns="Ano_Analise", inplace=True)
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,Cobrança_Abusiva
0,19,female,27.9,0,yes,southwest,16884.924,Não
1,18,male,33.77,1,no,southeast,1725.5523,Não
2,28,male,33.0,3,no,southeast,4449.462,Não
3,33,male,22.705,0,no,northwest,21984.47061,Sim
4,32,male,28.88,0,no,northwest,3866.8552,Não


In [17]:
# Troca Sim por 1 e Não por 0
df['Cobrança_Abusiva'] = df['Cobrança_Abusiva'].map({
    "Sim":1,
    "Não":0
})

# Cria coluna com valor 2023
df['Ano_Analise'] = 2023

# Atualiza para 2022
df['Ano_Analise'] = 2022

df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges,Cobrança_Abusiva,Ano_Analise
0,19,female,27.9,0,yes,southwest,16884.924,0,2022
1,18,male,33.77,1,no,southeast,1725.5523,0,2022
2,28,male,33.0,3,no,southeast,4449.462,0,2022
3,33,male,22.705,0,no,northwest,21984.47061,1,2022
4,32,male,28.88,0,no,northwest,3866.8552,0,2022


In [18]:
# Mostra o número de observações (linhas) não-nulas em cada coluna do DataFrame
print(df.count())

# Calcula a média aritmética dos valores na coluna 'age'
print(f"Média: {df['age'].mean():.2f}")

# Representa o desvio padrão, que mede a quantidade de variação ou dispersão de um conjunto de valores.

print(f"Desvio padrão: {df['age'].std():.2f}")

# Mostra o percentil de 25% para cada coluna
print(f"Q1: {df['charges'].quantile(0.25):.2f}")

# Mostra o percentil de 50% para cada coluna
print(f"Q2: {df['charges'].quantile(0.5):.2f}")

# Mostra o percentil de 75% para cada coluna
print(f"Q3: {df['charges'].quantile(0.75):.2f}")

# Mostra o percentil de 100% para cada coluna
print(f"Q4: {df['charges'].quantile(1):.2f}")

# Mostra o valor mínimo de cada coluna
print(df.min())

# Mostra o valor máximo de cada coluna
print(df.max())


age                 1338
sex                 1338
bmi                 1338
children            1338
smoker              1338
region              1338
charges             1338
Cobrança_Abusiva    1338
Ano_Analise         1338
dtype: int64
Média: 39.21
Desvio padrão: 14.05
Q1: 4740.29
Q2: 9382.03
Q3: 16639.91
Q4: 63770.43
age                        18
sex                    female
bmi                     15.96
children                    0
smoker                     no
region              northeast
charges             1121.8739
Cobrança_Abusiva            0
Ano_Analise              2022
dtype: object
age                          64
sex                        male
bmi                       53.13
children                      5
smoker                      yes
region                southwest
charges             63770.42801
Cobrança_Abusiva              1
Ano_Analise                2022
dtype: object
