# U.S. Medical Insurance Costs

Para este projeto estaremos investigando um **Dataset de custo de seguro médico**. O arquivo se encontra em .csv e utilizaremos os conceitos de Python para analisá-lo.

### Objetivos do Projeto


1. Importar um dataset no Jupyter Notebook
2. Analisar o dataset utilizando métodos de 'class' e 'functions'
3. Utilizar de livrarias para auxiliar na análise

### 1. Importando livrarias

In [1]:
import csv

### 2. Escopo do projeto

**O que iremos avaliar**

1. Idade média dos pacientes
2. Média dos gastos com seguro médico
3. A região majoritária dos pacientes
4. Diferença de custo entre paciente fumante e não fumante

### 3. Carregando a base de dados

Agora vamos abrir o documento **insurance.csv** e fazer uma leitura deste Dataset.

In [2]:
with open('insurance.csv') as insurance:
    print(insurance.read()[0:321])

age,sex,bmi,children,smoker,region,charges
19,female,27.9,0,yes,southwest,16884.924
18,male,33.77,1,no,southeast,1725.5523
28,male,33,3,no,southeast,4449.462
33,male,22.705,0,no,northwest,21984.47061
32,male,28.88,0,no,northwest,3866.8552
31,female,25.74,0,no,southeast,3756.6216
46,female,33.44,1,no,southeast,8240.5896



Possuimos então os seguintes dados:
* **age** - A idade do paciente (int)
* **sex** - O sexo do paciente (boolean)
* **bmi** - O índice de massa corporal (BMI), provém um entendimento sobre o corpo dado pela fórmula $ BMI = PESO/ALTURA $, a faixa ideal é de 18.5 para 24.9(float)
* **children** - Número de crianças cobertas pelo seguro (int)
* **smoker** - O paciente fuma ou não (boolean)
* **region** - A região do paciente de acordo com o mapa americano (US Geographical Region) (int)
* **charges** - Custo do paciente com seguro médico (float)

### 4. Preparando os dados

In [3]:
#vamos fazer listas para cada termo:
age = []
sex = []
bmi = []
children = []
smoker = []
region = []
charges = []

A criação de listas vazias irá nos ajudar na análise de cada componente individualmente, agora vamos preencher essas listas criando uma função:

In [4]:
# Função para abrir os arquivos e adicionar as listas
def insurance_data(csv_file, list_insurance, column_insurance):
    # Abrir o arquivo csv
    with open(csv_file) as csv_name:
        csv_dict = csv.DictReader(csv_name)
        for row in csv_dict:
            list_insurance.append(row[column_insurance])
        return list_insurance
        

Com a criação da função podemos verificar cada componente, como o dataset é grande, foi colocado # nos prints. 

In [5]:
age_load = insurance_data('insurance.csv', age, 'age')
sex_load = insurance_data('insurance.csv', sex, 'sex')
bmi_load = insurance_data('insurance.csv', bmi, 'bmi')
smoker_load = insurance_data('insurance.csv', smoker, 'smoker')
region_load = insurance_data('insurance.csv', region, 'region')
charges_load = insurance_data('insurance.csv', charges, 'charges')
#print(age_load)
#print(sex_load)
#print(bmi_load)
#print(smoker_load)
#print(region_load)
#print(charges_load)

Agora que já podemos vizualizar os dados separadamente, vamos criar uma classe chamada **Paciente_Info**, que possui os seguintes métodos:
* media_age
* media_insurance
* region_patient
* smoker_patient
* patient_sex

In [6]:
#Criando uma classe
class Paciente_Info:
    # Vamos utilizar o construtor inicial:
    def __init__(self, ages, sexes, bmis, smokers, regions, insurance):
        self.ages = ages
        self.sexes = sexes
        self.bmis = bmis
        self.smokers = smokers
        self.regions = regions
        self.insurance = insurance
    
    # Definir a função para calcular a média da idade dos pacientes
    def media_age(self):
        age_total = 0
        for age in self.ages:
            age_total += int(age)
        return f'A média da idade dos pacientes é de {round(age_total/len(self.ages), 2)}'
    
    # Média dos gastos com seguro médico
    def media_insurance(self):
        insurance_total = 0
        for charges in self.insurance:
            insurance_total += float(charges)
        print(f'A média total de gastos com seguro médico é de {round(insurance_total/len(self.insurance), 2)}')
        print(f'O total de gastos com seguro médico é de {round(insurance_total, 2)}')
    

    # Definir a quantidade de pacientes por região
    def region_patient(self):
        northwest = 0
        southwest = 0
        northeast = 0
        southeast = 0
        for reg in self.regions:    
            if reg == 'northwest':
                northwest += 1
            elif reg == 'southwest':
                southwest += 1
            elif reg == 'northeast':
                northeast += 1
            elif reg == 'southeast':
                southeast += 1
        print('A quantidade de pessoas por região é:')
        print(f'Northwest: {northwest}')
        print(f"Southwest: {southwest}")
        print(f'Northeast: {northeast}')
        print(f'Southeast: {southeast}')
    
    # Diferença entre pacientes fumantes e não fumantes
    def smoker_patient(self):
        smoking_total_yes = 0
        smoking_total_no = 0
        for smok in self.smokers:
            if smok == 'yes':
                smoking_total_yes += 1
            elif smok =='no':
                smoking_total_no += 1
        print(f'A quantidade de pacientes fumantes é de: {smoking_total_yes}')
        print(f'A quantidade de pacientes não fumantes é de: {smoking_total_no}')
        
    # Quantidade de pacientes do sexo masculino e feminino
    def patient_sex(self):
        male = 0
        female = 0
        for sex in self.sexes:
            if sex == 'male':
                male += 1
            elif sex == 'female':
                female += 1
        print(f'A quantidade de pacientes do sexo masculino é de: {male}')
        print(f'A quantidade de pacientes do sexo feminino é de: {female}')
        
    # Criar um dicionário
    def patient_dic(self):
        self.dict = {}
        self.dict['Age'] = self.ages
        self.dict['Sex'] = self.sexes
        self.dict['BMI'] = self.bmis
        self.dict['Smoke'] = self.smokers
        self.dict['Region'] = self.regions
        self.dict['Charge'] = self.insurance
        return self.dict


### 5. Visualizando os resultados

Agora que já definimos todos os parâmetros, vamos começar a levantar hipóteses.

Vamos agora criar uma variável **info_pacientes** para instanciar a classe.

In [7]:
info_pacientes = Paciente_Info(age, sex, bmi, smoker, region, charges)

In [8]:
info_pacientes.media_age()

'A média da idade dos pacientes é de 39.21'

Essa é uma resposta de grande valor, podemos observar que pacientes próximo dos 40 costumam ter seguros médicos, futuramente poderemos tratar melhor com essa informação.

In [9]:
info_pacientes.media_insurance()

A média total de gastos com seguro médico é de 13270.42
O total de gastos com seguro médico é de 17755824.99


Esses valores podem ser úteis em futuras análises, poderemos analisar o impacto do seguro médico com relação a idade dos pacientes, se fumantes costumam ter mais gastos, o quão impactante uma criança pode ser etc.

In [10]:
info_pacientes.region_patient()

A quantidade de pessoas por região é:
Northwest: 325
Southwest: 325
Northeast: 324
Southeast: 364


A região Southeast é a região majoritária dos pacientes, as outras possuem valores similares. Futuramente essa informação poderá ser útil.

In [11]:
info_pacientes.smoker_patient()

A quantidade de pacientes fumantes é de: 274
A quantidade de pacientes não fumantes é de: 1064


In [12]:
print(f' A parcela de pacientes fumantes é de: {round((274/(1064+274)) * 100, 2)}%')
print(f' A parcela de pacientes não fumantes é de: {round((1064/(1064+274)) * 100, 2)}%')

 A parcela de pacientes fumantes é de: 20.48%
 A parcela de pacientes não fumantes é de: 79.52%


Cerca de 20.48% dos pacientes são fumantes.

In [13]:
info_pacientes.patient_sex()

A quantidade de pacientes do sexo masculino é de: 676
A quantidade de pacientes do sexo feminino é de: 662


O dataset apresenta um modelo equilibrado quanto ao sexo dos pacientes. Geralmente é preciso cautela com relação a esses números uma vez que no mundo real os dados nem sempre possuem equilíbrio.

Agora vamos criar um dicionário python para esse DataSet:

In [16]:
dict_pacientes = info_pacientes.patient_dic()
print(dict_pacientes['Age'])

['19', '18', '28', '33', '32', '31', '46', '37', '37', '60', '25', '62', '23', '56', '27', '19', '52', '23', '56', '30', '60', '30', '18', '34', '37', '59', '63', '55', '23', '31', '22', '18', '19', '63', '28', '19', '62', '26', '35', '60', '24', '31', '41', '37', '38', '55', '18', '28', '60', '36', '18', '21', '48', '36', '40', '58', '58', '18', '53', '34', '43', '25', '64', '28', '20', '19', '61', '40', '40', '28', '27', '31', '53', '58', '44', '57', '29', '21', '22', '41', '31', '45', '22', '48', '37', '45', '57', '56', '46', '55', '21', '53', '59', '35', '64', '28', '54', '55', '56', '38', '41', '30', '18', '61', '34', '20', '19', '26', '29', '63', '54', '55', '37', '21', '52', '60', '58', '29', '49', '37', '44', '18', '20', '44', '47', '26', '19', '52', '32', '38', '59', '61', '53', '19', '20', '22', '19', '22', '54', '22', '34', '26', '34', '29', '30', '29', '46', '51', '53', '19', '35', '48', '32', '42', '40', '44', '48', '18', '30', '50', '42', '18', '54', '32', '37', '47', '20

Para analisar todo o dataset basta utilizar o print(dict_pacientes). 
Com a criação deste dicionário teremos uma maior facilidade em análises futuras.