In [1]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns 
import plotly.express as px




## Processando os Dados Fedesoriano

#### Importação dos dados

In [2]:
df=pd.read_csv("healthcare-dataset-stroke-data.csv")  #importa o arquivo .csv para um dataframe

In [3]:
df.head()

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,9046,Male,67.0,0,1,Yes,Private,Urban,228.69,36.6,formerly smoked,1
1,51676,Female,61.0,0,0,Yes,Self-employed,Rural,202.21,,never smoked,1
2,31112,Male,80.0,0,1,Yes,Private,Rural,105.92,32.5,never smoked,1
3,60182,Female,49.0,0,0,Yes,Private,Urban,171.23,34.4,smokes,1
4,1665,Female,79.0,1,0,Yes,Self-employed,Rural,174.12,24.0,never smoked,1


In [4]:
result = df.dtypes

print("Output:")
print(result)

Output:
id                     int64
gender                object
age                  float64
hypertension           int64
heart_disease          int64
ever_married          object
work_type             object
Residence_type        object
avg_glucose_level    float64
bmi                  float64
smoking_status        object
stroke                 int64
dtype: object


* gender = Gênero

* age = Idade

* hypertension = Hipertensão

* ever_married = Já foi casado

* work_type = Tipo de emprego

* Residence_type = rural ou urbano

* avg_glucose_level = média glicêmica do paciente

* bmi = ìndice de massa corporal(IMC)

* smoking_status = Fumante

* stroke = sofreu Derrame/AVC (variável alvo)

#### Análise de inconsistência de dados

In [5]:
df.describe()  #análise simples das características gerais do conjunto de dados númericos

Unnamed: 0,id,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke
count,5110.0,5110.0,5110.0,5110.0,5110.0,4909.0,5110.0
mean,36517.829354,43.226614,0.097456,0.054012,106.147677,28.893237,0.048728
std,21161.721625,22.612647,0.296607,0.226063,45.28356,7.854067,0.21532
min,67.0,0.08,0.0,0.0,55.12,10.3,0.0
25%,17741.25,25.0,0.0,0.0,77.245,23.5,0.0
50%,36932.0,45.0,0.0,0.0,91.885,28.1,0.0
75%,54682.0,61.0,0.0,0.0,114.09,33.1,0.0
max,72940.0,82.0,1.0,1.0,271.74,97.6,1.0


In [6]:
df.isnull().sum()  #análise dos números faltantes dentro de cada coluna

id                     0
gender                 0
age                    0
hypertension           0
heart_disease          0
ever_married           0
work_type              0
Residence_type         0
avg_glucose_level      0
bmi                  201
smoking_status         0
stroke                 0
dtype: int64

Existem 201 linhas cujo valor de 'bmi' não foi preenchido. Representa cerca de 4% das linhas totais dos dados.

In [7]:
df = df[df['bmi'].notna()] # Seleciona um novo dataset eliminando as linhas onde BMI era faltante

In [8]:
df.describe()

Unnamed: 0,id,age,hypertension,heart_disease,avg_glucose_level,bmi,stroke
count,4909.0,4909.0,4909.0,4909.0,4909.0,4909.0,4909.0
mean,37064.313506,42.865374,0.091872,0.049501,105.30515,28.893237,0.042575
std,20995.098457,22.555115,0.288875,0.216934,44.424341,7.854067,0.201917
min,77.0,0.08,0.0,0.0,55.12,10.3,0.0
25%,18605.0,25.0,0.0,0.0,77.07,23.5,0.0
50%,37608.0,44.0,0.0,0.0,91.68,28.1,0.0
75%,55220.0,60.0,0.0,0.0,113.57,33.1,0.0
max,72940.0,82.0,1.0,1.0,271.74,97.6,1.0


In [9]:
df.isnull().sum()  #verificação se as linhas faltantes foram eliminadas

id                   0
gender               0
age                  0
hypertension         0
heart_disease        0
ever_married         0
work_type            0
Residence_type       0
avg_glucose_level    0
bmi                  0
smoking_status       0
stroke               0
dtype: int64

In [10]:
df.columns

Index(['id', 'gender', 'age', 'hypertension', 'heart_disease', 'ever_married',
       'work_type', 'Residence_type', 'avg_glucose_level', 'bmi',
       'smoking_status', 'stroke'],
      dtype='object')

In [11]:
for a in df.columns.drop(['id', 'age', 'avg_glucose_level', 'bmi']):          #análise das opções de resposta das colunas discretas
    print (df[a].value_counts())
    print ('-----------------')

Female    2897
Male      2011
Other        1
Name: gender, dtype: int64
-----------------
0    4458
1     451
Name: hypertension, dtype: int64
-----------------
0    4666
1     243
Name: heart_disease, dtype: int64
-----------------
Yes    3204
No     1705
Name: ever_married, dtype: int64
-----------------
Private          2811
Self-employed     775
children          671
Govt_job          630
Never_worked       22
Name: work_type, dtype: int64
-----------------
Urban    2490
Rural    2419
Name: Residence_type, dtype: int64
-----------------
never smoked       1852
Unknown            1483
formerly smoked     837
smokes              737
Name: smoking_status, dtype: int64
-----------------
0    4700
1     209
Name: stroke, dtype: int64
-----------------


Aqui percebemos outra inconsistência: na coluna sobre o status de fumante existem 1483 status "Unknown", ou seja, não se sabe se são ou não fumantes. É um caso de dado faltante.

Também existe uma linha onde o gênero da pessoa é 'Outro', por ser apenas um dado será eliminado.

In [12]:
df = df[(df['gender']!='Other')]

In [13]:
df['age'].value_counts().sort_index()

0.08      2
0.16      3
0.24      5
0.32      5
0.40      2
         ..
78.00    93
79.00    77
80.00    67
81.00    60
82.00    55
Name: age, Length: 104, dtype: int64

Existem alguns valores que não eram esperados, tais como valores decimais para idade ou idades extremamente baixas como menores de 5 anos de idade;

In [14]:
df['avg_glucose_level'].value_counts().sort_index()

55.12     1
55.22     1
55.23     1
55.25     1
55.26     1
         ..
266.59    1
267.60    1
267.61    1
267.76    1
271.74    1
Name: avg_glucose_level, Length: 3851, dtype: int64

Valores de glicemia entre 55 e 272, valores válidos e plausíveis;

In [15]:
df['bmi'].value_counts().sort_index()

10.3    1
11.3    1
11.5    1
12.0    1
12.3    1
       ..
66.8    1
71.9    1
78.0    1
92.0    1
97.6    1
Name: bmi, Length: 418, dtype: int64

Podem parecer absurdos os dados de IMC próximos ao valor 100 entretanto, tais valores não são impossíveis, visto que o maior IMC registrado foi de Eman Ahmed Abd El Aty com 251.1.


Para fins de comparação, uma pessoa de 1,75 de altura com 90 de IMC pesaria cerca de 275kg.


Também seriam estranhos os dados de IMC próximos de 10 caso não houvessem crianças nesse dataset, mas é plenamente possível que uma criança obtenha esse valor. 



In [16]:
df.loc[df['bmi']<=13].sort_values('bmi')

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
1609,38043,Female,1.24,0,0,No,children,Rural,122.04,10.3,Unknown,0
3307,3205,Female,79.0,0,0,Yes,Self-employed,Urban,79.03,11.3,Unknown,0
2187,59993,Male,40.0,0,0,Yes,Private,Rural,60.96,11.5,never smoked,0
657,20364,Female,4.0,0,0,No,children,Urban,107.25,12.0,Unknown,0
922,45893,Female,8.0,0,0,No,children,Urban,106.51,12.3,Unknown,0
3319,53924,Female,1.08,0,0,No,children,Urban,159.39,12.8,Unknown,0
3968,41500,Male,0.16,0,0,No,children,Rural,69.79,13.0,Unknown,0


A suspeita de que existem crianças ocupando as faixas de menor IMC se confirmam com 5 crianças entre os 7 menores valores. Entretanto também existem dois adultos com IMC extremamente baixo. Provavelmente deve se tratar de alguma condição excepcional e devemos considerar esses valores como normais.

## Análise exploratória dos dados Fedesoriano

Nessa seção realiza-se análises dos dados e relaciona-se cada variável com a variável alvo

In [17]:
df_copy = df.copy()

#### Variáveis categóricas

Antes de analisarmos os dados, será criada uma coluna referente às comorbidades do AVC, definidas pela OMS:


* Hipertensão;


* Dislipidemia(Infelizmente, não está presente nesses dados);


* Uso de tabaco;


* Diabéticos > 126 mg/dL glicemia;


* Obesidade IMC > 30;



Além disso, também serão consideradas comorbidades:


* Idade > 65 anos para mulheres;

* Idade > 55 anos para homens;

* Doenças cardíacas (heart_disease);


In [18]:
df_copy['Comorbidades'] = 0
df_copy['Comorbidades'].loc[df_copy['hypertension']== 1] += 1 
df_copy['Comorbidades'].loc[df_copy['smoking_status']=='smokes'] += 1 
df_copy['Comorbidades'].loc[df_copy['avg_glucose_level']>126] += 1 
df_copy['Comorbidades'].loc[df_copy['bmi']>30] += 1 
df_copy['Comorbidades'].loc[df_copy['heart_disease']==1] += 1 
df_copy['Comorbidades'].loc[(df_copy['age']>=55) & (df_copy['gender']=='Male')] += 1
df_copy['Comorbidades'].loc[(df_copy['age']>=65) & (df_copy['gender']=='Female')] += 1



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_

In [19]:
df_copy['Comorbidades'].value_counts()

0    1754
1    1592
2     971
3     409
4     152
5      29
6       1
Name: Comorbidades, dtype: int64

In [20]:
df_export = df_copy.copy()

In [21]:
df_copy['stroke'] = df_copy['stroke'].replace({1: 'Sim', 0: 'Não'})
stroke_counts = df_copy['stroke'].value_counts().reset_index()
stroke_counts.columns = ['AVC', 'Quantidade']
custom_colors = ['#1837c4', '#bd1919'] 
fig = px.pie(stroke_counts, names='AVC', values='Quantidade',
             title='Prevalência de AVC na amostra',
             color_discrete_sequence=custom_colors,
             hole=0.2
             )

fig.update_layout(title_text='Prevalência de AVC na amostra', title_x=0.5)


fig.show()

##### Gênero

In [22]:
df_copy['gender'] = df_copy['gender'].replace({'Male': 'Homem', 'Female': 'Mulher'})

In [23]:
#custom_colors = ['#1837c4', '#bd1919'] 

dfg=df_copy.groupby(['gender','stroke']).count().reset_index()
dfg['count'] = dfg['id']
dfg['percentual'] = df_copy.groupby(['gender','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfg, y="gender", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfg['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "gender": "Gênero"},   
             title="Prevalência do AVC por gênero")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Pode-se perceber que o banco de dados é formado majoritariamente por mulheres e que a prevalência do AVC é maior dentro do público masculino(4,43%) contra 4,14% das mulheres.

##### Idade

In [24]:

fig = px.histogram(df_copy, x="age", color="stroke",
                   color_discrete_map={
                      "Não": "#1837c4",
                      "Sim": "#bd1919"},
                   labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "age": "Idade"},   
                    text_auto=True,
                    title="Prevalência do AVC por idade")

fig.update_traces(xbins=dict( # bins used for histogram
        start=0.0,
        end=90.0,
        size=15
    ))
fig.update_layout(bargap=0.1)
fig.update_traces(textposition='outside')
#fig.update_layout(yaxis_range=[0,1250])  # Não
#fig.update_layout(yaxis_range=[0,90])  # Sim

fig.show()

Nesse gráfico observa-se 1 AVC na faixa de 0-14 anos, nenhum entre 15-29, 7 AVCs entre 30-44 e todos os demais nas faixas etárias superiores.

In [25]:
df_copy.loc[(df_copy['age']<=44) & (df_copy['stroke']=='Sim')]

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
31,33879,Homem,42.0,0,0,Yes,Private,Rural,83.41,25.4,Unknown,Sim,0
49,36338,Mulher,39.0,1,0,Yes,Private,Rural,58.09,39.2,smokes,Sim,3
79,42117,Homem,43.0,0,0,Yes,Self-employed,Urban,143.43,45.9,Unknown,Sim,2
118,31720,Mulher,38.0,0,0,No,Self-employed,Urban,82.28,24.0,formerly smoked,Sim,0
182,39912,Mulher,32.0,0,0,Yes,Private,Rural,76.13,29.9,smokes,Sim,1
210,33943,Mulher,39.0,0,0,Yes,Private,Urban,83.24,26.3,never smoked,Sim,0
228,31154,Mulher,39.0,0,0,Yes,Self-employed,Urban,97.76,29.6,smokes,Sim,1
245,49669,Mulher,14.0,0,0,No,children,Rural,57.93,30.9,Unknown,Sim,1


Embora jovens, cinco dessas oito pessoas possuiam comorbidades relacionadas ao AVC

##### Hipertensão

In [26]:
df_copy['hypertension'] = df_copy['hypertension'].replace({1: 'Sim', 0: 'Não'})

custom_colors = ['#1837c4', '#bd1919'] 

dft=df_copy.groupby(['hypertension','stroke']).count().reset_index()
dft['count'] = dft['id']
dft['percentual'] = df_copy.groupby(['hypertension','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dft, y="hypertension", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dft['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "hypertension": "Hipertensão"},   
             title="Prevalência do AVC entre hipertensos")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()


Pode-se perceber uma forte prevalência do AVC entre os hipertensos se comparados aos não-hipertensos.

* Nesse conjunto de dados a chance de se ter um AVC é cerca de 4 vezes maior se o paciente for hipertenso.

##### Doenças cardíacas

In [27]:
df_copy['heart_disease'] = df_copy['heart_disease'].replace({1: 'Sim', 0: 'Não'})

custom_colors = ['#1837c4', '#bd1919'] 

dfc=df_copy.groupby(['heart_disease','stroke']).count().reset_index()
dfc['count'] = dfc['id']
dfc['percentual'] = df_copy.groupby(['heart_disease','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfc, y="heart_disease", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfc['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "heart_disease": "Doença Cardíaca"},   
             title="Prevalência do AVC entre portadores de doenças cardíacas")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()


Embora não tenham sido explicitamente citadas pela World Health Organization, as doenças cardíacas aumentaram o risco do paciente nesse conjunto de dados em 4,5 vezes.

##### Casados

In [28]:
df_copy['ever_married'] = df_copy['ever_married'].replace({'Yes': 'Sim', 'No': 'Não'})

custom_colors = ['#1837c4', '#bd1919'] 

dfm=df_copy.groupby(['ever_married','stroke']).count().reset_index()
dfm['count'] = dfm['id']
dfm['percentual'] = df_copy.groupby(['ever_married','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfm, y="ever_married", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfm['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "ever_married": "Casou ao menos uma vez"},   
             title="Prevalência do AVC entre Casados")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()


Embora não aparente ter relação direta com o fato em si, aqueles que nunca foram casados sofreram com infarto em apenas 1,35% das vezes, enquanto os casados infartaram em 5,81% dos casos;

In [29]:
df_export['ever_married'] = df_export['ever_married'].replace({'Yes': 1, 'No': 0})
df_export


Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,9046,Male,67.0,0,1,1,Private,Urban,228.69,36.6,formerly smoked,1,4
2,31112,Male,80.0,0,1,1,Private,Rural,105.92,32.5,never smoked,1,3
3,60182,Female,49.0,0,0,1,Private,Urban,171.23,34.4,smokes,1,3
4,1665,Female,79.0,1,0,1,Self-employed,Rural,174.12,24.0,never smoked,1,3
5,56669,Male,81.0,0,0,1,Private,Urban,186.21,29.0,formerly smoked,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Female,13.0,0,0,0,children,Rural,103.08,18.6,Unknown,0,0
5106,44873,Female,81.0,0,0,1,Self-employed,Urban,125.20,40.0,never smoked,0,2
5107,19723,Female,35.0,0,0,1,Self-employed,Rural,82.99,30.6,never smoked,0,1
5108,37544,Male,51.0,0,0,1,Private,Rural,166.29,25.6,formerly smoked,0,1


##### Tipo de emprego

In [30]:
df_copy['work_type'] = df_copy['work_type'].replace({'Private': 'Empresa_Privada', 'Self-employed': 'Autonomo', 'children':'Criança', 'Govt_job':'Funcionário_Público', 'Never_worked':'Desempregado'})


In [31]:
dfj=df_copy.groupby(['work_type','stroke']).count().reset_index()
dfj['count'] = dfj['id']
dfj['percentual'] = df_copy.groupby(['work_type','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfj, y="work_type", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfj['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "work_type": "Tipo de emprego"},   
             title="Prevalência do AVC por tipo de emprego")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

In [32]:
df_copy

Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,9046,Homem,67.0,Não,Sim,Sim,Empresa_Privada,Urban,228.69,36.6,formerly smoked,Sim,4
2,31112,Homem,80.0,Não,Sim,Sim,Empresa_Privada,Rural,105.92,32.5,never smoked,Sim,3
3,60182,Mulher,49.0,Não,Não,Sim,Empresa_Privada,Urban,171.23,34.4,smokes,Sim,3
4,1665,Mulher,79.0,Sim,Não,Sim,Autonomo,Rural,174.12,24.0,never smoked,Sim,3
5,56669,Homem,81.0,Não,Não,Sim,Empresa_Privada,Urban,186.21,29.0,formerly smoked,Sim,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Mulher,13.0,Não,Não,Não,Criança,Rural,103.08,18.6,Unknown,Não,0
5106,44873,Mulher,81.0,Não,Não,Sim,Autonomo,Urban,125.20,40.0,never smoked,Não,2
5107,19723,Mulher,35.0,Não,Não,Sim,Autonomo,Rural,82.99,30.6,never smoked,Não,1
5108,37544,Homem,51.0,Não,Não,Sim,Empresa_Privada,Rural,166.29,25.6,formerly smoked,Não,1


Entre as opções, deve-se lembrar que criança não é um emprego e sim um indicativo da idade da pessoa portanto, conforme já havia sido mostrado, pessoas jovens tem pouca probabilidade de sofrer um acidente vascular cerebral. Além disso, existem poucos desempregados nessa base de dados, fato que invalida a percepção de que desempregados nunca sofrem desse mal.

Entre as opções válidas, aqueles que trabalham em empresas privadas ou como funcionários públicos possuem probabilidade parecida de sofrer derrame. Aqueles que trabalham como autônomos apresentaram probabilidade cerca de 50% maior de ter AVC, provavelmente devido ao estresse maior por parte desses profissionais.

In [33]:
df_export['work_type'] = df_copy['work_type']
df_export = df_export.loc[df_export['work_type']!="Desempregado"]
df_export


Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,9046,Male,67.0,0,1,1,Empresa_Privada,Urban,228.69,36.6,formerly smoked,1,4
2,31112,Male,80.0,0,1,1,Empresa_Privada,Rural,105.92,32.5,never smoked,1,3
3,60182,Female,49.0,0,0,1,Empresa_Privada,Urban,171.23,34.4,smokes,1,3
4,1665,Female,79.0,1,0,1,Autonomo,Rural,174.12,24.0,never smoked,1,3
5,56669,Male,81.0,0,0,1,Empresa_Privada,Urban,186.21,29.0,formerly smoked,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Female,13.0,0,0,0,Criança,Rural,103.08,18.6,Unknown,0,0
5106,44873,Female,81.0,0,0,1,Autonomo,Urban,125.20,40.0,never smoked,0,2
5107,19723,Female,35.0,0,0,1,Autonomo,Rural,82.99,30.6,never smoked,0,1
5108,37544,Male,51.0,0,0,1,Empresa_Privada,Rural,166.29,25.6,formerly smoked,0,1


##### Tipo de residência

In [34]:
dfr=df_copy.groupby(['Residence_type','stroke']).count().reset_index()
dfr['count'] = dfr['id']
dfr['percentual'] = df_copy.groupby(['Residence_type','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfr, y="Residence_type", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfr['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "Residence_type": "Tipo de residência"},   
             title="Prevalência do AVC por tipo de Residência")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Não é vista diferença significativa entre aqueles que moram em ambiente rural ou urbano. 

Era plausível esperar que as diferenças entre os hábitos das pessoas nesses diferentes ambientes fosse refletir na prevalência do AVC nessas populações, entretanto a diferença foi de 4,38% dos urbanos contra 4,14% dos que vivem em ambiente rural.

In [35]:
df_export.drop(['Residence_type'],axis=1, inplace=True)
df_export



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,9046,Male,67.0,0,1,1,Empresa_Privada,228.69,36.6,formerly smoked,1,4
2,31112,Male,80.0,0,1,1,Empresa_Privada,105.92,32.5,never smoked,1,3
3,60182,Female,49.0,0,0,1,Empresa_Privada,171.23,34.4,smokes,1,3
4,1665,Female,79.0,1,0,1,Autonomo,174.12,24.0,never smoked,1,3
5,56669,Male,81.0,0,0,1,Empresa_Privada,186.21,29.0,formerly smoked,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Female,13.0,0,0,0,Criança,103.08,18.6,Unknown,0,0
5106,44873,Female,81.0,0,0,1,Autonomo,125.20,40.0,never smoked,0,2
5107,19723,Female,35.0,0,0,1,Autonomo,82.99,30.6,never smoked,0,1
5108,37544,Male,51.0,0,0,1,Empresa_Privada,166.29,25.6,formerly smoked,0,1


##### Índice glicêmico/diabetes

In [36]:
df_copy['diabetes'] = 0
df_copy['diabetes'].loc[df_copy['avg_glucose_level']>=126] += 1
df_copy['diabetes'] = df_copy['diabetes'].replace({1: 'Sim', 0: 'Não'})
df_copy
 



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes
0,9046,Homem,67.0,Não,Sim,Sim,Empresa_Privada,Urban,228.69,36.6,formerly smoked,Sim,4,Sim
2,31112,Homem,80.0,Não,Sim,Sim,Empresa_Privada,Rural,105.92,32.5,never smoked,Sim,3,Não
3,60182,Mulher,49.0,Não,Não,Sim,Empresa_Privada,Urban,171.23,34.4,smokes,Sim,3,Sim
4,1665,Mulher,79.0,Sim,Não,Sim,Autonomo,Rural,174.12,24.0,never smoked,Sim,3,Sim
5,56669,Homem,81.0,Não,Não,Sim,Empresa_Privada,Urban,186.21,29.0,formerly smoked,Sim,2,Sim
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Mulher,13.0,Não,Não,Não,Criança,Rural,103.08,18.6,Unknown,Não,0,Não
5106,44873,Mulher,81.0,Não,Não,Sim,Autonomo,Urban,125.20,40.0,never smoked,Não,2,Não
5107,19723,Mulher,35.0,Não,Não,Sim,Autonomo,Rural,82.99,30.6,never smoked,Não,1,Não
5108,37544,Homem,51.0,Não,Não,Sim,Empresa_Privada,Rural,166.29,25.6,formerly smoked,Não,1,Sim


In [37]:
dfd=df_copy.groupby(['diabetes','stroke']).count().reset_index()
dfd['count'] = dfd['id']
dfd['percentual'] = df_copy.groupby(['diabetes','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfd, y="diabetes", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfd['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "diabetes": "Diabetes"},   
             title="Prevalência do AVC entre diabéticos")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

A prevalência de derrames em diabéticos é maior no grupo de pessoas que tem diabetes (considerada aqui glicemia acima de 126mg/dL). Cerca de 8,5% dos diabéticos tiveram acidentes vascular cerebral enquanto esse valor para não diabéticos foi de 3.1%.

In [38]:
df_export['diabetes'] = 0
df_export['diabetes'].loc[df_export['avg_glucose_level']>=120] += 1
df_export



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes
0,9046,Male,67.0,0,1,1,Empresa_Privada,228.69,36.6,formerly smoked,1,4,1
2,31112,Male,80.0,0,1,1,Empresa_Privada,105.92,32.5,never smoked,1,3,0
3,60182,Female,49.0,0,0,1,Empresa_Privada,171.23,34.4,smokes,1,3,1
4,1665,Female,79.0,1,0,1,Autonomo,174.12,24.0,never smoked,1,3,1
5,56669,Male,81.0,0,0,1,Empresa_Privada,186.21,29.0,formerly smoked,1,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Female,13.0,0,0,0,Criança,103.08,18.6,Unknown,0,0,0
5106,44873,Female,81.0,0,0,1,Autonomo,125.20,40.0,never smoked,0,2,1
5107,19723,Female,35.0,0,0,1,Autonomo,82.99,30.6,never smoked,0,1,0
5108,37544,Male,51.0,0,0,1,Empresa_Privada,166.29,25.6,formerly smoked,0,1,1


A coluna diabetes vai se manter para o dataframe que será exportado para os próximos notebooks;

##### Índice de Massa Corporal (IMC)

In [39]:
df_copy['obesidade'] = 0
df_copy['obesidade'].loc[df_copy['bmi']>=30] += 1
df_copy['obesidade'] = df_copy['obesidade'].replace({1: 'Sim', 0: 'Não'})



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [40]:

fig = px.histogram(df_copy, x="bmi", color="stroke",
                   color_discrete_map={
                      "Sim": "#bd1919",
                      "Não": "#1837c4"},
                   labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "bmi": "IMC"},   
                    text_auto=True,
                    log_y=True,
                    title="Prevalência do AVC por Índice de Massa Corporal")

fig.update_traces(xbins=dict( # bins used for histogram
        start=10,
        end=100,
        size=10
    ))
fig.update_layout(bargap=0.1)
fig.update_traces(textposition='outside')
#fig.update_layout(yaxis_range=[0,4])  # Não

fig.show()

O gráfico acima está em escala logarítmica para facilitar a visualização.  Ao contrário do indicado pela WHO, a obesidade não se mostrou fator determinante do derrame na população analisada. O gráfico abaixo trata obesidade como variável categórica em vez de IMC como variável numérica;

In [41]:
dfo=df_copy.groupby(['obesidade','stroke']).count().reset_index()
dfo['count'] = dfd['id']
dfo['percentual'] = df_copy.groupby(['obesidade','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfo, y="obesidade", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfo['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "obesidade": "Obesidade"},   
             title="Prevalência do AVC entre obesos")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Novamente, a diferença não se mostrou na mesma ordem de grandeza que as outras variáveis como doenças cardíacas, diabetes e hipertensão.

In [42]:
df_export['obesidade'] = 0
df_export['obesidade'].loc[df_export['bmi']>=30] += 1
df_export



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes,obesidade
0,9046,Male,67.0,0,1,1,Empresa_Privada,228.69,36.6,formerly smoked,1,4,1,1
2,31112,Male,80.0,0,1,1,Empresa_Privada,105.92,32.5,never smoked,1,3,0,1
3,60182,Female,49.0,0,0,1,Empresa_Privada,171.23,34.4,smokes,1,3,1,1
4,1665,Female,79.0,1,0,1,Autonomo,174.12,24.0,never smoked,1,3,1,0
5,56669,Male,81.0,0,0,1,Empresa_Privada,186.21,29.0,formerly smoked,1,2,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Female,13.0,0,0,0,Criança,103.08,18.6,Unknown,0,0,0,0
5106,44873,Female,81.0,0,0,1,Autonomo,125.20,40.0,never smoked,0,2,1,1
5107,19723,Female,35.0,0,0,1,Autonomo,82.99,30.6,never smoked,0,1,0,1
5108,37544,Male,51.0,0,0,1,Empresa_Privada,166.29,25.6,formerly smoked,0,1,1,0


##### Fumantes

In [43]:
df_copy['smoking_status'] = df_copy['smoking_status'].replace({'never smoked': 'Nunca Fumou', 'Unknown': 'Desconhecido', 'formerly smoked':'Fumava', 'smokes':'Fuma'})

In [44]:
dff=df_copy.groupby(['smoking_status','stroke']).count().reset_index()
dff['count'] = dff['id']
dff['percentual'] = df_copy.groupby(['smoking_status','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dff, y="smoking_status", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dff['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência do AVC entre fumantes")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Ao que tudo indica, fumar aumenta a probabilidade de que uma pessoa sofra um derrame. Entretanto o grupo com maior prevalência foi o grupo daqueles que pararam de fumar (6,82%), seguido dos fumantes (5,29%), depois dos Não Fumantes (4,54%) e por último, daqueles que preferiram não informar (1,96%). Seria razoável inferir que a maioria desses que não informaram não são fumantes, gerando esse novo gráfico:

In [106]:
df_copy['smoking_status'].value_counts()

Nunca Fumou     1852
Desconhecido    1483
Fumava           836
Fuma             737
Name: smoking_status, dtype: int64

In [112]:
below18 = df_copy[df_copy['age']<19]

In [113]:
below18['smoking_status'].value_counts()

Desconhecido    693
Nunca Fumou     163
Fumava           26
Fuma             13
Name: smoking_status, dtype: int64

In [45]:
df_copy2 = df_copy.copy()
df_copy2['smoking_status'] = df_copy2['smoking_status'].replace({'Desconhecido': 'Nunca Fumou', 'Fumava': 'Fuma ou Fumava', 'Fuma': 'Fuma ou Fumava'})

dff2=df_copy2.groupby(['smoking_status','stroke']).count().reset_index()
dff2['count'] = dff2['id']
dff2['percentual'] = df_copy2.groupby(['smoking_status','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dff2, y="smoking_status", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dff2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "Infarto",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência de infarto entre fumantes (desconhecidos nunca fumaram)")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

In [46]:
df_export['smoking_status'] = df_copy2['smoking_status']



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



##### Comorbidades

A coluna de comorbidades foi criada utilizando os fatores de risco citados pela World Health Organization somados à fatores de idade e doenças cardíacas.

In [47]:
df_copy['Comorbidades'].value_counts()

0    1754
1    1592
2     971
3     409
4     152
5      29
6       1
Name: Comorbidades, dtype: int64

In [100]:
dfz=df_copy.groupby(['Comorbidades','stroke']).count().reset_index()
dfz['count'] = dfz['id']
dfz['percentual'] = df_copy.groupby(['Comorbidades','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfz.sort_index(ascending=False), x="Comorbidades", y='percentual',  color="stroke", orientation="v", hover_name="stroke",
             text=dfz['percentual'].sort_index(ascending=False).apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência do AVC de acordo com o somatório de fatores de risco")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')
fig.update_layout(barmode="relative")
fig.update_layout(yaxis_range=[0,108])  




fig.show()

In [49]:
dfz=df_copy.groupby(['Comorbidades','stroke']).count().reset_index()
dfz['count'] = dfz['id']
dfz['percentual'] = df_copy.groupby(['Comorbidades','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfz.sort_index(ascending=False), x="Comorbidades", y='count',  color="stroke", orientation="v", hover_name="stroke",
             text=dfz['percentual'].sort_index(ascending=False).apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência do AVC de acordo com o somatório de comorbidades")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')
fig.update_layout(barmode="relative")
#fig.update_layout(yaxis_range=[0,108])  




fig.show()

A variável 'Comorbidades' retrata perfeitamente o que se espera dela, houve um aumento exponencial do risco do paciente conforme acumula um número maior de comorbidades.

#### Export

In [50]:
df_export['gender'] = df_export['gender'].replace({'Male': 'Masculino', 'Female': 'Feminino'})
df_export



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,gender,age,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes,obesidade
0,9046,Masculino,67.0,0,1,1,Empresa_Privada,228.69,36.6,Fuma ou Fumava,1,4,1,1
2,31112,Masculino,80.0,0,1,1,Empresa_Privada,105.92,32.5,Nunca Fumou,1,3,0,1
3,60182,Feminino,49.0,0,0,1,Empresa_Privada,171.23,34.4,Fuma ou Fumava,1,3,1,1
4,1665,Feminino,79.0,1,0,1,Autonomo,174.12,24.0,Nunca Fumou,1,3,1,0
5,56669,Masculino,81.0,0,0,1,Empresa_Privada,186.21,29.0,Fuma ou Fumava,1,2,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5104,14180,Feminino,13.0,0,0,0,Criança,103.08,18.6,Nunca Fumou,0,0,0,0
5106,44873,Feminino,81.0,0,0,1,Autonomo,125.20,40.0,Nunca Fumou,0,2,1,1
5107,19723,Feminino,35.0,0,0,1,Autonomo,82.99,30.6,Nunca Fumou,0,1,0,1
5108,37544,Masculino,51.0,0,0,1,Empresa_Privada,166.29,25.6,Fuma ou Fumava,0,1,1,0


In [51]:
df_export.to_csv('df_export.csv')

## Processando os Dados Team Incribo

#### Importação dos dados

In [52]:
df2=pd.read_csv("stroke_prediction_dataset.csv")  #importa o arquivo .csv para um dataframe

In [53]:
df2.head()

Unnamed: 0,Patient ID,Patient Name,Age,Gender,Hypertension,Heart Disease,Marital Status,Work Type,Residence Type,Average Glucose Level,...,Alcohol Intake,Physical Activity,Stroke History,Family History of Stroke,Dietary Habits,Stress Levels,Blood Pressure Levels,Cholesterol Levels,Symptoms,Diagnosis
0,18153,Mamooty Khurana,56,Male,0,1,Married,Self-employed,Rural,130.91,...,Social Drinker,Moderate,0,Yes,Vegan,3.48,140/108,"HDL: 68, LDL: 133","Difficulty Speaking, Headache",Stroke
1,62749,Kaira Subramaniam,80,Male,0,0,Single,Self-employed,Urban,183.73,...,Never,Low,0,No,Paleo,1.73,146/91,"HDL: 63, LDL: 70","Loss of Balance, Headache, Dizziness, Confusion",Stroke
2,32145,Dhanush Balan,26,Male,1,1,Married,Never Worked,Rural,189.0,...,Rarely,High,0,Yes,Paleo,7.31,154/97,"HDL: 59, LDL: 95","Seizures, Dizziness",Stroke
3,6154,Ivana Baral,73,Male,0,0,Married,Never Worked,Urban,185.29,...,Frequent Drinker,Moderate,0,No,Paleo,5.35,174/81,"HDL: 70, LDL: 137","Seizures, Blurred Vision, Severe Fatigue, Head...",No Stroke
4,48973,Darshit Jayaraman,51,Male,1,1,Divorced,Self-employed,Urban,177.34,...,Rarely,Low,0,Yes,Pescatarian,6.84,121/95,"HDL: 65, LDL: 68",Difficulty Speaking,Stroke


In [54]:
result2 = df2.dtypes

print("Output:")
print(result2)

Output:
Patient ID                    int64
Patient Name                 object
Age                           int64
Gender                       object
Hypertension                  int64
Heart Disease                 int64
Marital Status               object
Work Type                    object
Residence Type               object
Average Glucose Level       float64
Body Mass Index (BMI)       float64
Smoking Status               object
Alcohol Intake               object
Physical Activity            object
Stroke History                int64
Family History of Stroke     object
Dietary Habits               object
Stress Levels               float64
Blood Pressure Levels        object
Cholesterol Levels           object
Symptoms                     object
Diagnosis                    object
dtype: object


* Patient ID                =   ID
* Patient Name              =   Nome
* Age                       =   Idade
* Gender                    =   Gênero
* Hypertension              =   Hipertensão
* Heart Disease             =   Doença Cardíaca
* Marital Status            =   Estado Civil
* Work Type                 =   Tipo de emprego
* Residence Type            =   Tipo de residência
* Average Glucose Level     =   Média Glicêmica
* Body Mass Index (BMI)     =   IMC
* Smoking Status            =   Fumante
* Alcohol Intake            =   Frequência consumo alcoolico
* Physical Activity         =   Intensidade atividade física
* Stroke History            =   Histórico de AVC
* Family History of Stroke  =   Histórico familiar de AVC
* Dietary Habits            =   Tipo de Dieta
* Stress Levels             =   Nível de estresse
* Blood Pressure Levels     =   Pressão Sanguínea
* Cholesterol Levels        =   Nível de Colesterol
* Symptoms                  =   Sintomas
* Diagnosis                 =   Diagnóstico

#### Análise de inconsistência de dados

In [55]:
df2.describe()  #análise simples das características gerais do conjunto de dados númericos

Unnamed: 0,Patient ID,Age,Hypertension,Heart Disease,Average Glucose Level,Body Mass Index (BMI),Stroke History,Stress Levels
count,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0,15000.0
mean,49715.802867,54.035667,0.249,0.502933,129.445209,27.474302,0.500267,5.022694
std,29000.656642,21.063111,0.432448,0.500008,40.487792,7.230201,0.500017,2.873223
min,1.0,18.0,0.0,0.0,60.0,15.01,0.0,0.0
25%,24562.0,36.0,0.0,0.0,94.5175,21.16,0.0,2.54
50%,49448.0,54.0,0.0,1.0,128.9,27.42,1.0,5.05
75%,75112.0,72.0,0.0,1.0,164.5925,33.72,1.0,7.52
max,99975.0,90.0,1.0,1.0,200.0,40.0,1.0,10.0


In [56]:
df2.isnull().sum()  #análise dos números faltantes dentro de cada coluna

Patient ID                     0
Patient Name                   0
Age                            0
Gender                         0
Hypertension                   0
Heart Disease                  0
Marital Status                 0
Work Type                      0
Residence Type                 0
Average Glucose Level          0
Body Mass Index (BMI)          0
Smoking Status                 0
Alcohol Intake                 0
Physical Activity              0
Stroke History                 0
Family History of Stroke       0
Dietary Habits                 0
Stress Levels                  0
Blood Pressure Levels          0
Cholesterol Levels             0
Symptoms                    2500
Diagnosis                      0
dtype: int64

Por se tratar de uma base de dados sintética, existem poucos problemas em relação aos dados ausentes

In [57]:
df2.columns

Index(['Patient ID', 'Patient Name', 'Age', 'Gender', 'Hypertension',
       'Heart Disease', 'Marital Status', 'Work Type', 'Residence Type',
       'Average Glucose Level', 'Body Mass Index (BMI)', 'Smoking Status',
       'Alcohol Intake', 'Physical Activity', 'Stroke History',
       'Family History of Stroke', 'Dietary Habits', 'Stress Levels',
       'Blood Pressure Levels', 'Cholesterol Levels', 'Symptoms', 'Diagnosis'],
      dtype='object')

Serão descartados os atributos que não estão presentes no primeiro dataset, para que seja possível realizar uma análise conjunta de ambos conjuntos de dados

In [58]:
reduced_df2 = df2.drop(columns=['Patient Name',  'Alcohol Intake', 'Physical Activity', 'Stroke History',
                  'Family History of Stroke', 'Dietary Habits', 'Stress Levels',
                  'Blood Pressure Levels', 'Cholesterol Levels', 'Symptoms'], axis=1, inplace= False)  #elimina columnas extras do dataset sintético

In [59]:
reduced_df2.columns

Index(['Patient ID', 'Age', 'Gender', 'Hypertension', 'Heart Disease',
       'Marital Status', 'Work Type', 'Residence Type',
       'Average Glucose Level', 'Body Mass Index (BMI)', 'Smoking Status',
       'Diagnosis'],
      dtype='object')

In [60]:
renamed_df2 = reduced_df2.rename(columns={'Patient ID':'id', 'Age':'age', 'Gender':'gender', 'Hypertension': 'hypertension', 'Heart Disease': 'heart_disease', 
                            'Marital Status': 'ever_married', 'Work Type': 'work_type', 'Residence Type':'Residence_type',
                            'Average Glucose Level':'avg_glucose_level', 'Body Mass Index (BMI)': 'bmi','Smoking Status':'smoking_status', 
                             'Diagnosis':'stroke'})

In [61]:
renamed_df2.columns

Index(['id', 'age', 'gender', 'hypertension', 'heart_disease', 'ever_married',
       'work_type', 'Residence_type', 'avg_glucose_level', 'bmi',
       'smoking_status', 'stroke'],
      dtype='object')

In [62]:
for a in renamed_df2.columns.drop(['id', 'age', 'avg_glucose_level', 'bmi']):          #análise das opções de resposta das colunas discretas
    print (renamed_df2[a].value_counts())
    print ('-----------------')

Male      7622
Female    7378
Name: gender, dtype: int64
-----------------
0    11265
1     3735
Name: hypertension, dtype: int64
-----------------
1    7544
0    7456
Name: heart_disease, dtype: int64
-----------------
Single      5156
Divorced    4980
Married     4864
Name: ever_married, dtype: int64
-----------------
Private           3863
Self-employed     3855
Government Job    3710
Never Worked      3572
Name: work_type, dtype: int64
-----------------
Rural    7529
Urban    7471
Name: Residence_type, dtype: int64
-----------------
Currently Smokes    5011
Non-smoker          5009
Formerly Smoked     4980
Name: smoking_status, dtype: int64
-----------------
No Stroke    7532
Stroke       7468
Name: stroke, dtype: int64
-----------------


In [103]:
renamed_df2.drop(columns=['id', 'hypertension', 'heart_disease']).describe()

Unnamed: 0,age,avg_glucose_level,bmi
count,15000.0,15000.0,15000.0
mean,54.035667,129.445209,27.474302
std,21.063111,40.487792,7.230201
min,18.0,60.0,15.01
25%,36.0,94.5175,21.16
50%,54.0,128.9,27.42
75%,72.0,164.5925,33.72
max,90.0,200.0,40.0


In [63]:
renamed_df2['age'].value_counts().sort_index()

18    200
19    194
20    221
21    199
22    206
     ... 
86    213
87    186
88    212
89    232
90    197
Name: age, Length: 73, dtype: int64

Idades entre 18 a 90 anos

In [64]:
renamed_df2['avg_glucose_level'].value_counts().sort_index()

60.00     1
60.02     1
60.03     2
60.04     1
60.05     1
         ..
199.95    2
199.96    2
199.97    1
199.98    1
200.00    1
Name: avg_glucose_level, Length: 9215, dtype: int64

Valores de glicemia entre 60 e 200, valores válidos e plausíveis, entretanto para 15000 entradas seria esperado encontrar amplitude maior entre os valores.

In [65]:
renamed_df2['bmi'].value_counts().sort_index()

15.01    4
15.02    5
15.03    7
15.04    7
15.05    6
        ..
39.96    3
39.97    7
39.98    7
39.99    7
40.00    3
Name: bmi, Length: 2490, dtype: int64

Valores de IMC variando entre 15 e 40, normais


Por se tratar de uma base de dados sintética, os valores dos atributos são bem homogêneos

## Análise exploratória dos dados Team Incribo

Nessa seção realiza-se análises dos dados e relaciona-se cada variável com a variável alvo

In [66]:
df_copy_incribo = renamed_df2.copy()

#### Variáveis categóricas

Antes de analisarmos os dados, será criada uma coluna referente às comorbidades do AVC, definidas pela OMS:


* Hipertensão;


* Hiperlipidemia(estava originalmente presente nos dados Incribo, mas foi eliminado pois não está presente nos dados com pacientes reais)


* Uso de tabaco;


* Diabéticos > 120mg/dL glicemia;


* Obesidade IMC > 30;



Além disso, também serão consideradas comorbidades:


* Idade > 65 anos para mulheres;

* Idade > 55 anos para homens;

* Doenças cardíacas (heart_disease);


In [67]:
df_copy_incribo['Comorbidades'] = 0
df_copy_incribo['Comorbidades'].loc[df_copy_incribo['hypertension']== 1] += 1 
df_copy_incribo['Comorbidades'].loc[df_copy_incribo['smoking_status']=='smokes'] += 1 
df_copy_incribo['Comorbidades'].loc[df_copy_incribo['avg_glucose_level']>120] += 1 
df_copy_incribo['Comorbidades'].loc[df_copy_incribo['bmi']>30] += 1 
df_copy_incribo['Comorbidades'].loc[df_copy_incribo['heart_disease']==1] += 1 
df_copy_incribo['Comorbidades'].loc[(df_copy_incribo['age']>=55) & (df_copy_incribo['gender']=='Male')] += 1
df_copy_incribo['Comorbidades'].loc[(df_copy_incribo['age']>=65) & (df_copy_incribo['gender']=='Female')] += 1





A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/i

In [68]:
df_copy_incribo['Comorbidades'].value_counts()

2    5304
3    3961
1    3347
4    1331
0     860
5     197
Name: Comorbidades, dtype: int64

Aqui é observada a primeira diferença entre as fontes de dados, a maior prevalência é de pessoas com 2 e 3 comorbidades, ao contrário de 0 e 1 para a base de dados de pacientes reais

In [69]:
df_export_incribo = df_copy_incribo.copy()

In [70]:
df_copy_incribo['stroke'] = df_copy_incribo['stroke'].replace({1: 'Sim', 0: 'Não'})
stroke_counts = df_copy_incribo['stroke'].value_counts().reset_index()
stroke_counts.columns = ['AVC', 'Quantidade']
custom_colors = ['#1837c4', '#bd1919'] 
fig = px.pie(stroke_counts, names='AVC', values='Quantidade',
             title='Prevalência de AVC na amostra',
             color_discrete_sequence=custom_colors,
             hole=0.2
             )

fig.update_layout(title_text='Prevalência de AVC na amostra', title_x=0.5)


fig.show()

Prevalência de aproximadamente 50% para AVC e não-AVC

##### Gênero

In [71]:
df_copy_incribo['gender'] = df_copy_incribo['gender'].replace({'Male': 'Homem', 'Female': 'Mulher'})

In [72]:
#custom_colors = ['#1837c4', '#bd1919'] 

dfg2=df_copy_incribo.groupby(['gender','stroke']).count().reset_index()
dfg2['count'] = dfg2['id']
dfg2['percentual'] = df_copy_incribo.groupby(['gender','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfg2, y="gender", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfg2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "gender": "Gênero"},   
             title="Prevalência do AVC por gênero")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Pode-se perceber que o banco de dados é formado de uma maneira majoritariamente balanceada, tanto para quantidades de pessoas de cada gênero quanto para prevalência do AVC em cada um dos gêneros

##### Idade

In [73]:

fig = px.histogram(df_copy_incribo, x="age", color="stroke",
                   color_discrete_map={
                      "Não": "#1837c4",
                      "Sim": "#bd1919"},
                   labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "age": "Idade"},   
                    text_auto=True,
                    title="Prevalência do AVC por idade")

fig.update_traces(xbins=dict( # bins used for histogram
        start=0.0,
        end=90.0,
        size=15
    ))
fig.update_layout(bargap=0.1)
fig.update_traces(textposition='outside')
#fig.update_layout(yaxis_range=[0,1250])  # Não
#fig.update_layout(yaxis_range=[0,90])  # Sim

fig.show()

Base de dados também se mostra balanceada em relação a idade e prevalência de AVC por faixa etária

##### Hipertensão

In [74]:
df_copy_incribo['hypertension'] = df_copy_incribo['hypertension'].replace({1: 'Sim', 0: 'Não'})

custom_colors = ['#1837c4', '#bd1919'] 

dft2=df_copy_incribo.groupby(['hypertension','stroke']).count().reset_index()
dft2['count'] = dft2['id']
dft2['percentual'] = df_copy_incribo.groupby(['hypertension','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dft2, y="hypertension", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dft2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "hypertension": "Hipertensão"},   
             title="Prevalência do AVC entre hipertensos")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()


Pode-se perceber uma prevalência levemente superior do AVC entre os hipertensos se comparados aos não-hipertensos.
A base de dados possui menos pessoas hipertensas do que não hipertensas

##### Doenças cardíacas

In [75]:
df_copy_incribo['heart_disease'] = df_copy_incribo['heart_disease'].replace({1: 'Sim', 0: 'Não'})

custom_colors = ['#1837c4', '#bd1919'] 

dfc2=df_copy_incribo.groupby(['heart_disease','stroke']).count().reset_index()
dfc2['count'] = dfc2['id']
dfc2['percentual'] = df_copy_incribo.groupby(['heart_disease','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfc2, y="heart_disease", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfc2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "heart_disease": "Doença Cardíaca"},   
             title="Prevalência do AVC entre portadores de doenças cardíacas")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()


Base de dados equilibrada em relação as doenças cardíacas

##### Casados

In [76]:
df_copy_incribo['ever_married'] = df_copy_incribo['ever_married'].replace({'Yes': 'Sim', 'No': 'Não'})

custom_colors = ['#1837c4', '#bd1919'] 

dfm2=df_copy_incribo.groupby(['ever_married','stroke']).count().reset_index()
dfm2['count'] = dfm2['id']
dfm2['percentual'] = df_copy_incribo.groupby(['ever_married','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfm2, y="ever_married", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfm2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "ever_married": "Casou ao menos uma vez"},   
             title="Prevalência do AVC entre Casados")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()


Embora não aparente ter relação direta com o fato em si, pessoas casadas nessa fonte de dados apresentaram maior prevalência de AVC

In [77]:
df_export_incribo['ever_married'] = df_export_incribo['ever_married'].replace({'Yes': 1, 'No': 0})
df_export_incribo


Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,18153,56,Male,0,1,Married,Self-employed,Rural,130.91,22.37,Non-smoker,Stroke,3
1,62749,80,Male,0,0,Single,Self-employed,Urban,183.73,32.57,Non-smoker,Stroke,3
2,32145,26,Male,1,1,Married,Never Worked,Rural,189.00,20.32,Formerly Smoked,Stroke,3
3,6154,73,Male,0,0,Married,Never Worked,Urban,185.29,27.50,Non-smoker,No Stroke,2
4,48973,51,Male,1,1,Divorced,Self-employed,Urban,177.34,29.06,Currently Smokes,Stroke,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...
14995,13981,88,Female,1,1,Divorced,Self-employed,Urban,160.22,39.73,Currently Smokes,No Stroke,5
14996,87707,47,Female,0,0,Married,Private,Urban,107.58,22.17,Non-smoker,No Stroke,0
14997,33174,35,Male,0,0,Married,Government Job,Rural,134.90,26.38,Non-smoker,Stroke,1
14998,22343,73,Male,0,0,Single,Self-employed,Urban,169.42,28.32,Non-smoker,No Stroke,2


##### Tipo de emprego

In [78]:
df_copy_incribo['work_type'] = df_copy_incribo['work_type'].replace({'Private': 'Empresa_Privada', 'Self-employed': 'Autonomo', 'Government Job':'Funcionário_Público', 'Never Worked':'Desempregado'})


In [79]:
dfj2=df_copy_incribo.groupby(['work_type','stroke']).count().reset_index()
dfj2['count'] = dfj2['id']
dfj2['percentual'] = df_copy_incribo.groupby(['work_type','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfj2, y="work_type", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfj2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "work_type": "Tipo de emprego"},   
             title="Prevalência do AVC por tipo de emprego")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Prevalência levemente maior de AVC entre os autônomos

In [80]:
df_copy_incribo

Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,18153,56,Homem,Não,Sim,Married,Autonomo,Rural,130.91,22.37,Non-smoker,Stroke,3
1,62749,80,Homem,Não,Não,Single,Autonomo,Urban,183.73,32.57,Non-smoker,Stroke,3
2,32145,26,Homem,Sim,Sim,Married,Desempregado,Rural,189.00,20.32,Formerly Smoked,Stroke,3
3,6154,73,Homem,Não,Não,Married,Desempregado,Urban,185.29,27.50,Non-smoker,No Stroke,2
4,48973,51,Homem,Sim,Sim,Divorced,Autonomo,Urban,177.34,29.06,Currently Smokes,Stroke,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...
14995,13981,88,Mulher,Sim,Sim,Divorced,Autonomo,Urban,160.22,39.73,Currently Smokes,No Stroke,5
14996,87707,47,Mulher,Não,Não,Married,Empresa_Privada,Urban,107.58,22.17,Non-smoker,No Stroke,0
14997,33174,35,Homem,Não,Não,Married,Funcionário_Público,Rural,134.90,26.38,Non-smoker,Stroke,1
14998,22343,73,Homem,Não,Não,Single,Autonomo,Urban,169.42,28.32,Non-smoker,No Stroke,2


Devido à falta de dados de desempregados na fonte de dados real, também serão descartados desempregados dessa fonte de dados, por simetria;

In [81]:
df_export_incribo['work_type'] = df_copy_incribo['work_type']
df_export_incribo = df_export_incribo.loc[df_export_incribo['work_type']!="Desempregado"]
df_export_incribo


Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,18153,56,Male,0,1,Married,Autonomo,Rural,130.91,22.37,Non-smoker,Stroke,3
1,62749,80,Male,0,0,Single,Autonomo,Urban,183.73,32.57,Non-smoker,Stroke,3
4,48973,51,Male,1,1,Divorced,Autonomo,Urban,177.34,29.06,Currently Smokes,Stroke,3
5,29307,62,Female,0,0,Single,Empresa_Privada,Urban,91.60,37.47,Currently Smokes,Stroke,1
6,25525,40,Female,1,0,Married,Empresa_Privada,Urban,77.83,28.20,Currently Smokes,No Stroke,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
14994,36750,79,Female,0,1,Divorced,Empresa_Privada,Rural,82.69,36.82,Currently Smokes,No Stroke,3
14995,13981,88,Female,1,1,Divorced,Autonomo,Urban,160.22,39.73,Currently Smokes,No Stroke,5
14996,87707,47,Female,0,0,Married,Empresa_Privada,Urban,107.58,22.17,Non-smoker,No Stroke,0
14997,33174,35,Male,0,0,Married,Funcionário_Público,Rural,134.90,26.38,Non-smoker,Stroke,1


##### Tipo de residência

In [82]:
dfr2=df_copy_incribo.groupby(['Residence_type','stroke']).count().reset_index()
dfr2['count'] = dfr['id']
dfr2['percentual'] = df_copy_incribo.groupby(['Residence_type','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfr2, y="Residence_type", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfr2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "Residence_type": "Tipo de residência"},   
             title="Prevalência do AVC por tipo de Residência")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Não é vista diferença significativa entre aqueles que moram em ambiente rural ou urbano. 

Era plausível esperar que as diferenças entre os hábitos das pessoas nesses diferentes ambientes fosse refletir na prevalência do AVC nessas populações, entretanto a diferença foi de 49,81% dos urbanos contra 49,77% dos que vivem em ambiente rural.

In [83]:
df_export_incribo.drop(['Residence_type'],axis=1, inplace=True)
df_export_incribo



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades
0,18153,56,Male,0,1,Married,Autonomo,130.91,22.37,Non-smoker,Stroke,3
1,62749,80,Male,0,0,Single,Autonomo,183.73,32.57,Non-smoker,Stroke,3
4,48973,51,Male,1,1,Divorced,Autonomo,177.34,29.06,Currently Smokes,Stroke,3
5,29307,62,Female,0,0,Single,Empresa_Privada,91.60,37.47,Currently Smokes,Stroke,1
6,25525,40,Female,1,0,Married,Empresa_Privada,77.83,28.20,Currently Smokes,No Stroke,1
...,...,...,...,...,...,...,...,...,...,...,...,...
14994,36750,79,Female,0,1,Divorced,Empresa_Privada,82.69,36.82,Currently Smokes,No Stroke,3
14995,13981,88,Female,1,1,Divorced,Autonomo,160.22,39.73,Currently Smokes,No Stroke,5
14996,87707,47,Female,0,0,Married,Empresa_Privada,107.58,22.17,Non-smoker,No Stroke,0
14997,33174,35,Male,0,0,Married,Funcionário_Público,134.90,26.38,Non-smoker,Stroke,1


##### Índice glicêmico/diabetes

In [84]:
df_copy_incribo['diabetes'] = 0
df_copy_incribo['diabetes'].loc[df_copy_incribo['avg_glucose_level']>=126] += 1
df_copy_incribo['diabetes'] = df_copy_incribo['diabetes'].replace({1: 'Sim', 0: 'Não'})
df_copy_incribo
 



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes
0,18153,56,Homem,Não,Sim,Married,Autonomo,Rural,130.91,22.37,Non-smoker,Stroke,3,Sim
1,62749,80,Homem,Não,Não,Single,Autonomo,Urban,183.73,32.57,Non-smoker,Stroke,3,Sim
2,32145,26,Homem,Sim,Sim,Married,Desempregado,Rural,189.00,20.32,Formerly Smoked,Stroke,3,Sim
3,6154,73,Homem,Não,Não,Married,Desempregado,Urban,185.29,27.50,Non-smoker,No Stroke,2,Sim
4,48973,51,Homem,Sim,Sim,Divorced,Autonomo,Urban,177.34,29.06,Currently Smokes,Stroke,3,Sim
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14995,13981,88,Mulher,Sim,Sim,Divorced,Autonomo,Urban,160.22,39.73,Currently Smokes,No Stroke,5,Sim
14996,87707,47,Mulher,Não,Não,Married,Empresa_Privada,Urban,107.58,22.17,Non-smoker,No Stroke,0,Não
14997,33174,35,Homem,Não,Não,Married,Funcionário_Público,Rural,134.90,26.38,Non-smoker,Stroke,1,Sim
14998,22343,73,Homem,Não,Não,Single,Autonomo,Urban,169.42,28.32,Non-smoker,No Stroke,2,Sim


In [85]:
dfd2=df_copy_incribo.groupby(['diabetes','stroke']).count().reset_index()
dfd2['count'] = dfd2['id']
dfd2['percentual'] = df_copy_incribo.groupby(['diabetes','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfd2, y="diabetes", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfd2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "diabetes": "Diabetes"},   
             title="Prevalência do AVC entre diabéticos")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

A prevalência de derrames em diabéticos é levemente maior no grupo de pessoas que tem diabetes (considerada aqui glicemia acima de 126mg/dL).

In [86]:
df_export_incribo['diabetes'] = 0
df_export_incribo['diabetes'].loc[df_export_incribo['avg_glucose_level']>=126] += 1
df_export_incribo



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes
0,18153,56,Male,0,1,Married,Autonomo,130.91,22.37,Non-smoker,Stroke,3,1
1,62749,80,Male,0,0,Single,Autonomo,183.73,32.57,Non-smoker,Stroke,3,1
4,48973,51,Male,1,1,Divorced,Autonomo,177.34,29.06,Currently Smokes,Stroke,3,1
5,29307,62,Female,0,0,Single,Empresa_Privada,91.60,37.47,Currently Smokes,Stroke,1,0
6,25525,40,Female,1,0,Married,Empresa_Privada,77.83,28.20,Currently Smokes,No Stroke,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
14994,36750,79,Female,0,1,Divorced,Empresa_Privada,82.69,36.82,Currently Smokes,No Stroke,3,0
14995,13981,88,Female,1,1,Divorced,Autonomo,160.22,39.73,Currently Smokes,No Stroke,5,1
14996,87707,47,Female,0,0,Married,Empresa_Privada,107.58,22.17,Non-smoker,No Stroke,0,0
14997,33174,35,Male,0,0,Married,Funcionário_Público,134.90,26.38,Non-smoker,Stroke,1,1


A coluna diabetes vai se manter para o dataframe que será exportado para os próximos notebooks;

##### Índice de Massa Corporal (IMC)

In [87]:
df_copy_incribo['obesidade'] = 0
df_copy_incribo['obesidade'].loc[df_copy_incribo['bmi']>=30] += 1
df_copy_incribo['obesidade'] = df_copy_incribo['obesidade'].replace({1: 'Sim', 0: 'Não'})



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [88]:

fig = px.histogram(df_copy_incribo, x="bmi", color="stroke",
                   color_discrete_map={
                      "Sim": "#bd1919",
                      "Não": "#1837c4"},
                   labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "bmi": "IMC"},   
                    text_auto=True,
                    log_y=False,
                    title="Prevalência do AVC por Índice de Massa Corporal")

fig.update_traces(xbins=dict( # bins used for histogram
        start=10,
        end=100,
        size=10
    ))
fig.update_layout(bargap=0.1)
fig.update_traces(textposition='outside')
#fig.update_layout(yaxis_range=[0,4])  # Não

fig.show()

Base de dados relativamente balanceada entre AVC e IMC

In [89]:
dfo2=df_copy_incribo.groupby(['obesidade','stroke']).count().reset_index()
dfo2['count'] = dfo2['id']
dfo2['percentual'] = df_copy_incribo.groupby(['obesidade','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfo2, y="obesidade", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dfo2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "obesidade": "Obesidade"},   
             title="Prevalência do AVC entre obesos")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Por motivos de construção do dataset, a obesidade se mostrou fator protetivo para AVC nesse caso, fato esse que é inesperado

In [90]:
df_export_incribo['obesidade'] = 0
df_export_incribo['obesidade'].loc[df_export_incribo['bmi']>=30] += 1
df_export_incribo



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes,obesidade
0,18153,56,Male,0,1,Married,Autonomo,130.91,22.37,Non-smoker,Stroke,3,1,0
1,62749,80,Male,0,0,Single,Autonomo,183.73,32.57,Non-smoker,Stroke,3,1,1
4,48973,51,Male,1,1,Divorced,Autonomo,177.34,29.06,Currently Smokes,Stroke,3,1,0
5,29307,62,Female,0,0,Single,Empresa_Privada,91.60,37.47,Currently Smokes,Stroke,1,0,1
6,25525,40,Female,1,0,Married,Empresa_Privada,77.83,28.20,Currently Smokes,No Stroke,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14994,36750,79,Female,0,1,Divorced,Empresa_Privada,82.69,36.82,Currently Smokes,No Stroke,3,0,1
14995,13981,88,Female,1,1,Divorced,Autonomo,160.22,39.73,Currently Smokes,No Stroke,5,1,1
14996,87707,47,Female,0,0,Married,Empresa_Privada,107.58,22.17,Non-smoker,No Stroke,0,0,0
14997,33174,35,Male,0,0,Married,Funcionário_Público,134.90,26.38,Non-smoker,Stroke,1,1,0


##### Fumantes

In [91]:
df_copy_incribo['smoking_status'] = df_copy_incribo['smoking_status'].replace({'Non-smoker': 'Nunca Fumou', 'Formerly Smoked':'Fumava', 'Currently Smokes':'Fuma'})

In [92]:
dff2=df_copy_incribo.groupby(['smoking_status','stroke']).count().reset_index()
dff2['count'] = dff2['id']
dff2['percentual'] = df_copy_incribo.groupby(['smoking_status','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dff2, y="smoking_status", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dff2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência do AVC entre fumantes")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Base de dados balanceada com prevalência levemente maior de AVC entre fumantes;

In [93]:
df_copy2_incribo = df_copy_incribo.copy()
df_copy2_incribo['smoking_status'] = df_copy2_incribo['smoking_status'].replace({'Desconhecido': 'Nunca Fumou', 'Fumava': 'Fuma ou Fumava', 'Fuma': 'Fuma ou Fumava'})

dff2=df_copy2_incribo.groupby(['smoking_status','stroke']).count().reset_index()
dff2['count'] = dff2['id']
dff2['percentual'] = df_copy2_incribo.groupby(['smoking_status','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dff2, y="smoking_status", x='count',  color="stroke", orientation="h", hover_name="stroke",
             text=dff2['percentual'].apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "Infarto",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência de infarto entre fumantes (desconhecidos nunca fumaram)")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')



fig.show()

Mesmo tratamento que foi feito com os dados reais

In [94]:
df_export_incribo['smoking_status'] = df_export_incribo['smoking_status']



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



##### Comorbidades

A coluna de comorbidades foi criada utilizando os fatores de risco citados pela World Health Organization somados à fatores de idade e doenças cardíacas.

In [95]:
df_copy_incribo['Comorbidades'].value_counts()

2    5304
3    3961
1    3347
4    1331
0     860
5     197
Name: Comorbidades, dtype: int64

In [96]:
dfz2=df_copy_incribo.groupby(['Comorbidades','stroke']).count().reset_index()
dfz2['count'] = dfz2['id']
dfz2['percentual'] = df_copy_incribo.groupby(['Comorbidades','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfz2.sort_index(ascending=False), x="Comorbidades", y='percentual',  color="stroke", orientation="v", hover_name="stroke",
             text=dfz2['percentual'].sort_index(ascending=False).apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência do AVC de acordo com o somatório de comorbidades")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')
fig.update_layout(barmode="relative")
fig.update_layout(yaxis_range=[0,108])  




fig.show()

In [97]:
dfz2=df_copy_incribo.groupby(['Comorbidades','stroke']).count().reset_index()
dfz2['count'] = dfz2['id']
dfz2['percentual'] = df_copy_incribo.groupby(['Comorbidades','stroke']).size().groupby(level=0).apply(lambda x: 100 * x/float(x.sum())).values

fig = px.bar(dfz2.sort_index(ascending=False), x="Comorbidades", y='count',  color="stroke", orientation="v", hover_name="stroke",
             text=dfz2['percentual'].sort_index(ascending=False).apply(lambda x: '{0:1.2f}%'.format(x)),
             color_discrete_map={
                "Sim": "#bd1919",
                "Não": "#1837c4"},
             labels={
                     "stroke": "AVC",
                     "count": "Total",
                     "text": "Percentual",
                     "smoking_status": "Status de fumante"},   
             title="Prevalência do AVC de acordo com o somatório de comorbidades")

fig.update_traces(dict(marker_line_width=0))
fig.update_traces(textposition='outside')
fig.update_layout(barmode="relative")
#fig.update_layout(yaxis_range=[0,108])  




fig.show()

A fonte de dados sintéticos não apresentou correlação relevante entre o acúmulo de comorbidades e a variável alvo AVC.

#### Export

In [98]:
df_export_incribo['gender'] = df_export_incribo['gender'].replace({'Homem': 'Masculino', 'Mulher': 'Feminino'})
df_export_incribo



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0,id,age,gender,hypertension,heart_disease,ever_married,work_type,avg_glucose_level,bmi,smoking_status,stroke,Comorbidades,diabetes,obesidade
0,18153,56,Male,0,1,Married,Autonomo,130.91,22.37,Non-smoker,Stroke,3,1,0
1,62749,80,Male,0,0,Single,Autonomo,183.73,32.57,Non-smoker,Stroke,3,1,1
4,48973,51,Male,1,1,Divorced,Autonomo,177.34,29.06,Currently Smokes,Stroke,3,1,0
5,29307,62,Female,0,0,Single,Empresa_Privada,91.60,37.47,Currently Smokes,Stroke,1,0,1
6,25525,40,Female,1,0,Married,Empresa_Privada,77.83,28.20,Currently Smokes,No Stroke,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14994,36750,79,Female,0,1,Divorced,Empresa_Privada,82.69,36.82,Currently Smokes,No Stroke,3,0,1
14995,13981,88,Female,1,1,Divorced,Autonomo,160.22,39.73,Currently Smokes,No Stroke,5,1,1
14996,87707,47,Female,0,0,Married,Empresa_Privada,107.58,22.17,Non-smoker,No Stroke,0,0,0
14997,33174,35,Male,0,0,Married,Funcionário_Público,134.90,26.38,Non-smoker,Stroke,1,1,0


In [99]:
df_export_incribo.to_csv('df_export_incribo.csv')