In [None]:
import numpy as np
import pandas as pd

# DataFrame
### Estrutura de dados matricial(tensorial) que possui nomes para índices e colunas
### Pode-se criar DataFrames a partir de dicionários Python ou Matrizes

In [None]:
# dataframe["Yves"]["Nota"]

In [None]:
df = pd.DataFrame(
    {
        "nota": [6, 7, 5, 9, 6, 10],
        "idade": [20, 31, 25, 40, 34, 19]
    },
    index=["Yves", "Cesar", "Aristofanes", "Sofocles", "Euripedes", "Antigona"]
)
df

Unnamed: 0,nota,idade
Yves,6,20
Cesar,7,31
Aristofanes,5,25
Sofocles,9,40
Euripedes,6,34
Antigona,10,19


In [None]:
df.loc["Aristofanes"]["idade"] = 30

In [None]:
df.loc["Aristofanes"]

nota      5
idade    30
Name: Aristofanes, dtype: int64

In [None]:
M = np.array([
    [6, 7, 5, 9, 6, 10],
    [20, 31, 25, 40, 34, 19]
]).T
M

array([[ 6, 20],
       [ 7, 31],
       [ 5, 25],
       [ 9, 40],
       [ 6, 34],
       [10, 19]])

In [None]:
df = pd.DataFrame(
  M, index=["Yves", "Cesar", "Aristofanes", "Sofocles", "Euripedes", "Antigona"],
  columns=["nota", "idade"]
)

# Filtros em DataFrames
### Coluna
### Linha
### Booleano(condicional)

In [None]:
# filtro de coluna
df[["idade"]]

Unnamed: 0,idade
Yves,20
Cesar,31
Aristofanes,25
Sofocles,40
Euripedes,34
Antigona,19


In [None]:
# filtro de linha
df.loc[
    ["Yves", "Euripedes", "Antigona"]
]

Unnamed: 0,nota,idade
Yves,6,20
Euripedes,6,34
Antigona,10,19


In [None]:
df[
    ["idade", "nota"]
]

Unnamed: 0,idade,nota
Yves,20,6
Cesar,31,7
Aristofanes,25,5
Sofocles,40,9
Euripedes,34,6
Antigona,19,10


In [None]:
df["idade"] > 30

Yves           False
Cesar           True
Aristofanes    False
Sofocles        True
Euripedes       True
Antigona       False
Name: idade, dtype: bool

In [None]:
df[
    df["idade"] > 30
]

Unnamed: 0,nota,idade
Cesar,7,31
Sofocles,9,40
Euripedes,6,34


In [None]:
df[
    (df["idade"] > 30) & (df["idade"] < 40)
]

Unnamed: 0,nota,idade
Cesar,7,31
Euripedes,6,34


In [None]:
df[
    (df["idade"] > 30) & (df["idade"] < 40)
][
    ["idade", "nota"]
]

Unnamed: 0,idade,nota
Cesar,31,7
Euripedes,34,6


# Cálculos em DataFrames

In [None]:
# Gerando dados aleatórios dos pacientes
pesos = np.random.normal(loc=70, scale=10, size=50)
idades = np.random.normal(loc=40, scale=15, size=50)
alturas = np.random.normal(loc=1.70, scale=0.10, size=50)
sexo = np.random.choice(['M', 'F'], size=50)
teve_diabetes = np.random.binomial(n=1, p=0.15 * (1 + ((idades-40)/100)) * (1 + ((pesos-70)/50)), size=50)
teve_avc = np.random.binomial(n=1, p=0.08 * (1 + ((idades-40)/100)) * (1 + ((pesos-70)/50)), size=50)
estado_civil = np.random.choice(['Solteiro', 'Casado', 'Divorciado', 'Viúvo'], size=50)

# Criando DataFrame com os dados dos pacientes
X = pd.DataFrame({
    'Peso': pesos,
    'Idade': np.round(idades),
    'Altura': alturas,
    'Sexo': sexo,
    'Teve Diabetes': teve_diabetes,
    'Teve AVC': teve_avc,
    'Estado Civil': estado_civil
})

In [None]:
X

Unnamed: 0,Peso,Idade,Altura,Sexo,Teve Diabetes,Teve AVC,Estado Civil
0,96.907992,39.0,1.779639,F,0,0,Divorciado
1,67.430147,42.0,1.681682,F,0,0,Viúvo
2,66.12605,30.0,1.796343,M,0,0,Solteiro
3,84.827281,49.0,1.737279,M,0,0,Solteiro
4,77.881601,23.0,1.852073,M,0,0,Solteiro
5,71.55836,33.0,1.676311,F,0,0,Solteiro
6,59.553649,24.0,1.660796,M,0,0,Viúvo
7,75.277565,45.0,1.809103,M,0,0,Casado
8,63.961086,25.0,1.763083,F,0,0,Solteiro
9,49.265091,28.0,1.624583,F,0,0,Casado


In [None]:
X.head()

Unnamed: 0,Peso,Idade,Altura,Sexo,Teve Diabetes,Teve AVC,Estado Civil
0,96.907992,39.0,1.779639,F,0,0,Divorciado
1,67.430147,42.0,1.681682,F,0,0,Viúvo
2,66.12605,30.0,1.796343,M,0,0,Solteiro
3,84.827281,49.0,1.737279,M,0,0,Solteiro
4,77.881601,23.0,1.852073,M,0,0,Solteiro


In [None]:
X.tail()

Unnamed: 0,Peso,Idade,Altura,Sexo,Teve Diabetes,Teve AVC,Estado Civil
45,58.590003,51.0,1.711041,M,0,0,Viúvo
46,78.956506,53.0,1.553166,F,0,0,Casado
47,74.274724,33.0,1.788664,F,0,0,Divorciado
48,63.719215,24.0,1.799469,F,0,0,Solteiro
49,61.709923,30.0,1.782144,F,0,0,Divorciado


In [None]:
X["Peso"].max(), X["Peso"].min()

(96.90799189150611, 49.26509130591211)

In [None]:
X["Peso"] = (X["Peso"] - X["Peso"].min()) / (X["Peso"].max() - X["Peso"].min())

In [None]:
X

Unnamed: 0,Peso,Idade,Altura,Sexo,Teve Diabetes,Teve AVC,Estado Civil
0,1.0,39.0,1.779639,F,0,0,Divorciado
1,0.381275,42.0,1.681682,F,0,0,Viúvo
2,0.353903,30.0,1.796343,M,0,0,Solteiro
3,0.746432,49.0,1.737279,M,0,0,Solteiro
4,0.600646,23.0,1.852073,M,0,0,Solteiro
5,0.467924,33.0,1.676311,F,0,0,Solteiro
6,0.215952,24.0,1.660796,M,0,0,Viúvo
7,0.545988,45.0,1.809103,M,0,0,Casado
8,0.308461,25.0,1.763083,F,0,0,Solteiro
9,0.0,28.0,1.624583,F,0,0,Casado


In [None]:
X = pd.DataFrame({
    'Peso': pesos,
    'Idade': np.round(idades),
    'Altura': alturas,
    'Sexo': sexo,
    'Teve Diabetes': teve_diabetes,
    'Teve AVC': teve_avc,
    'Estado Civil': estado_civil
})

In [None]:
X["Peso"] = (X["Peso"] - X["Peso"].mean()) / X["Peso"].std()

In [None]:
X

Unnamed: 0,Peso,Idade,Altura,Sexo,Teve Diabetes,Teve AVC,Estado Civil
0,96.907992,39.0,1.779639,F,0,0,Divorciado
1,67.430147,42.0,1.681682,F,0,0,Viúvo
2,66.12605,30.0,1.796343,M,0,0,Solteiro
3,84.827281,49.0,1.737279,M,0,0,Solteiro
4,77.881601,23.0,1.852073,M,0,0,Solteiro
5,71.55836,33.0,1.676311,F,0,0,Solteiro
6,59.553649,24.0,1.660796,M,0,0,Viúvo
7,75.277565,45.0,1.809103,M,0,0,Casado
8,63.961086,25.0,1.763083,F,0,0,Solteiro
9,49.265091,28.0,1.624583,F,0,0,Casado


In [None]:
X = pd.DataFrame({
    'Peso': pesos,
    'Idade': np.round(idades),
    'Altura': alturas,
    'Sexo': sexo,
    'Teve Diabetes': teve_diabetes,
    'Teve AVC': teve_avc,
    'Estado Civil': estado_civil
})

In [None]:
xmax = X["Peso"].max()
xmin = X["Peso"].min()
X["Peso"].apply(lambda x: (x - xmin)/(xmax - xmin))

0     1.000000
1     0.381275
2     0.353903
3     0.746432
4     0.600646
5     0.467924
6     0.215952
7     0.545988
8     0.308461
9     0.000000
10    0.595841
11    0.367737
12    0.302853
13    0.091352
14    0.173850
15    0.582978
16    0.399383
17    0.442330
18    0.456575
19    0.455754
20    0.465332
21    0.447530
22    0.348704
23    0.703500
24    0.030272
25    0.178635
26    0.570427
27    0.242521
28    0.204918
29    0.790590
30    0.565436
31    0.178526
32    0.700429
33    0.193166
34    0.540031
35    0.135264
36    0.389503
37    0.737711
38    0.528781
39    0.370436
40    0.720670
41    0.450443
42    0.472404
43    0.261653
44    0.335363
45    0.195725
46    0.623208
47    0.524939
48    0.303385
49    0.261211
Name: Peso, dtype: float64

In [None]:
for column in ["Peso", "Altura"]:
  print(
      X[column].apply(
          lambda x: (x - X[column].min()) / (X[column].max() - X[column].min())
      )
  )

# Extrair informações sobre os dados

In [None]:
X.groupby('Sexo').agg({"Altura": ["max", "min", "mean"], "Peso": "mean"})

Unnamed: 0_level_0,Altura,Altura,Altura,Peso
Unnamed: 0_level_1,max,min,mean,mean
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
F,1.812723,1.423537,1.665721,68.099996
M,1.852073,1.423028,1.679165,70.807015


In [None]:
print(X.groupby(['Sexo', 'Teve Diabetes']).apply(lambda df: len(df)))

Sexo  Teve Diabetes
F     0                25
      1                 4
M     0                20
      1                 1
dtype: int64


# Solução da Q01

In [None]:
# O número de colunas é o número de chaves do dicionário
alunos = pd.DataFrame({
    'Nome': ['João', 'Maria', 'José', 'Ana', 'Bruno', 'Pedro', 'Mariana', 'Carlos', 'Beatriz', 'Leticia', 'Caio', 'Renata', 'Felipe', 'Gustavo', 'Julia'],
    'Idade': [25, 22, 28, 26, 224, 20, 30, 9, 27, 24, 23, 21, 22, 25, 26],
    'Sexo': ['M', 'F', 'M', 'F', 'M', 'M', 'F', 'M', 'F', 'F', 'M', 'F', 'M', 'M', 'F'],
    'Turma': ['T1', 'T1', 'T4', 'T1', 'T1', 'T2', 'T2', 'T4', 'T2', 'T2', 'T2', 'T3', 'T3', 'T3', 'T4'],
    'Nota': np.random.randint(0, 11, size=15),
})

print(len(alunos), len(alunos.columns))

15 5


#Solução da Q02

In [None]:
alunos.loc[[1, 2, 4]]

Unnamed: 0,Nome,Idade,Sexo,Turma,Nota
1,Maria,22,F,T1,8
2,José,28,M,T4,6
4,Bruno,224,M,T1,7


#Solução da Q03

In [None]:
alunos[
    ["Idade", "Turma"]
]

Unnamed: 0,Idade,Turma
0,25,T1
1,22,T1
2,28,T4
3,26,T1
4,224,T1
5,20,T2
6,30,T2
7,9,T4
8,27,T2
9,24,T2


#Solução da Q04

In [None]:
alunos[
   (alunos["Turma"] == "T1") | (alunos["Turma"] == "T4")
]

Unnamed: 0,Nome,Idade,Sexo,Turma,Nota
0,João,25,M,T1,4
1,Maria,22,F,T1,8
2,José,28,M,T4,6
3,Ana,26,F,T1,9
4,Bruno,224,M,T1,7
7,Carlos,9,M,T4,7
14,Julia,26,F,T4,1


In [None]:
alunos.loc[
   (alunos["Turma"] == "T1") | (alunos["Turma"] == "T4")
]

Unnamed: 0,Nome,Idade,Sexo,Turma,Nota
0,João,25,M,T1,4
1,Maria,22,F,T1,8
2,José,28,M,T4,6
3,Ana,26,F,T1,9
4,Bruno,224,M,T1,7
7,Carlos,9,M,T4,7
14,Julia,26,F,T4,1


In [None]:
alunos[
   (alunos["Turma"] != "T2") & (alunos["Turma"] != "T3")
]

Unnamed: 0,Nome,Idade,Sexo,Turma,Nota
0,João,25,M,T1,4
1,Maria,22,F,T1,8
2,José,28,M,T4,6
3,Ana,26,F,T1,9
4,Bruno,224,M,T1,7
7,Carlos,9,M,T4,7
14,Julia,26,F,T4,1


#Solução da Q05

In [None]:
alunos.groupby("Turma").agg(
    {
        "Nota": ["min", "max", "mean"],
        "Idade": "mean"
    }
)

Unnamed: 0_level_0,Nota,Nota,Nota,Idade
Unnamed: 0_level_1,min,max,mean,mean
Turma,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
T1,4,9,7.0,74.25
T2,0,10,5.2,24.8
T3,0,9,3.666667,22.666667
T4,1,7,4.666667,21.0


# Solução da Q06

In [None]:
alunos[alunos["Nota"] > 3]

Unnamed: 0,Nome,Idade,Sexo,Turma,Nota
0,João,25,M,T1,4
1,Maria,22,F,T1,8
2,José,28,M,T4,6
3,Ana,26,F,T1,9
4,Bruno,224,M,T1,7
5,Pedro,20,M,T2,10
6,Mariana,30,F,T2,5
7,Carlos,9,M,T4,7
10,Caio,23,M,T2,10
12,Felipe,22,M,T3,9


In [None]:
alunos.loc[alunos["Nota"] > 3]

Unnamed: 0,Nome,Idade,Sexo,Turma,Nota
0,João,25,M,T1,4
1,Maria,22,F,T1,8
2,José,28,M,T4,6
3,Ana,26,F,T1,9
4,Bruno,224,M,T1,7
5,Pedro,20,M,T2,10
6,Mariana,30,F,T2,5
7,Carlos,9,M,T4,7
10,Caio,23,M,T2,10
12,Felipe,22,M,T3,9


In [None]:
alunos[
    (alunos["Nota"] != 0) & (alunos["Nota"] != 1) & (alunos["Nota"] != 2) & (alunos["Nota"] != 3)
]

Unnamed: 0,Nome,Idade,Sexo,Turma,Nota
0,João,25,M,T1,4
1,Maria,22,F,T1,8
2,José,28,M,T4,6
3,Ana,26,F,T1,9
4,Bruno,224,M,T1,7
5,Pedro,20,M,T2,10
6,Mariana,30,F,T2,5
7,Carlos,9,M,T4,7
10,Caio,23,M,T2,10
12,Felipe,22,M,T3,9
