In [1]:
# imports
import pandas as pd
import numpy as np

import statsmodels.formula.api as sm

# usaremos o filtro 'warning' para deixar mais limpo.
import warnings
warnings.filterwarnings('ignore')

### Encontrando o significado

A terceira etapa da análise de dados é realmente analisar os dados. Encontrando
o significado dos seus dados pode ser difícil sem as ferramentas certas. Nisso
seção, veremos algumas das ferramentas disponíveis para o usuário Python.
Com apenas algumas linhas de código, você será capaz de fazer o seguinte
análise:
• Calcular estatísticas descritivas
• Correlação
• Regressão linear
• Tabelas dinâmicas

#### Computando estatísticas agregadas

Como você deve ter visto no último capítulo, é fácil obter algum resumo
estatísticas usando descrever. Vamos dar uma olhada em como podemos encontrá-los
valores diretamente.
Primeiro, vamos criar alguns dados (Listagem 4-1).

In [2]:
names = ['Bob','Jessica','Mary','John','Mel']
grades = [76,95,77,78,99]

GradeList = zip(names,grades)
df = pd.DataFrame(data=GradeList,
columns=['Names','Grades'])
df

Unnamed: 0,Names,Grades
0,Bob,76
1,Jessica,95
2,Mary,77
3,John,78
4,Mel,99


Uma vez configurado, podemos dar uma olhada em algumas estatísticas (Listagem 4-2).

In [3]:
df['Grades'].count() # number of values
df['Grades'].mean() # arithmetic average
df['Grades'].std() # standard deviation
df['Grades'].min() # minimum
df['Grades'].max() # maximum
df['Grades'].quantile(.25) # first quartile
df['Grades'].quantile(.5) # second quartile
df['Grades'].quantile(.75) # third quartile

95.0

---

Nota Se você tentou executar o código anterior em uma célula ao mesmo tempo
ao mesmo tempo, a única coisa que você veria é a saída do
Função .quantil(). Você tem que experimentá-los um por um. eu simplesmente
agrupou-os todos juntos para fins de referência. OK?

---

É importante notar que a média não é a única medida de
tendência. Consulte a Listagem 4-3 para outras medidas.

In [4]:
# computes the arithmetic average of a column
# mean = dividing the sum by the number of values
df['Grades'].mean()

# finds the median of the values in a column
# median = the middle value if they are sorted in order
df['Grades'].median()

# finds the mode of the values in a column
# mode = the most common single value
df['Grades'].mode()

0    76
1    77
2    78
3    95
4    99
Name: Grades, dtype: int64

E se você precisar calcular o desvio padrão, também poderá precisar
variação (Listagem 4-4).

In [5]:
# computes the variance of the values in a column
df['Grades'].var()

122.5

Finalmente, você não precisa especificar a coluna para calcular as estatísticas.
Se você apenas executá-lo em todo o dataframe, você obterá a função para
executado em todas as colunas aplicáveis (Listagem 4-5).

In [6]:
df.var()

Grades    122.5
dtype: float64

##### Sua vez

Claro, em nosso conjunto de dados temos apenas uma coluna. Experimente criar um
dataframe e computação de estatísticas resumidas usando o conjunto de dados em
Listagem 4-6.

In [7]:
names = ['Bob','Jessica','Mary','John','Mel']
grades = [76,95,77,78,99]
bsdegrees = [1,1,0,0,1]
msdegrees = [2,1,0,0,0]
phddegrees = [0,1,0,0,0]

#### Calculando estatísticas agregadas em linhas correspondentes

É possível calcular estatísticas descritivas apenas nas linhas que correspondem
certos critérios. Primeiro, vamos criar alguns dados (Listagem 4-7).

In [8]:
names = ['Bob','Jessica','Mary','John','Mel']
grades = [76,95,77,78,99]
bs = [1,1,0,0,1]
ms = [2,1,0,0,0]
phd = [0,1,0,0,0]

GradeList = zip(names,grades,bs,ms,phd)
df = pd.DataFrame(data=GradeList,
columns=['Name','Grade','BS','MS','PhD'])
df

Unnamed: 0,Name,Grade,BS,MS,PhD
0,Bob,76,1,2,0
1,Jessica,95,1,1,1
2,Mary,77,0,0,0
3,John,78,0,0,0
4,Mel,99,1,0,0


Ok, abordamos como encontrar as linhas que correspondem a um conjunto de critérios.
Também abordamos como calcular estatísticas descritivas, tanto em
uma vez e um por um. Se você juntar esses dois, você será capaz de encontrar
as estatísticas dos dados que correspondem a determinados critérios.
Então, para contar as linhas de pessoas sem doutorado, use o código mostrado
na Listagem 4-8.

In [9]:
df.loc[df['PhD']==0].count()

Name     4
Grade    4
BS       4
MS       4
PhD      4
dtype: int64

Você pode usar qualquer uma das funções de estatísticas agregadas em
colunas da mesma maneira. Então, para encontrar a nota média dessas pessoas
sem doutorado, use o código da Listagem 4-9.

In [10]:
df.loc[df['PhD']==0]['Grade'].mean()

82.5

##### Sua vez
Usando os dados da Listagem 4.10, qual é a nota média para pessoas com
mestrados?

In [11]:
names = ['Bob','Jessica',
         'Mary','John',
         'Mel','Sam',
         'Cathy','Henry',
         'Lloyd']

grades = [76,95,77,78,99,84,79,100,73]
bs = [1,1,0,0,1,1,1,0,1]
ms = [2,1,0,0,0,1,1,0,0]
phd = [0,1,0,0,0,2,1,0,0]
GradeList = zip(names,grades,bs,ms,phd)
df = pd.DataFrame(data=GradeList,
columns=['Names','Grades','BS','MS','PhD'])
df

Unnamed: 0,Names,Grades,BS,MS,PhD
0,Bob,76,1,2,0
1,Jessica,95,1,1,1
2,Mary,77,0,0,0
3,John,78,0,0,0
4,Mel,99,1,0,0
5,Sam,84,1,1,2
6,Cathy,79,1,1,1
7,Henry,100,0,0,0
8,Lloyd,73,1,0,0


#### Classificando Dados
Geralmente, obtemos os dados em ordem aleatória, mas precisamos usá-los de maneira completamente
ordem diferente. Podemos usar a função sort_values para reorganizar nossos dados
às nossas necessidades (Listagem 4-11).

In [12]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Classifique as linhas do dataframe por idade, em ordem decrescente (Listagem 4-12).

In [13]:
df = df.sort_values(by='age', ascending=0)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
1000,Hanna,Mooney,female,19,2,10,88.8,"8293 SW. Cedar Swamp Lane, Union, NJ 07083"
902,Steven,Graham,male,19,4,17,95.1,"90 Grove St., Camas, WA 98607"
818,Colette,Rojas,female,19,4,6,73.3,"17 Pin Oak Street, Villa Park, IL 60181"
822,Rinah,Jacobson,female,19,1,7,80.8,"737 Amherst Court, Amsterdam, NY 12010"
826,Hayes,Wilkinson,male,19,5,3,76.0,"350 Temple Court, Mason City, IA 50401"


Classifique as linhas do dataframe por horas de estudo e depois por exercício, em
ordem crescente (Listagem 4-13).

In [14]:
df = df.sort_values(by=['grade', 'age'],
ascending=[True, True])
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
664,Alika,Poole,female,19,2,16,32.0,"9282 Purple Finch Lane, Lexington, NC 27292"
972,Keegan,Rasmussen,male,19,4,3,43.0,"876 East Pilgrim Street, Chelmsford, MA 01824"
1870,Levi,Coleman,male,19,3,3,55.9,"9453 Laurel Street, Jersey City, NJ 07302"
1910,Gail,Mcneil,female,17,2,3,56.1,"8409A Spruce St., Fishers, IN 46037"
1494,Jenna,Wagner,female,16,1,3,56.3,"8829 Shore Dr., Hopewell Junction, NY 12533"


##### Sua vez
Você pode classificar o dataframe para ordená-lo por nome, idade e nota?

#### Correlação
Correlação é qualquer uma de uma ampla classe de relações estatísticas envolvendo
dependência, embora no uso comum se refira mais frequentemente à extensão
para o qual duas variáveis ​​têm uma relação linear entre si. Familiar
exemplos de fenômenos dependentes incluem a correlação entre
as estaturas físicas dos pais e seus filhos, e a correlação
entre a demanda de um produto e seu preço.

Basicamente, a correlação mede o quão próximas duas variáveis se movem no
mesma direção. Pais altos têm filhos altos? Altamente correlacionado. Use sorte
chapéu, mas raramente ganha nas cartas? Muito ligeiramente correlacionado. Como seu padrão de
o nível de vida aumenta, o seu nível de poupança despenca? Altamente correlacionado negativamente.

Simples, certo?

Bem, a correlação computacional pode ser um pouco difícil manualmente, mas é
totalmente simples em Python (Listagem 4-14).

In [15]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()
df.corr()

Unnamed: 0,age,exercise,hours,grade
age,1.0,-0.003643,-0.017467,-0.00758
exercise,-0.003643,1.0,0.021105,0.161286
hours,-0.017467,0.021105,1.0,0.801955
grade,-0.00758,0.161286,0.801955,1.0


| Idade | Exercício | Horas | Nota |
|---|---|---|---|
| Idade | 1,000000 |-0,003643 | -0,017467 | -0,007580 |
| Exercício | -0,003643 | 1.000000 | 0,021105 | 0,161286 |
| Horas | -0,017467 | 0,021105 | 1.000000 | 0,801955 |
| Nota | -0,007580 | 0,161286 | 0,801955 | 1.000000 |

As interseções com os maiores valores absolutos são as colunas que
são os mais correlacionados. Valores positivos estão positivamente correlacionados, o que
significa que eles sobem juntos. Valores negativos são correlacionados negativamente (como
um sobe o outro desce). E, claro, cada coluna é perfeitamente
correlacionado consigo mesmo. Como você pode ver, as horas de estudo e as notas são altamente
correlacionado.

##### Sua vez
Carregue os dados do código da Listagem 4.15 e encontre as correlações.

In [16]:
Location = "datasets/tamiami.csv"

#### Regressão

Na modelagem estatística, a análise de regressão é um processo estatístico para
estimar as relações entre as variáveis. Esta é uma maneira elegante de dizer
que usamos regressão para criar uma equação que explica o valor de um
variável dependente baseada em uma ou mais variáveis independentes. Vamos
obter nossos dados (Listagem 4-16),

In [17]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Assim que tivermos isso, precisamos decidir quais colunas queremos executar
a regressão em e qual é a variável dependente. Eu quero tentar prever
a nota com base na idade, horas de exercício e horas de estudo (Listagem 4-17).

In [18]:
result = sm.ols(formula='grade ~ age + exercise + hours',data=df).fit()
result.summary()

0,1,2,3
Dep. Variable:,grade,R-squared:,0.664
Model:,OLS,Adj. R-squared:,0.664
Method:,Least Squares,F-statistic:,1315.0
Date:,"Sat, 07 Oct 2023",Prob (F-statistic):,0.0
Time:,21:04:37,Log-Likelihood:,-6300.7
No. Observations:,2000,AIC:,12610.0
Df Residuals:,1996,BIC:,12630.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,57.8704,1.321,43.804,0.000,55.279,60.461
age,0.0397,0.075,0.532,0.595,-0.107,0.186
exercise,0.9893,0.089,11.131,0.000,0.815,1.164
hours,1.9165,0.031,61.564,0.000,1.855,1.978

0,1,2,3
Omnibus:,321.187,Durbin-Watson:,2.047
Prob(Omnibus):,0.0,Jarque-Bera (JB):,2196.187
Skew:,-0.567,Prob(JB):,0.0
Kurtosis:,8.007,Cond. No.,213.0


O formato da fórmula na linha dois é aquele que você precisa aprender e obter
edição confortável. Mostra a variável dependente à esquerda do til
(~) e as variáveis independentes que queremos considerar à direita.


Se você observar os resultados obtidos no resumo, o R-quadrado
representa a porcentagem da variação nos dados que pode ser
contabilizado pela regressão. 0,664, ou 66,4 por cento, é bom, mas não
ótimo. O valor p (representado aqui pelo valor de P>|t|) representa o
probabilidade de que a variável independente não tenha efeito sobre a dependente
variável. Gosto de manter meus valores p abaixo de 5%, então a única variável
o que se destaca é a idade com 59,5 por cento. Vamos refazer a regressão, mas
deixando de fora a idade (Listagem 4-18).

In [19]:
result = sm.ols(formula='grade ~ exercise + hours',data=df).fit()
result.summary()

0,1,2,3
Dep. Variable:,grade,R-squared:,0.664
Model:,OLS,Adj. R-squared:,0.664
Method:,Least Squares,F-statistic:,1973.0
Date:,"Sat, 07 Oct 2023",Prob (F-statistic):,0.0
Time:,21:04:37,Log-Likelihood:,-6300.8
No. Observations:,2000,AIC:,12610.0
Df Residuals:,1997,BIC:,12620.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,58.5316,0.447,130.828,0.000,57.654,59.409
exercise,0.9892,0.089,11.131,0.000,0.815,1.163
hours,1.9162,0.031,61.575,0.000,1.855,1.977

0,1,2,3
Omnibus:,318.721,Durbin-Watson:,2.048
Prob(Omnibus):,0.0,Jarque-Bera (JB):,2158.0
Skew:,-0.564,Prob(JB):,0.0
Kurtosis:,7.962,Cond. No.,43.2


Olhando para os nossos novos resultados, não alteramos o nosso R-quadrado, mas
eliminamos todos os nossos altos valores de p. Então, podemos agora olhar para o nosso
coeficientes, e terminaremos com uma equação que se parece com algo
nota semelhante = 1.916 * horas de estudo + 0,989 * horas de exercício +
58.5316.

##### Sua vez
Crie uma nova coluna onde você converte gênero em valores numéricos, como
1 para feminino e 0 para masculino. Agora você pode adicionar gênero à sua regressão?
Isso melhora seu R ao quadrado?

#### Regressão sem interceptação

Às vezes, sua equação funciona melhor sem interceptação. Isso pode
aconteça mesmo que seus valores p indiquem o contrário. Eu sempre tento os dois
maneiras, naturalmente, de ver o que é o R-quadrado. Para executar o seu
regressão sem interceptação, basta seguir a Listagem 4-19.

In [20]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()
result = sm.ols(formula='grade ~ age + exercise + hours - 1', data=df).fit()
result.summary()

0,1,2,3
Dep. Variable:,grade,R-squared (uncentered):,0.991
Model:,OLS,Adj. R-squared (uncentered):,0.991
Method:,Least Squares,F-statistic:,72840.0
Date:,"Sat, 07 Oct 2023",Prob (F-statistic):,0.0
Time:,21:04:37,Log-Likelihood:,-6974.3
No. Observations:,2000,AIC:,13950.0
Df Residuals:,1997,BIC:,13970.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
age,3.1129,0.035,88.030,0.000,3.044,3.182
exercise,1.7659,0.122,14.482,0.000,1.527,2.005
hours,2.2860,0.042,54.486,0.000,2.204,2.368

0,1,2,3
Omnibus:,131.221,Durbin-Watson:,2.006
Prob(Omnibus):,0.0,Jarque-Bera (JB):,403.367
Skew:,-0.301,Prob(JB):,2.5700000000000003e-88
Kurtosis:,5.116,Cond. No.,14.2


Observe que é o -1 no final da fórmula que diz ao Python que
você deseja eliminar a interceptação. Se você olhar os resultados, verá
agora temos um R-quadrado muito mais alto do que tivemos na última lição, e
também não temos valores de p que nos preocupem.

##### Sua vez

Tente executar estas regressões simples sem interceptação: 1. Testes para
relação apenas entre série e idade; 2. Testes para o relacionamento
entre apenas nota e exercício; e 3. Testes para o relacionamento entre
basta avaliar e estudar.
Se você tivesse que escolher apenas um, qual você mais gosta?

#### Tabela Dinâmica Básica
As tabelas dinâmicas (ou tabelas cruzadas) revolucionaram a forma como o Excel é usado para fazer
análise. No entanto, gosto mais de tabelas dinâmicas em Python do que no Excel.
Vamos obter alguns dados (Listagem 4-20).

In [21]:
Location = "datasets/gradedata.csv"
df = pd.read_csv(Location)
df.head()

Unnamed: 0,fname,lname,gender,age,exercise,hours,grade,address
0,Marcia,Pugh,female,17,3,10,82.4,"9253 Richardson Road, Matawan, NJ 07747"
1,Kadeem,Morrison,male,18,4,4,78.2,"33 Spring Dr., Taunton, MA 02780"
2,Nash,Powell,male,18,5,9,79.3,"41 Hill Avenue, Mentor, OH 44060"
3,Noelani,Wagner,female,14,2,7,83.2,"8839 Marshall St., Miami, FL 33125"
4,Noelani,Cherry,female,18,4,15,87.4,"8304 Charles Rd., Lewis Center, OH 43035"


Na sua forma mais simples, para obter uma tabela dinâmica, precisamos de um dataframe e um índice
(Listagem 4-21).

In [22]:
pd.pivot_table(df, index=['gender'])

Unnamed: 0_level_0,age,exercise,grade,hours
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,16.568,3.047,82.7173,10.932
male,16.589,2.954,82.3948,11.045


Como você pode ver, pivot_table é inteligente o suficiente para assumir que queremos
as médias de todas as colunas numéricas. Se quiséssemos especificar apenas um
valor, poderíamos fazer isso (Listagem 4-22).

In [23]:
pd.pivot_table(df,values=['grade'],index=['gender'])

Unnamed: 0_level_0,grade
gender,Unnamed: 1_level_1
female,82.7173
male,82.3948


Agora vemos apenas as notas médias, categorizadas por gênero. Se quiséssemos
para, no entanto, poderíamos olhar para horas mínimas de estudo (Listagem 4-23).

In [24]:
pd.pivot_table(df, values=['grade'], index=['gender'], aggfunc='min')

Unnamed: 0_level_0,grade
gender,Unnamed: 1_level_1
female,32.0
male,43.0


Também podemos adicionar outras colunas ao índice. Então, para visualizar o máximo
série categorizada por sexo e idade, simplesmente executamos o código na Listagem 4.24.

In [25]:
pd.pivot_table(df, index=['gender','age'],
               aggfunc='max', values=['hours'])

Unnamed: 0_level_0,Unnamed: 1_level_0,hours
gender,age,Unnamed: 2_level_1
female,14,20
female,15,20
female,16,19
female,17,20
female,18,20
female,19,20
male,14,19
male,15,20
male,16,20
male,17,20


Também podemos ter várias colunas de valores. Então, para mostrar a média
série e horas de estudo por gênero, podemos executar o código da Listagem 4-25.

In [26]:
pd.pivot_table(df, index=['gender'], 
               aggfunc='mean', values=['grade','hours'])

Unnamed: 0_level_0,grade,hours
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
female,82.7173,10.932
male,82.3948,11.045


Também podemos realizar tabelas dinâmicas em subconjuntos de dados. Primeiro, selecione
seus dados e, em seguida, faça um giro padrão nessa seleção. Então, para mostrar o
média de notas e horas de estudo por gênero para alunos com 17 anos
old, podemos executar o código da Listagem 4-26.

In [27]:
df2 = df.loc[df['age'] == 17]
pd.pivot_table(df2,index=['gender'], aggfunc='mean', values=['grade','hours'])

Unnamed: 0_level_0,grade,hours
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
female,83.599435,10.943503
male,82.949721,11.268156


Finalmente, podemos incluir totais em nossas tabelas dinâmicas Python, conforme mostrado em
Listagem 4-27.

In [28]:
df2 = df.loc[df['age'] == 17]
pd.pivot_table(df2, index=['gender'], 
               aggfunc='mean', 
               values=['grade','hours'], 
               margins='True')

Unnamed: 0_level_0,grade,hours
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
female,83.599435,10.943503
male,82.949721,11.268156
All,83.272753,11.106742


##### Sua vez
Você pode criar uma tabela dinâmica mostrando a nota média por gênero de
pessoas que fizeram mais de duas horas de exercício?

In [29]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

Author: Caique Miranda

Github username: caiquemiranda

pandas     : 1.4.3
numpy      : 1.23.0
statsmodels: 0.13.2



### End.