# Um pouco de estatística

In [18]:
import pandas as pd

url = 'http://personal.tcu.edu/kylewalker/data/colleges.csv'
data = pd.read_csv(url, encoding = 'latin_1')
data.shape

(7804, 122)

Observamos que nosso conjunto de dados possui mais de 7800 linhas e 122 colunas! Neste ponto, embora você ainda não saiba quais insights estão contidos nos dados, já deve ter uma ideia das perguntas de pesquisa que lhe interessam. Como essas perguntas provavelmente não exigem todas as 122 colunas, é seguro restringir o conjunto de dados apenas às colunas necessárias para sua análise. Nossa principal pergunta de pesquisa é:

**Como a proporção de estudantes alunos de graduação com 25 anos ou mais varia entre faculdades e universidades que possuem bacharelado?**

Para responder a essa pergunta, precisamos identificar algumas colunas essenciais e filtrar os dados de acordo. As colunas que manteremos são as seguintes:

- **INSTNM**: Nome da instituição;
- **STABBR**: Estado onde a instituição está localizada;
- **PREDDEG**: Tipo principal de diploma concedido pela instituição (códigos: 1 para certificados, 2 para diplomas de associado, 3 para bacharelados e 4 para pós-graduação);
- **CONTROL**: Propriedade da instituição (códigos: 1 para pública sem fins lucrativos, 2 para privada sem fins lucrativos, e 3 para privada com fins lucrativos);
- **UGDS**: Número de alunos de graduação matriculados na instituição;
- **UG25abv**: Percentual de alunos de graduação com 25 anos ou mais na instituição.


In [19]:
cols = ['INSTNM', 'STABBR', 'PREDDEG', 'CONTROL', 'UGDS', 'UG25abv']
df = data.filter(cols)

df.columns = [col.lower() for col in df.columns]

df.rename(columns={'stabbr': 'state', 'instnm': 'institution'}, inplace=True)

dfNotNull = df.dropna()

In [20]:
dfNotNull['ugds'].mean()

2351.1247333238516

In [21]:
dfNotNull['ugds'].median()

441.0

In [51]:
df1 = pd.DataFrame(dfNotNull.groupby(['control','preddeg'])['ugds'].median(),index=None)
df2 = pd.DataFrame(dfNotNull.groupby(['control','preddeg'])['ugds'].mean(),index=None)

In [56]:
df1['média'] = df2['ugds']

In [63]:
df1.replace('ugds','mediana')

Unnamed: 0_level_0,Unnamed: 1_level_0,ugds,média
control,preddeg,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,44.5,126.7
1,1,503.0,2207.334432
1,2,3930.5,6317.664103
1,3,6867.0,9769.071429
2,0,26.5,375.833333
2,1,118.0,210.743961
2,2,426.0,829.879518
2,3,1357.5,2120.67023
2,4,18.0,104.222222
3,0,152.0,186.560606


In [70]:
df.query('ugds > 5000')

Unnamed: 0,institution,state,preddeg,control,ugds,ug25abv
1,University of Alabama at Birmingham,AL,3,1,11200.0,0.2422
3,University of Alabama in Huntsville,AL,3,1,5525.0,0.2640
4,Alabama State University,AL,3,1,5354.0,0.1270
5,The University of Alabama,AL,3,1,28692.0,0.0853
9,Auburn University,AL,3,1,19761.0,0.0415
...,...,...,...,...,...,...
7760,DeVry University-California,CA,3,3,7436.0,0.6393
7764,DeVry University-Illinois,IL,3,3,20112.0,0.7671
7784,University of North Georgia,GA,3,1,14502.0,0.1623
7799,Central Georgia Technical College,GA,1,1,7146.0,0.5555


In [69]:
df[df['ugds'] == 33]

Unnamed: 0,institution,state,preddeg,control,ugds,ug25abv
630,Universal College of Beauty Inc-Los Angeles 1,CA,1,3,33.0,0.4242
1112,Concept College of Cosmetology,IL,1,3,33.0,0.3333
1196,Educators of Beauty College of Cosmetology-La ...,IL,1,3,33.0,0.1818
2082,Cosmetology Careers Unlimited College of Hair ...,MN,1,3,33.0,0.3939
2363,La'James International College,NE,1,3,33.0,0.2424
2732,Mesivta of Eastern Parkway-Yeshiva Zichron Mei...,NY,0,2,33.0,
3178,Northern Institute of Cosmetology,OH,1,3,33.0,0.3939
4124,Evans Hairstyling College-Cedar City,UT,1,3,33.0,0.2424
4550,Rogies School of Beauty Culture,PR,1,3,33.0,0.2424
5107,Bristol University,CA,1,3,33.0,0.4242
