# Inspecionando um DataFrame

Quando você obtém um novo DataFrame para trabalhar, a primeira coisa que você precisa fazer é explorá-lo e ver o que ele contém. Existem vários métodos e atributos úteis para isso.

In [51]:
import pandas as pd

In [72]:
homelessness = pd.read_csv("homelessness.csv")
homelessness = homelessness.drop("Unnamed: 0",axis=1)

Homelessness é um DataFrame que contém estimativas de sem-teto em cada estado dos EUA em 2018. A individual coluna é o número de indivíduos sem-teto que não fazem parte de uma família com filhos. A family_members coluna é o número de moradores de rua que fazem parte de uma família com filhos. A state_pop coluna é a população total do estado.

In [73]:
#Retorna as 5 primeiras linhas do DataFrame
homelessness.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
0,East South Central,Alabama,2570.0,864.0,4887681
1,Pacific,Alaska,1434.0,582.0,735139
2,Mountain,Arizona,7259.0,2606.0,7158024
3,West South Central,Arkansas,2280.0,432.0,3009733
4,Pacific,California,109008.0,20964.0,39461588


In [74]:
#Apresenta informações de cada coluna
homelessness.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51 entries, 0 to 50
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   region          51 non-null     object 
 1   state           51 non-null     object 
 2   individuals     51 non-null     float64
 3   family_members  51 non-null     float64
 4   state_pop       51 non-null     int64  
dtypes: float64(2), int64(1), object(2)
memory usage: 2.1+ KB


In [55]:
#Retorna o número de linhas e colunas do DataFrame
homelessness.shape

(51, 5)

In [56]:
#Realiza alguns calculos estatísticos 
homelessness.describe()

Unnamed: 0,individuals,family_members,state_pop
count,51.0,51.0,51.0
mean,7225.784314,3504.882353,6405637.0
std,15991.025083,7805.411811,7327258.0
min,434.0,75.0,577601.0
25%,1446.5,592.0,1777414.0
50%,3082.0,1482.0,4461153.0
75%,6781.5,3196.0,7340946.0
max,109008.0,52070.0,39461590.0


# Partes de um DataFrame

Para entender melhor os objetos DataFrame, é útil saber que eles consistem em três componentes, armazenados como atributos: .values, .columns e .index

In [57]:
#Retorna valores de homelessness
homelessness.values

array([['East South Central', 'Alabama', 2570.0, 864.0, 4887681],
       ['Pacific', 'Alaska', 1434.0, 582.0, 735139],
       ['Mountain', 'Arizona', 7259.0, 2606.0, 7158024],
       ['West South Central', 'Arkansas', 2280.0, 432.0, 3009733],
       ['Pacific', 'California', 109008.0, 20964.0, 39461588],
       ['Mountain', 'Colorado', 7607.0, 3250.0, 5691287],
       ['New England', 'Connecticut', 2280.0, 1696.0, 3571520],
       ['South Atlantic', 'Delaware', 708.0, 374.0, 965479],
       ['South Atlantic', 'District of Columbia', 3770.0, 3134.0, 701547],
       ['South Atlantic', 'Florida', 21443.0, 9587.0, 21244317],
       ['South Atlantic', 'Georgia', 6943.0, 2556.0, 10511131],
       ['Pacific', 'Hawaii', 4131.0, 2399.0, 1420593],
       ['Mountain', 'Idaho', 1297.0, 715.0, 1750536],
       ['East North Central', 'Illinois', 6752.0, 3891.0, 12723071],
       ['East North Central', 'Indiana', 3776.0, 1482.0, 6695497],
       ['West North Central', 'Iowa', 1711.0, 1038.0, 3148618]

In [58]:
#Indice de colunas de homelessness
homelessness.columns

Index(['region', 'state', 'individuals', 'family_members', 'state_pop'], dtype='object')

In [59]:
#Indice de linhas de homelessness
homelessness.index

RangeIndex(start=0, stop=51, step=1)

# Classificando as linhas

Encontrar bits de dados interessantes em um DataFrame geralmente é mais fácil se você alterar a ordem das linhas. Você pode classificar as linhas passando um nome de coluna para .sort_values().

In [63]:
#Classificando os sem-teto pela coluna individuals, do menor para o maior
homelessness_ind = homelessness.sort_values("individuals")
homelessness_ind.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
50,Mountain,Wyoming,434.0,205.0,577601
34,West North Central,North Dakota,467.0,75.0,758080
7,South Atlantic,Delaware,708.0,374.0,965479
39,New England,Rhode Island,747.0,354.0,1058287
45,New England,Vermont,780.0,511.0,624358


In [75]:
#CLassificando a coluna family_members em ordem descendente e salvando em homelessness_fam
homelessness_fam = homelessness.sort_values("family_members", ascending=False)
homelessness_fam.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
32,Mid-Atlantic,New York,39827.0,52070.0,19530351
4,Pacific,California,109008.0,20964.0,39461588
21,New England,Massachusetts,6811.0,13257.0,6882635
9,South Atlantic,Florida,21443.0,9587.0,21244317
43,West South Central,Texas,19199.0,6111.0,28628666


In [79]:
#Classificando pela coluna region e, em seguida family_members em descendencia 
homelessness_reg_fam = homelessness.sort_values(["region", "family_members"], ascending=[True,False])
homelessness_reg_fam

Unnamed: 0,region,state,individuals,family_members,state_pop
13,East North Central,Illinois,6752.0,3891.0,12723071
35,East North Central,Ohio,6929.0,3320.0,11676341
22,East North Central,Michigan,5209.0,3142.0,9984072
49,East North Central,Wisconsin,2740.0,2167.0,5807406
14,East North Central,Indiana,3776.0,1482.0,6695497
42,East South Central,Tennessee,6139.0,1744.0,6771631
17,East South Central,Kentucky,2735.0,953.0,4461153
0,East South Central,Alabama,2570.0,864.0,4887681
24,East South Central,Mississippi,1024.0,328.0,2981020
32,Mid-Atlantic,New York,39827.0,52070.0,19530351


# Subconjunto de colunas

Ao trabalhar com dados, você pode não precisar de todas as variáveis ​​em seu conjunto de dados. Os colchetes ( []) podem ser usados para selecionar apenas as colunas que são importantes para você em uma ordem que faça sentido para você. 

In [80]:
#Criando um DataFrame selecionando apenas a coluna individuals
individuos = homelessness["individuals"]
individuos.head()

0      2570.0
1      1434.0
2      7259.0
3      2280.0
4    109008.0
Name: individuals, dtype: float64

In [82]:
#Criando um DataFrame chamado state_fam selecionando apenas a coluna state e family_members
state_fam = homelessness[["state", "family_members"]]
state_fam.head()

Unnamed: 0,state,family_members
0,Alabama,864.0
1,Alaska,582.0
2,Arizona,2606.0
3,Arkansas,432.0
4,California,20964.0


In [84]:
#Criando um DataFrame chamado ind_state selecionando a coluna individuals e state
ind_state = homelessness[["individuals", "state"]]
ind_state.head()

Unnamed: 0,individuals,state
0,2570.0,Alabama
1,1434.0,Alaska
2,7259.0,Arizona
3,2280.0,Arkansas
4,109008.0,California


# Subset de linhas

Grande parte da ciência de dados trata de descobrir quais partes do seu conjunto de dados são interessantes. Uma das técnicas mais simples para isso é encontrar um subconjunto de linhas que correspondam a alguns critérios. Às vezes, isso é conhecido como filtering rows ou selecting rows 

In [85]:
#Filtrando linhas onde os valores da coluna individuals é maior que 10000
ind_gt_10k = homelessness[homelessness["individuals"] > 10000]
ind_gt_10k.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
4,Pacific,California,109008.0,20964.0,39461588
9,South Atlantic,Florida,21443.0,9587.0,21244317
32,Mid-Atlantic,New York,39827.0,52070.0,19530351
37,Pacific,Oregon,11139.0,3337.0,4181886
43,West South Central,Texas,19199.0,6111.0,28628666


In [87]:
#Filtrando linhas onde os valores da coluna region é igual à Mountain
mountain_reg = homelessness[homelessness["region"] == "Mountain"]
mountain_reg.head()

Unnamed: 0,region,state,individuals,family_members,state_pop
2,Mountain,Arizona,7259.0,2606.0,7158024
5,Mountain,Colorado,7607.0,3250.0,5691287
12,Mountain,Idaho,1297.0,715.0,1750536
26,Mountain,Montana,983.0,422.0,1060665
28,Mountain,Nevada,7058.0,486.0,3027341


In [88]:
#Filtrando linhas onde os valores da coluna family_members é menor que 1000
fam_lt_1k_pac = homelessness[ (homelessness["family_members"] < 1000) & (homelessness["region"] == "Pacific")]
fam_lt_1k_pac

Unnamed: 0,region,state,individuals,family_members,state_pop
1,Pacific,Alaska,1434.0,582.0,735139


# Subconjunto de linhas por variáveis categóricas

A criação de subconjuntos de dados com base em uma variável categórica geralmente envolve o uso do operador "ou" ( |) para selecionar linhas de várias categorias. 

In [90]:
#Criando subconjunto de colunas com linhas que possuem os valores South Atlantic ou Mid-Atlantic
south_mid_atlantic = homelessness[(homelessness["region"] == "South Atlantic") | 
                                  (homelessness["region"] == "Mid-Atlantic")]
south_mid_atlantic

Unnamed: 0,region,state,individuals,family_members,state_pop
7,South Atlantic,Delaware,708.0,374.0,965479
8,South Atlantic,District of Columbia,3770.0,3134.0,701547
9,South Atlantic,Florida,21443.0,9587.0,21244317
10,South Atlantic,Georgia,6943.0,2556.0,10511131
20,South Atlantic,Maryland,4914.0,2230.0,6035802
30,Mid-Atlantic,New Jersey,6048.0,3350.0,8886025
32,Mid-Atlantic,New York,39827.0,52070.0,19530351
33,South Atlantic,North Carolina,6451.0,2817.0,10381615
38,Mid-Atlantic,Pennsylvania,8163.0,5349.0,12800922
40,South Atlantic,South Carolina,3082.0,851.0,5084156


# Adicionando novas colunas

É possível adcionar novas colunas a um DataFrame, sendo possível criar colunas do zero ou derivá-las de outras colunas, por exemplo,
adicionando colunas ou alterando unidades.

In [93]:
#Adicionando a coluna total, sendo igual a soma de individuals e family_members
homelessness["total"] = homelessness["individuals"] + homelessness["family_members"]

#Adicionando a coluna proportion de individuals e total
homelessness["p_individuals"] = homelessness["individuals"] / homelessness["total"]

homelessness.head()

Unnamed: 0,region,state,individuals,family_members,state_pop,total,p_individuals
0,East South Central,Alabama,2570.0,864.0,4887681,3434.0,0.748398
1,Pacific,Alaska,1434.0,582.0,735139,2016.0,0.71131
2,Mountain,Arizona,7259.0,2606.0,7158024,9865.0,0.735834
3,West South Central,Arkansas,2280.0,432.0,3009733,2712.0,0.840708
4,Pacific,California,109008.0,20964.0,39461588,129972.0,0.838704


Em uma análise de dados da vida real, podemos misturar e combinar as manipulações de dados para responder uma infinidade de perguntas.
Vamos tentar responder a seguinte pergunta: Qual o estado tem o maior número de pessoas homelessness por 10.000 pessoas no estado?

In [97]:
#Criando uma nova coluna indiv_per_10k com individuals pora cada 10k pessoas por estado
homelessness["indiv_per_10k"] = 10000 * homelessness["individuals"] / homelessness["state_pop"]

#Filtrando linhas com indiv_per_10k maior que 200
high_homelessness = homelessness[homelessness["indiv_per_10k"] > 20]

#Ordenando high_homelessness pela coluna indiv_per_10k em ordem decrescente
high_homelessness_srt = high_homelessness.sort_values("indiv_per_10k", ascending=False)

#Selecionando as colunas state e indiv_per_10k
result = high_homelessness_srt[["state", "indiv_per_10k"]]

result

Unnamed: 0,state,indiv_per_10k
8,District of Columbia,53.738381
11,Hawaii,29.079406
4,California,27.623825
37,Oregon,26.636307
28,Nevada,23.314189
47,Washington,21.829195
32,New York,20.392363
