In [2]:

import pandas as pd  
import numpy as np    




<h1 id="INTRODUÇÃO">INTRODUÇÃO<a class="anchor-link" href="#INTRODUÇÃO">¶</a></h1>



<p>As unidades básicas de trabalho com Pandas são as <b>'Series'</b> e os <b>'DataFrames'</b>.</p>
<p>Series nada mais são do que um conjunto de elementos de 1 dimensão com índices. Series podem conter basicamente qualquer objeto: int , float, string, etc...
A forma mais fácil para criar uma series é através da função <i>pd.Series(data=, index=):</i></p>


In [3]:

# usando uma lista
s = pd.Series (data = [5, 6, 8, -3, 9])
print (s, '\n')

# usando um dicionário
d = {'Campeão': 'Flamengo', 'Vice':'Vasco', 'Terceiro':'Bangu'}
s2 = pd.Series(d)
print (s2, '\n')

# usando um numpy array
dados = np.random.random(4)
indices = np.arange(0, 8, 2)
s3 = pd.Series(data = dados, index = indices)
print(s3, '\n')

# usando uma variável escalável
s4 = pd.Series(-9, index=['a', 'b', 'c', 'd'])
print (s4)



0    5
1    6
2    8
3   -3
4    9
dtype: int64 

Campeão     Flamengo
Vice           Vasco
Terceiro       Bangu
dtype: object 

0    0.535494
2    0.857297
4    0.154203
6    0.246552
dtype: float64 

a   -9
b   -9
c   -9
d   -9
dtype: int64



<h2 id="DataFrames:-"><u>DataFrames: </u><a class="anchor-link" href="#DataFrames:-">¶</a></h2>



<p>são simplesmente um conjunto de séries que compartilham o mesmo índice. Similiar a uma tabela ou planilha do excel. É objeto Pandas mais utilizado! Por isso é muito importante dominar todas as operações que envolvam dataframes. Existem várias formas de criar dataframes, vamos ver as mais importantes:</p>



<p>1)  Através da função:   <i>pd.DataFrame(data= , index= , columns=)</i></p>


In [4]:

# Data aceita diferentes inputs:

# Dicionário
house_dict = {'Baker House': [7420, 'BrkSide', 1939, 5, 118000],
              'Beazley House': [14115, 'Mitchel', 1993, 5, 143000],
              'Dominguez House': [14260, 'NoRidge', 2000, 8, 250000],
              'Hamilton House': [6120, 'OldTown', 1931, 7, 129900],
              'James House': [11250, 'CollgCr', 2001, 7, 223500],
              'Martinez House': [9600, 'Veenker', 1976, 6, 181500],
              'Roberts House': [9550, 'Crawfor', 1915, 7, 140000],
              'Smith House': [8450, 'CollgCr', 2003, 7, 208500],
              'Snyder House': [10084, 'Somerst', 2004, 8, 307000],
              'Zuckerman House': [10382, 'NWAmes', 1973, 7, 200000]}

print(pd.DataFrame(house_dict))


# Arrays
colnames = ['Column1','Column2','Column3','Column4','Column5']
df = pd.DataFrame(np.random.random((10,5)), columns=colnames)
print(df)

# Listas ou Tuplas
lst_lst = [[8450, 'CollgCr', 2003, 7, 208500],
           [9600, 'Veenker', 1976, 6, 181500],
           [11250, 'CollgCr', 2001, 7, 223500],
           [9550, 'Crawfor', 1915, 7, 140000],
           [14260, 'NoRidge', 2000, 8, 250000],
           [14115, 'Mitchel', 1993, 5, 143000],
           [10084, 'Somerst', 2004, 8, 307000],
           [10382, 'NWAmes', 1973, 7, 200000],
           [6120, 'OldTown', 1931, 7, 129900],
           [7420, 'BrkSide', 1939, 5, 118000]]

colnames = ['LotSize','Neighborhood','YearBuilt','Quality','SalePrice']
print(pd.DataFrame(lst_lst, columns=colnames))



  Baker House Beazley House Dominguez House Hamilton House James House  \
0        7420         14115           14260           6120       11250   
1     BrkSide       Mitchel         NoRidge        OldTown     CollgCr   
2        1939          1993            2000           1931        2001   
3           5             5               8              7           7   
4      118000        143000          250000         129900      223500   

  Martinez House Roberts House Smith House Snyder House Zuckerman House  
0           9600          9550        8450        10084           10382  
1        Veenker       Crawfor     CollgCr      Somerst          NWAmes  
2           1976          1915        2003         2004            1973  
3              6             7           7            8               7  
4         181500        140000      208500       307000          200000  
    Column1   Column2   Column3   Column4   Column5
0  0.430422  0.069084  0.528883  0.280365  0.530256
1  0.03

In [5]:
#transposicao

# Voce pode transpor um df e ajustar o nome das colunas
house_df = pd.DataFrame(house_dict).transpose()
house_df.columns = colnames

# Ou voce pode adicionar um from_dict method e especificar o 'index' como parametro, assim o nome das colunas serão ajustados
house_df = pd.DataFrame.from_dict(house_dict, orient='index')
house_df.columns = colnames

print(house_df)

                 LotSize Neighborhood  YearBuilt  Quality  SalePrice
Baker House         7420      BrkSide       1939        5     118000
Beazley House      14115      Mitchel       1993        5     143000
Dominguez House    14260      NoRidge       2000        8     250000
Hamilton House      6120      OldTown       1931        7     129900
James House        11250      CollgCr       2001        7     223500
Martinez House      9600      Veenker       1976        6     181500
Roberts House       9550      Crawfor       1915        7     140000
Smith House         8450      CollgCr       2003        7     208500
Snyder House       10084      Somerst       2004        8     307000
Zuckerman House    10382       NWAmes       1973        7     200000


In [6]:
#sumarizações 

# Total do preço das casas vendidas
print(house_df['SalePrice'].sum())


# Media do tamanho das casas
print(house_df['LotSize'].mean())


# Ano mais antigo de construcao das casas no df
print(house_df['YearBuilt'].max())


# Ano mais recente de construcao das casas no df
print(house_df['YearBuilt'].min())


1901400
10123.1
2004
1915



<p>2)   Por leitura de arquivo de diferentes formatos com os métodos:<br/>
<i>pd.read_csv();
    pd.read_excel();
    pd.read_pickle();
    pd.read_sql();
    pd.read_json();
    pd.read_html(); pd.read_sas() e outros...</i></p>


In [11]:

# basta passar a localização do arquivo para criar um novo dataframe

# Import comma-separated variable file
data = pd.read_csv('/Users/julianaforlin/Downloads/vehicles/vehicles.csv')

# Import tab-delimited file
data = pd.read_csv('/Users/julianaforlin/Downloads/vehicles/vehicles_tab.txt', sep='\t')

# Import pipe-delimited file
data = pd.read_csv('/Users/julianaforlin/Downloads/vehicles/vehicles_pipe.txt', sep='|')

data.head(5)

Unnamed: 0,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950
1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100
3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550



<p>Todos os outros métodos são bem semelhantes, o que muda um pouco é o read_html(). Veja o exemplo:</p>


In [16]:

# Criamos um dataframe chamado fut e passamos o link que contém a tabela que queremos:
fut = pd.read_html("https://pt.wikipedia.org/wiki/Campeonato_Carioca_de_Futebol")
print("Quantidade de tabelas:", len(fut))



Quantidade de tabelas: 58



<p>Perceba que o Pandas pega todas as tabelas presentes na página, como só queremos uma delas, selecionamos a escolhida:</p>


In [17]:

fut = fut[5]    # veremos mais para frente como selecionar os dados de interesse no DataFrame e como torná-lo mais apresentável
fut.head()



Unnamed: 0,0,1,2,3,4,5
0,Ano,Campeão,Placar(es),Vice-campeão,3º lugar,4º lugar
1,1979detalhes,Flamengo (20),Campeão dos dois turnos,Fluminense,Vasco da Gama,Botafogo
2,1980detalhes,Fluminense (24),1 – 0,Vasco da Gama,Flamengo,Bangu
3,1981detalhes,Flamengo (21),2 – 1,Vasco da Gama,Botafogo,Bangu
4,1982detalhes,Vasco da Gama (15),Triangular final,Flamengo,America,Botafogo



<h3 id="Output:">Output:<a class="anchor-link" href="#Output:">¶</a></h3>



<p>Pandas dá a opção de salvar nosso df em diferentes formatos: (análogo aos métodos de leitura)</p>
<pre><code>to_csv(); to_excel(), to_pickle(), to_json(), to_sql(), to_html e outros...</code></pre>


In [None]:

# Aquela tabela que lemos no formato .html, podemos salvar assim:

data.to_excel('Campeonato_Carioca_de_Futebol.xlsx')           # Excel
data.to_csv('Campeonato_Carioca_de_Futebol.csv')              # Arquivo .csv
data.to_pickle('Campeonato_Carioca_de_Futebol.pickle')        # Pickle




<p>Existem duas formas de selecionar <u>colunas</u> do seu df:</p>



<h1 id="Seleção-e-Indexação:">Seleção e Indexação:<a class="anchor-link" href="#Seleção-e-Indexação:">¶</a></h1>


In [19]:

data.Model

# ou, a minha preferência pessoal:

data['Model'].head()



0      DJ Po Vehicle 2WD
1       FJ8c Post Office
2    Post Office DJ5 2WD
3    Post Office DJ8 2WD
4                    GNX
Name: Model, dtype: object

In [20]:

# Para pegar mais de uma coluna, basta:

data[['Model', 'Year']] .head()   # perceba que estamos passando uma lista de colunas ao invés de uma coluna,
                                              # por isso os colchetes duplos... Retorna um dataframe!



Unnamed: 0,Model,Year
0,DJ Po Vehicle 2WD,1984
1,FJ8c Post Office,1984
2,Post Office DJ5 2WD,1985
3,Post Office DJ8 2WD,1985
4,GNX,1987



<p>Existem duas formas para selecionar <u>linhas</u>:  pela posição ou pelo nome do index</p>


In [21]:

# Pela posição, com iloc[]:

data.iloc[0]



Make                                        AM General
Model                                DJ Po Vehicle 2WD
Year                                              1984
Engine Displacement                                2.5
Cylinders                                            4
Transmission                           Automatic 3-spd
Drivetrain                               2-Wheel Drive
Vehicle Class              Special Purpose Vehicle 2WD
Fuel Type                                      Regular
Fuel Barrels/Year                              19.3888
City MPG                                            18
Highway MPG                                         17
Combined MPG                                        17
CO2 Emission Grams/Mile                        522.765
Fuel Cost/Year                                    1950
Name: 0, dtype: object

In [22]:

# Pelo nome do índice:

data.loc[829]



Make                                             Audi
Model                                      A4 quattro
Year                                             2008
Engine Displacement                                 2
Cylinders                                           4
Transmission                             Manual 6-spd
Drivetrain                 4-Wheel or All-Wheel Drive
Vehicle Class                            Compact Cars
Fuel Type                                     Premium
Fuel Barrels/Year                             14.3309
City MPG                                           20
Highway MPG                                        28
Combined MPG                                       23
CO2 Emission Grams/Mile                       386.391
Fuel Cost/Year                                   1750
Name: 829, dtype: object

In [23]:

# Para escolher uma única célula, use os rótulos da coluna e da linha:

print('Primeiro método :', data['Model'][829])

print('Segundo método :', data.iloc[0,0])

print('Terceiro método :', data.loc[829,'Model'])



Primeiro método : A4 quattro
Segundo método : AM General
Terceiro método : A4 quattro


In [26]:

# Adicionar colunas é muito simples
data['Nova_Coluna'] = range(len(data['Model']))




<h3 id="Índices:">Índices:<a class="anchor-link" href="#Índices:">¶</a></h3>


In [27]:

# Para mudar o índice - escolhemos como índice a nova coluna
data.set_index('Nova_Coluna').head()



Unnamed: 0_level_0,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
Nova_Coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950
1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100
3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550



<p>ATENÇÃO!!! A maioria das mudanças que fizermos nos dataframes não é permanente, na verdade o Pandas cria um novo objeto
e retorna o mesmo. 
Isso evita a perda de informação acidental. Para que a mudança seja permanente, use o parâmetro <i>inplace = True</i></p>


In [28]:

# Nesse caso não tem sentido mudar o índice, mas veja que a mudança não é permanente
data.head()



Unnamed: 0,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year,Nova_Coluna
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950,0
1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,1
2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100,2
3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,3
4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550,4


In [30]:

# Para resetar o índice, fazendo com que a mudança seja permanente
data.reset_index(inplace = True)
data.head()



Unnamed: 0,index,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year,Nova_Coluna
0,0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950,0
1,1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,1
2,2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100,2
3,3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,3
4,4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550,4



<h3 id="Dando-um-tapa-no-visu:">Dando um tapa no visu:<a class="anchor-link" href="#Dando-um-tapa-no-visu:">¶</a></h3>



<p>Boa parte do trabalho de um cientista de dados, consiste em organizar e limpar os dados de forma que seja mais fácil analisá-los</p>


In [31]:

# Deleta as colunas indesejadas
data.drop(['Nova_Coluna'], axis=1, inplace = True)



In [34]:

# Pegando apenas o valor de interesse em cada célula - vamos aprender isso em breve
data['Nova_Coluna'] = 'STRING1 - STRING2'
data['Sub_String1'] = data['Nova_Coluna'].apply(lambda x: str(x.split("-")[0]))
data['Sub_String2'] = data['Nova_Coluna'].apply(lambda x: str(x.split("-")[1]))

data.head()

Unnamed: 0,index,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year,Nova_Coluna,Sub_String1,Sub_String2
0,0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950,STRING1 - STRING2,STRING1,STRING2
1,1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,STRING1 - STRING2,STRING1,STRING2
2,2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100,STRING1 - STRING2,STRING1,STRING2
3,3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,STRING1 - STRING2,STRING1,STRING2
4,4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550,STRING1 - STRING2,STRING1,STRING2


In [33]:

# Deletando linhas duplicadas
data.drop_duplicates( keep='first', inplace=True)

#keep pode ter o valor 'last' também




<h3 id="SELEÇÃO-CONDICIONAL:">SELEÇÃO CONDICIONAL:<a class="anchor-link" href="#SELEÇÃO-CONDICIONAL:">¶</a></h3>


In [35]:

# Passando uma condição para o df, obtem-se um df com variáveis booleanas, que satisfazem essa condição, exemplo:


(data['Cylinders'] > 5).head()



0    False
1     True
2    False
3     True
4     True
Name: Cylinders, dtype: bool

In [36]:

# Para fazer uma selação condicional, passamos a condição como se fosse um índice:

data[data['Cylinders'] > 5].head()  # ou seja, quero os valores da coluna 'Cylinders'
                                  #, apenas onde esses valores sejam maiores que 5



Unnamed: 0,index,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year,Nova_Coluna,Sub_String1,Sub_String2
1,1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,STRING1 - STRING2,STRING1,STRING2
3,3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,STRING1 - STRING2,STRING1,STRING2
4,4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550,STRING1 - STRING2,STRING1,STRING2
7,7,Acura,2.2CL/3.0CL,1997,3.0,6.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,16.4805,18,26,20,444.35,1650,STRING1 - STRING2,STRING1,STRING2
10,10,Acura,2.3CL/3.0CL,1998,3.0,6.0,Automatic 4-spd,Front-Wheel Drive,Subcompact Cars,Regular,16.4805,17,26,20,444.35,1650,STRING1 - STRING2,STRING1,STRING2


In [38]:

# Outro exemplo: para saber quem tem o maior valor:


data.drop(['Nova_Coluna','Sub_String1','Sub_String2'], axis = 1, inplace=True)
data[ data['Cylinders'] == data['Cylinders'].max() ]


#Destrinchando essa linha acima:

#data['Cylinders'].max() retorna o valor máximo da coluna
#data['Cylinders'] == data['Cylinders'].max() é a condição que estamos passando,
#ou seja, quero os valores da coluna Cylinders, apenas 
#onde o valor seja igual ao valor máximo



Unnamed: 0,index,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
3204,3204,Bugatti,Veyron,2006,8.0,16.0,Automatic (S6),4-Wheel or All-Wheel Drive,Two Seaters,Premium,32.961,8,14,10,888.7,4050
3205,3205,Bugatti,Veyron,2008,8.0,16.0,Automatic (S6),4-Wheel or All-Wheel Drive,Two Seaters,Premium,32.961,8,14,10,888.7,4050
3206,3206,Bugatti,Veyron,2010,8.0,16.0,Automatic (S7),All-Wheel Drive,Two Seaters,Premium,32.961,8,14,10,888.7,4050
3207,3207,Bugatti,Veyron,2011,8.0,16.0,Automatic (S7),All-Wheel Drive,Two Seaters,Premium,32.961,8,15,10,888.7,4050
3208,3208,Bugatti,Veyron,2012,8.0,16.0,Automatic (S7),All-Wheel Drive,Two Seaters,Premium,32.961,8,15,10,888.7,4050
3209,3209,Bugatti,Veyron,2013,8.0,16.0,Auto(AM-S7),All-Wheel Drive,Two Seaters,Premium,32.961,8,15,10,847.0,4050
3210,3210,Bugatti,Veyron,2014,8.0,16.0,Auto(AM-S7),All-Wheel Drive,Two Seaters,Premium,32.961,8,15,10,847.0,4050
3211,3211,Bugatti,Veyron,2015,8.0,16.0,Auto(AM-S7),All-Wheel Drive,Two Seaters,Premium,32.961,8,15,10,847.0,4050


In [39]:

# Um método mais simples para comparar valores de uma coluna:

data['Year'].sort_values()




0        1984
16337    1984
16336    1984
5636     1984
5637     1984
5638     1984
5639     1984
5640     1984
5641     1984
5642     1984
16335    1984
7485     1984
16334    1984
16332    1984
10671    1984
10672    1984
31664    1984
12606    1984
31665    1984
10673    1984
12605    1984
12604    1984
12603    1984
16333    1984
7486     1984
7487     1984
7488     1984
20275    1984
20274    1984
20273    1984
         ... 
7203     2017
1964     2017
1996     2017
1995     2017
1994     2017
1993     2017
1992     2017
1991     2017
1990     2017
20590    2017
3106     2017
20229    2017
21089    2017
26329    2017
19685    2017
24381    2017
20589    2017
20230    2017
20231    2017
24373    2017
31644    2017
31643    2017
31642    2017
1970     2017
1969     2017
1968     2017
3137     2017
1965     2017
21091    2017
20450    2017
Name: Year, Length: 35952, dtype: int64

In [43]:

# Criando uma nova coluna de objetos ou strings, concatenando as variáveis
data['Model_Transm'] = data['Model'] + ' - ' +data['Transmission']
data['Model_Transm']



0          DJ Po Vehicle 2WD - Automatic 3-spd
1           FJ8c Post Office - Automatic 3-spd
2        Post Office DJ5 2WD - Automatic 3-spd
3        Post Office DJ8 2WD - Automatic 3-spd
4                        GNX - Automatic 4-spd
5                2.2CL/3.0CL - Automatic 4-spd
6                   2.2CL/3.0CL - Manual 5-spd
7                2.2CL/3.0CL - Automatic 4-spd
8                2.3CL/3.0CL - Automatic 4-spd
9                   2.3CL/3.0CL - Manual 5-spd
10               2.3CL/3.0CL - Automatic 4-spd
11               2.3CL/3.0CL - Automatic 4-spd
12                  2.3CL/3.0CL - Manual 5-spd
13               2.3CL/3.0CL - Automatic 4-spd
14                     2.5TL - Automatic 4-spd
15               2.5TL/3.2TL - Automatic 4-spd
16               2.5TL/3.2TL - Automatic 4-spd
17               2.5TL/3.2TL - Automatic 4-spd
18               2.5TL/3.2TL - Automatic 4-spd
19               2.5TL/3.2TL - Automatic 4-spd
20               2.5TL/3.2TL - Automatic 4-spd
21           


<h1 id="Atributos-e-Funções:">Atributos e Funções:<a class="anchor-link" href="#Atributos-e-Funções:">¶</a></h1>



<p>Podemos obter muitas informações dos nossos dataframes, para isso basta conhecer as principais funções disponíveis:</p>



<p>.head() e .tail()</p>


In [44]:

# Para retornar as n primeiras usamos:
data.head(4)   # se não passar nenhum valor, o padrão é 5



Unnamed: 0,index,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year,Model_Transm
0,0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950,DJ Po Vehicle 2WD - Automatic 3-spd
1,1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,FJ8c Post Office - Automatic 3-spd
2,2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100,Post Office DJ5 2WD - Automatic 3-spd
3,3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550,Post Office DJ8 2WD - Automatic 3-spd


In [46]:

# Para ver as últimas linhas do nosso df:
data.tail(3)



Unnamed: 0,index,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year,Model_Transm
35949,35949,smart,fortwo coupe,2015,1.0,3.0,Auto(AM5),Rear-Wheel Drive,Two Seaters,Premium,9.155833,34,38,36,244.0,1100,fortwo coupe - Auto(AM5)
35950,35950,smart,fortwo coupe,2016,0.9,3.0,Auto(AM6),Rear-Wheel Drive,Two Seaters,Premium,9.155833,34,39,36,246.0,1100,fortwo coupe - Auto(AM6)
35951,35951,smart,fortwo coupe,2016,0.9,3.0,Manual 5-spd,Rear-Wheel Drive,Two Seaters,Premium,9.417429,32,39,35,255.0,1150,fortwo coupe - Manual 5-spd


In [47]:

# Para obter as colunas de seu dataframe:

print (data.columns)

# Para obter os índices de seu dataframe:

print (data.index)



Index(['index', 'Make', 'Model', 'Year', 'Engine Displacement', 'Cylinders',
       'Transmission', 'Drivetrain', 'Vehicle Class', 'Fuel Type',
       'Fuel Barrels/Year', 'City MPG', 'Highway MPG', 'Combined MPG',
       'CO2 Emission Grams/Mile', 'Fuel Cost/Year', 'Model_Transm'],
      dtype='object')
Int64Index([    0,     1,     2,     3,     4,     5,     6,     7,     8,
                9,
            ...
            35942, 35943, 35944, 35945, 35946, 35947, 35948, 35949, 35950,
            35951],
           dtype='int64', length=35952)



<p>Para obter informações rápidas, use os métodos .info() e .describe()</p>


In [48]:

# Retorna quantidade de linhas, colunas, tipo de dados...

data.info()



<class 'pandas.core.frame.DataFrame'>
Int64Index: 35952 entries, 0 to 35951
Data columns (total 17 columns):
index                      35952 non-null int64
Make                       35952 non-null object
Model                      35952 non-null object
Year                       35952 non-null int64
Engine Displacement        35952 non-null float64
Cylinders                  35952 non-null float64
Transmission               35952 non-null object
Drivetrain                 35952 non-null object
Vehicle Class              35952 non-null object
Fuel Type                  35952 non-null object
Fuel Barrels/Year          35952 non-null float64
City MPG                   35952 non-null int64
Highway MPG                35952 non-null int64
Combined MPG               35952 non-null int64
CO2 Emission Grams/Mile    35952 non-null float64
Fuel Cost/Year             35952 non-null int64
Model_Transm               35952 non-null object
dtypes: float64(4), int64(6), object(7)
memory usage: 4.9+ M

In [49]:

# Lendo apenas as colunas numéricas float e int
print('float64: ', len(data.select_dtypes(include = 'float64').columns), sep = '')
print('int64: ',   len(data.select_dtypes(include = 'int64').columns), sep = '')
print('object: ',len(data.select_dtypes(include = 'object').columns), sep = '')

# Pode ser utilizada a ação 'pandas._get_numeric_data()' para selecionar as variáveis numéricas 

# Lendo apenas as colunas numéricas float e int
print('\nfloat64: ' + str(len(data.select_dtypes(include = ['float64','int64']).columns)))
print('int64: '   + str(len(data._get_numeric_data().columns)))

# Lendo apenas as colunas object ao excluir as numéricas
print('object: '  + str(len(data.select_dtypes(exclude = ['float64','int64']).columns)))



float64: 4
int64: 6
object: 7

float64: 10
int64: 10
object: 7


In [50]:

# Retorna um df com contagem, média, soma, desvio padrão, quartis e valores mínimos e máximos de cada coluna :

# Se o DataFrame conter vários tipos de variáveis,
# o pandas.describe() irá priorizar apenas as variáveis numéricas

print('Linhas : ', data.describe().shape[0])
print('Colunas: ', data.describe().shape[1])
data.describe()



Linhas :  8
Colunas:  10


Unnamed: 0,index,Year,Engine Displacement,Cylinders,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
count,35952.0,35952.0,35952.0,35952.0,35952.0,35952.0,35952.0,35952.0,35952.0,35952.0
mean,17975.5,2000.7164,3.338493,5.765076,17.609056,17.646139,23.880646,19.929322,475.316339,1892.598465
std,10378.592776,10.08529,1.359395,1.755268,4.467283,4.769349,5.890876,5.112409,119.060773,506.958627
min,0.0,1984.0,0.6,2.0,0.06,6.0,9.0,7.0,37.0,600.0
25%,8987.75,1991.0,2.2,4.0,14.699423,15.0,20.0,16.0,395.0,1500.0
50%,17975.5,2001.0,3.0,6.0,17.347895,17.0,24.0,19.0,467.736842,1850.0
75%,26963.25,2010.0,4.3,6.0,20.600625,20.0,27.0,23.0,555.4375,2200.0
max,35951.0,2017.0,8.4,16.0,47.087143,58.0,61.0,56.0,1269.571429,5800.0


In [51]:

#Para se obter uma análise das variáveis categóricas, deve-se selecionar apenas elas
data.describe(include =  'object')



Unnamed: 0,Make,Model,Transmission,Drivetrain,Vehicle Class,Fuel Type,Model_Transm
count,35952,35952,35952,35952,35952,35952,35952
unique,127,3608,45,8,34,13,6525
top,Chevrolet,F150 Pickup 2WD,Automatic 4-spd,Front-Wheel Drive,Compact Cars,Regular,Truck 2WD - Manual 5-spd
freq,3643,197,10585,13044,5185,23587,84


In [53]:

# Podemos obter cada informação acima em uma Series, aplicando as funções:
# Serão contados apenas valores não nulos

print('contagem:\n',data['Model'].count(), sep = '')

# Para rodar para mais uma de variável basta seguir esse exemplo : df[[variavel1, variavel2]].count()
# Para rodar para a base toda: df.count()



contagem:
35952


In [54]:

# Para obter a média de colunas do df:

pd.options.display.float_format = '{:.2f}'.format
print('média:\n',data['Fuel Cost/Year'].mean(), sep = '')

# Para rodar para mais uma de variável basta seguir esse exemplo : df[[variavel1, variavel2]].mean()
# Para rodar para a base toda: df.mean()



média:
1892.5984646194927


In [55]:

# Para obter o desvio padrão de colunas do df:
print('desvio padrão:\n',data[['Fuel Cost/Fuel Barrels/Year','Fuel Barrels/Year']].std())

# Para rodar para mais uma de variável basta seguir esse exemplo : df[[variavel1, variavel2]].std()
# Para rodar para a base toda: df.std()
# Por default, o grau de liberdade é igual a 1 pd.std(ddof = 1). Podendo ser mudado caso necessário



desvio padrão:
 Fuel Cost/Year      506.96
Fuel Barrels/Year     4.47
dtype: float64


In [56]:

# Para obter os valores mínimos das colunas do df:
print('valores mínimos::\n',data['Fuel Barrels/Year'].min())

# Para rodar para mais uma de variável basta seguir esse exemplo : df[[variavel1, variavel2]].min()
# Para rodar para a base toda: df.min()



valores mínimos::
 0.06000000000000001


In [58]:

# Para obter o máximo de colunas do df:
print('valores máximos::\n', data['Fuel Barrels/Year'].max())

# Para rodar para mais uma de variável basta seguir esse exemplo : df[[variavel1, variavel2]].max()
# Para rodar para a base toda: df.max()



valores máximos::
 47.08714285714285


In [59]:

# Para obter a soma de colunas do df:
print('Soma dos valores da colunas:\n', data['Fuel Barrels/Year'].sum())

# Para rodar para mais uma de variável basta seguir esse exemplo : df[[variavel1, variavel2]].sum()
# Para rodar para a base toda: df.sum()



Soma dos valores da colunas:
 633080.763419701


In [None]:

# Para obter o produto de colunas do df:
# Não recomendável realizar para o banco de dados completo pois exige muito hardware para bases grandes
# print('Produto dos valores da colunas:\n', df.prod())


# Para rodar para mais uma de variável basta seguir esse exemplo : df[[variavel1, variavel2]].sum()
# Para rodar para a base toda: df.sum()



In [61]:

# A função .corr() faz a correlação de todos os atributos, excluindo NaN values:
# Por default ele realiza apenas para as variáveis numericas a correlação de 'person'
data.corr()



Unnamed: 0,index,Year,Engine Displacement,Cylinders,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
index,1.0,0.02,-0.29,-0.28,-0.22,0.23,0.18,0.21,-0.22,-0.21
Year,0.02,1.0,0.04,0.08,-0.22,0.16,0.27,0.2,-0.22,-0.09
Engine Displacement,-0.29,0.04,1.0,0.9,0.79,-0.74,-0.72,-0.75,0.8,0.77
Cylinders,-0.28,0.08,0.9,1.0,0.74,-0.7,-0.65,-0.7,0.75,0.78
Fuel Barrels/Year,-0.22,-0.22,0.79,0.74,1.0,-0.88,-0.91,-0.91,0.99,0.92
City MPG,0.23,0.16,-0.74,-0.7,-0.88,1.0,0.92,0.99,-0.89,-0.86
Highway MPG,0.18,0.27,-0.72,-0.65,-0.91,0.92,1.0,0.97,-0.93,-0.85
Combined MPG,0.21,0.2,-0.75,-0.7,-0.91,0.99,0.97,1.0,-0.93,-0.88
CO2 Emission Grams/Mile,-0.22,-0.22,0.8,0.75,0.99,-0.89,-0.93,-0.93,1.0,0.93
Fuel Cost/Year,-0.21,-0.09,0.77,0.78,0.92,-0.86,-0.85,-0.88,0.93,1.0


In [62]:

# A função .cov() faz a covariância de todos os atributos, excluindo NaN values:
# Por default ele realiza apenas para as variáveis numericas
data.cov()



Unnamed: 0,index,Year,Engine Displacement,Cylinders,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
index,107715188.0,2052.28,-4037.8,-5094.56,-10046.12,11169.78,10744.52,11332.11,-273420.97,-1092555.9
Year,2052.28,101.71,0.52,1.46,-9.96,7.78,15.88,10.56,-266.93,-469.93
Engine Displacement,-4037.8,0.52,1.85,2.15,4.8,-4.8,-5.73,-5.19,130.05,530.43
Cylinders,-5094.56,1.46,2.15,3.08,5.8,-5.89,-6.72,-6.27,157.24,692.44
Fuel Barrels/Year,-10046.12,-9.96,4.8,5.8,19.96,-18.7,-23.94,-20.78,524.53,2074.96
City MPG,11169.78,7.78,-4.8,-5.89,-18.7,22.75,25.96,24.03,-507.73,-2076.08
Highway MPG,10744.52,15.88,-5.73,-6.72,-23.94,25.96,34.7,29.19,-649.75,-2542.66
Combined MPG,11332.11,10.56,-5.19,-6.27,-20.78,24.03,29.19,26.14,-563.78,-2268.29
CO2 Emission Grams/Mile,-273420.97,-266.93,130.05,157.24,524.53,-507.73,-649.75,-563.78,14175.47,56185.98
Fuel Cost/Year,-1092555.9,-469.93,530.43,692.44,2074.96,-2076.08,-2542.66,-2268.29,56185.98,257007.05



<h4 id="Para-ser-aplicado-nas-colunas-(lembre-que-cada-coluna-de-um-df-é-um-Series):">Para ser aplicado nas colunas (lembre que cada coluna de um df é um Series):<a class="anchor-link" href="#Para-ser-aplicado-nas-colunas-(lembre-que-cada-coluna-de-um-df-é-um-Series):">¶</a></h4>


In [63]:

# Para saber quais são os valores únicos que determinada coluna possui, use .unique()

# Variavel não numérica
data['Make'].unique()



array(['AM General', 'ASC Incorporated', 'Acura', 'Alfa Romeo',
       'American Motors Corporation', 'Aston Martin', 'Audi',
       'Aurora Cars Ltd', 'Autokraft Limited', 'BMW', 'BMW Alpina',
       'Bentley', 'Bertone', 'Bill Dovell Motor Car Company',
       'Bitter Gmbh and Co. Kg', 'Bugatti', 'Buick', 'CCC Engineering',
       'CX Automotive', 'Cadillac', 'Chevrolet', 'Chrysler',
       'Consulier Industries Inc', 'Dabryan Coach Builders Inc', 'Dacia',
       'Daewoo', 'Daihatsu', 'Dodge', 'E. P. Dutton, Inc.', 'Eagle',
       'Environmental Rsch and Devp Corp', 'Evans Automobiles',
       'Excalibur Autos', 'Federal Coach', 'Ferrari', 'Fiat', 'Fisker',
       'Ford', 'GMC', 'General Motors', 'Genesis', 'Geo', 'Goldacre',
       'Grumman Allied Industries', 'Grumman Olson', 'Honda', 'Hummer',
       'Hyundai', 'Import Foreign Auto Sales Inc',
       'Import Trade Services', 'Infiniti', 'Isis Imports Ltd', 'Isuzu',
       'J.K. Motors', 'JBA Motorcars, Inc.', 'Jaguar', 'Jeep', 'Ki

In [64]:

# Variável numérica
data['Year'].unique()



array([1984, 1985, 1987, 1997, 1998, 1999, 1995, 1996, 2001, 2002, 2003,
       2000, 2004, 2013, 2014, 2015, 2016, 2017, 1986, 1988, 1989, 1990,
       1991, 1992, 1993, 1994, 2005, 2006, 2007, 2008, 2009, 2010, 2011,
       2012])

In [65]:

# Existem duas formas de saber a quantidade de valores únicos:

print(len(data['Make'].unique()))
print(data['Make'].nunique())
print(data['Make'].nunique(dropna = False))



127
127
127


In [70]:

# Outro método importante é o .value_counts() , retorna a contagem de cada valor presente na coluna:
data['Make'].value_counts()



Chevrolet                             3643
Ford                                  2946
Dodge                                 2360
GMC                                   2347
Toyota                                1836
BMW                                   1677
Mercedes-Benz                         1284
Nissan                                1253
Volkswagen                            1047
Mitsubishi                             950
Mazda                                  915
Audi                                   890
Porsche                                862
Honda                                  836
Jeep                                   829
Pontiac                                784
Subaru                                 781
Volvo                                  717
Hyundai                                662
Chrysler                               641
Buick                                  537
Mercury                                532
Suzuki                                 512
Cadillac   

In [69]:

# este comando gerará um erro, pois o comando pd.value_counts() só pode para variáveis tipo 'Series'
#data[['Make', 'Year']].value_counts()



AttributeError: 'DataFrame' object has no attribute 'value_counts'