#Introdução ao pandas


---


[documentação](https://pandas.pydata.org/docs/index.html) <br>
dataset: [fonte](https://www.kaggle.com/datasets/crawford/80-cereals)

---



>[Introdução ao pandas](#scrollTo=Z2Ur5SspUJlO)

>>[1. Vamos começar por importar a biblioteca e o dataset](#scrollTo=ZxiRWYNLgXq-)

>>[2. Vamos explorar o dataframe](#scrollTo=Ydxw6tPwf-TF)

>>[3. Vamos ordenar e criar subconjuntos](#scrollTo=_o03LNFpg4li)

>>[4. Criar novas colunas](#scrollTo=lUulh_Fl0T9B)



## 1.&nbsp;Vamos começar por importar a biblioteca e o dataset

In [5]:
# importar a biblioteca
import pandas as pd

# importar o dataset que está em csv
df_cereals = pd.read_csv('C:/Users/yfreitas/Documents/pythonSamples/Machine Learning/Files/cereal.csv')
print(df_cereals)

                         name mfr type  calories  protein  fat  sodium  fiber  \
0                   100% Bran   N    C        70        4    1     130   10.0   
1           100% Natural Bran   Q    C       120        3    5      15    2.0   
2                    All-Bran   K    C        70        4    1     260    9.0   
3   All-Bran with Extra Fiber   K    C        50        4    0     140   14.0   
4              Almond Delight   R    C       110        2    2     200    1.0   
..                        ...  ..  ...       ...      ...  ...     ...    ...   
72                    Triples   G    C       110        2    1     250    0.0   
73                       Trix   G    C       110        1    1     140    0.0   
74                 Wheat Chex   R    C       100        3    1     230    3.0   
75                   Wheaties   G    C       100        3    1     200    3.0   
76        Wheaties Honey Gold   G    C       110        2    1     200    1.0   

    carbo  sugars  potass  

## 2.&nbsp;Vamos explorar o dataframe

In [6]:
# vamos ver as primeiras 5 linhas do dataframe
df_cereals.head()
# vamos ver as primeiras 10 linhas do dataframe
df_cereals.head(10)

# vamos ver as últimas 5 linhas do dataframe
df_cereals.tail()

# vamos ver a "ficha" do dataframe
df_cereals.info() #method

# vamos ver a forma do dataframe
df_cereals.shape #atribute

# podemos sempre ver estatísticas gerais
df_cereals.describe()

# um dataframe é composto por (index, columns e values)
df_cereals.index
df_cereals.columns
df_cereals.values

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77 entries, 0 to 76
Data columns (total 16 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   name      77 non-null     object 
 1   mfr       77 non-null     object 
 2   type      77 non-null     object 
 3   calories  77 non-null     int64  
 4   protein   77 non-null     int64  
 5   fat       77 non-null     int64  
 6   sodium    77 non-null     int64  
 7   fiber     77 non-null     float64
 8   carbo     77 non-null     float64
 9   sugars    77 non-null     int64  
 10  potass    77 non-null     int64  
 11  vitamins  77 non-null     int64  
 12  shelf     77 non-null     int64  
 13  weight    77 non-null     float64
 14  cups      77 non-null     float64
 15  rating    77 non-null     float64
dtypes: float64(5), int64(8), object(3)
memory usage: 9.8+ KB


array([['100% Bran', 'N', 'C', ..., 1.0, 0.33, 68.402973],
       ['100% Natural Bran', 'Q', 'C', ..., 1.0, 1.0, 33.983679],
       ['All-Bran', 'K', 'C', ..., 1.0, 0.33, 59.425505],
       ...,
       ['Wheat Chex', 'R', 'C', ..., 1.0, 0.67, 49.787445],
       ['Wheaties', 'G', 'C', ..., 1.0, 1.0, 51.592193],
       ['Wheaties Honey Gold', 'G', 'C', ..., 1.0, 0.75, 36.187559]],
      dtype=object)

## 3.&nbsp;Vamos ordenar e criar subconjuntos

In [19]:
df_cereals["rating"]



0     68.402973
1     33.983679
2     59.425505
3     93.704912
4     34.384843
        ...    
72    39.106174
73    27.753301
74    49.787445
75    51.592193
76    36.187559
Name: rating, Length: 77, dtype: float64

In [7]:
# para ordenar o dataframe usamos a função sort_values()
# vamos ordenar pela coluna de rating
df_cereals.sort_values("rating")

# vamos agora ordenar em sentido descencente
df_cereals.sort_values("rating", ascending = False)

# agora vamos querer ordenar pelos ratings e pelo açucar
df_cereals.sort_values(["rating", "sugars"])

# o que queremos é ter o rating e sentido descendente e o açucar no ascendente
df_cereals.sort_values(["rating", "sugars"], ascending = [False, True])

# vamos ver como extrair uma das colunas
df_cereals["rating"]
df_cereals
# df_cereals["rating"].columns
df_cereals[["rating"]]
df_cereals[["rating"]].columns

# agora queremos obter o subconjunto com as colunas do açucar e do rating
df_cereals[["sugars", "rating"]]

# para obter o subconjunto de linhas, podemos usar uma condição
rating_condition_series = df_cereals["rating"] > 60
df_cereals[rating_condition_series]

# rating_condition_df = df_cereals[["rating"]] > 60
# df_cereals[rating_condition_df]

# podemos usar mais do que uma condição
df_cereals[(df_cereals["rating"] > 60) & (df_cereals["mfr"] == "N")]

# ou
condition_1 = df_cereals["rating"] > 60
condition_2 = df_cereals["mfr"] == "N"
df_cereals[condition_1 & condition_2]

Unnamed: 0,name,mfr,type,calories,protein,fat,sodium,fiber,carbo,sugars,potass,vitamins,shelf,weight,cups,rating
0,100% Bran,N,C,70,4,1,130,10.0,5.0,6,280,25,3,1.0,0.33,68.402973
20,Cream of Wheat (Quick),N,H,100,3,0,80,1.0,21.0,0,-1,0,2,1.0,1.0,64.533816
63,Shredded Wheat,N,C,80,2,0,0,3.0,16.0,0,95,0,1,0.83,1.0,68.235885
64,Shredded Wheat 'n'Bran,N,C,90,3,0,0,4.0,19.0,0,140,0,1,1.0,0.67,74.472949
65,Shredded Wheat spoon size,N,C,90,3,0,0,3.0,20.0,0,120,0,1,1.0,0.67,72.801787


## 4.&nbsp;Criar novas colunas

In [31]:
# a coluna peso (weight) está em ounces; vamos alterá-la para gramas
# 1 ounce = 28.3495231 g
df_cereals["weight_g"] = df_cereals["weight"] * 28.3495231
df_cereals.sort_values("weight", ascending = False)

# vamos agora criar o rácio do peso/chávena
df_cereals["ratio"] = df_cereals["weight_g"] / df_cereals["cups"]
df_cereals.sort_values("ratio", ascending = False)

# podemos agora começar a juntar o que aprendemos e a explorar o df
# vamos ver os cereais que:
# têm um ratio < 50
# são da marca K
# por ordem descendente em termos de açucar
# só queremos as colunas do nome e do açucar

final_condition_1 = df_cereals["ratio"] < 50
final_condition_2 = df_cereals["mfr"] == "K"
df_cereals_subset = df_cereals[final_condition_1 & final_condition_2]
df_cereals_subset_sort = df_cereals_subset.sort_values("sugars",
                                                       ascending = False)
df_cereals_subset_sort

df_cereals_final = df_cereals_subset_sort[["name", "sugars"]]
df_cereals_final

Unnamed: 0,name,sugars
66,Smacks,15
6,Apple Jacks,14
24,Froot Loops,13
17,Corn Pops,12
25,Frosted Flakes,11
39,Just Right Fruit & Nut,9
48,Nut&Honey Crunch,9
26,Frosted Mini-Wheats,7
38,Just Right Crunchy Nuggets,6
21,Crispix,3
