## Estudos com a biblioteca PANDAS

In [2]:
import pandas as pd 


### Crianda um DataFrame a partir de dicionário

In [16]:
dados_cachorros = {
    'Nome': ['Max', 'Bella', 'Rocky', 'Luna', 'Duke'],
    'Raça': ['Labrador', 'Poodle', 'Boxer', 'Golden Retriever', 'Bulldog'],
    'Cor': ['Amarelo', 'Branco', 'Marrom', 'Dourado', 'Tigrado'],
    'Peso (kg)': [60, 35, 65, 55, 55],
    'Altura (cm)': [45, 17, 38, 35, 30],
    'Data de nascimento': ['01/05/2023', '10/01/2024', '03/08/2022', '12/02/2021', '09/05/2022']
}

In [19]:
#Criando o DataFrame

df_cachorros = pd.DataFrame(dados_cachorros)
df_cachorros

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
0,Max,Labrador,Amarelo,60,45,01/05/2023
1,Bella,Poodle,Branco,35,17,10/01/2024
2,Rocky,Boxer,Marrom,65,38,03/08/2022
3,Luna,Golden Retriever,Dourado,55,35,12/02/2021
4,Duke,Bulldog,Tigrado,55,30,09/05/2022


In [34]:
#Convertendo a coluna de Data para o formato dia/mes/ano
df_cachorros['Data de nascimento'] = pd.to_datetime(df_cachorros['Data de nascimento'], format='%d/%m/%Y')


### Criando um DataFrame a partir de arquivos

In [None]:
#csv
#df_csv = pd.read_csv('arquivo.csv')

In [None]:
#excel
#df_excel = pd.read_excel('planilha.xlsx', sheet_name = 'nome_da_planilha')

In [None]:
#json
#df_jason = pd.read_json('arquivo.json')

In [None]:
#parquet
#df_parquet = pd.read_parquet('arquivo.parquet')

In [None]:
#SQL
#from sqlalchemy import create_engine

#engine = create_engine('sqlite:///banco_de_dados.db')
#query = 'SELECT * FROM tabela'
#df_sql = pd.read_sql(query, engine)

### Partes do DataFrame

In [9]:
#values = são os dados do df
df_cachorros.values

array([['Max', 'Labrador', 'Amarelo', 60, 45, '01/05/2023'],
       ['Bella', 'Poodle', 'Branco', 35, 17, '10/01/2024'],
       ['Rocky', 'Boxer', 'Marrom', 65, 38, '03/08/2022'],
       ['Luna', 'Golden Retriever', 'Dourado', 55, 35, '12/02/2021']],
      dtype=object)

In [10]:
#columns = são as etiquetas/labels/nomes das colunas
df_cachorros.columns

Index(['Nome', 'Raça', 'Cor', 'Peso (kg)', 'Altura (cm)',
       'Data de nascimento'],
      dtype='object')

In [11]:
#index = são as etiquetas das linhas, os números que representam cada entrada
df_cachorros.index


RangeIndex(start=0, stop=4, step=1)

### Métodos para entender o DataFrame

In [5]:
#head() - Retorna as 5 primeiras linhas do df
df_cachorros.head()

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
0,Max,Labrador,Amarelo,60,45,01/05/2023
1,Bella,Poodle,Branco,35,17,10/01/2024
2,Rocky,Boxer,Marrom,65,38,03/08/2022
3,Luna,Golden Retriever,Dourado,55,35,12/02/2021


In [6]:
#info() = Retorna um resumo do df, como quantidade de linhas, nome das colunas
#tipo dos dados, valores nulos
df_cachorros.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Nome                4 non-null      object
 1   Raça                4 non-null      object
 2   Cor                 4 non-null      object
 3   Peso (kg)           4 non-null      int64 
 4   Altura (cm)         4 non-null      int64 
 5   Data de nascimento  4 non-null      object
dtypes: int64(2), object(4)
memory usage: 324.0+ bytes


In [7]:
#shape = Retorna a quantidade de linhas e colunas (linhas, colunas) 
df_cachorros.shape

(4, 6)

In [8]:
#describe() = Retorna estatíticas descritivas de forma resumida
df_cachorros.describe()

Unnamed: 0,Peso (kg),Altura (cm)
count,4.0,4.0
mean,53.75,33.75
std,13.149778,11.92686
min,35.0,17.0
25%,50.0,30.5
50%,57.5,36.5
75%,61.25,39.75
max,65.0,45.0


### Ordenação do DataFrame

In [14]:
#Ordenação por coluna - ascending por padrão é True (crescente)
df_cachorros.sort_values('Altura (cm)', ascending= False)

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
0,Max,Labrador,Amarelo,60,45,01/05/2023
2,Rocky,Boxer,Marrom,65,38,03/08/2022
3,Luna,Golden Retriever,Dourado,55,35,12/02/2021
1,Bella,Poodle,Branco,35,17,10/01/2024


In [23]:
#Ordenação por múltiplas variáveis
df_cachorros.sort_values(['Peso (kg)', 'Altura (cm)'], ascending=[True, False])

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
1,Bella,Poodle,Branco,35,17,10/01/2024
3,Luna,Golden Retriever,Dourado,55,35,12/02/2021
4,Duke,Bulldog,Tigrado,55,30,09/05/2022
0,Max,Labrador,Amarelo,60,45,01/05/2023
2,Rocky,Boxer,Marrom,65,38,03/08/2022


### Subconjunto do DataFrame

In [24]:
# Subconjunto de uma coluna: df['Nome da coluna']
df_cachorros['Nome']

0      Max
1    Bella
2    Rocky
3     Luna
4     Duke
Name: Nome, dtype: object

In [25]:
# Subconjunto de várias colunas: df[['Nome da coluna1', 'Nome da coluna2', ...]]
df_cachorros[['Nome', 'Peso (kg)']]

Unnamed: 0,Nome,Peso (kg)
0,Max,60
1,Bella,35
2,Rocky,65
3,Luna,55
4,Duke,55


In [27]:
#Subconjunto de linhas: utilizamos condições lógicas para filtrar df['coluna']
df_cachorros['Altura (cm)'] > 35

0     True
1    False
2     True
3    False
4    False
Name: Altura (cm), dtype: bool

In [28]:
#Usando o subconjunto de linhas dentro do df, conseguimos ter todas as informações
df_cachorros[df_cachorros['Altura (cm)'] > 35]

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
0,Max,Labrador,Amarelo,60,45,01/05/2023
2,Rocky,Boxer,Marrom,65,38,03/08/2022


In [29]:
#Subconjunto com dados de texto
df_cachorros[df_cachorros['Raça'] == 'Boxer']

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
2,Rocky,Boxer,Marrom,65,38,03/08/2022


In [35]:
#Subconjunto com base em datas
df_cachorros[df_cachorros['Data de nascimento'] > '01/01/2023']

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
0,Max,Labrador,Amarelo,60,45,2023-05-01
1,Bella,Poodle,Branco,35,17,2024-01-10


In [37]:
#Subconjunto com múltiplas condições
is_poodle = df_cachorros['Raça'] == 'Poodle'
is_branco = df_cachorros['Cor'] == 'Branco'
df_cachorros[is_poodle & is_branco]

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
1,Bella,Poodle,Branco,35,17,2024-01-10


In [38]:
#Subconjunto usando .isin()
is_branco_ou_amarelo = df_cachorros['Cor'].isin(['Branco', 'Amarelo'])
df_cachorros[is_branco_ou_amarelo]

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento
0,Max,Labrador,Amarelo,60,45,2023-05-01
1,Bella,Poodle,Branco,35,17,2024-01-10


### Adicionando coluna

In [40]:
#Adicionando coluna a partir de outra
df_cachorros['Altura (m)'] = df_cachorros['Altura (cm)']/100
df_cachorros

Unnamed: 0,Nome,Raça,Cor,Peso (kg),Altura (cm),Data de nascimento,Altura (m)
0,Max,Labrador,Amarelo,60,45,2023-05-01,0.45
1,Bella,Poodle,Branco,35,17,2024-01-10,0.17
2,Rocky,Boxer,Marrom,65,38,2022-08-03,0.38
3,Luna,Golden Retriever,Dourado,55,35,2021-02-12,0.35
4,Duke,Bulldog,Tigrado,55,30,2022-05-09,0.3


### Exercícios

1. Faça o upload do CSV carros.csv
2. Print seu head com 10 linhas
3. Print as colunas e index do dataframe
4. Faça uma ordenação descrescente no dataframe pela quantidade de carros no estado
5. Descubra qual é a proporção de carros para a população de cada estado e insira em uma nova coluna
6. Faça um dataframe com Estado e proporção de carros por habitante 

In [47]:
# 1. Faça o upload do CSV carros.csv

df_carros = pd.read_csv('carros.csv')
df_carros = df_carros.drop('Carros por habitante', axis=1)


In [48]:
#2. Print seu head com 10 linhas
df_carros.head(10)

Unnamed: 0,Região,Estado,Quant Carros,Quant Carros Família com Filhos,População do Estado
0,Sul,Acre,4342,1034,23942.0
1,Centro-Oeste,Alagoas,18991,3253,23431.0
2,Sudeste,Amapá,6463,4152,7747.0
3,Centro-Oeste,Amazonas,3180,2955,5189.0
4,Centro-Oeste,Bahia,11288,2585,24118.0
5,Nordeste,Ceará,10807,4943,40773.0
6,Sudeste,Distrito Federal,5786,4459,6899.0
7,Sudeste,Espírito Santo,5494,4073,6267.0
8,Sudeste,Goiás,24412,2021,36551.0
9,Centro-Oeste,Maranhão,8472,4461,16394.0


In [49]:
#3. Print as colunas e index do dataframe
df_carros.columns

Index(['Região', 'Estado', 'Quant Carros', 'Quant Carros Família com Filhos',
       'População do Estado'],
      dtype='object')

In [50]:
df_carros.index

RangeIndex(start=0, stop=27, step=1)

In [53]:
#4. Faça uma ordenação descrescente no dataframe pela quantidade de carros no estado

df_carros = df_carros.sort_values('Quant Carros', ascending = False)
df_carros

Unnamed: 0,Região,Estado,Quant Carros,Quant Carros Família com Filhos,População do Estado
18,Norte,Rio de Janeiro,33848,2579,48323.0
8,Sudeste,Goiás,24412,2021,36551.0
21,Centro-Oeste,Rondônia,23113,2981,48001.0
13,Nordeste,Pará,22387,4893,35740.0
25,Sudeste,Sergipe,22307,1815,28483.0
1,Centro-Oeste,Alagoas,18991,3253,23431.0
12,Centro-Oeste,Minas Gerais,17291,4843,46606.0
26,Sudeste,Tocantins,17144,4342,22159.0
4,Centro-Oeste,Bahia,11288,2585,24118.0
5,Nordeste,Ceará,10807,4943,40773.0


In [54]:
#5. Descubra qual é a proporção de carros para a população de cada estado e insira em uma nova coluna
df_carros['Carros por habitante'] = df_carros['Quant Carros']/df_carros['População do Estado']

In [58]:
#6. Faça um dataframe com Estado e proporção de carros por habitante 
df_carros_estado_proporcao = df_carros[['Estado', 'Carros por habitante']]
df_carros_estado_proporcao = df_carros_estado_proporcao.sort_values('Carros por habitante', ascending = False)
df_carros_estado_proporcao

Unnamed: 0,Estado,Carros por habitante
7,Espírito Santo,0.876655
6,Distrito Federal,0.838672
2,Amapá,0.834258
24,São Paulo,0.829874
1,Alagoas,0.810507
25,Sergipe,0.783169
26,Tocantins,0.773681
18,Rio de Janeiro,0.700453
16,Pernambuco,0.674026
8,Goiás,0.667889
