<a href="https://colab.research.google.com/github/Wallace-NMelo/Fotografia-Computacional/blob/main/AM_DeepLearning/WallaceN_Modulo01_Exemplo_pratico_02_Intro_ao_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Instalando e importando a biblioteca:

In [1]:
pip install pandas



In [2]:
#Importando a biblioteca:
import numpy as np
import pandas as pd

## Séries e Dataframes:


Séries: um array unidimensional rotulado que contém qualquer tipo de dado

Dataframe: uma estrutura de dados bidimensional que contém dados como uma tabela com linhas e colunas

In [3]:
array = np.array([2,5,3,8,0,5,np.nan])

#criando a série
serie = pd.Series(array)

#tipo e conteúdo
print(type(serie))
print(serie)

<class 'pandas.core.series.Series'>
0    2.0
1    5.0
2    3.0
3    8.0
4    0.0
5    5.0
6    NaN
dtype: float64


In [4]:
#dicionário que será passado para criar o dataframe
data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
        'Idade': [25, 30, 35, 40]}

#criação do dataframe
df = pd.DataFrame(data)
print(df)

      Nome  Idade
0    Alice     25
1      Bob     30
2  Charlie     35
3    David     40


## Acessando e alterando valores:

In [5]:
#selecionando dados específicos do dataframe:
nomes = df['Nome']
idades = df['Idade']
print(nomes)
print(idades)

0      Alice
1        Bob
2    Charlie
3      David
Name: Nome, dtype: object
0    25
1    30
2    35
3    40
Name: Idade, dtype: int64


In [6]:
#filtrando pessoas com idade acima de 30
df_filtrado = df[df['Idade'] > 30]
print(df_filtrado)

      Nome  Idade
2  Charlie     35
3    David     40


In [7]:
#ordenando por idade em ordem decrescente
df_ordenado = df.sort_values(by='Idade', ascending=False)
print(df_ordenado)

      Nome  Idade
3    David     40
2  Charlie     35
1      Bob     30
0    Alice     25


In [8]:
#adicionando uma nova coluna
df['Cidade'] = ['Nova York', 'Los Angeles', 'Chicago', 'Houston']
print(df)

      Nome  Idade       Cidade
0    Alice     25    Nova York
1      Bob     30  Los Angeles
2  Charlie     35      Chicago
3    David     40      Houston


In [9]:
#agrupando dados e aplicando funções de agregação
media_idade_por_cidade = df.groupby('Cidade')['Idade'].mean()
print(media_idade_por_cidade)

Cidade
Chicago        35.0
Houston        40.0
Los Angeles    30.0
Nova York      25.0
Name: Idade, dtype: float64


In [10]:
#removendo uma coluna
df = df.drop(columns=['Cidade'])
print(df)

      Nome  Idade
0    Alice     25
1      Bob     30
2  Charlie     35
3    David     40


In [11]:
#resumindo estatísticas descritivas do DataFrame
print(df.describe())

           Idade
count   4.000000
mean   32.500000
std     6.454972
min    25.000000
25%    28.750000
50%    32.500000
75%    36.250000
max    40.000000


## Salvando e Abrindo arquivos do tipo CSV

In [12]:
#salvando o DataFrame em um arquivo CSV
df.to_csv('novo_arquivo.csv', index=False)

In [13]:
datasframe2 = pd.read_csv('novo_arquivo.csv')
print(datasframe2.head())

      Nome  Idade
0    Alice     25
1      Bob     30
2  Charlie     35
3    David     40


## Exercícios

Utilize a tabela disponível em: https://github.com/infoslack/ml-book-exemplos/blob/main/data/venda-de-carros-formatado.csv

01 - Carregue o csv em um dataframe e visualize os dados imprimindo as 5 primeiras linhas do dataframe



In [16]:
!wget https://github.com/infoslack/ml-book-exemplos/blob/main/data/venda-de-carros-formatado.csv

--2024-01-22 00:38:13--  https://github.com/infoslack/ml-book-exemplos/blob/main/data/venda-de-carros-formatado.csv
Resolving github.com (github.com)... 140.82.113.3
Connecting to github.com (github.com)|140.82.113.3|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 6352 (6.2K) [text/plain]
Saving to: ‘venda-de-carros-formatado.csv’


2024-01-22 00:38:14 (59.8 MB/s) - ‘venda-de-carros-formatado.csv’ saved [6352/6352]



In [19]:
data_path = '/content/venda-de-carros-formatado.csv'

df = pd.read_csv(data_path)

df

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
2,Toyota,Azul,32549,3,27000.0
3,BMW,Preto,11179,5,122000.0
4,Nissan,Branco,213095,4,13500.0
5,Toyota,Verde,99213,4,14500.0
6,Honda,Azul,45698,4,17500.0
7,Honda,Azul,54738,4,27000.0
8,Toyota,Branco,60000,4,26250.0
9,Nissan,Branco,31600,4,19700.0


02 - Obtenha o nome de todas as colunas do dataframe



In [20]:
df.columns

Index(['Fabricante', 'Cor', 'Quilometragem', 'Portas', 'Preco'], dtype='object')

03 - Exiba as informações estatísticas sobre os dados



In [21]:
df.describe()

Unnamed: 0,Quilometragem,Portas,Preco
count,10.0,10.0,10.0
mean,78601.4,4.0,31645.0
std,61983.471735,0.471405,32153.87008
min,11179.0,3.0,13500.0
25%,35836.25,4.0,18050.0
50%,57369.0,4.0,24500.0
75%,96384.5,4.0,26812.5
max,213095.0,5.0,122000.0


04 - Verifique as entradas válidas e remova linhas com dados faltantes (NaN)



In [22]:
df_noNan = df.dropna()
df_noNan

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
2,Toyota,Azul,32549,3,27000.0
3,BMW,Preto,11179,5,122000.0
4,Nissan,Branco,213095,4,13500.0
5,Toyota,Verde,99213,4,14500.0
6,Honda,Azul,45698,4,17500.0
7,Honda,Azul,54738,4,27000.0
8,Toyota,Branco,60000,4,26250.0
9,Nissan,Branco,31600,4,19700.0


05 - Ajuste as colunas para que contenham o tipo correto (e.g., preço = float)





In [23]:
df['Preco'] = df['Preco'].astype(float)

In [24]:
df

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
2,Toyota,Azul,32549,3,27000.0
3,BMW,Preto,11179,5,122000.0
4,Nissan,Branco,213095,4,13500.0
5,Toyota,Verde,99213,4,14500.0
6,Honda,Azul,45698,4,17500.0
7,Honda,Azul,54738,4,27000.0
8,Toyota,Branco,60000,4,26250.0
9,Nissan,Branco,31600,4,19700.0


06 - Obtenha um dataframe que contenha apenas carros com 4 portas



In [27]:
df[df["Portas"]==4]

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
4,Nissan,Branco,213095,4,13500.0
5,Toyota,Verde,99213,4,14500.0
6,Honda,Azul,45698,4,17500.0
7,Honda,Azul,54738,4,27000.0
8,Toyota,Branco,60000,4,26250.0
9,Nissan,Branco,31600,4,19700.0


07 - Imprima o tamanho do dataframe



In [30]:
df.shape

(10, 5)

08 - Obtenha o item da segunda linha



In [32]:
df.loc[1]

Fabricante          Honda
Cor              Vermelho
Quilometragem       87899
Portas                  4
Preco             25000.0
Name: 1, dtype: object

09 - Obtenha a média das quilometragens existentes no conjunto

In [35]:
df['Quilometragem'].mean()

78601.4