## Instalando e importando a biblioteca:

In [None]:
!pip install pandas

In [None]:
#Importando a biblioteca:
import numpy as np
import pandas as pd

## Séries e Dataframes:


Séries: um array unidimensional rotulado que contém qualquer tipo de dado

Dataframe: uma estrutura de dados bidimensional que contém dados como uma tabela com linhas e colunas

In [None]:
array = np.array([2,5,3,8,0,5,np.nan])

#criando a série
serie = pd.Series(array)

#tipo e conteúdo
print(type(serie))
print(serie)

In [None]:
#dicionário que será passado para criar o dataframe
data = {'Nome': ['Alice', 'Bob', 'Charlie', 'David'],
        'Idade': [25, 30, 35, 40]}

#criação do dataframe
df = pd.DataFrame(data)
print(df)

## Acessando e alterando valores:

In [None]:
#selecionando dados específicos do dataframe:
nomes = df['Nome']
idades = df['Idade']
print(nomes)
print(idades)

In [None]:
#filtrando pessoas com idade acima de 30
df_filtrado = df[df['Idade'] > 30]
print(df_filtrado)

In [None]:
#ordenando por idade em ordem decrescente
df_ordenado = df.sort_values(by='Idade', ascending=False)
print(df_ordenado)

In [None]:
#adicionando uma nova coluna
df['Cidade'] = ['Nova York', 'Los Angeles', 'Chicago', 'Houston']
print(df)

In [None]:
#agrupando dados e aplicando funções de agregação
media_idade_por_cidade = df.groupby('Cidade')['Idade'].mean()
print(media_idade_por_cidade)

In [None]:
#removendo uma coluna
df = df.drop(columns=['Cidade'])
print(df)

In [None]:
#resumindo estatísticas descritivas do DataFrame
print(df.describe())

## Salvando e Abrindo arquivos do tipo CSV

In [None]:
#salvando o DataFrame em um arquivo CSV
df.to_csv('novo_arquivo.csv', index=False)

In [None]:
datasframe2 = pd.read_csv('novo_arquivo.csv')
print(datasframe2.head())

## Exercícios

Utilize a tabela disponível em: https://github.com/infoslack/ml-book-exemplos/blob/main/data/venda-de-carros-formatado.csv

01 - Carregue o csv em um dataframe e visualize os dados imprimindo as 5 primeiras linhas do dataframe

02 - Obtenha o nome de todas as colunas do dataframe

03 - Exiba as informações estatísticas sobre os dados

04 - Verifique as entradas válidas e remova linhas com dados faltantes (NaN)

05 - Ajuste as colunas para que contenham o tipo correto (e.g., preço = float)

06 - Obtenha um dataframe que contenha apenas carros com 4 portas

07 - Imprima o tamanho do dataframe

08 - Obtenha o item da segunda linha

09 - Obtenha a média das quilometragens existentes no conjunto

In [None]:
import pandas as pd

df = pd.read_csv("/content/venda-de-carros-formatado.csv")
df.head()

Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
2,Toyota,Azul,32549,3,27000.0
3,BMW,Preto,11179,5,122000.0
4,Nissan,Branco,213095,4,13500.0


In [None]:
df.columns

Index(['Fabricante', 'Cor', 'Quilometragem', 'Portas', 'Preco'], dtype='object')

In [None]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Quilometragem,10.0,78601.4,61983.471735,11179.0,35836.25,57369.0,96384.5,213095.0
Portas,10.0,4.0,0.471405,3.0,4.0,4.0,4.0,5.0
Preco,10.0,31645.0,32153.87008,13500.0,18050.0,24500.0,26812.5,122000.0


In [None]:
df.info()
df.dropna()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Fabricante     10 non-null     object 
 1   Cor            10 non-null     object 
 2   Quilometragem  10 non-null     int64  
 3   Portas         10 non-null     int64  
 4   Preco          10 non-null     float64
dtypes: float64(1), int64(2), object(2)
memory usage: 528.0+ bytes


Unnamed: 0,Fabricante,Cor,Quilometragem,Portas,Preco
0,Toyota,Branco,150043,4,24000.0
1,Honda,Vermelho,87899,4,25000.0
2,Toyota,Azul,32549,3,27000.0
3,BMW,Preto,11179,5,122000.0
4,Nissan,Branco,213095,4,13500.0
5,Toyota,Verde,99213,4,14500.0
6,Honda,Azul,45698,4,17500.0
7,Honda,Azul,54738,4,27000.0
8,Toyota,Branco,60000,4,26250.0
9,Nissan,Branco,31600,4,19700.0


In [None]:
df['Preco'] = df['Preco'].astype(int)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Fabricante     10 non-null     object
 1   Cor            10 non-null     object
 2   Quilometragem  10 non-null     int64 
 3   Portas         10 non-null     int64 
 4   Preco          10 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 528.0+ bytes


In [None]:
df_filtrado = df[df['Portas'] == 4]
print(df_filtrado)

  Fabricante       Cor  Quilometragem  Portas  Preco
0     Toyota    Branco         150043       4  24000
1      Honda  Vermelho          87899       4  25000
4     Nissan    Branco         213095       4  13500
5     Toyota     Verde          99213       4  14500
6      Honda      Azul          45698       4  17500
7      Honda      Azul          54738       4  27000
8     Toyota    Branco          60000       4  26250
9     Nissan    Branco          31600       4  19700


In [None]:
df_filtrado.shape

(8, 5)

In [None]:
df_filtrado.iloc[1]

Fabricante          Honda
Cor              Vermelho
Quilometragem       87899
Portas                  4
Preco               25000
Name: 1, dtype: object

In [None]:
df_filtrado.Quilometragem.mean()

92785.75