### Criando meu próprio dataframe

### Biblioteca: Pandas

Panda é a biblioteca para Ciência de Dados de código aberto (open source), construída sobre a linguagem Python. (Fonte: https://www.alura.com.br/artigospandas-o-que-e-para-que-serve-como-instalar#:~:text=Pandas%20%C3%A9%20uma%20biblioteca%20para,de%20maneira%20simples%20e%20intuitiva.)

A proposta é criar um dataframe que consiga guardar as informações dos doramas que eu assisto, posteriomente vou poder ver a quantidade de doramas assitidos, qual é o gênero que eu mais consumo e se são doramas produzidos recentemente ou não. Esses são exemplos de resultados que o dataframe vai possibilitar apontar. 

Para criação do meu dataframe, o 1° passo é importar a biblioteca que vou utilizar, no caso: Pandas. Para isso, vou usar o comando import, o pd na linha desse código é como se fosse o apelido do Pandas, é como vamos chamar a biblioteca a partir desse passo inicial.

In [1]:
import pandas as pd

### Dataframe do zero
Para criar esse dataframe, o 2° passo consiste em criar um dicionário. O que são dicionários? 
Os dicionários são coleções de itens e seus elemento são armazenados de forma não ordenada. Seus elementos contém uma chave e valor. (Fonte:https://pythonacademy.com.br/blog/dicts-ou-dicionarios-no-python)

In [2]:
dados= {'id': [1,2,3,3,4,],
        'titulo': ['Atashinchi no Danshi', 'Masters sun','Strong Girl Bong Soon','Strong Girl Bong Soon','Welcome to Waikiki'],
        'genero': ['drama','misterio','thriller','thriller','comedia'],
        'ano': [2009,2013,2017,2017,2019],
}
dados

{'id': [1, 2, 3, 3, 4],
 'titulo': ['Atashinchi no Danshi',
  'Masters sun',
  'Strong Girl Bong Soon',
  'Strong Girl Bong Soon',
  'Welcome to Waikiki'],
 'genero': ['drama', 'misterio', 'thriller', 'thriller', 'comedia'],
 'ano': [2009, 2013, 2017, 2017, 2019]}

In [4]:
# criando o dataframe
df = pd.DataFrame(dados)

#chamado a variável, podemos ver que o dataframe ganhou estrutura visual
df

Unnamed: 0,id,titulo,genero,ano
0,1,Atashinchi no Danshi,drama,2009
1,2,Masters sun,misterio,2013
2,3,Strong Girl Bong Soon,thriller,2017
3,3,Strong Girl Bong Soon,thriller,2017
4,4,Welcome to Waikiki,comedia,2019


In [5]:
# Algumas informações do dataframe 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      5 non-null      int64 
 1   titulo  5 non-null      object
 2   genero  5 non-null      object
 3   ano     5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 292.0+ bytes


In [6]:
#Será que o dataframe possui dados nulos? Vamos verificar:
df.isnull().sum()
# O método isnull detecta valores ausentes para um objeto semelhante a uma matriz.(Fonte: Pandas.pydata.org)
# A função sum retorna um número, a soma de todos os itens em uma iteração. (Fonte: www.w3schools.com)

# Podemos observar que o dataframe não possui dados nulo. Caso contrário indicaria a quantidade desses dados nulos.

id        0
titulo    0
genero    0
ano       0
dtype: int64

### De perto e de dentro: observando os dados 

In [7]:
# Será que o dataframe possui dados duplicados? Vejamos:
df.duplicated() #duplicated retorna valores booleanos que apontam linhas duplicadas.
# A partir de dados booleanos (bool) que identificam apenas: falso(False) ou verdadeiro(True), podemos observar que o dataframe possui 
# uma linha com campos duplicados. Especificamente a linha: 3

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [8]:
#Vamos tratar o dado duplicado:
df[df.duplicated(keep=False)] #com o keep estamos dizendo para manter somente o que for False
#A função nos mostra as linhas duplicadas

Unnamed: 0,id,titulo,genero,ano
2,3,Strong Girl Bong Soon,thriller,2017
3,3,Strong Girl Bong Soon,thriller,2017


In [12]:
#Reconhecendo as linhas duplicadas, vamos dizer para função que queremos manter (keep) somente a primeira(first) linha
df[df.duplicated(keep='first')]


Unnamed: 0,id,titulo,genero,ano
0,1,Atashinchi no Danshi,drama,2009
1,2,Masters sun,misterio,2013
2,3,Strong Girl Bong Soon,thriller,2017
3,3,Strong Girl Bong Soon,thriller,2017
4,4,Welcome to Waikiki,comedia,2019


In [13]:
df.drop_duplicates(inplace=True) #agora a linha duplicada não vai aparecer

In [10]:
# Vamos pedir para função nos apontar as colunas do dataframe:
df.columns

Index(['id', 'titulo', 'genero', 'ano'], dtype='object')

In [14]:
#Em casos que queremos excluir a coluna, podemos fazer o seguinte:
df.drop(columns=['id'])
#Veja que a coluna id foi retirada da nossa visualização

Unnamed: 0,titulo,genero,ano
0,Atashinchi no Danshi,drama,2009
1,Masters sun,misterio,2013
2,Strong Girl Bong Soon,thriller,2017
4,Welcome to Waikiki,comedia,2019


In [18]:
#Exportando dataframe pandas para o excel
df.to_csv('propiodataframe.csv')

In [25]:
#Analisando colunas especificas. Exemplo: de todas as colunas existentes no dataframe, tenho interesse no momento nas colunas genero e ano
df_teste = pd.read_csv ('propiodataframe.csv', usecols=['genero', 'ano'])
df_teste

Unnamed: 0,genero,ano
0,drama,2009
1,misterio,2013
2,thriller,2017
3,comedia,2019


In [33]:
#Para alterar um valor especifico, podemos usar a seguinte função:
df.loc[df['genero']== 'thriller', 'genero'] = 'romance'

df

Unnamed: 0,id,titulo,genero,ano
0,1,Atashinchi no Danshi,drama,2009
1,2,Masters sun,misterio,2013
2,3,Strong Girl Bong Soon,romance,2017
4,4,Welcome to Waikiki,comedia,2019
