# Primeira Parte de um Projeto

- Falamos que você deve tentar extrair do seu cliente qual a pergunta principal que ele quer responder e com isso ir quebrando esse desafio/objetivo maior em problemas menores e resolvíveis
- Para você saber se o problema tem um caminho viável de solução, primeiro você deve dar uma olhada nos dados. Assim você consegue ter uma ideia de quais problemas menores devemos atacar e como encontrar esses problemas menores. Olhando para os dados você fica mais confiante no andamento do projeto e já consegue ter uma ideia dos desafios que você encontrará
- O primeiro desafio de criar um projeto em Ciência de Dados é fazer o input dos dados para dentro de um ambiente que você domina e conhece
- O nosso ambiente de exploração dos dados será o Jupyter Notebook
- Nós usaremos a biblioteca Pandas e suas funções para ler os dados

## Os Dados e seus Vários Tipos
- Dados vêm em formatos diversos, arquivos de texto em .csv ou .txt, dentro de Bancos de Dados relacionais ou não relacionais, no Excel, no Google Big Query etc
- Para todos esses formatos de dados, o Pandas oferece funções que facilitam nossa vida

## O formato que mais usamos
- No nosso dia a dia, o formato que mais usamos é o de texto com extensão .csv
- CSV é a abreviação de comma-separated values, ou seja, valores separados por vírgula
- O nome é autoexplicativo, os valores são separados por vírgulas, ou seja, toda vez que tiver uma vírgula, temos um novo valor. Veja a figura abaixo:
    - Dê uma olhada em cada linha, toda vez que você atingir uma vírgula, significa que temos um novo valor.
    - A primeira linha é provavelmente o cabeçalho
    - Depois temos o resto dos dados

![image.png](attachment:image.png)

## Lendo arquivos .csv e .txt
- Vamos usar a função read_csv() do pandas para ler um arquivo simples com extensão .txt, para ler arquivos com extensão .csv é só mudar a extensão do arquivo

In [2]:
# este pedaco de codigo faz com que
# o jupyter notebook mostre multiplos
# outputs numa mesma celula
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# importando a biblioteca pandas
import pandas as pd

# variavel auxiliar com o caminho que o arquivo esta
# repare que aqui a extensao do arquivo e .txt
ender_arquivo = 'data_examples/iris.txt'

# lendo dados com a funcao read_csv()
pd.read_csv(filepath_or_buffer=ender_arquivo)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


- Como podemos ler na documentação, [LINK PARA DOC DA FUNÇÃO](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas.read_csv), o retorno da função é um DataFrame, que é basicamente uma tabela com linhas e colunas.

![image.png](attachment:image.png)

- Vamos atribuir esse dataframe para uma variável e usar a "etiqueta" da variável para ficar chamando esse DataFrame e fazer explorações nele

## <font color='red'>ATENÇÃO!!</font>
<font color='red'>VOU REPETIR OS CÓDIGOS EM UMA ÚNICA CÉLULA. ASSIM VOCÊ NÃO PRECISARÁ FICAR VOLTANDO PARA ENTENDER O QUE ESTÁ ACONTECENDO</font>

## Lendo e Visualizando uma parte dos Dados - PARTE I

- A Estrutura de Dados, que também é um Objeto, DataFrame do Pandas tem dois métodos para a visualização dos dados.
- O DataFrame não passa de uma tabela com duas coordenadas, as colunas e as linhas. Funciona exatamente como num Excel clássico
- Usamos os métodos <font color='red'>.head()</font> e <font color='red'>.tail()</font>, os nomes são bem claros como toda função, método, atributo e variável devem ser. Os dois mostram um certo número de linhas do DataFrame, o .head() mostra as n primeiras linhas e o .tail() as n últimas.
- Docs para os dois métodos:
    - [Pandas Docs - API Reference - DataFrame - Indexing, iteration - pandas.DataFrame.head](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.head.html#pandas-dataframe-head)
    - [Pandas Docs - API Reference - DataFrame - Indexing, iteration - pandas.DataFrame.tail](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.tail.html#pandas-dataframe-tail)

In [3]:
# este pedaco de codigo faz com que
# o jupyter notebook mostre multiplos
# outputs numa mesma celula
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# importando a biblioteca pandas
import pandas as pd

# variavel auxiliar com o caminho que o arquivo esta
# repare que aqui a extensao do arquivo e .txt
ender_arquivo = 'data_examples/iris.txt'

# lendo dados com a funcao read_csv()
iris = pd.read_csv(filepath_or_buffer=ender_arquivo)

# olhando para uma parte dos dados
iris.head()
iris.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


## Lendo e Visualizando uma parte dos Dados - PARTE II

- O DataFrame possui outro método muito útil: o <font color='red'>.info()</font>
- Ele resume informações que são muito úteis para uma primeira olhada nos dados, veja quais são algumas dessas infos:
    - 1) Mostra qual o intervalo do Index, que é a label das linhas de um DataFrame. Com isso, podemos saber quantas linhas tem o nosso DataFrame.
    - 2)Depois ele mostra o total de colunas e:
        - 2.1) Ele lista todas os nomes das colunas
        - 2.2) Quantos valores não nulos existem em cada coluna
        - 2.3) Quais os tipos de dados de cada coluna
        - 2.4) Essas infos são preciosas, com elas podemos saber:
            - 2.4.1) Se existem dados faltantes em alguma coluna
            - 2.4.2) Qual o tipo de dados de cada coluna. Com isso podemos saber se há algum tipo que não está correto. Por exemplo: um dado que deveria ser numérico estar em um tipo de texto
    - 3) Mostra a contagem de quantos tipos de dados existem
    - 4) Mostra a quantidade de memória usada pelo DataFrame. Isso é importante, pois podemos tentar diminuir esse uso de memória com algumas estratégias.
- Link para documentação do método .info():
    - [Pandas Docs - API Reference - DataFrame - Serialization / IO / conversion - pandas.DataFrame.info](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html#pandas-dataframe-info)

In [4]:
# este pedaco de codigo faz com que
# o jupyter notebook mostre multiplos
# outputs numa mesma celula
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# importando a biblioteca pandas
import pandas as pd

# variavel auxiliar com o caminho que o arquivo esta
# repare que aqui a extensao do arquivo e .txt
ender_arquivo = 'data_examples/iris.txt'

# lendo dados com a funcao read_csv()
iris = pd.read_csv(filepath_or_buffer=ender_arquivo)

# olhando para uma parte dos dados
iris.head()
iris.tail()

# olhando para informacoes basicas do DataFrame
iris.info()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float64
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


## Lendo e Visualizando uma parte dos Dados - PARTE III

- A terceira parte num primeiro contato com os dados é verificar se existem linhas repetidas, os famosos duplicados. Acredite, isso acontece com mais frequência do que gostaríamos. Você deve tomar muito cuidado com isso, pois dados duplicados podem atrapalhar toda a modelagem e a sua análise.
- Usaremos o método <font color='red'>.duplicated()</font>. Ele nos retorna um Series, uma estrutura de dados unidimensional do Pandas, booleana, com o valor False para linhas não duplicadas e True para linhas duplicadas
- Como já aprendemos, o tipo Booleano é um subtipo dos Inteiros, assim podemos somá-los e ter um resumo de quantas linhas repetidas temos no DataFrame
- Usaremos o que eles chamam de <font color='red'>"chain assignment"</font>, ou seja, chamaremos um método logo após o outro. Aqui usaremos dois métodos: duplicated() e sum():
    - 1º) O método duplicated() retorna uma Series Booleana
    - 2º) Na Series Booleana aplicamos o método sum()
- Link para documentação do método .duplicated():
    - [Pandas Docs - API Reference - DataFrame - Reindexing / selection / label manipulation - pandas.DataFrame.duplicated](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html#pandas-dataframe-duplicated)

In [5]:
# este pedaco de codigo faz com que
# o jupyter notebook mostre multiplos
# outputs numa mesma celula
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# importando a biblioteca pandas
import pandas as pd

# variavel auxiliar com o caminho que o arquivo esta
# repare que aqui a extensao do arquivo e .txt
ender_arquivo = 'data_examples/iris.txt'

# lendo dados com a funcao read_csv()
iris = pd.read_csv(filepath_or_buffer=ender_arquivo)

# olhando para uma parte dos dados
iris.head()
iris.tail()

# olhando para informacoes basicas do DataFrame
iris.info()

# verificando se ha linhas duplicadas com .duplicated() e .sum()
quant_duplicados = iris.duplicated().sum()
print(f'\nQuantidade de valores duplicados no DataFrame: {quant_duplicados} valores duplicados')

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal_length    150 non-null float64
sepal_width     150 non-null float64
petal_length    150 non-null float64
petal_width     150 non-null float64
species         150 non-null object
dtypes: float64(4), object(1)
memory usage: 6.0+ KB

Quantidade de valores duplicados no DataFrame: 3 valores duplicados


- Temos 3 valores duplicados no DataFrame que estamos analisando
- O próximo passo a partir daqui é visualizar esses valores duplicados. Podemos fazer isso com o auxílio do próprio método duplicated().
- Usamos a Series Booleana para "filtrar" o DataFrame, isso se chama "Boolean indexing". Veja o exemplo abaixo.
- Perceba que não apareceram valores repetidos. Vamos ver o que a documentação do método nos diz:

In [13]:
# este pedaco de codigo faz com que
# o jupyter notebook mostre multiplos
# outputs numa mesma celula
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# importando a biblioteca pandas
import pandas as pd

# variavel auxiliar com o caminho que o arquivo esta
# repare que aqui a extensao do arquivo e .txt
ender_arquivo = 'data_examples/iris.txt'

# lendo dados com a funcao read_csv()
iris = pd.read_csv(filepath_or_buffer=ender_arquivo)

# criando a series booleana com duplicated()
mask_1 = iris.duplicated()
print('Essa é a Series Booleana que foi criada com .duplicated()')
print(mask_1)

# filtrando o dataframe com a series booleana criada
print('\nDataFrame Filtrado com a Series Booleana')
print('Perceba que não aparecem valores repetidos')
iris[mask_1]

Essa é a Series Booleana que foi criada com .duplicated()
0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Length: 150, dtype: bool

DataFrame Filtrado com a Series Booleana
Perceba que não aparecem valores repetidos


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
34,4.9,3.1,1.5,0.1,setosa
37,4.9,3.1,1.5,0.1,setosa
142,5.8,2.7,5.1,1.9,virginica


**DOCUMENTAÇÃO DO MÉTODO DUPLICATED()**

![image.png](attachment:image.png)

- Por padrão, o parâmetro keep fica como 'first', ou seja, o método marca como duplicado todas as linhas exceto a primeira ocorrência de repetição. Podemos mudar esse parâmetro para:
    - Marcar como duplicada todas exceto a última ocorrência
    - Marcar tudo como duplicado
- Vamos usar a última opção, que é passar False para o parâmetro keep
- Veja a diferença entre as duas saídas
- Agora podemos ver todos os valores repetidos. O próximo passo é perguntar para os responsáveis o que são esses valores repetidos e se eles são válidos ou não. Não necessariamente precisam ser dados corrompidos, podemos perguntar e ir analisando o que iremos fazer

In [15]:
# este pedaco de codigo faz com que
# o jupyter notebook mostre multiplos
# outputs numa mesma celula
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# importando a biblioteca pandas
import pandas as pd

# variavel auxiliar com o caminho que o arquivo esta
# repare que aqui a extensao do arquivo e .txt
ender_arquivo = 'data_examples/iris.txt'

# lendo dados com a funcao read_csv()
iris = pd.read_csv(filepath_or_buffer=ender_arquivo)

# criando a series booleana com duplicated()
# passando o parâmetro keep=False
mask_1 = iris.duplicated(keep=False)

# filtrando o dataframe com a series booleana criada
iris[mask_1]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
9,4.9,3.1,1.5,0.1,setosa
34,4.9,3.1,1.5,0.1,setosa
37,4.9,3.1,1.5,0.1,setosa
101,5.8,2.7,5.1,1.9,virginica
142,5.8,2.7,5.1,1.9,virginica
