# Coleta de Dados em Arquivo CSV

In [None]:
# -*- coding: utf-8 -*-

### <font color=red>Lembre-se , SEMPRE é necessário instalar um pacote/biblioteca do Python antes de usá-lo</font>

A instalação é realizada apenas na primeira vez, uma vez instalado, você pode atualizar (update) se necessário.

O comando abaixo é usado para a instalação de pacote via <font color=green>prompt de comando do Anaconda</font>

**Sintaxe:**  *conda install -c nome-do-canal nome-do-pacote*
    
    *Exemplo:* conda install -c anaconda pandas

#### 1º) Importa bibliotecas 

In [None]:
import csv
import os
import pandas as pd
import matplotlib.pyplot as plt

#### 2º) Define métodos 

In [None]:
#classe para formatar a função print()
class color:
   PURPLE = '\033[95m'
   CYAN = '\033[96m'
   DARKCYAN = '\033[36m'
   BLUE = '\033[94m'
   GREEN = '\033[92m'
   YELLOW = '\033[93m'
   RED = '\033[91m'
   ORANGE ='\033[33m'
   BOLD = '\033[1m'
   UNDERLINE = '\033[4m'
   END = '\033[0m'

In [None]:
# Função que retorna o diretório de Datasets 
def setDatasetPath():
    return 'C:\Bootcamp\Datasets\CSV'

#### 3º) Executa os métodos e comandos (Main) 

In [None]:
#Define o diretório dos arquivos

datasetPath = setDatasetPath()

##### Leitura de arquivo sem utilizar biblioteca Pandas

In [None]:
#Leitura de arquivo sem utilizar biblioteca Pandas

filename = datasetPath +'\\contabilidade.csv'

with open(filename, 'r') as incsvfile:
    reader = csv.reader(incsvfile, delimiter=',')
    for line in reader:
        print(line)

incsvfile.close()

##### Descrição dos colunas do arquivo contabilidadeEmpresa.csv:

* **CAP** --> Tipo de SA: (0: Capital Aberto e 1: Capital Fechado) &nbsp;
* **TAM** --> Tamanho: (1: Pequena, 2: Média e 3: Grande) &nbsp;
* **PL** --> Patrimônio Líquido &nbsp;
* **AC** --> Ativo Circulante &nbsp;
* **PC** --> Passivo Circulante &nbsp;
* **AP** --> Ativo Permanente &nbsp;
* **ARLP** --> Ativo R. L. P. (*Retail Liquidity Provider* - Provedor de Liquidez para o Varejo) &nbsp;
* **PELP** --> Passivo E. L. P. (Passivo exigível a longo prazo) &nbsp;
* **VLL** --> Percentual de Lucro Líquido &nbsp;

In [None]:
with open(datasetPath +'\\sumarioContabilidade.csv', 'w', newline='') as outcsvfile:
    
    writer = csv.writer(outcsvfile)
    writer.writerow(['ID', 'CAP', 'TAM', 'PL'])
    with open(filename, 'r') as incsvfile:
        
        fieldnames = ['ID', 'CAP', 'TAM', 'PL']
        reader = csv.DictReader(incsvfile, fieldnames=fieldnames)
    
        reader.__next__()
    
        for row in reader:
            #print( row['ID'] + ', ' +  row['CAP'] + ', ' +  row['TAM'] + ', ' +  row['PL'])
            writer.writerow([row['ID'], row['CAP'], row['TAM'], row['PL']])           

incsvfile.close()
outcsvfile.close()

In [None]:
#Lê os arquivos de um diretório específico
filelist = os.listdir(datasetPath)
print(color.BOLD+color.RED+'\nA lista de arquivos e/ou diretórios é:'+color.END)
print(filelist)

##### Leitura de arquivo utilizando a biblioteca Pandas

In [None]:
#Lê o arquivo
iris = pd.read_csv(datasetPath +'\\Iris.csv')


In [None]:
iris.head() #imprime as 5 primeiras linhas (Default)

In [None]:
iris.head(2) #imprime as 2 primeiras linhas

In [None]:
iris.tail() #imprime as 5 últimas linhas

In [None]:
# removendo a coluna id, a qual não é necessária para análise
del iris['Id']

In [None]:
iris.head(2) #imprime as 2 primeiras linhas

In [None]:
#Salva o resultado em outro arquivo csv

iris.to_csv(datasetPath +'\\Iris_Novo.csv')

In [None]:
#Lê os arquivos de um diretório específico
filelist = os.listdir(datasetPath)
print(color.BOLD+color.RED+'\nA lista de arquivos e/ou diretórios é:'+color.END)
print(filelist)

In [None]:
#fazer a indexação do dataframe
iris.index.values

In [None]:
iris.head(2)

In [None]:
#Renomear a nova coluna
b = iris.set_index('Especie')
b.head()

In [None]:
#reveter
c = b.reset_index()
c.index.values
c.head()

In [None]:
iris1 = pd.read_csv(datasetPath +'\\Iris.csv')
iris1.head()

In [None]:
iris2 = pd.DataFrame([{'Nome' : 'Iris-setosa', 'Especies' : 'setosa'},
                  {'Nome':'Iris-versicolor','Especies':'versicolor'},
                   {'Nome':'Iris-virginica','Especies':'virginica'}])
iris2

In [None]:
#Combina os dois frames

iris3 = pd.merge(iris1,iris2,how='inner',left_on='Especie',right_on='Nome')
iris3.head()


In [None]:
#Média do comprimento de Sepala
iris1.groupby('Especie')['Comprimento_Sepala_Cm'].mean()

In [None]:
iris1.describe() 

In [None]:
iris1.info()

In [None]:
plt.figure(figsize = (10, 7)) 
x = iris1["Comprimento_Sepala_Cm"] 
  
plt.hist(x, bins = 10, color = "green") 
plt.title("Comprimento de Sepala em cm") 
plt.xlabel("Comprimento_Sepala_Cm") 
plt.ylabel("Quantidade") 
#plt.show() 

In [None]:
# removing Id column
del iris1['Id']

In [None]:
#Gráfico de caixas
#O boxplot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição empírica do dados.
#O boxplot é formado pelo primeiro e terceiro quartil e pela mediana. 

plt.figure(figsize = (10, 7)) 
iris1.boxplot() 
plt.title("Comprimento de Sepala em cm") 
plt.ylabel("Medida em cm")


In [None]:
a = iris1[(iris1.Largura_Sepala_Cm>3)]
a.head()


In [None]:
c = iris1[iris1['Especie']=='Iris-versicolor']
c.head()


Fim!