# Importando arquivos csv
## O que é um arquivo CSV

    Um arquivo CSV (Comma-Separated Values) é um formato de arquivo de texto simples usado para armazenar dados tabulares, como uma planilha ou tabela de banco de dados. Cada linha do arquivo representa um registro, e os valores dentro de cada linha são separados por um delimitador, geralmente uma vírgula, mas também pode ser ponto e vírgula ou tabulação.

Estrutura de um Arquivo CSV
Aqui está um exemplo básico de como um arquivo CSV pode ser estruturado:

```
nome,idade,cidade
João,25,Fortaleza
Maria,30,Recife
Pedro,22,Salvador
```

In [17]:
import pandas as pd 

df_costumers = pd.read_csv('../data/customers.csv', sep=';')
df_costumers

Unnamed: 0,UUID,Name,Points
0,aa3eaf74-6d9c-4859-b733-5a18a3b2f71b,afonso_rf,792
1,2d3d2dce-d353-4961-ad39-46723efe2100,mariicmartins,1375
2,ca95ef2a-5129-40f4-acbc-2ced25940032,tdlupus,421
3,65662aff-44d6-4f06-b9d9-07445c6e5943,kozat0,4063
4,98b960e7-6b7b-45b7-b7af-60bca40e04b9,gu1z17,0
...,...,...,...
786,4a36c617-b018-436a-babc-4374461ab87b,null__var,53
787,403db18e-941e-4e63-ba23-e63c0515876a,lmadriles,50
788,c9bfbbf9-db90-45a7-a72c-4118140038f4,eduardo_cofferri,50
789,4caa2fb3-7ed2-436d-bc35-390feebfdebe,marmschu,50


In [13]:
# Exibindo o número de linhas e colunas
df_costumers.shape

(791, 3)

In [19]:
df_costumers.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 791 entries, 0 to 790
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   UUID    791 non-null    object
 1   Name    791 non-null    object
 2   Points  791 non-null    int64 
dtypes: int64(1), object(2)
memory usage: 117.7 KB


In [22]:
df_costumers['Points'].describe()

count     791.000000
mean      206.697851
std       411.585592
min         0.000000
25%        50.000000
50%        58.000000
75%       184.000000
max      4304.000000
Name: Points, dtype: float64

In [21]:
# mudando o tipo dos dados na coluna points
df_costumers['Points'].astype(int)

0       792
1      1375
2       421
3      4063
4         0
       ... 
786      53
787      50
788      50
789      50
790      52
Name: Points, Length: 791, dtype: int64

In [None]:
df_costumers

In [23]:
# Somando mais um a cada nota da lista usando python tradicional
notas = [4.5, 6, 7, 3.5]

for i in range(len(notas)):
    notas[i] += 1
    
notas

[5.5, 7, 8, 4.5]

In [25]:
# Somando mais um a cada nota da lista usando python list comprehension
nova_notas = [nota + 1 for nota in notas]
nova_notas

[6.5, 8, 9, 5.5]

In [27]:
# Somando mais um a cada nota da lista usando python numpy
import numpy as np 
array = np.array(notas)
array + 1

array([6.5, 8. , 9. , 5.5])

In [32]:
# Essa  é uma das vantagens do Pandas, puxando uma coluna do meu Dataframe com uma chamada (series) eu consigo simplesmente fazer operações matemáticas
df_costumers['Points'] + 1000 # adiciona o valor 1000 a todas as linhas do dataframe

0      1792
1      2375
2      1421
3      5063
4      1000
       ... 
786    1053
787    1050
788    1050
789    1050
790    1052
Name: Points, Length: 791, dtype: int64

In [35]:
# Condigo também fazer operações lógicas e utilizar máscaras booleanas
mascara = df_costumers['Points'] > 1000
df_costumers[mascara]

Unnamed: 0,UUID,Name,Points
1,2d3d2dce-d353-4961-ad39-46723efe2100,mariicmartins,1375
3,65662aff-44d6-4f06-b9d9-07445c6e5943,kozat0,4063
5,b2f9d026-0727-4125-b84b-c60af3148a15,dcha0tic,2080
26,54edd84d-73ad-4821-8d53-7ed04f00b2e4,kaycristina,1153
29,a1478518-6bf1-41e7-895b-355a06554b96,talismacedo,1116
34,99431a0f-1f38-47ab-9136-445c7afae00d,nicolaslima167,1364
43,af4f97a5-90a8-4ebf-8420-d7766ad093ea,ldbressan,1038
47,4c77c153-19b9-42e2-a03c-04f43dcc6105,vinnyportugal07,1211
59,21943df7-272e-46ef-aeb7-933a6637bfd5,gabra_alves,1013
60,2a9d4ba3-4c58-47f9-8dc4-6f9cb50be1b1,dabathehutt,1307


In [37]:
df_costumers[df_costumers['Points'] < 1000]

Unnamed: 0,UUID,Name,Points
0,aa3eaf74-6d9c-4859-b733-5a18a3b2f71b,afonso_rf,792
2,ca95ef2a-5129-40f4-acbc-2ced25940032,tdlupus,421
4,98b960e7-6b7b-45b7-b7af-60bca40e04b9,gu1z17,0
6,6e1bc660-02eb-49ac-aee6-592328504897,jesak_,894
7,95ef4c1e-b21a-468e-b419-ad08333c4948,marciormr,67
...,...,...,...
786,4a36c617-b018-436a-babc-4374461ab87b,null__var,53
787,403db18e-941e-4e63-ba23-e63c0515876a,lmadriles,50
788,c9bfbbf9-db90-45a7-a72c-4118140038f4,eduardo_cofferri,50
789,4caa2fb3-7ed2-436d-bc35-390feebfdebe,marmschu,50


In [39]:
maximo = df_costumers['Points'].max()
maximo

np.int64(4304)

In [40]:
# achar o maior no dataframe
mascara = df_costumers['Points'] == maximo
df_costumers[mascara]


Unnamed: 0,UUID,Name,Points
436,066c9fc6-f704-4165-a8f3-3d1968b0d4a3,marxzera,4304


In [41]:
# achar o maior no dataframe resumindo 
mascara = df_costumers['Points'] == df_costumers['Points'].max()
df_costumers[mascara]

Unnamed: 0,UUID,Name,Points
436,066c9fc6-f704-4165-a8f3-3d1968b0d4a3,marxzera,4304


In [48]:
# em uma linha
maior_ponto = df_costumers[df_costumers['Points'] == df_costumers['Points'].max()]

In [53]:
# Para ober o primeiro valor
maior_ponto = df_costumers[df_costumers['Points'] == df_costumers['Points'].max()]['Name'].iloc[0]
maior_ponto

'marxzera'

In [55]:
df_costumers[['Name', 'Points']]

Unnamed: 0,Name,Points
0,afonso_rf,792
1,mariicmartins,1375
2,tdlupus,421
3,kozat0,4063
4,gu1z17,0
...,...,...
786,null__var,53
787,lmadriles,50
788,eduardo_cofferri,50
789,marmschu,50


In [57]:
# Pegar quem está entre 1000 e 2000
mascara = (df_costumers['Points'] >= 1000) & (df_costumers['Points'] <= 2000)
df_costumers[mascara].describe()

Unnamed: 0,Points
count,28.0
mean,1300.607143
std,223.005952
min,1013.0
25%,1151.25
50%,1255.0
75%,1379.75
max,1940.0


In [70]:
# Quando eu crio uma lista a com 3 elementos, e depois crio uma segunda lista 'b' e atribuo a ela a lista 'a', eu tenho 2 lista iguais certo?
a = [1, 2, 3]
b = a 
print('A: ', a)
print("B: ", b)

A:  [1, 2, 3]
B:  [1, 2, 3]


In [71]:
# Porém se eu adicionar um elemento a minha segunda lista, ele também é adicionado a lista 'a'
b.append(5)
print('A: ', a)
print("B: ", b)

A:  [1, 2, 3, 5]
B:  [1, 2, 3, 5]


Isso acontece porque, ao fazer b = a, eu não estou criando uma nova lista, mas sim uma referência à mesma lista na memória. Portanto, tanto a quanto b apontam para o mesmo objeto. Quando você modifica b, está na verdade modificando a lista original que a também referencia.

Se eu quiser criar uma nova lista eu teria que fazer dessa forma:

In [73]:
c = list(a)
print('A: ', a)
print("B: ", b)
print("C: ", c)

A:  [1, 2, 3, 5]
B:  [1, 2, 3, 5]
C:  [1, 2, 3, 5]


In [74]:
# agora vou adicionar um elemento a lista c:

c.append(100)
print('A: ', a)
print("B: ", b)
print("C: ", c)

A:  [1, 2, 3, 5]
B:  [1, 2, 3, 5]
C:  [1, 2, 3, 5, 100]


Atribuindo a c a função list(a) estou criando uma nova lista com os elementos de a, e não fazendo referência a mesma.

Posso também utilizar a função copy()

In [76]:
d = c.copy()
print('A: ', a)
print("B: ", b)
print("C: ", c)
print("D: ", d)

A:  [1, 2, 3, 5]
B:  [1, 2, 3, 5]
C:  [1, 2, 3, 5, 100]
D:  [1, 2, 3, 5, 100]


In [77]:
d.append(1000)
print('A: ', a)
print("B: ", b)
print("C: ", c)
print("D: ", d)

A:  [1, 2, 3, 5]
B:  [1, 2, 3, 5]
C:  [1, 2, 3, 5, 100]
D:  [1, 2, 3, 5, 100, 1000]


#### Aplicando esse conhecimento ao pandas
Quando fazemos filtros em Dataframes como o abaixo:
```
mascara = (df_costumers['Points'] >= 1000) & (df_costumers['Points'] <= 2000)
df_costumers[mascara].describe()
```
O python não está criando novos dataframes, apenas está fazendo referência aos dados filtrados do dataframe original.

In [83]:
# Aplicando esse conhecimento ao pandas

# criando um dataframe novo

df_1000_2000 = df_costumers[mascara]
df_1000_2000['Points'] = df_1000_2000["Points"] + 1000


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_1000_2000['Points'] = df_1000_2000["Points"] + 1000


Se for aplicar um filtro para depois manipular o dado, deve-se fazer uma copia do dataframe

In [85]:
df_1000_2000 = df_costumers[mascara].copy()
df_1000_2000['Points'] = df_1000_2000["Points"] + 1000
df_1000_2000

Unnamed: 0,UUID,Name,Points
1,2d3d2dce-d353-4961-ad39-46723efe2100,mariicmartins,2375
26,54edd84d-73ad-4821-8d53-7ed04f00b2e4,kaycristina,2153
29,a1478518-6bf1-41e7-895b-355a06554b96,talismacedo,2116
34,99431a0f-1f38-47ab-9136-445c7afae00d,nicolaslima167,2364
43,af4f97a5-90a8-4ebf-8420-d7766ad093ea,ldbressan,2038
47,4c77c153-19b9-42e2-a03c-04f43dcc6105,vinnyportugal07,2211
59,21943df7-272e-46ef-aeb7-933a6637bfd5,gabra_alves,2013
60,2a9d4ba3-4c58-47f9-8dc4-6f9cb50be1b1,dabathehutt,2307
68,74c06e4d-0d4f-48f1-96af-a03c7b18ce47,thamibetin,2940
77,98953b1a-ae7e-4e50-b264-bdda6c3a4a6d,ericcamacho,2423


Para melhor compreenção vou criar um CSV personalizado.

In [98]:
import csv

#Crio uma lista onde os elementos são dicionários .
itens = [
    {"nome": "Arroz", "quantidade": 2, "preco": 20.50},
    {"nome": "Feijão", "quantidade": 1, "preco": 7.80},
    {"nome": "Macarrão", "quantidade": 3, "preco": 4.50},
    {"nome": "Açúcar", "quantidade": 1, "preco": 3.20},
    {"nome": "Café", "quantidade": 2, "preco": 8.90},
    {"nome": "Leite", "quantidade": 5, "preco": 4.00},
    {"nome": "Pão", "quantidade": 10, "preco": 1.50},
    {"nome": "Manteiga", "quantidade": 1, "preco": 6.00},
    {"nome": "Ovos", "quantidade": 12, "preco": 0.50},
    {"nome": "Frango", "quantidade": 2, "preco": 15.00}
]



In [99]:
# Usando a biblioteca csv vou criar um arquivo csv para salvar essa lista em um arquivo CSV

# Dou nome para o arquivo
arquivo = 'lista_mercado.csv'

#criando e escrevendo o csv
with open(arquivo, mode='w', newline='', encoding='utf-8') as arquivo_csv:
    escrever = csv.writer(arquivo_csv)
    
    #cabeçalho
    escrever.writerow(['Nome', 'Quantidade', 'Valor'])
    
    for item in itens:
        escrever.writerow([item["nome"], item["quantidade"], item["preco"]])
    
print("Arquivo Criado!")

Arquivo Criado!


In [179]:
# agora vou importar o csv que foi criado como um data frame

df_mercado = pd.read_csv('lista_mercado.csv')
df_mercado

Unnamed: 0,Nome,Quantidade,Valor
0,Arroz,2,20.5
1,Feijão,1,7.8
2,Macarrão,3,4.5
3,Açúcar,1,3.2
4,Café,2,8.9
5,Leite,5,4.0
6,Pão,10,1.5
7,Manteiga,1,6.0
8,Ovos,12,0.5
9,Frango,2,15.0


In [157]:
# Usando mascara booleana vamos alterar todos os valores abaixo de 5 da coluna valor

menores_5 = df_mercado[df_mercado['Valor'] < 5]
menores_5['Valor'] = menores_5['Valor'] + 1000
menores_5
# esse erro ocorreu pois se o python permitisse essa alteração, os valores do meu dataframe original também seriam alterados, para fazer essa alteração devemos fazer uma cópia da coluna valor no meu novo dataframe com método .copy()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  menores_5['Valor'] = menores_5['Valor'] + 1000


Unnamed: 0,Nome,Quantidade,Valor
2,Macarrão,3,1004.5
3,Açúcar,1,1003.2
5,Leite,5,1004.0
6,Pão,10,1001.5
8,Ovos,12,1000.5


In [159]:
# assim podemos fazer as devidas alterações preservando o dataframe original
menores_5 = df_mercado[df_mercado['Valor'] < 5].copy()
menores_5['Valor'] = menores_5['Valor'] + 1000
menores_5

Unnamed: 0,Nome,Quantidade,Valor
2,Macarrão,3,1004.5
3,Açúcar,1,1003.2
5,Leite,5,1004.0
6,Pão,10,1001.5
8,Ovos,12,1000.5


In [180]:
df_mercado

Unnamed: 0,Nome,Quantidade,Valor
0,Arroz,2,20.5
1,Feijão,1,7.8
2,Macarrão,3,4.5
3,Açúcar,1,3.2
4,Café,2,8.9
5,Leite,5,4.0
6,Pão,10,1.5
7,Manteiga,1,6.0
8,Ovos,12,0.5
9,Frango,2,15.0


In [176]:
# Mas se de fato eu quiser alterar os valores do dataframe original

df_mercado.loc[df_mercado['Valor'] < 5, 'Valor'] += 1000
df_mercado

Unnamed: 0,Nome,Quantidade,Valor
0,Arroz,2,20.5
1,Feijão,1,7.8
2,Macarrão,3,1004.5
3,Açúcar,1,1003.2
4,Café,2,8.9
5,Leite,5,1004.0
6,Pão,10,1001.5
7,Manteiga,1,6.0
8,Ovos,12,1000.5
9,Frango,2,15.0


INTERVALO

In [181]:
df_mercado

Unnamed: 0,Nome,Quantidade,Valor
0,Arroz,2,20.5
1,Feijão,1,7.8
2,Macarrão,3,4.5
3,Açúcar,1,3.2
4,Café,2,8.9
5,Leite,5,4.0
6,Pão,10,1.5
7,Manteiga,1,6.0
8,Ovos,12,0.5
9,Frango,2,15.0
