# 🐼 Pandas - Crianda, Carregando e Selecionando

### 1. Importando o módulo Pandas
Pandas é um módulo Python para trabalhar com dados tabulares (ou seja, dados em uma tabela com linhas e colunas).

In [None]:
import pandas as pd

### 2. Crie um DataFrame I

Um DataFrame é um objeto que armazena dados como linhas e colunas. Você pode pensar em um DataFrame como uma planilha ou uma tabela SQL. Você pode criar manualmente um DataFrame ou preenchê-lo com dados de um CSV, uma planilha do Excel ou uma consulta SQL.

DataFrames possuem linhas e colunas. Cada coluna possui um nome, que é uma string. Cada linha possui um índice, que é um número inteiro. DataFrames podem conter muitos tipos de dados diferentes: strings, ints, floats, tuples, etc.

Você pode passar um dicionário para **pd.DataFrame()**. Cada chave é um nome de coluna e cada valor é uma lista de valores de coluna. As colunas devem ter todas o mesmo comprimento ou você receberá um erro.

In [None]:
df1 = pd.DataFrame({
  'Product ID': [1, 2, 3, 4],
  'Product Name': ['t-shirt', 't-shirt', 'skirt', 'skirt'],
  'Color': ['blue', 'green', 'red', 'black']
})

print(df1)

### 3. Crie um DataFrame II
Pode passar uma lista de listas, onde cada uma representa uma linha de dados. Use o argumento palavra-chave **columns** para passar uma lista de nomes de colunas.

In [None]:
df2 = pd.DataFrame([
  [1, 'San Diego', 100],
  [2, 'Los Angeles', 120],
  [3, 'San Francisco', 90],
  [4, 'Sacramento', 115]
],
  columns = [
    'Store ID', 'Location', 'Number of Employees'
  ])

print(df2)

### 4. Variáveis ​​​​separadas por vírgula (CSV)
CSV (valores separados por vírgula) é um formato de planilha somente texto

A primeira linha de um CSV contém títulos de colunas. Todas as linhas subsequentes contêm valores. Cada cabeçalho de coluna e cada variável são separados por uma vírgula:

column1,column2,column3

value1,value2,value3

##### exmeplo:
name,cake_flavor,frosting_flavor,topping

Chocolate Cake,chocolate,chocolate,chocolate shavings

Birthday Cake,vanilla,vanilla,rainbow sprinkles

Carrot cake,carrot,cream cheese,almonds

### 5. Carregando e salvando CSVs
Quando você tem dados em um CSV, você pode carregá-los em um DataFrame no Pandas usando **.read_csv()**

Também podemos salvar dados em um CSV, usando **.to_csv()**

In [None]:
df = pd.read_csv('arquivo_csv.csv')
print(df)

### 6. Inspecione um DataFrame
O método **df.head()** fornece as primeiras 5 linhas de um DataFrame. Se quiser ver mais linhas, você pode passar o argumento posicional n

O método **df.info()** fornece algumas estatísticas para cada coluna, como dtype, colunas, memoria ocupada, entre outros

In [None]:
print(df.head())

In [None]:
print(df.info())

### 7. Selecione Colunas
Existem duas sintaxes possíveis para selecionar todos os valores de uma coluna:

1. Selecione a coluna como se estivesse selecionando um valor de um dicionário usando uma chave. Em nosso exemplo, digitaríamos **df['column']** para selecionar as idades
2. Se o nome de uma coluna seguir todas as regras para um nome de variável (não começar com um número, não conter espaços ou caracteres especiais, etc.), então você poderá selecioná-la usando a seguinte notação: df.MySecondColumn. Em nosso exemplo, digitaríamos **df.column**

In [None]:
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])

clinic_north = df.clinic_north

print(type(clinic_north))

print(type(df))

### 8. Selecionando múltiplas colunas
Para selecionar duas ou mais colunas de um DataFrame, usamos uma lista de nomes de colunas

**Nota:** Certifique-se de ter um conjunto duplo de colchetes ([[]]), ou este comando não funcionará!

In [None]:
import codecademylib3
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west']
)

clinic_north_south = df[['clinic_north', 'clinic_south']]
print(type(clinic_north_south))

### 9. Selecione linhas
DataFrames são indexados em zero, o que significa que começamos com a 0ª linha e contamos a partir daí

```python
df.iloc[1]
```


In [None]:
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])

march = df.iloc[2]

### 10. Selecionando múltiplas linhas
Algumas maneiras de selecionar varias linhas (utiliza fatiamento):

```python
df.iloc[3:7]
df.iloc[:4]
df.iloc[-3:]
```

In [None]:
import codecademylib3
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west']
)

april_may_june = df.iloc[3:7]
print(april_may_june)

### 11. Selecione linhas com lógica I
Você pode selecionar um subconjunto de um DataFrame usando instruções lógicas:

```python
df[df.MyColumnName == desired_column_value] 
# operadores logico (<, >, >=, <= e !=)
```

In [None]:
import codecademylib3
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])

january = df[df.month == 'January']
print(january)

### 12. Selecione linhas com Logic II
**|** significa “ou” e **&** significa “e”

```python
df[(df.MyColumnName1 == desired_column_value1)|
   (df.MyColumnName2 != desired_column_value2)] 
```

In [None]:
import codecademylib3
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])


march_april = df[(df.month == 'March')|
                (df.month == 'April')]
print(march_april)

### 13. Selecione linhas com Logic III
Poderíamos usar o **isin** comando para verificar se **df.name** é um de uma lista de valores

In [None]:
import codecademylib3
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west'])

january_february_march = df[df.month.isin(['January', 'February', 'March'])]
print(january_february_march)

### 14. Definir índices
Quando selecionamos um subconjunto de um DataFrame usando lógica, obtemos índices não consecutivos. Isso é deselegante e dificulta o uso **.iloc()**.

Podemos corrigir isso usando o método **.reset_index()**.

Se executarmos o comando **df.reset_index(drop=True)**, para nao acabar com a coluna indice.

Usar **.reset_index()r** retornará um novo DataFrame, mas geralmente queremos apenas modificar nosso DataFrame existente. Se usarmos a palavra-chave, **inplace=True** podemos simplesmente modificar nosso DataFrame existente.

In [None]:
import codecademylib3
import pandas as pd

df = pd.DataFrame([
  ['January', 100, 100, 23, 100],
  ['February', 51, 45, 145, 45],
  ['March', 81, 96, 65, 96],
  ['April', 80, 80, 54, 180],
  ['May', 51, 54, 54, 154],
  ['June', 112, 109, 79, 129]],
  columns=['month', 'clinic_east',
           'clinic_north', 'clinic_south',
           'clinic_west']
)

df2 = df.loc[[1, 3, 5]]

# print(df2)

df3 = df2.reset_index()

print(df3)

df2.reset_index(inplace = True, drop = True)

print(df2)

# 🐼 Pandas - Agregados

# 🐼 Pandas - Multiplas Tabelas