<a href="https://colab.research.google.com/github/ClauderCarvalho/ABERTO/blob/master/Crie%20seu%20pr%C3%B3prio%20DataFrame%20com%20Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Nome: Clauder Noronha

**Crie seu próprio DataFrame com Pandas**

O Pandas é uma biblioteca de análise de dados Python muito poderosa que agiliza as etapas de pré-processamento do seu projeto. Neste post, abordarei diferentes maneiras de criar quadros de dados de exemplo com pandas.

>>Praticar é um elemento essencial para aprender qualquer assunto. É ainda mais importante na codificação. Para desenvolver habilidades suaves de codificação, a prática desempenha um papel fundamental. Portanto, ao aprender e praticar o básico em análise e manipulação de dados, pode ser conveniente criar seu próprio quadro de dados de amostra, em vez de pesquisar online um quadro de dados adequado. O Pandas fornece várias maneiras de criar quadros de dados de amostra com a forma e as características desejadas.

Vamos abordar diferentes maneiras de criar seus próprios quadros de dados. Como sempre, começamos com a importação de numpy e pandas.

In [2]:
import pandas as pd
import numpy as np

Podemos criar um dicionário e convertê-lo diretamente em um quadro de dados:

In [3]:
dicionario = {'col_a':[1,2,3],
              'col_b':['Clauder','Noronha','carvalho'],
              'col_c':['Verdadeir','Falso','Verdadeiro']}

In [4]:
df = pd.DataFrame(dicionario)

In [5]:
df.head()

Unnamed: 0,col_a,col_b,col_c
0,1,Clauder,Verdadeir
1,2,Noronha,Falso
2,3,carvalho,Verdadeiro


Nem precisamos especificar os tipos de dados, pois os pandas podem inferir:

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col_a   3 non-null      int64 
 1   col_b   3 non-null      object
 2   col_c   3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [7]:
df.dtypes


col_a     int64
col_b    object
col_c    object
dtype: object

df, é um quadro de dados relativamente pequeno. Podemos precisar de quadros de dados maiores para determinadas tarefas, mas é entediante digitar um dicionário com muitas entradas. Nesses casos, podemos usar numpy para criar matrizes de amostra. Em seguida, essas matrizes podem ser usadas como valores nos dicionários:

In [8]:
dicionario_A = {'col_a': np.random.randn(50),
                'col_b': np.random.randint(10, size = 50)}

df_A = pd.DataFrame(dicionario_A)                

In [9]:
df_A.shape

(50, 2)

np.random.randn (50) cria 50 valores normalmente distribuídos e np.random.

randint (10, size = 50) cria 50 valores inteiros entre 0 e 10. Como podemos ver, o tamanho do quadro de dados resultante é ( 50,2). Vamos dar uma olhada nas 5 primeiras linhas:

In [10]:
df_A.head()

Unnamed: 0,col_a,col_b
0,-0.18435,6
1,-0.021246,7
2,-0.201226,8
3,-2.847227,7
4,0.862585,2


Também podemos criar matrizes bidimensionais com numpy e converter diretamente essas matrizes em um quadro de dados. Para criar matrizes bidimensionais com np.random.randint, precisamos passar um parâmetro de tupla para tamanho :

In [11]:
np.random.randint(10, size=(6,4))

array([[9, 6, 9, 8],
       [7, 6, 0, 4],
       [2, 8, 5, 3],
       [6, 4, 4, 1],
       [8, 2, 5, 4],
       [2, 0, 7, 3]])

In [12]:
df_B = pd.DataFrame(np.random.randint(10, size=(6,4)))

In [13]:
df_B.head()

Unnamed: 0,0,1,2,3
0,1,4,0,8
1,7,8,9,3
2,3,7,8,8
3,1,7,0,1
4,3,4,3,0


Pandas cessionários inteiros nomes das colunas, mas podemos mudar isso usando colunas parâmetro

In [15]:
df_d = pd.DataFrame(np.random.randint(10, size = (6,4)), columns=['a','b','c','d'])

In [16]:
df_d

Unnamed: 0,a,b,c,d
0,6,4,7,3
1,6,2,1,0
2,4,0,8,7
3,2,0,9,8
4,3,2,3,6
5,6,6,1,1


Também podemos alterar os valores do índice. Vamos usar np.random.randn para criar uma matriz bidimensional desta vez:


In [17]:
np.random.randn(5,4)

array([[ 0.08951002, -1.07948875, -0.41661191, -1.07923374],
       [ 0.72395257, -0.13513685, -1.01565164, -0.72616336],
       [-0.82414264, -1.67543742,  1.1113463 ,  0.32403387],
       [ 0.82075784, -0.31824338, -1.89787324, -0.30005483],
       [-0.68999592,  0.02931034, -0.30720085,  0.57483706]])

Em seguida, definiremos um índice de séries temporais usando a função date_range dos pandas. Em seguida, passe esse índice para o parâmetro index :

In [18]:
index = pd.date_range('2020-01-01', '2020-01-05')

df_c = pd.DataFrame(np.random.randn(5,4),
                    columns=['a','b','c','d'],
                    index = index)

In [20]:
df_c

Unnamed: 0,a,b,c,d
2020-01-01,1.379793,1.511509,-1.237256,1.508867
2020-01-02,-1.121515,0.185371,-0.639113,0.156638
2020-01-03,1.165837,-0.091456,0.567817,0.644972
2020-01-04,-0.962946,0.078118,0.683582,-0.899891
2020-01-05,-0.486873,-0.055255,0.499855,-0.785771


Também podemos especificar os tipos de dados usando o parâmetro dtype. Lembre-se do primeiro dataframe que criamos. Pandas inferiu os tipos de dados a partir dos valores. Vamos criar o mesmo quadro de dados com um tipo de dados atribuído:

In [21]:
dict_a = {'col_a':[1,2,3,8],
          'col_b':['pedro','julia','rita','jhon'],
          'col_c':['V','F','v','F']}

In [23]:
df_a = pd.DataFrame(dict_a, dtype= 'category')

In [25]:
df_a

Unnamed: 0,col_a,col_b,col_c
0,1,pedro,V
1,2,julia,F
2,3,rita,v
3,8,jhon,F


O quadro de dados tem a mesma aparência, mas os tipos de dados são diferentes:

In [26]:
df_a.dtypes

col_a    category
col_b    category
col_c    category
dtype: object

Uma das grandes coisas sobre os pandas é que geralmente existem várias maneiras de executar uma tarefa. Portanto, você nunca deve se limitar a um caminho e procurar maneiras e soluções diferentes. É importante abordar tarefas simples com essa perspectiva, pois também será útil para resolver problemas complexos.