# pandas

Depois a gente mescla no outro caderno.

A biblioteca pandas é uma extensão da biblioteca NumPy. Suas principais melhorias são:

1. Os valores dos eixos podem conter strings como rótulos, ao invés de simplesmente números.
+ Os dataframes podem conter vários tipos de dados, incluindo inteiros, floats e strings.

<img src="df_anatomy_static_resized.svg">

Para abrir o módulo, basta importá-lo. Por convenção, utilizamos o alias `pd`:

In [1]:
import pandas as pd

Para a abertura de arquivos `*.csv` utiliza-se a [função](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) `pandas.read_csv()`, que lê os dados e armazena-os num dataframe. Vamos utilizá-la para abrir o arquivo `googleplaystore.csv`., que contém muitas coisas aí e depois eu escrevo um pouco melhor...

In [4]:
android = pd.read_csv('googleplaystore.csv')
print(type(android))
print(android.shape)

<class 'pandas.core.frame.DataFrame'>
(10841, 13)


Assim como no módulo NumPy, o atributo `.shape` retorna uma tupla com as dimensões dos eixos do dataframe. No caso do arquivo recém aberto, temos 10.841 linhas e 13 colunas. Podemos utilizar o método `df.head(n)` para exibir as primeiras `n` linhas; caso `n` não seja passado, são exibidas por padrão as cinco primeiras. O mesmo pode ser dito a respeito do método `df.tail(n)`, que retorna as últimas linhas do dataframe:

In [6]:
android_head = android.head(8)
android_tail = android.tail(7)

print(android_head)
print(android_tail)

                                                 App        Category  Rating  \
0     Photo Editor & Candy Camera & Grid & ScrapBook  ART_AND_DESIGN     4.1   
1                                Coloring book moana  ART_AND_DESIGN     3.9   
2  U Launcher Lite – FREE Live Cool Themes, Hide ...  ART_AND_DESIGN     4.7   
3                              Sketch - Draw & Paint  ART_AND_DESIGN     4.5   
4              Pixel Draw - Number Art Coloring Book  ART_AND_DESIGN     4.3   
5                         Paper flowers instructions  ART_AND_DESIGN     4.4   
6            Smoke Effect Photo Maker - Smoke Editor  ART_AND_DESIGN     3.8   
7                                   Infinite Painter  ART_AND_DESIGN     4.1   

  Reviews  Size     Installs  Type Price Content Rating  \
0     159   19M      10,000+  Free     0       Everyone   
1     967   14M     500,000+  Free     0       Everyone   
2   87510  8.7M   5,000,000+  Free     0       Everyone   
3  215644   25M  50,000,000+  Free     0   

Outra função que torna o pandas melhor para se trabalhar com dados é a possibilidade dos dataframes conterem mais de um tipo de dado. Mencionamos na introdução deste capítulo que os eixos podem ser rotulados com strings e as colunas podem conter valor inteiros, flutuantes ou literais.

Nós podemos utilizar o [atributo](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dtypes.html#pandas.DataFrame.dtypes) `df.dtypes` para exibir informações a respeito dos tipos de dados de cada coluna do dataframe:

In [7]:
print(android.dtypes)

App                object
Category           object
Rating            float64
Reviews            object
Size               object
Installs           object
Type               object
Price              object
Content Rating     object
Genres             object
Last Updated       object
Current Ver        object
Android Ver        object
dtype: object


Geralmente são retornados os tipos `int64`, que se refere a valores inteiros armazenados em 64 bits, `float64`, que armazena valores com ponto flutuante e `object`, utilizado para colunas cujos dados não se encaixam nos casos anteriores — via de regra, valores literais.

O [método](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.info.html#pandas.DataFrame.info) `df.info()` nos retorna uma boa visão global do dataframe:

In [8]:
android.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10841 entries, 0 to 10840
Data columns (total 13 columns):
App               10841 non-null object
Category          10841 non-null object
Rating            9367 non-null float64
Reviews           10841 non-null object
Size              10841 non-null object
Installs          10841 non-null object
Type              10840 non-null object
Price             10841 non-null object
Content Rating    10840 non-null object
Genres            10841 non-null object
Last Updated      10841 non-null object
Current Ver       10833 non-null object
Android Ver       10838 non-null object
dtypes: float64(1), object(12)
memory usage: 1.1+ MB


Devido ao fato dos eixos serem rotulados, podemos selecionar dados utilizando esses rótulos — vale mencionar que, comparativamente, no NumPy precisaríamos saber o índice da coluna para realizar essa seleção! Para tanto, basta utilizar o [método](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html#pandas.DataFrame.loc) `df.loc[]`, cuja sintaxe padrão é `df.loc[row_label, column_label]`. Aqui é importante notar que este método utiliza colchetes ao invés de parênteses, como seria de costume. Vamos selecionar a coluna `'Category'` de nosso dataset:

In [13]:
android_category = android.loc[:,'Category']
print(android_category)
print(type(android_category))

0             ART_AND_DESIGN
1             ART_AND_DESIGN
2             ART_AND_DESIGN
3             ART_AND_DESIGN
4             ART_AND_DESIGN
                ...         
10836                 FAMILY
10837                 FAMILY
10838                MEDICAL
10839    BOOKS_AND_REFERENCE
10840              LIFESTYLE
Name: Category, Length: 10841, dtype: object
<class 'pandas.core.series.Series'>


Ao selecionar apenas uma coluna de nosso dataframe, obtemos um novo tipo de dado: um `'series object'`, isto é, uma série. No pandas, séries são objetos unidimensionais. Ou seja: 1D série, 2D dataframe.

<img src="df_exploded_resized.svg">

Para selecionar mais de uma coluna, utilizamos uma *lista de rótulos*.
Mas primeiro deixa eu abrir um outro dataset que esse ta uma merda.

In [16]:
prestige = pd.read_csv('prestige.csv')
print(prestige.head())

            Unnamed: 0  education  income  women  prestige  census  type
0   gov.administrators      13.11   12351  11.16      68.8    1113  prof
1     general.managers      12.26   25879   4.02      69.1    1130  prof
2          accountants      12.77    9271  15.70      63.4    1171  prof
3  purchasing.officers      11.42    8865   9.11      56.8    1175  prof
4             chemists      14.62    8403  11.68      73.5    2111  prof
