# PANDAS

Es el modulo por excelencia a la hora de explorar los datos, nos permite visualizar los datos como si fuesen una tabla y hacer muchisimas operaciones sobre ellos de manera mucho mas sencilla que con Python puro.

Pandas corre sobre Numpy, de manera que hay muchas cosas en comun.

Comencemos viendo las principales estructuras de Pandas.

----

# Series

El primer tipo de dato que vamos a aprender sobre pandas es el tipo de dato **Series**.

Este objeto es muy similar a los que es un array de Numpy (de hecho esta construido sobre el). La diferencia es que el objeto Series tiene etiquetas (labels) en el eje, eso quiere decir que puede ser indexado por la etiqueta, y no solo por la posicion.

Ademas las Series pueden manejar cualquier objeto de Python.


In [1]:
# importamos las librerias

import numpy as np
import pandas as pd

### Creamos Series

Uno puede convertir listas, arrays o diccionarios en una serie

In [None]:
pd.Series()

**Usando Listas**

In [2]:
my_list = [10,20,30]

In [3]:
pd.Series(my_list)

0    10
1    20
2    30
dtype: int64

In [4]:
# cambiemos los indices
labels = ['a','b','c']

In [5]:
pd.Series(my_list,labels)

a    10
b    20
c    30
dtype: int64

**Usando NumPy Arrays**

In [6]:
arr = np.array([10,20,30])
arr

array([10, 20, 30])

In [7]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int32

**Usando un Diccionario**

In [8]:
d = {'a':10, 'b':20, 'c':30}

In [9]:
pd.Series(d)

a    10
b    20
c    30
dtype: int64

### Datos en Series

Las Series pueden tener otro tipo de dato, no es necesario que sea numerico.


In [10]:
pd.Series(labels)

0    a
1    b
2    c
dtype: object

In [11]:
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

## Usemos los indices

La clave para trabajar con Series es entender sus indices, son utilizados para obtener la informacion que queremos.

Creemos dos series para analizar los indices.

In [12]:
ser1 = pd.Series([1,2,3,4], index = ['Argentina', 'EEUU', 'Brasil', 'Japon'])

In [13]:
ser1

Argentina    1
EEUU         2
Brasil       3
Japon        4
dtype: int64

In [14]:
ser2 = pd.Series([1,2,5,4], index = ['Brasil', 'Japon','Argentina', 'Italia'])

In [15]:
ser2

Brasil       1
Japon        2
Argentina    5
Italia       4
dtype: int64

In [16]:
# podemos indexar como numpy (por orden)
ser1[2]

3

In [17]:
# pero la idea de las series es poder indexar por el indice
ser1['Brasil']

3

In [18]:
# obtenemos los indices de una serie
ser1.index

Index(['Argentina', 'EEUU', 'Brasil', 'Japon'], dtype='object')

In [19]:
# obtenemos los valores de una serie
ser1.values

array([1, 2, 3, 4], dtype=int64)

**Las operaciones entre series se basan por los indices (las cuentas se hacen entre los elementos que corresponden al mismo indice, y no a la posicion que ocupan en la serie)**

In [20]:
ser1 + ser2

Argentina    6.0
Brasil       4.0
EEUU         NaN
Italia       NaN
Japon        6.0
dtype: float64