# Primeros pasos con Pandas

Lo primero que se debe realizar en un proyecto que se desee trabajar con pandas es instalar la libreria si se va a desarrollar desde el equipo propio:

1. si trabajas con el ambiente virtual de python:

~~~
pip install pandas
~~~

2. si trabajas con conda:

~~~
conda install pandas
~~~
Al instalar Pandas, se instala numpy, dado que pandas lo requiere para su funcionamiento.

posteriormente lo importas al archivo de trabajo, ya sea un documento plano, o un jupyter notebook, por lo general se debe importan tambien numpy.


In [3]:
import pandas as pd
import numpy as np

## Array:
El primer elemento de trabajo corresponde a un array, de la libreria numpy, el cual puede tener varias diemnsiones, de manera que si solo cuenta con una lista, corresponde a un vector, sin embargo si cuenta con varias listas, corresponde a una matriz.

#### Ejemplo: #### 
[1,2,3,4] es un vector con 4 componentes, pero:

~~~
[1,2,3]
[4,5,6]
~~~
es una matriz 2 x 3

In [4]:
matriz1 = np.array([[1,2,3,4,5],[6,7,8,9,0]])

### Obtener valores de un array:

Para obtener los valores de un array se puede especificar la fila:

In [5]:
matriz1[1]

array([6, 7, 8, 9, 0])

Se puede especificar la fila y la columna:

In [6]:
matriz1[0,4]

5

In [7]:
matriz1[0][4]

5

o se puede seleccionar la fila y un conjunto de columnas

In [8]:
matriz1[1][1:5:2]

array([7, 9])

## Series:
Corresponde a un array pero de la libreria de pandas, la diferencia es que en pandas la serie indexa los datos por defecto con numeros de 0 a n.

si se establece una sola lista, genera cada valor de la lista como una fila:

In [9]:
serie = pd.Series([70,80,90,00,100,200])
serie

0     70
1     80
2     90
3      0
4    100
5    200
dtype: int64

Pero si se incluyen varias listas, devuelve cada lista como un elemento del respectivo indice.

In [10]:
serie1=pd.Series([[1,2,3,4,5], [6,7,8,9,0]])
serie1

0    [1, 2, 3, 4, 5]
1    [6, 7, 8, 9, 0]
dtype: object

no obstante, si no se establece que los vectores(listas) estan entre [], pandas interpreta que el primer vector corresponde a los datos, y el segundo corresponde a los indices personalizados:

In [11]:
serie1=pd.Series([1,2,3,4,5], ['a','b','c','d','e'])
serie1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [12]:
serie2=pd.Series([['a','b','c'],['d','e','f'],['g','h','i']], index=['A', 'B', 'C'])
serie2

A    [a, b, c]
B    [d, e, f]
C    [g, h, i]
dtype: object

Tambien se pude convertir de un diccionario a una serie:

In [13]:
d1={'a':[100, 'pesos', 'Colombia'], 'b':[200, 'pesos', 'Mexico']}

In [14]:
d2=pd.Series(d1)
d2

a    [100, pesos, Colombia]
b      [200, pesos, Mexico]
dtype: object

Tambien la serie permite cambiar el indice en cualquier momento, no obstante al realizar dicho cambio se pierden los elementos guardados incialmente.

In [15]:
d2=pd.Series(d1, ['A','b'])
d2

A                     NaN
b    [200, pesos, Mexico]
dtype: object

### Obtener valores de una serie:

Para obtener valores se puede realizar de la misma forma que para un array utilizando los dos [], el primero para la fila y el segundo para la columna.

####Nota:
no se puede obtener valores por columnas!! 

In [16]:
d2[1][1]

'pesos'

In [17]:
serie1[2:4]

c    3
d    4
dtype: int64

In [18]:
serie2['A'][2]

'c'

Tanto los arrays como las series se puede conocer sus dimensiones:

In [19]:
matriz1.shape

(2, 5)

In [20]:
serie1.shape

(5,)