## Que es pandas
Pandas es una libreria de python para manejar archivos de tabulacion rapido y relativamente facil, esta es la libreria que facilita la mayoria de las operaciones en el datascience.

#### Lo basico:

**Cargar un CSV**:

Para cargar un csv dentro de un **DataFrame** de pandas se utiliza un solo comando pero agregare unas notas de el

~~~python
pandas.read_csv(NombreArchivo, header=['header1','header2'])
~~~

cuando cargamos un archivo csv en un **DataFrame** debemos indicar los headers si no hay headers de ese archivo quedaria como _headers=None_ ya que pandas interpreta siempre la primera columna como los headers como el programas para abrir archivos de tabulacion


In [1]:
import pandas as pd
data = pd.read_csv('data/data_2d.csv', header=None)

In [2]:
type(data)

pandas.core.frame.DataFrame

Como podemos ver los objetos de pandas se llaman **DataFrame** y tiene un metodo sumamente util, que es DataFrame.info() que nos dara informacion sobre el CSV como tipos de datos, si hay valores nulos, el tamaño en memoria, y el total de filas y columnas

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 3 columns):
0    100 non-null float64
1    100 non-null float64
2    100 non-null float64
dtypes: float64(3)
memory usage: 2.4 KB


Otro comando util que podemos usar es el metodo **head()** el cual nos retornara las primeras 5 filas del set de datos que tambien es propio de los objetos **Dataframe** y si quieres un numero especifico de filas debes pasarla como argumento

In [4]:
data.head()

Unnamed: 0,0,1,2
0,17.930201,94.520592,320.25953
1,97.144697,69.593282,404.634472
2,81.775901,5.737648,181.485108
3,55.854342,70.325902,321.773638
4,49.36655,75.11404,322.465486


In [5]:
data.head(10)

Unnamed: 0,0,1,2
0,17.930201,94.520592,320.25953
1,97.144697,69.593282,404.634472
2,81.775901,5.737648,181.485108
3,55.854342,70.325902,321.773638
4,49.36655,75.11404,322.465486
5,3.192702,29.256299,94.618811
6,49.200784,86.144439,356.348093
7,21.882804,46.841505,181.653769
8,79.509863,87.397356,423.557743
9,88.153887,65.205642,369.229245


Una pregunta que puede originarse a este punto es si el objeto **Dataframe** puede accesarse como array de numpy y la respuesta es no, vamos a intentarlo

~~~python
data[0,2]


KeyError: (0, 2)
~~~

Pero algo que si podemos hacer es convertir el **DataFrame** en una matriz de numpy con un metodo propio de los dataframes el cual es **Dataframe.as_matrix()**

Algo a tomar en cuenta es que cuando usemos **Pandas** el primer indice del corchete nos devolvera la columna completa, en cambio en numpy el primer indice del corchete nos devolvera la fila 

In [6]:
Matrix = data.as_matrix()

  """Entry point for launching an IPython kernel.


In [7]:
#Data[0] columna
data[0].head()

0    17.930201
1    97.144697
2    81.775901
3    55.854342
4    49.366550
Name: 0, dtype: float64

In [8]:
#Data[0] Fila
Matrix[0]

array([ 17.93020121,  94.52059195, 320.2595296 ])

#### ¿Por pasa esto? 

El porque es simple, pandas no trabaja con indices si no con tipos de datos relacionados a cada columna y esos son los headers en este caso 0 1 2 son el nombre de las columnas que se asignaron automaticamente al pasarlas como none, por ejemplo si quiero acceder a la columna nombre de un csv tengo que hacerlo de la siguiente manera __DataFrame['nombre']__ y para acceder a mas de un artributo en vez de pasarle un valor le paso una lista de valores __Dataframe[['nombre','edad']]__

In [9]:
data[[0,1]].head()

Unnamed: 0,0,1
0,17.930201,94.520592
1,97.144697,69.593282
2,81.775901,5.737648
3,55.854342,70.325902
4,49.36655,75.11404


El tipo de datos de las columnas de la tabla son tipo **Series** esto quiere decir que en vez de almacenar una matriz con n dimensionalidades, agrupa matrices de 1 dimensionalidad en marcos de n dimensionalidades.

ahora te estaras preguntando como obtengo la fila, bueno hay dos maneras  una es el metodo **iloc**
~~~python
data.iloc[0] < devuelve la primera fila
~~~

y tambien podemos usar el metodo **ix** que sirven para exactamente lo mismo

~~~python
data.ix[0] < devuelve la primera fila
~~~
Y ambos devuelven un objeto tipo Series aunque **ix** está deprecado asique seria mas conveniente usar **iloc** 

Otra cosa curiosa que ofrece pandas a la hora de analizar datos es poder filtrarlos con con expresiones logicas por ejemplo para saber cual dato de la primera columna es menor a 0 seria
~~~python
data[data[0]<2] < Devuelve la fila
~~~

In [10]:
data[data[0] < 2]

Unnamed: 0,0,1,2
90,1.382983,84.944087,252.905653


Para saber mejor como funciona a nivel de programacion correremos lo que se encuentra dentro de los brackets

In [11]:
data[0].head() < 20

0     True
1    False
2    False
3    False
4    False
Name: 0, dtype: bool

Ahora entendemos mejor que recorre dato por dato y evalua la expresion logica en cada dato y retorna los datos creando otra Serie de valores, que corresponde al resultado de evaluar dichas expresiones luego devuelve las filas de aquellos indices que son devueltos como verdaderos por lo que el tipo de dato de la expresion

~~~python
data[0] < x
~~~

sera un objeto **Series** de pandas 

In [1]:
type(data[0].head() < 10)

NameError: name 'data' is not defined