## Introducción Rápida a Pandas

Es un paquete que provee estructuras de datos rapidas, flexibles y expresivas, diseñadas para trabajar con datos "relacionados" o "etiquetados" de forma facil e intruitiva. Tiene como objetivo de ser la base de construcción de alto nivel para hacer analisis de datos practico y del mundo real usando python.

### Incluyendo la libreria

In [1]:
import pandas as pd

### Cargando Datos con Pandas

Regularmente pandas se usa de las siguientes formas:

- Convertir una lista, diccionario o arrelo de numpy al Dataframe de pandas
- Abrir un archivo local usando Pandas, usualmente un archivo CSV, etc
- Abrir un archivo remoto o base de datos, CSV o JSONon consumiendo de una URL o consulta SQL

Como ejemplo podemos cargar datos desde un archivo csv desde google:

In [2]:
df = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/train.csv')
#el conjunto de datos es de pasajeros del titanic

### Viendo e Inspeccionando Datos

Los siguientes metodos permiten manejar el conjunto de datos cargados:

|   |   |
|---|---|
|df.head(n)| Retorna las primeras n filas|
|df.tail(n)| Retorna las ultimas n filas|
|df.shape| Retorna el numero de filas y columnas|
|df.info() | Retorna el indice, datos no nulos y tipo de datos por columna|
|df.describe()| Ofrece un resumen de estadisticas para columnas numericas y es posible conseguir estadisticas para todo el conjunto de datos o solo una parte|
|df.mean()|  Retorna el significado de todas las columnas|
|df.corr()|  Retorna la correlación entre columnas en el conjunto de datos|
|df.count()| Retorna el numero de valores no nulos en cada columna del conjunto de datos|
|df.max()|   Retorna el valor máximo de cada columna|
|df.min()|   Retorna el valor mínimo de cada columna|
|df.median()|Retorna la mediana de cada columna|
|df.std()|   Retorna la desviación estandar de cada columna|

De acuerdo a los datos cargados anteriormente podemos ejecutar algunos de los métodos:

In [3]:
df.head(10)

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
5,0,male,2.0,3,1,21.075,Third,unknown,Southampton,n
6,1,female,27.0,0,2,11.1333,Third,unknown,Southampton,n
7,1,female,14.0,1,0,30.0708,Second,unknown,Cherbourg,n
8,1,female,4.0,1,1,16.7,Third,G,Southampton,n
9,0,male,20.0,0,0,8.05,Third,unknown,Southampton,y


In [4]:
df.describe()

Unnamed: 0,survived,age,n_siblings_spouses,parch,fare
count,627.0,627.0,627.0,627.0,627.0
mean,0.38756,29.631308,0.545455,0.379585,34.385399
std,0.487582,12.511818,1.15109,0.792999,54.59773
min,0.0,0.75,0.0,0.0,0.0
25%,0.0,23.0,0.0,0.0,7.8958
50%,0.0,28.0,0.0,0.0,15.0458
75%,1.0,35.0,1.0,0.0,31.3875
max,1.0,80.0,8.0,5.0,512.3292


### Seleccionando Datos

Seleccionar datos en un set de datos es tan sencillo como acceder a un arreglo normal en python indicando inicialmente la o las columnas y luego el indice del elemento, si se desea acceder a todos los datos de una fila se debe usar `iloc`. Además se pueden hacer muchas otras operaciones para indexar y filtrar los datos

#### Ejemplos

In [5]:
df.iloc[0]

survived                        0
sex                          male
age                            22
n_siblings_spouses              1
parch                           0
fare                         7.25
class                       Third
deck                      unknown
embark_town           Southampton
alone                           n
Name: 0, dtype: object

In [6]:
#Sexo del registro 0
df.iloc[0].sex

'male'

In [7]:
df.iloc[0:3]

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y


In [8]:
#Filtrando la columna 'sex' y seleccionando los valores 'male'
df[df['sex'].isin(['male'])]

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
5,0,male,2.0,3,1,21.0750,Third,unknown,Southampton,n
9,0,male,20.0,0,0,8.0500,Third,unknown,Southampton,y
10,0,male,39.0,1,5,31.2750,Third,unknown,Southampton,n
...,...,...,...,...,...,...,...,...,...,...
619,0,male,19.0,0,0,7.8958,Third,unknown,Southampton,y
620,0,male,28.0,0,0,7.8958,Third,unknown,Southampton,y
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y


### Referencias

- [A Quick Introduction to Pandas](https://towardsdatascience.com/a-quick-introduction-to-the-pandas-python-library-f1b678f34673)
- [Pandas Overview](https://pandas.pydata.org/docs/getting_started/overview.html)
- [10 minutes to pandas](https://pandas.pydata.org/docs/getting_started/10min.html)
- McKinney, W. (2012). Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. " O'Reilly Media, Inc.".