<img src="pandas_logo.png">

## ¿Qué es?

Un objeto **Pandas** es un NumPy array con etiquetas para filas y columnas, y un mejor soporte para tipos de datos heterogéneos, pero como veremos a continuación mucho más que eso.

Si conoces el lenguaje R, podríamos decir que estos objetos son el análogo al data.frame de R en Python.

Es una librería implementada para el trabajo intensivo de datos en Python. Es muy potente para trabajar con grandes estructuras de datos,series temporales, leer y escribir sus datos, remodelar, agrupar, fusionar sus datos y, un largo etc...


## Casos de uso

Si necesitas trabjar con datos tabulares, Pandas te permite:

- Importar datos
- Limpiar datos desordenados
- Procesar y preparar datos
- Explorar  y analizar datos, obtener información sobre ellos


## Dataframe y Series - Inicialización

Son los dos tipos de objetos Pandas. La diferencia entre ellos:
- DataFrame: varias dimensiones.
- Series: 1 dimensión.

Para inicializarlos tenemos principalmente estas dos opciones:

In [8]:
import pandas as pd
import numpy as np

datos = {'columna_a': ['valor_1_col_a', 'valor_2_col_a', 'valor_3_col_a'],
         'columna_b' : ['valor_1_col_b', 'valor_2_col_b', 'valor_3_col_b']}

mi_dataframe = pd.DataFrame(datos)    # A partir de un diccionario
mi_dataframe

Unnamed: 0,columna_a,columna_b
0,valor_1_col_a,valor_1_col_b
1,valor_2_col_a,valor_2_col_b
2,valor_3_col_a,valor_3_col_b


In [10]:
datos = np.array([['valor_1_col_a', 'valor_2_col_a', 'valor_3_col_a'],
                 ['valor_1_col_b', 'valor_2_col_b', 'valor_3_col_b']])

datos_transpuestos = datos.T

# A partir de un Numpy array
mi_dataframe = pd.DataFrame(datos_transpuestos, columns = ['columna_a', 'columna_b'])

mi_dataframe

Unnamed: 0,columna_a,columna_b
0,valor_1_col_a,valor_1_col_b
1,valor_2_col_a,valor_2_col_b
2,valor_3_col_a,valor_3_col_b


## Atributos

A continuación se muestran algunos de los atributos más importantes de estos objetos:

In [19]:
# index : el indice del objeto, por defecto comienza en 0
print(mi_dataframe.index)

print()

# columns: las columnas del dataframe (un Series no tiene este atributo)
print(mi_dataframe.columns)

print()

# values: los valores. Es de tipo numpy, ¡cuidado! habrá un upgrade de los elementos. (como vimos en el tutotial de numpy, estos objetos solo pueden contener elementos del mismo tipo)
print(mi_dataframe.values)

print()

#dtypes: tipos de datos, funciona igual que en NumPy, pero puede haber diferentes valores
print(mi_dataframe.dtypes)

RangeIndex(start=0, stop=3, step=1)

Index(['columna_a', 'columna_b'], dtype='object')

[['valor_1_col_a' 'valor_1_col_b']
 ['valor_2_col_a' 'valor_2_col_b']
 ['valor_3_col_a' 'valor_3_col_b']]

columna_a    object
columna_b    object
dtype: object


## Importación - Exportación

Pandas soporta los siguientes formatos como entrada-salida:
- CSV, text
- SQL database
- Excel
- HDF5
- json
- html
- pickle
- sas, stata 

Para inportar datos, de forma genérica usamos la función **read**:
- Queremos leer un csv -> read_csv()
- Queremos leer un excel -> read_excel()

Para exportar datos, de forma genérica usamos la función **to**:
- Queremos escribir un csv -> to_csv()
- Queremos escribir un excel -> to_excel()

Estas funciones traen montones de parametros que nos permiten configurar con total precisión la operación que queremos realizar. Aqui un ejemplo:




In [42]:
housing_df = pd.read_csv(
            'datasets/housing.csv',              # ruta al archivo (con su extensión)
             sep=',',                            # el tipo de separación de valores
             decimal='.',                        # caracter para separar decimales
             header = 0,                         # la fila del archivo que contiene los nombres de las columnas
             usecols = [0,1,2,3,4,5,6,7,8,9], # columnas que queremos leer (por defecto todas)
             encoding = 'utf-8',                 # codificación
             index_col = None                    # el archivo no tiene una columna dedicada al indice   
            )

Veamos si lo hemos importado correctamente...

In [43]:
housing_df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


Parece que esta todo en orden. Si quisieramos exportar el DataFrame a un csv:

In [None]:
housing_df.to_csv('datasets/housing_exp.csv')

## Exploración

A continuación usamos los metodos más útiles para hacernos una idea rápida de como son los datos:

In [68]:
housing_df.head(3)   # mostramos las 10 primeras filas del df. Por defecto 5

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY


In [69]:
housing_df.tail(3)   # mostramos las 10 últimas filas del df. Por defecto 5

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND


In [70]:
housing_df.sample(3)   # mostramos 10 filas aleatorias. Por defecto 1

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
10738,-117.91,33.6,37.0,2088.0,510.0,673.0,390.0,5.1048,500001.0,<1H OCEAN
15396,-117.08,33.23,14.0,3337.0,571.0,1385.0,512.0,4.15,272200.0,<1H OCEAN
3959,-118.6,34.2,10.0,2869.0,941.0,2162.0,829.0,3.2297,150000.0,<1H OCEAN


In [51]:
housing_df.info()    # resumen sobre los datos de cada columna

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
longitude             20640 non-null float64
latitude              20640 non-null float64
housing_median_age    20640 non-null float64
total_rooms           20640 non-null float64
total_bedrooms        20433 non-null float64
population            20640 non-null float64
households            20640 non-null float64
median_income         20640 non-null float64
median_house_value    20640 non-null float64
ocean_proximity       20640 non-null object
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


In [52]:
housing_df.describe()    #resumen estadistico (solo variables numéricas)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,20640.0,20640.0,20433.0,20640.0,20640.0,20640.0,20640.0
mean,-119.569704,35.631861,28.639486,2635.763081,537.870553,1425.476744,499.53968,3.870671,206855.816909
std,2.003532,2.135952,12.585558,2181.615252,421.38507,1132.462122,382.329753,1.899822,115395.615874
min,-124.35,32.54,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,787.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1166.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1725.0,605.0,4.74325,264725.0
max,-114.31,41.95,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


Vemos que este resumen estadistico nos devuelve un DataFrame para cada columna numerica. A veces solo necesitamos uno de esos estadisticos y sobre una columna, en ese caso podemos hacer lo siguiente:

In [72]:
housing_df['longitude'].mean()    # media de la columna longitude

-119.56970445736432

Podemos también tomar los valores unicos de una de las filas, suele ser útil en variables categóricas, como ocean_proximity:

In [78]:
housing_df['ocean_proximity'].unique()

array(['NEAR BAY', '<1H OCEAN', 'INLAND', 'NEAR OCEAN', 'ISLAND'],
      dtype=object)

O a lo mejor nos interesa saber cuantos valores hay de cada tipo:

In [80]:
housing_df['ocean_proximity'].value_counts()  # Obtenemos una Series

<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: ocean_proximity, dtype: int64

## Selección - Filtros

Podemos filtrar tanto por posición como por posición, por enteros/strings o **slicing** (notación: ' **:** ', igual que en NumPy). Los métodos que se recomiendan emplear:

    - .loc[columnas por nombre, filas]
    - .iloc[columas por índice, filas]

In [61]:
housing_df.loc[:10, ['longitude', 'latitude']] # nos quedamos con las 10 primeras filas
                                               # y esas dos columnas

Unnamed: 0,longitude,latitude
0,-122.23,37.88
1,-122.22,37.86
2,-122.24,37.85
3,-122.25,37.85
4,-122.25,37.85
5,-122.25,37.85
6,-122.25,37.84
7,-122.25,37.84
8,-122.26,37.84
9,-122.25,37.84


In [63]:
housing_df.iloc[10:14, :2]  # nos quedamos con las 10-13
                            # y las dos primeras columnas

Unnamed: 0,longitude,latitude
10,-122.26,37.85
11,-122.26,37.85
12,-122.26,37.85
13,-122.26,37.84


Podemos obtener una Series de tipo **booleano** estableciendo una condición. Así el indice de la Series resultado serán las filas del DataFrame, y los valores el booleano en cuestión. Ejemplo:

In [64]:
housing_df['ocean_proximity'] == 'INLAND'

0        False
1        False
2        False
3        False
4        False
         ...  
20635     True
20636     True
20637     True
20638     True
20639     True
Name: ocean_proximity, Length: 20640, dtype: bool

Si combinamos la selección mediante loc/iloc y este último metodo por condición podemos filtrar lo que queramos: 

In [67]:
# En este ejemplo usamos el condicional para elegir las filas con ocean_proximity = INLAND
# y nos quedamos solo con las dos columnas: households y median_income

housing_df.loc[housing_df['ocean_proximity'] == 'INLAND', ['households', 'median_income']]

Unnamed: 0,households,median_income
954,208.0,5.1406
957,1115.0,6.4994
965,286.0,7.3330
967,577.0,6.5214
968,324.0,6.4524
...,...,...
20635,330.0,1.5603
20636,114.0,2.5568
20637,433.0,1.7000
20638,349.0,1.8672
