## ¿Qué son NumPy y pandas?

![](notas_files/320px-NumPy_logo_2020.svg.png)

Numpy es una biblioteca de Python de código abierto que se utiliza para la informática científica y proporciona una serie de características que permiten a un programador de Python trabajar con matrices y matrices de alto rendimiento.

![](notas_files/320px-Pandas_logo.svg.png)

Pandas es un paquete para la manipulación de datos que usa los objetos DataFrame de R (así como diferentes paquetes de R) en un entorno Python.

Tanto NumPy como pandas se usan a menudo juntos, ya que la biblioteca de pandas depende en gran medida de la matriz NumPy para la implementación de objetos de datos de pandas y comparte muchas de sus características. Además, pandas se basa en la funcionalidad proporcionada por NumPy. Ambas bibliotecas pertenecen a lo que se conoce como la pila SciPy, un conjunto de bibliotecas de Python utilizadas para la informática científica. 

In [None]:
import pandas as pd
import numpy as np 

### Matrices NumPy

NumPy le permite trabajar con matrices y matrices de alto rendimiento. Su objeto de datos principal es el ndarray, un tipo de matriz de N dimensiones que describe una colección de "elementos" del mismo tipo. Por ejemplo:

In [None]:
np.array ([1, 2, 3, 4, 5]) # definiendo el ndarray

Los ndarrays se almacenan de manera más eficiente que las listas de Python y permiten vectorizar las operaciones matemáticas, lo que da como resultado un rendimiento significativamente mayor que con las construcciones de bucle en Python.

Las matrices NumPy permiten seleccionar elementos de matriz, operaciones lógicas, cortar, remodelar, combinar (también conocido como "apilar"), dividir, así como varios métodos numéricos (mínimo, máximo, media, desviación estándar, varianza y más). Todos estos conceptos se pueden aplicar a los objetos pandas, que amplían estas capacidades para proporcionar un medio mucho más rico y expresivo de representar y manipular datos que los que se ofrecen con las matrices NumPy.

## Series

La Serie es el componente principal de los pandas. Una serie representa una matriz indexada etiquetada unidimensional basada en el ndarray NumPy. 

> ``` s = pd.Series(data, index=index) ```

Como una matriz, una serie puede contener cero o más valores de cualquier tipo de datos. Se puede crear e inicializar una serie pasando un valor escalar, un ndarray NumPy, una lista de Python o un Dict de Python como parámetro de datos del constructor de series.

##### A partir de una serie

In [None]:
a = pd.Series([1, 3, 5, np.nan, 6, 8])
a

###### Indice generado automáticamente

In [None]:
a.index

##### A partir de un diccionario

In [None]:
d = {'b': 1, 'a': 0, 'c': 2}
pd.Series(d)

##### A partir de una valor

In [None]:
pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

### Diferencias entre ndarrays y objetos de serie

Hay algunas diferencias que vale la pena señalar entre los objetos ndarrays y Series. En primer lugar, se accede a los elementos de las matrices NumPy por su posición entera, comenzando con cero para el primer elemento. Un objeto de la serie pandas es más flexible, ya que puede usar definir su propio índice etiquetado para indexar y acceder a elementos de una matriz. También puede utilizar letras en lugar de números o numerar una matriz en orden descendente en lugar de ascendente. En segundo lugar, alinear datos de diferentes Series y hacer coincidir etiquetas con objetos de Series es más eficiente que usar ndarrays, por ejemplo, tratar con valores perdidos. Si no hay etiquetas coincidentes durante la alineación, pandas devuelve NaN (no ningún número) para que la operación no falle.

## DataFrame

Un DataFrame es una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes. Puede pensar en ello como una hoja de cálculo o una tabla SQL, o un dict de objetos Series. Generalmente es el objeto de pandas más utilizado. Al igual que Series, DataFrame acepta muchos tipos diferentes de entrada:

- 1D Dict de ndarrays, listas, dict o series

- 2-D numpy.ndarray

- Ndarray estructurado

- Series

- Otro DataFrame


### Creación de un Data-Frame (df)


#### Vía Numpy


In [None]:
dates = pd.date_range('20130101', periods=6)
dates


In [None]:
df = pd.DataFrame(np.random.randn(6, 4),
                  index=dates,
                  columns=['A', 'B', 'C', 'D'])
df

#### Vía diccionarios de Python


In [None]:
df2 = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20130102'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': 'foo',
    'G': [1,2,1,2]
})
df2

## Tipos de Datos



| Pandas dtype     | Python type     | NumPy type     | Usage|
|-----------------|:---------------------:|:---------------------:|:---------------------:|
| object     | str     | string_, unicode_     | Text|
| int64     | int     | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64     | Integer numbers|
| float64     | float     | float_, float16, float32, float64     | Floating point numbers|
| bool     | bool     | bool_     | True/False values|
| datetime64     | NA     | datetime64[ns]     | Date and time values|
| timedelta[ns]     | NA     | NA     | Differences between two datetimes|
| category     | NA     | NA     | Finite list of text values |

### Los datos faltantes

* None: el dato faltante Pythonico

* NaN (Not a number): representación de un número faltante reconocido por todo los sistemas que usan el estandar de de IEEE de coma flotante

> Ver https://jakevdp.github.io/PythonDataScienceHandbook/03.04-missing-values.html


In [None]:
pd.Series([1, np.nan, 2, None])

In [None]:
np.nan + 1

In [None]:
np.nan == '2'

In [None]:
np.nan > 0

## Importar datos


```python
pd.read_csv(
    '../../dataset/censo2010/hogar.csv',  # file path
    delimiter=',',  # delimitador ',',';','|','\t'
    header=0,  # número de fila como nom de col
    names=None,  # nombre de las columnas (ojo con header)
    index_col=0,  # que col es el índice
    usecols=None,  # que col usar. Ej: [0, 1, 2], ['foo', 'bar', 'baz']
    dtype=None,  # Tipo de col {'a': np.int32, 'b': str} 
    skiprows=None,  # saltear fil al init
    skipfooter=0,  # saltear fil al final
    nrows=None,  # n de fil a leer
    decimal='.',  # separador de decimal. Ej: ',' para EU dat
    quotechar='"',  # char para reconocer str
    #encoding=None,  # para los acentos, ñ, etc
)
```

In [None]:
df_in = pd.read_csv('../../../dataset/censo2010/hogar.csv')
df_in


## Revisando un df


In [None]:

df_in.head()


In [None]:
df_in.tail(3)

In [None]:
df_in.index

In [None]:
type(df_in.index)

In [None]:
df_in.columns

In [None]:
type(df_in.columns)

In [None]:
df_in.values

In [None]:
type(df_in.values)

In [None]:
df_in.shape

## Seleccionar (select)

### Subsetting con []

#### Columnas


##### Seleccionar una columna única como una serie
Hay dos components principales de una serie, el índice y la data (valores). No hay columnas en una serie.

In [None]:
df_in['ALGUNBI']


In [None]:
type(df_in['ALGUNBI'])


##### Seleccionar como un DF


In [None]:
df_in[['ALGUNBI']]


In [None]:
type(df_in[['ALGUNBI']])


##### Seleccionas múltiples colmunas como un DF al pasarle una lista


In [None]:
df_in[['PROP', 'ALGUNBI']]


##### Cambiar el orden


#### Seleccionar por número


In [None]:
df_in.columns[0]


In [None]:
df_in[df_in.columns[0]]


In [None]:
df_in[[df_in.columns[0]]]


In [None]:
df_in[df_in.columns[[18, 21]]]



#### Filas

##### x rango

In [None]:
df_in[0:1]

In [None]:
df_in[0:10]

> Operator Overloading
Ciertos operadores poseen un comportamiento diferenciado de a cuerdo a que objetos se los aplica. Por ejemplo, al indexar con $df[*]$, su comportamiento dependerá de si es:
* string: retornará una columna como una serie return a column as a Series
* lista de strings: retornará columnas en forma de DataFrame
* sequencia de enteros / etiquetas: retornará filas (el vector puede ser tanto enteros como etiquetas)
* sequencia de booleanos: retornará filas cuando sean True

### .loc

La indexación mediante .loc selecciona datos por filas o por columnas. Puede simultaneamente seleccionar filas o columnas y lo hace a través de las etiquetas

#### a series

In [None]:
df_in.loc[1]

In [None]:
type(df_in.loc[1])

In [None]:
df_in.loc[[1]]

In [None]:
type(df_in.loc[[1]])

#### Varias Filas

In [None]:
df_in.loc[[1, 2]]

#### Muchas filas vía Índeces

In [None]:
df_in.loc[1:10]

In [None]:
df_in.loc[:10]

In [None]:
df_in.loc[10:]

#### Subsetear filas y columnas con loc

##### Muchas filas 

In [None]:
df_in.loc[[1, 2], ['PROP', 'ALGUNBI']]

#### Selecting all of the rows and some columns

In [None]:
df_in.loc[:, ['PROP', 'ALGUNBI']]

#### Selecting all of the rows and some columns

In [None]:
df_in.loc[:, 'PROP':]

#### accediento al elemento

In [None]:
df_in.loc[1, 'PROP']

In [None]:
df_in.loc[:, 'PROP'][1]

In [None]:
df_in.loc[:, 'PROP'].loc[1]

In [None]:
df_in.loc[1]['PROP']

In [None]:
df_in.loc[1].loc['PROP']

#### el elemento en forma de serie

In [None]:
df_in.loc[[1], 'PROP']

In [None]:
type(df_in.loc[[1], 'PROP'])

#### el elemento en forma de df

In [None]:
df_in.loc[[1], ['PROP']]

In [None]:
type(df_in.loc[[1], ['PROP']])

## .iloc

In [None]:
df_in.iloc[0]

In [None]:
df_in.iloc[[0]]

In [None]:
df_in.iloc[:, 18]

In [None]:
df_in.iloc[:, [18]]

In [None]:
df_in.iloc[[5, 2, 4]]


In [None]:
df_in.iloc[3:5]

In [None]:
df_in.iloc[3:5, [18, 21]]

In [None]:
df_in.iloc[3:5, 18:21]

## Seleccionar Donde (where)

### [ ]

#### A mano

In [None]:
df_in_head = df_in.head()

In [None]:
booleano = [False, False, True, True, True]

In [None]:
type(booleano)

In [None]:
df_in_head[booleano]

In [None]:
booleano = np.array([False, False, True, True, True])


In [None]:
type(booleano)


In [None]:
df_in_head[booleano]


#### Condiciones simples

##### Usando operaciones lógicas: '<', '>', '==', '>=', '<=', !=


In [None]:
booleano = df_in.ALGUNBI > 0
df_in[booleano]


In [None]:
booleano = df_in.ALGUNBI == 0
df_in[booleano]


#### Condiciones Múltiples


##### Usando &, | , ~

In [None]:
booleano = ~((df_in.ALGUNBI > 0) & (df_in.PROP == 1))
df_in[booleano]

In [None]:
booleano = ((df_in.ALGUNBI > 0) | (df_in.PROP != 1))
df_in[booleano]

In [None]:
booleano = (df_in.ALGUNBI > 0) & (df_in.PROP == 1)
df_in[booleano]

#### Filtrando por ocurrencias: isin


In [None]:
df_in[ df_in.PROP.isin([1,2]) ]

#### Buscando missing values

In [None]:
df_in[ df_in.PROP.isnull() ]

### Usar .loc para seleccior columnas y bools de filas

In [None]:
df_in.loc[ df_in.PROP.isin([1,2]), ['PROP','ALGUNBI']]


#### Usar la comparación de dos columnas


In [None]:
df_in.loc[ df_in.PROP > df_in.ALGUNBI ]


## ORDEN (Order by)


### Asendiente

In [None]:
df_in.sort_values(['PROP','ALGUNBI'])


### Descendiente


In [None]:
df_in.sort_values(['PROP','ALGUNBI'], ascending=False)


## Contar

### Valores no nulos

In [None]:
df_in.count()

### Cantidad de registros

In [None]:
df_in.shape[0]

## Agrupar por (Group By)

In [None]:
df_in.groupby(['PROP','ALGUNBI']).size()

In [None]:
# NOTA: SE PUEDE TENER LAS VARIABLES DE AGRUPACION COMO COLUMNAS Y NO COMO INDICES
df_in.groupby(['PROP','ALGUNBI'],as_index=False).size()

In [None]:
df_in.groupby(['PROP','ALGUNBI']).count()

## Funciones de Agregación

 |    Agregación   |      Descripción      |
 |-----------------|:---------------------:|
 | count()         | Contar el n de casos  |
 | first(), last() | Primer y último item  |
 | mean(), median()| Media, Mediana        |
 | min(), max()    | Mínimo y Máximo       |
 | std(), var()    | Varianza y desvio     |
 | mad()           | Desviación abs mediana|
 | prod()          | Producto de los items |
 | sum()           | Suma de los Casos     |

### Calcular la media por grupo

In [2]:
![](notas_files/groupby-example.png)

/bin/bash: -c: line 0: syntax error near unexpected token `notas_files/groupby-example.png'
/bin/bash: -c: line 0: `[](notas_files/groupby-example.png)'


In [None]:
( df_in
    .groupby(['PROP','ALGUNBI'])
    .mean()
)

### Calcular medidas resúmenes por grupo


In [None]:
( df_in[['PROP','ALGUNBI','TOTPERS']]
    .groupby(['PROP','ALGUNBI'])
    .agg(['min', 'max', 'mean', 'median'])
)

### Calcular diferentes medidas resúmenes por grupo por variables


In [None]:
( df_in
    .groupby(['PROP','ALGUNBI'])
    .agg({
        'NHOG': ['min', 'max'],
        'TOTPERS':['mean', 'median']
        })
)


## Funciones Lambdas
Funciones anónimas aplicadas a todas las columnas con apply


In [None]:
( df_in
    .apply(lambda x: x[x > 2]
    .count())
)

In [None]:
( df_in
    .groupby(['PROP','ALGUNBI'])
    .apply(lambda x: (x+0.)/x.sum()*100)
)

## Having
Luego de agrupar y resumir, filtado de filas resultantes


In [None]:
(
    df_in[['PROP','ALGUNBI','TOTPERS']]
    .groupby(['PROP','ALGUNBI'])
    .sum()
    .groupby(['TOTPERS'])
    .filter(lambda x: x['TOTPERS'] > 10000)
)

## Top 1 de un grupo
últil para extraer los primeros casos de cada grupo que cumplen una condición


In [None]:
(df_in[['PROP','ALGUNBI','TOTPERS']]
    .sort_values('TOTPERS', ascending=False)
    .groupby(['PROP','ALGUNBI'])
    .head(1)
)


## Agregar Filas y Columnas

### Agregar Columnas


In [None]:

df_1 = df_in[['PROP', 'INDHAC']]
df_1

In [None]:
df_2 = df_in[['TOTPERS', 'ALGUNBI']]
df_2

In [None]:
df = pd.concat([df_1,df_2],axis=1,sort=False)
df

### Agregar Filas

In [None]:
df_1 = df_in.iloc[0:3][['PROP', 'INDHAC']]
df_1

In [None]:
df_2 = df_in.iloc[3:6][['PROP', 'INDHAC']]
df_2


#### Opción 1

In [None]:
df = pd.concat([df_1,df_2],axis=0,sort=False)
df

#### Opción 2

In [None]:
df = df_1.append([df_2])
df

## Transform

![](https://pbpython.com/images/transform-example.png)

In [None]:
( df_in[['PROP','ALGUNBI','TOTPERS']]
    .groupby(['PROP','ALGUNBI'])
    .transform(lambda x: x-x.mean()/x.std())
)



## Multi-Índices

In [None]:
df = ( df_in[['PROP','ALGUNBI','TOTPERS']]
    .groupby(['PROP','ALGUNBI'])
    .mean()
)
df

In [None]:
df.index

## Pivot Table

![](https://pbpython.com/images/pivot-table-datasheet.png)

## CrossTabs


![](https://pbpython.com/images/crosstab_cheatsheet.png)

## Stack
![](https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_stack.png)

## Unstack
![](https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_unstack.png)

In [None]:
df = ( df_in[['PROP','ALGUNBI','TOTPERS']]
    .groupby(['PROP','ALGUNBI'])
    .mean()
)
df.unstack()

![](https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_unstack_1.png)

![](https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_unstack_0.png)

# Joins

## Tablas a Unir

![](notas_files/join-setup_1.png)

In [None]:
data = {'key': [1, 2, 3], 'value': ['x1', 'x2', 'x3']}
x = pd.DataFrame.from_dict(data)
x

In [None]:
data = {'key': [1, 2, 4], 'value': ['y1', 'y2', 'y3']}
y = pd.DataFrame.from_dict(data)
y

## Inner join

Esta cláusula busca coincidencias entre 2 tablas, en función a una columna que tienen en común. De tal modo que sólo la intersección se mostrará en los resultados.

![](notas_files/INNER_JOIN.webp)

Veamos un Ejemplo

![](notas_files/join-inner_2.png)

In [None]:
#inner join in python pandas

inner_join_df= pd.merge(x, y, on='key', how='inner')
inner_join_df 


## Left Join

A diferencia de un INNER JOIN, donde se busca una intersección respetada por ambas tablas, con LEFT JOIN damos prioridad a la tabla de la izquierda, y buscamos en la tabla derecha. Si no existe ninguna coincidencia para alguna de las filas de la tabla de la izquierda, de igual forma todos los resultados de la primera tabla se muestran.

![](notas_files/LEFT_JOIN.webp)

Veamos un Ejemplo

![](notas_files/left_joint.png)

In [None]:
left_join_df = pd.merge(x, y, on='key', how='left')
left_join_df

## Right Join

En el caso de RIGHT JOIN la situación es muy similar, pero aquí se da prioridad a la tabla de la derecha.

![](notas_files/RIGHT_JOIN.webp)

Veamos un Ejemplo

![](notas_files/right_joint.png)

In [None]:
right_join_df = pd.merge(x, y, on='key', how='right')
right_join_df

## Full Join

Mientras que LEFT JOIN muestra todas las filas de la tabla izquierda, y RIGHT JOIN muestra todas las correspondientes a la tabla derecha, FULL OUTER JOIN (o simplemente FULL JOIN) se encarga de mostrar todas las filas de ambas tablas, sin importar que no existan coincidencias (usará NULL como un valor por defecto para dichos casos).

![](notas_files/FULL_JOIN.webp)

Veamos un Ejemplo

![](notas_files/outer_joint.png)

In [None]:
outer_join_df = pd.merge(x, y, on='key', how='outer')
outer_join_df

## Relaciones

### Uno a Uno

In [None]:

data = {'key': [1, 2, 3], 'value': ['x1', 'x2', 'x3']}
x = pd.DataFrame.from_dict(data)
x

In [None]:

data = {'key': [1, 2, 3], 'value': ['y1', 'y2', 'y3']}
y = pd.DataFrame.from_dict(data)
y

In [None]:
inner_join_df= pd.merge(x, y, on='key', how='inner')
inner_join_df 

### Uno a Muchos (o Muchos a Uno)

In [None]:
data = {'key': [1, 2, 2, 1], 'value': ['x1', 'x2', 'x3', "x4"]}
x = pd.DataFrame.from_dict(data)
x



In [None]:

data = {'key': [1, 2], 'value': ['y1', 'y2']}
y = pd.DataFrame.from_dict(data)
y

![](notas_files/join-one-to-many_5.png)

In [None]:
inner_join_df= pd.merge(x, y, on='key', how='inner')
inner_join_df 

In [None]:
### Muchos a Muchos

In [None]:
data = {'key': [1, 2, 2, 3], 'value': ['x1', 'x2', 'x3', "x4"]}
x = pd.DataFrame.from_dict(data)
x

In [None]:
data = {'key': [1, 2, 2, 3], 'value': ['y1', 'y2', 'y3', "y4"]}
y = pd.DataFrame.from_dict(data)
y

![](notas_files/join-many-to-many_6.png))

In [None]:
inner_join_df= pd.merge(x, y, on='key', how='inner')
inner_join_df 

## Union all

![](notas_files/unionAll.png)

In [None]:
data = {'val_0': [1, 2, 2, 3], 'value': ['a1', 'b2', 'c3', "d4"]}
y = pd.DataFrame.from_dict(data)
y


In [None]:
data = {'val_0': [1, 2, 2, 3], 'value': ['a1', 'b2', 'e3', "f4"]}
x = pd.DataFrame.from_dict(data)
x

In [None]:
df_union_all= pd.concat([y, x], ignore_index=True)
df_union_all

### Union

![](notas_files/union.png)

In [None]:
df_union= pd.concat([x, y],ignore_index=True).drop_duplicates()
df_union

# Bibliografía
Revisar el apunte de "Merge, join, and concatenate"