# 2.1 - Pandas Deepdive

![pandas_deep](images/pandas_deep.jpg)

### Importar un archivo

In [1]:
import numpy as np
import pandas as pd

In [None]:
df=pd.read_excel('../data/Online Retail.xlsx')

df.head()

In [None]:
df['NullID']=[i if i%2 else None for i in range(len(df))]

df.head()

In [None]:
# renombrar columnas

df.columns

In [None]:
n_columnas=[c.lower() for c in df.columns]

n_columnas

In [None]:
df.columns=n_columnas

df.head()

In [None]:
df=df.rename(columns={'invoiceno': 'no'})

df.head()

In [None]:
list(zip(df.columns, n_columnas))

In [None]:
df=df.rename(columns={k:v for k,v in zip(df.columns, n_columnas)})  # k=vieja columna, v=nueva columna

df.head()

### Descripción de los datos

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.info(memory_usage='deep')

In [None]:
df.count()  # valores no nulos

In [None]:
df['country'].value_counts()  # cuenta de valores unicos en la columna

In [None]:
df['country'].unique()  # valores unicos en la columna

In [None]:
df['country'].nunique()  

In [None]:
len(df['country'].unique())

In [None]:
# descripcion estadistica

df.describe()

In [None]:
df.describe().T

In [None]:
df.describe().T['50%']

In [None]:
df.median()

### Selección dentro del dataframe

In [None]:
df[['quantity', 'unitprice']].head()  # seleccion por nombre de columna

In [None]:
df[df.quantity==6].head()  # seleccion segun condicion

In [None]:
df[~(df.quantity==6)].head()  # ~ es el NO logico, lo que no es 6

In [None]:
df[(df.quantity==6) & (df.unitprice==2.55)].head()   # & es el y logico

In [None]:
df[(df.quantity==6) | (df.unitprice==2.55)].head()   # | es el o logico

In [None]:
df[~(df.quantity==6) & (df.unitprice==2.55)].head()

In [None]:
df[(df.quantity!=6) & (df.unitprice==2.55)].head()

In [None]:
# seleccion por indice

df.iloc[3]

In [None]:
df.iloc[:2]

In [None]:
df.iloc[:2, 1:3]

In [None]:
df.loc[:2]

In [None]:
df.loc[:2, 'description']

In [None]:
df.loc[:2, ['description', 'country', 'nullid']]

In [None]:
df.sample(4)

In [None]:
df.sample(4, random_state=10)  # random state es la semilla de los nos aleatorios

In [None]:
df.sample(frac=0.1).head()

In [None]:
df._get_numeric_data().head()

In [None]:
df.select_dtypes(include=['float64', 'object']).head()

### Cambio del tipo de datos

In [None]:
df.quantity.astype(dtype='float32')

In [None]:
df.quantity=df.quantity.astype(dtype='float32')

df.head()

### Manejo de valores nulos

In [None]:
df.info()

In [None]:
df.isna().head()

In [None]:
df.notna().head()

In [None]:
nan_cols=df.isna().sum()

nan_cols[nan_cols>0]

**¿Qué hacemos?**

In [None]:
# rellenar con 0

df.fillna(0).head()

In [None]:
# rellenar con media

df.fillna(df.nullid.mean()).head()

In [None]:
# rellenar con total

df.fillna(df.nullid.sum()).head()

In [None]:
# rellenar con minmimo

df.fillna(df.nullid.min()).head()

In [None]:
# rellenar con mediana

df.fillna(df.nullid.median()).head()

In [None]:
# borrar columna

df.drop('nullid', axis=1).head()

In [None]:
df.drop(columns=['revenue', 'customerid', 'country']).head()

In [None]:
df[df['nullid'].notna()]

In [None]:
df.dropna().head()

In [None]:
df.drop_duplicates().head()

In [None]:
df.drop_duplicates(subset=['country']).head()

### Agrupación

### Aplicación de funciones

### Json Normalize, Explode

### Unión de dataframes

### Eval y query

### lookup

### get

### index y reindex

### Multi index

### Exportar datos

### Métodos habituales de pandas

```python
df.head()                     # printea la cabeza, por defecto 5 filas
df.tail()                     # pritea la cola, por defecto 5 filas
df.describe()                 # descripcion estadistica
df.info()                     # informacion del df
df.info(memory_usage='deep')
df.columns                    # muestra columna
df.index                      # muestra indice
df.dtypes                     # muestra tipos de datos de las columnas
df.plot()                     # hace un grafico
df.hist()                     # hace un histograma
df.col.value_counts()         # cuenta los valores unicos de una columna
df.col.unique()               # muestra valores unicos de una columna
df.copy()                     # copia el df
df.drop()                     # elimina columnas o filas (axis=0,1)
df.dropna()                   # elimina nulos
df.fillna()                   # rellena nulos
df.shape                      # dimensiones del df
df._get_numeric_data()        # selecciona columnas numericas
df.rename()                   # renombre columnas
df.str.replace()              # reemplaza columnas de strings
df.astype(dtype='float32')    # cambia el tipo de dato
df.iloc[]                     # localiza por indice
df.loc[]                      # localiza por elemento
df.ix[]                       # loc+iloc
df.transpose()                # transpone el df
df.T
df.sample(n, frac)            # muestra del df
df.col.sum()                  # suma de una columna
df.col.max()                  # maximo de una columna
df.col.min()                  # minimo de una columna
df[col]                       # selecciona columna
df.col
df.isnull()                   # valores nulos
df.isna()
df.notna()                    # valores no nulos
df.drop_duplicates()          # eliminar duplicados
df.reset_index(inplace=True)  # resetea el indice y sobreescribe
```