# Pandas

## Series

Las series son arreglos unidimensionales
que pueden guardar datos de cualquier
tipo (números, palabras, objetos, etc)

Tienen un campo especial que es el index, es decir los ejes por lo que
ordena la información

La sintaxis canónica es: 

s = pd.Series(data, index=index)

In [None]:
import pandas as pd

In [None]:
a_series = (pd.Series([31,28,31,30,31,30], 
            index=['Enero', 'Febrero','Marzo', 'Abril', 'Mayo', 'Junio']))
a_series

In [None]:
same_series = pd.Series({'Enero':31, 'Febrero':28,'Marzo':31, 'Abril':30, 'Mayo':31, 'Junio':30})
same_series

## Dataframes

Los dataframes son como tablas de Excel, donde cada columna es una serie.
Los dataframe pueden ser creados con diferentes tipos de datos
* Dict de 1D ndarrays, lists, dicts, o Series
* 2D numpy.ndarray
* Una Serie
* Otro dataframe
* Un archivo .csv
* etc..

La sintaxis canonica es:

df = pd.DataFrame(data)

In [None]:
data = [['Enero', 31, 'E'],
        ['Febrero',28,'F'], 
        ['Marzo',31,'M'],
        ['Abril',30,'A'],
        ['Mayo',31,'M'],
        ['Junio',30,'J']]

df = pd.DataFrame(data, columns = ['Mes','Dias', 'Inicial'])
df

### Operaciones básicas

In [None]:
df.columns

In [None]:
df.values

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
# Acceder a columna (serie)
df.Dias
#df['Dias']

In [None]:
df[1:3]

### Lectura de dataframe desde archivo

In [None]:
df_crime = pd.read_csv('crimes.csv', encoding="ISO-8859-1",low_memory=False)

In [None]:
df_crime.head()

In [None]:
df_crime[2:5].to_csv('nuevoarchivo.csv')

In [None]:
df_crime.shape, len(df_crime)

### Acceso avanzado

Vimos cómo acceder a una columna o a una cierta cantidad de filas, pero nos va a interesar acceder
a recortes más específicos: conjuntos de columnas, filas que cumplan ciertas condiciones, etc.

El acceso a más de una columna se realiza mediante df[lista_de_columnas]:

In [None]:
df_crime[['OFFENSE_CODE','OFFENSE_DESCRIPTION']]

Si queremos acceder a ciertas filas, podemos pasar una lista de booleanos que nos diga con qué
filas queremos quedarnos y con cuáles no:

In [None]:
rows_to_keep = [False]*df_crime.shape[0]
rows_to_keep[3:5] = [True,True]
df_crime[rows_to_keep]

A nadie le sirve armar una lista de booleanos constructivamente, pero esto nos sirve para devolver las filas que cumplan una condición.

In [None]:
filter_by_offense = df_crime['OFFENSE_DESCRIPTION'].str.contains('MURDER')
filter_by_offense

In [None]:
df_crime[filter_by_offense]

La condición puede ser más elaborada, mezclando diferentes Series.

In [None]:
filter_by_code = df_crime['OFFENSE_CODE'] == 619
filter_by_code

In [None]:
df_crime[filter_by_code | filter_by_offense]

**EJERCICIO**: Obtener las filas correspondientes a años posteriores al 2019 cometidas los fines de semana

In [None]:
...

**iloc** se utiliza para acceder directamente con los rangos numéricos de las filas y columnas buscadas.

In [None]:
df_crime.iloc[3]

In [None]:
df_crime.iloc[3:5]

In [None]:
df_crime.iloc[3:5,1:3]

### Iteración y Apply

En Pandas se pueden aplicar transformaciones a todas las filas y columnas sin explícitamente iterarlas. 

Pandas utiliza fuertemente NumPy en su implementación, así que la sugerencia de tener cuidado cuando hacemos algo no vectorizado en Pandas sigue aplicando.


Una primera manera para recorrer los DataFrames es utilizando el método iterrrows, que precisamente va iterando las filas, devolviendo tanto su índice como la fila entera:

In [None]:
for index, row in df.iterrows():
    print("Nueva fila:")
    print(index, row['Mes'], row['Inicial'])

Otra posible manera es recorriendo el atributo index, combinado con un acceso por [] o por loc:

In [None]:
for index in df.index:
    print(df.Mes[index], df.Dias[index])

In [None]:
for index in df.index:
    print(df.loc[index, ['Mes','Dias']])

También podemos recorrer el DataFrame utilizando iloc y pasando por todo el rango de filas:

In [None]:
for num_index in range(len(df)):
    print(df.iloc[num_index].Dias, df.iloc[num_index].Mes)

En varias situaciones, en vez de iterar el DataFrame, podemos directamente aplicar el cambio que
queremos realizar, por ejemplo utilizando un apply:

In [None]:
print(df.apply(lambda row: row.Mes + ' ' + str(row.Dias), axis=1))

In [None]:
# Equivalenemente sin usar lambda
def mont_and_days(row):
    return row.Mes + ' ' + str(row.Dias)

print(df.apply(mont_and_days,axis=1))


In [None]:
df.apply(lambda row: print(row.Mes, row.Dias), axis=1)

In [None]:
df.apply(lambda col: col.to_list()[:len(col.to_list())//2])

### Funciones predefinidas

Funciones que aplican sobre el DataFrame y sobre las Series sin necesidad de iterar explícitamente.

In [None]:
df.sum()

In [None]:
df.sort_values(by=['Dias']).reset_index(drop=True)

**EJERCICIO**: Contar crimenes por mes