# PANDAS

La instalación de Pandas es sencilla:

In [None]:
pip install pandas



A partir de entonces podemos importar el módulo para utilizarlo en nuestro proyecto

In [None]:
import pandas as pd
import numpy as np

## Serie
Es un vector unidimensional de datos (parecido a un array). Se añaden etiquetas que identifican a cada elemento del vector, en lugar de usar únicamente el índice numérico. Esto permite reordenar los valores de la serie de manera eficiente y encontrar valores dentro de la serie.
Se pueden crear a partir de diversos datos de entrada, recogidos por el argumento `data`, que puede ser un diccionario, una lista, un escalar...
```
mi_serie = pd.Series(data, index=my_index)
```
Algunos ejemplos:
*   Si `data` es un `ndarray` entonces el vector de índices debe tener la misma longitud que el array de entrada, si no dará error.

In [None]:
serie_1 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
serie_1

Unnamed: 0,0
a,1.54694
b,-1.455567
c,0.497745
d,0.559747
e,0.958751




*   Definición de una serie a partir de un diccionario



In [None]:
d = {'a': 1., 'b': 2., 'c': 3.0, 'd': 4. }
pd.Series(d)

Unnamed: 0,0
a,1.0
b,2.0
c,3.0
d,4.0


* Cuando data es un diccionario, si pasamos un vector de índices se usará para tomar los elementos del diccionario de datos que se correspondan con las etiquetas proporcionadas, en el mismo orden que indique el vector de índices. En caso de que algún índice no tenga valor, pondrá `NaN`

In [None]:
pd.Series(d, index = ['e', 'd', 'c', 'f', 'b', 'a'])

Unnamed: 0,0
e,
d,4.0
c,3.0
f,
b,2.0
a,1.0


* Construcción de una serie a partir de un escalar

In [None]:
pd.Series(3.5, index=['a', 'b', 'c', 'd'])

Unnamed: 0,0
a,3.5
b,3.5
c,3.5
d,3.5


* Finalmente, podemos poner nombre a la serie de valores y de índices con los argumentos `name` e `index.name`

In [None]:
serie = pd.Series(np.random.rand(5))
serie.name = "Serie 2"
serie.index.name = "Ordinal"
serie

Unnamed: 0_level_0,Serie 2
Ordinal,Unnamed: 1_level_1
0,0.836904
1,0.178843
2,0.999935
3,0.241466
4,0.870158


### Indexación

Muy similar a las listas en Python: índices numéricos o filtros con expresiones booleanas, por ejemplo.

In [None]:
serie_1 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
serie_1

Unnamed: 0,0
a,0.422919
b,0.52261
c,0.285834
d,0.435191
e,-0.543088


In [None]:
serie_1[serie_1 < 0]

Unnamed: 0,0
e,-0.543088


La suma se hace elemento a elemento, entre los que mantienen la misma etiqueta

In [None]:
serie_1 + serie_1

Unnamed: 0,0
a,0.845839
b,1.04522
c,0.571667
d,0.870383
e,-1.086176


In [None]:
serie_A = pd.Series({'a':0.1, 'c':0.3, 'd':0.5, 'f':0.7})
print("SERIE A:")
print(serie_A)
serie_B = pd.Series({'a':0.8, 'b':0.4, 'd':0.6, 'e':0.1})
print("SERIE B:")
print(serie_B)
print("SUMA DE LAS SERIES: ")
print(serie_A + serie_B)

SERIE A:
a    0.1
c    0.3
d    0.5
f    0.7
dtype: float64
SERIE B:
a    0.8
b    0.4
d    0.6
e    0.1
dtype: float64
SUMA DE LAS SERIES: 
a    0.9
b    NaN
c    NaN
d    1.1
e    NaN
f    NaN
dtype: float64


Los atributos `loc` e `iloc` permiten indexar y trocear indicando las etiquetas de las filas o con índice numérico

In [None]:
serie_A.loc['a']

np.float64(0.1)

In [None]:
serie_A.iloc[0]

np.float64(0.1)

Podemos añadir nuevos elementos a una serie:

In [None]:
serie_A['e'] = 0.9
serie_A

Unnamed: 0,0
a,0.1
c,0.3
d,0.5
f,0.7
e,0.9


Y consultar si un índice se encuentra o no en ella

In [None]:
'e' in serie_A

True

# Dataframes
Son tablas de valores organizados por **filas** y **columnas** que se encuentran etiquetados. Se pueden considerar un array 2D con etiquetas, que pueden ser de **cualquier tipo**.

Los nombres de las columnas corresponden a cada una de las variables disponibles, mientras que cada fila corresponde a un caso.

Si no tenemos valores para alguna de estas celdas tenemos un **dato faltante** y el **hueco** queda marcado explícitamente. Por tanto, se trata de un tipo de datos **estructurado**.

Podemos crear `Dataframes` a partir de diversos tipos de datos de entrada, incluyendo `Series` y otros `Dataframes`.

Las filas y columnas suelen estar etiquetadas para identificar las variables que estamos utilizando.

Definimos los datos de entrada de formas diferentes para ilustrar algunos de los posibles formatos admitidos. En caso de introducir un solo valor para alguna columna, el valor se replica tantas veces como sea preciso para rellenar la columna.

In [None]:
data_1 = {
    'year': [2010, 2011, 2012, 2013, 2014] * 2,
    'group': ['A'] * 5 + ['B'] * 5,
    'intake': (55.3, 55.4, 55.3, 55.5, 54.4, 56.6, 57.7, 55.4, 57.9, 56),
    'output': 1.1,
    'collate': np.array([15, 5, 10, 40, 20, 12, 12, 12, 12, 12]),
    'gender': "M"
}
df_1 = pd.DataFrame(data_1)
df_1

Unnamed: 0,year,group,intake,output,collate,gender
0,2010,A,55.3,1.1,15,M
1,2011,A,55.4,1.1,5,M
2,2012,A,55.3,1.1,10,M
3,2013,A,55.5,1.1,40,M
4,2014,A,54.4,1.1,20,M
5,2010,B,56.6,1.1,12,M
6,2011,B,57.7,1.1,12,M
7,2012,B,55.4,1.1,12,M
8,2013,B,57.9,1.1,12,M
9,2014,B,56.0,1.1,12,M


* Construcción de un `Dataframe` como subconjunto de otro. Si hay columnas que no existen, se rellena como dato faltante `Nan`

In [None]:
df_2 = pd.DataFrame(df_1, columns=['collate', 'group', 'intake', 'genotype'])
df_2

Unnamed: 0,collate,group,intake,genotype
0,15,A,55.3,
1,5,A,55.4,
2,10,A,55.3,
3,40,A,55.5,
4,20,A,54.4,
5,12,B,56.6,
6,12,B,57.7,
7,12,B,55.4,
8,12,B,57.9,
9,12,B,56.0,


* Construcción a partir de una `Serie`

In [None]:
population_dict = {'California':36332521,'Texas':26448193,
                   'New York':19651127,'Florida':19552860,
                   'Illinois':12882135}
population = pd.Series(population_dict)
df_population = pd.DataFrame(population, columns=['population'])
df_population

Unnamed: 0,population
California,36332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


* A partir de dos `Series`

In [None]:
area_dict = {'California':423967,'Texas':695662,
             'New York':141297,'Illinois':149995}
area = pd.Series(area_dict)
df_states = pd.DataFrame({'population':population, 'area':area})
df_states

Unnamed: 0,population,area
California,36332521,423967.0
Florida,19552860,
Illinois,12882135,149995.0
New York,19651127,141297.0
Texas,26448193,695662.0


* A partir de un array n-dimensional de `numpy`

In [None]:
pd.DataFrame(np.random.rand(3,2), columns=['col1', 'col2'], index=['a', 'b', 'c'])

Unnamed: 0,col1,col2
a,0.762418,0.421704
b,0.587956,0.26722
c,0.366868,0.73472


### Indexación

Podemos indexar subconjuntos de filas y de columnas con la sintaxis clásica de Python, o utilizar los nombres de filas y columnas si los tiene.

Si seleccionamos una fila o columna, obtenderemos una `Serie`.

Si seleccionamos un subconjutno del `Dataframe`, obtendremos otro `Dataframe`.

Si solo nos interesan algunas filas, tendremos que indicar su rango además de la columna:

In [None]:
df_states['population'][1:3]

Unnamed: 0,population
Florida,19552860
Illinois,12882135


Los atributos `loc` e `iloc` también están disponibles para los `Dataframes`

In [None]:
df_states.loc[:'Illinois', :'population']

Unnamed: 0,population
California,36332521
Florida,19552860
Illinois,12882135


In [None]:
df_states.iloc[:3, :2]

Unnamed: 0,population,area
California,36332521,423967.0
Florida,19552860,
Illinois,12882135,149995.0


Se pueden utilizar máscaras para seleccionar datos que cumplan una condición:

In [None]:
df_states_max = df_states[df_states['population'] > 20000000]
df_states_max

Unnamed: 0,population,area
California,36332521,423967.0
Texas,26448193,695662.0


### Modificación de `DataFrames`

Consiste en crear un nuevo objeto con sus índices siguiendo una nueva ordenación, permitiendo añadir o eliminar columnas.

In [None]:
df_3 = df_2.reindex(columns=['intake', 'collate', 'group', 'genotype'])
df_3

Unnamed: 0,intake,collate,group,genotype
0,55.3,15,A,
1,55.4,5,A,
2,55.3,10,A,
3,55.5,40,A,
4,54.4,20,A,
5,56.6,12,B,
6,57.7,12,B,
7,55.4,12,B,
8,57.9,12,B,
9,56.0,12,B,


* Eliminación de columna

In [None]:
df_3 = df_3.drop('genotype', axis=1)
df_3

Unnamed: 0,intake,collate,group
0,55.3,15,A
1,55.4,5,A
2,55.3,10,A
3,55.5,40,A
4,54.4,20,A
5,56.6,12,B
6,57.7,12,B
7,55.4,12,B
8,57.9,12,B
9,56.0,12,B


* Eliminación de fila

In [None]:
df_3 = df_3.drop(2, axis=0)
df_3

Unnamed: 0,intake,collate,group
0,55.3,15,A
1,55.4,5,A
3,55.5,40,A
4,54.4,20,A
5,56.6,12,B
6,57.7,12,B
7,55.4,12,B
8,57.9,12,B
9,56.0,12,B


* Añadir una columna

In [None]:
df_3['genotype'] = df_3['intake']/df_3['collate']
df_3

Unnamed: 0,intake,collate,group,genotype
0,55.3,15,A,3.686667
1,55.4,5,A,11.08
3,55.5,40,A,1.3875
4,54.4,20,A,2.72
5,56.6,12,B,4.716667
6,57.7,12,B,4.808333
7,55.4,12,B,4.616667
8,57.9,12,B,4.825
9,56.0,12,B,4.666667


* Añadir una fila

In [None]:
df_3.loc[11] = {'intake':56.3, 'group':'C', 'genotype':5.1181}
df_3

Unnamed: 0,intake,collate,group,genotype
0,55.3,15.0,A,3.686667
1,55.4,5.0,A,11.08
3,55.5,40.0,A,1.3875
4,54.4,20.0,A,2.72
5,56.6,12.0,B,4.716667
6,57.7,12.0,B,4.808333
7,55.4,12.0,B,4.616667
8,57.9,12.0,B,4.825
9,56.0,12.0,B,4.666667
11,56.3,,C,5.1181


### Concatenación de operaciones

* Concatenación de `Series`

In [None]:
ser_1 = pd.Series(['A','B','C'], index=[1,2,3])
ser_2 = pd.Series(['D','E','F'], index=[4,5,6])
print("Serie 1")
print(ser_1)
print("Serie 2")
print(ser_2)
ser_1_2 = pd.concat([ser_1, ser_2])
ser_1_2

Serie 1
1    A
2    B
3    C
dtype: object
Serie 2
4    D
5    E
6    F
dtype: object


Unnamed: 0,0
1,A
2,B
3,C
4,D
5,E
6,F


In [None]:
dict_1 = {'A': ['A0', 'A1'],
     'B': ['B0', 'B1']}
df_1 = pd.DataFrame(dict_1)
dict_2 = {'C': ['C0', 'C1'],
     'D': ['D0', 'D1']}
df_2 = pd.DataFrame(dict_2)
print("DataFrame 1")
print(df_1)
print("DataFrame 2")
print(df_2)
df_1_2 = pd.concat([df_1, df_2], axis=0)
print("Concatenación por filas")
print(df_1_2)
print("Concatenación por columnas")
df_1_2 = pd.concat([df_1, df_2], axis=1)
print(df_1_2)

DataFrame 1
    A   B
0  A0  B0
1  A1  B1
DataFrame 2
    C   D
0  C0  D0
1  C1  D1
Concatenación por filas
     A    B    C    D
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
0  NaN  NaN   C0   D0
1  NaN  NaN   C1   D1
Concatenación por columnas
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


* *Merge* con dos `Dataframe`

In [None]:
dict_1 = {'empleado': ['Ana', 'Juan', 'María', 'Carlos'],
       'dpto.': ['Contabilidad', 'RRHH', 'Marketing', 'RRHH']}
df_1 = pd.DataFrame(dict_1)
dict_2 = {'empleado': ['Ana', 'Juan', 'María', 'Carlos'],
       'ext.': [6895, 6745, 6855, 6746]}
df_2 = pd.DataFrame(dict_2)
df_1_2 = pd.merge(df_1, df_2)
df_1_2

Unnamed: 0,empleado,dpto.,ext.
0,Ana,Contabilidad,6895
1,Juan,RRHH,6745
2,María,Marketing,6855
3,Carlos,RRHH,6746


* *Join* con dos `Dataframe`

In [None]:
dict_1 = {'dpto.': ['Contabilidad', 'RRHH', 'Marketing', 'RRHH']}
dict_2 = {'ext.': [6895, 6745, 6855, 6746]}
df_1 = pd.DataFrame(dict_1, index=['Ana', 'Juan', 'María', 'Carlos'])
df_2 = pd.DataFrame(dict_2, index=['Ana', 'Juan', 'María', 'Carlos'])
df_1.join(df_2)

Unnamed: 0,dpto.,ext.
Ana,Contabilidad,6895
Juan,RRHH,6745
María,Marketing,6855
Carlos,RRHH,6746


# Ejemplo de uso de `Dataframes` y `Series`

Primero, importamos los datos:

In [None]:
df = pd.read_csv('sample_data/yellow_tripdata_2015-01-excerpt.csv') # Importación de datos desde CSV
df.head()

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,airport_fee
0,1,2015-01-01T00:11:33Z,2015-01-01T00:16:48Z,1,1.0,1,N,41,166,1,5.7,0.5,0.5,1.4,0.0,0.0,8.4,,
1,1,2015-01-01T00:18:24Z,2015-01-01T00:24:20Z,1,0.9,1,N,166,238,3,6.0,0.5,0.5,0.0,0.0,0.0,7.3,,
2,1,2015-01-01T00:26:19Z,2015-01-01T00:41:06Z,1,3.5,1,N,238,162,1,13.2,0.5,0.5,2.9,0.0,0.0,17.4,,
3,1,2015-01-01T00:45:26Z,2015-01-01T00:53:20Z,1,2.1,1,N,162,263,1,8.2,0.5,0.5,2.37,0.0,0.0,11.87,,
4,1,2015-01-01T00:59:21Z,2015-01-01T01:05:24Z,1,1.0,1,N,236,141,3,6.0,0.5,0.5,0.0,0.0,0.0,7.3,,


¿Qué tipos de datos tenemos en cada columna?

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93136 entries, 0 to 93135
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   VendorID               93136 non-null  int64  
 1   tpep_pickup_datetime   93136 non-null  object 
 2   tpep_dropoff_datetime  93136 non-null  object 
 3   passenger_count        93136 non-null  int64  
 4   trip_distance          93136 non-null  float64
 5   RatecodeID             93136 non-null  int64  
 6   store_and_fwd_flag     93136 non-null  object 
 7   PULocationID           93136 non-null  int64  
 8   DOLocationID           93136 non-null  int64  
 9   payment_type           93136 non-null  int64  
 10  fare_amount            93136 non-null  float64
 11  extra                  93136 non-null  float64
 12  mta_tax                93136 non-null  float64
 13  tip_amount             93135 non-null  float64
 14  tolls_amount           93135 non-null  float64
 15  im

¿Qué columnas tenemos?

In [None]:
df.columns

Index(['VendorID', 'tpep_pickup_datetime', 'tpep_dropoff_datetime',
       'passenger_count', 'trip_distance', 'RatecodeID', 'store_and_fwd_flag',
       'PULocationID', 'DOLocationID', 'payment_type', 'fare_amount', 'extra',
       'mta_tax', 'tip_amount', 'tolls_amount', 'improvement_surcharge',
       'total_amount', 'congestion_surcharge', 'airport_fee'],
      dtype='object')

¿Cuántos pasajeros hubo ese mes?

In [None]:
print(df.passenger_count.sum())

170721


¿Cuántos tipos de métodos de pago hubo y cuántos clientes usaron cada uno?

In [None]:
print(df.payment_type.unique())
print(df.payment_type.value_counts())

[1 3 2 4]
payment_type
1    48851
2    43656
3      477
4      152
Name: count, dtype: int64


¿Cuál es el ratio propina/valor de cada carrera? Ignora el tipo de pago 2 que apenas tiene propinas

In [None]:
df2 = df[(df.payment_type != 2) & (df.fare_amount > 0)]
df2 = df2.assign(tip_fraction=df2.tip_amount / df2.fare_amount)  # ratio of tip to fare
df2['tpep_pickup_datetime'] = pd.to_datetime(df2['tpep_pickup_datetime']).dt.tz_localize(None)
df2.tpep_pickup_datetime = df2.tpep_pickup_datetime.astype('datetime64[ns]')
hour = df2.groupby(df2.tpep_pickup_datetime.dt.hour).tip_fraction.mean()

hour.head()

Unnamed: 0_level_0,tip_fraction
tpep_pickup_datetime,Unnamed: 1_level_1
0,0.217334
1,0.221008
2,0.352535
3,0.209778
