# Introducción a la librería de Pandas
----------------------

### Data Fundamentals con Python

#### Enero 2023

**Aurora Cobo Aguilera**

**The Valley**

----------------------


## Empezamos con un ejemplo guiado

En este notebook vamos a ver una introducción de la librería de Pandas.

Para ello primero vamos a importar las librerías que vamos a usar, pandas.

In [None]:
import pandas as pd

A continuación leemos el fichero de datos con Pandas. Para ello acuérdate de subirlo a la nube previamente.

In [None]:
chipo = pd.read_csv('chipotle.tsv', sep = '\t')

Quédate bien con esa línea de código. Simplemente tendrás que sustituir los parámetros por los valores adecuados en cada situación.

Veamos qué pinta tienen los datos.

In [None]:
chipo

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


Ahora *chipo* es un tipo de datos especial, denominado **dataframe** que permite nuevas funcionalidades para tratar la tabla con la información del fichero leído.

Por ejemplo, *head* muestra las 5 primeras líneas.

In [None]:
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


Como puedes comprobar, existen valores NaN, que son consideramos nulos para nosotros. Pandas ofrece una funcionalidad para eliminarlos.

In [None]:
chipo = chipo.dropna()
chipo

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


> **Ejercicio**: ¿Sabrías decirme qué porcentaje de observaciones con nulos había y se han eliminado?

In [None]:
#<SOL>
(1-3376/4622)*100
#</SOL>

26.9580268282129

*info* nos dice alguna información sobre nuestro dataframe, como los campos que tiene y el tipo de datos de cada uno.

In [None]:
chipo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3376 entries, 1 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            3376 non-null   int64 
 1   quantity            3376 non-null   int64 
 2   item_name           3376 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          3376 non-null   object
dtypes: int64(2), object(3)
memory usage: 158.2+ KB


El atributo *columns* nos da el nombre de las columnas:

In [None]:
chipo.columns

Index(['order_id', 'quantity', 'item_name', 'choice_description',
       'item_price'],
      dtype='object')

y con esta información podríamos acceder a los elementos de cualquier columna.

In [None]:
chipo.order_id

1          1
2          1
4          2
5          3
7          4
        ... 
4617    1833
4618    1833
4619    1834
4620    1834
4621    1834
Name: order_id, Length: 3376, dtype: int64

incluso operar con ellos.

La siguiente instrucción nos dice cuántos identificadores de orden diferente hay.

In [None]:
orders = chipo.order_id.value_counts().count()
orders

1833

Otra funcionalidad muy potente de pandas es poder definir una función que aplicar a todos los elementos de una columna. Funciona de la siguiente manera.

In [None]:
chipo.item_price[1]

'$3.39 '

In [None]:
# Solución más fácil a lo siguiente
def dollarizer(x):
  return float(x[1:-1])

In [None]:
dollarizer = lambda x: float(x[1:-1])
chipo.item_price = chipo.item_price.apply(dollarizer)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  chipo.item_price = chipo.item_price.apply(dollarizer)


In [None]:
chipo.item_price

1        3.39
2        3.39
4       16.98
5       10.98
7       11.75
        ...  
4617    11.75
4618    11.75
4619    11.25
4620     8.75
4621     8.75
Name: item_price, Length: 3376, dtype: float64

Por ejemplo, el código anterior, convierte a float la cantidad de dinero en formato string. Mira cómo cambia la información ahora:

In [None]:
chipo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3376 entries, 1 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   order_id            3376 non-null   int64  
 1   quantity            3376 non-null   int64  
 2   item_name           3376 non-null   object 
 3   choice_description  3376 non-null   object 
 4   item_price          3376 non-null   float64
dtypes: float64(1), int64(2), object(2)
memory usage: 287.3+ KB


También podemos crear columnas nuevas.

> **Ejercicio**: Observa la siguiente instrucción, ¿qué estará haciendo?

In [None]:
chipo['revenue'] = chipo['quantity'] * chipo['item_price']
chipo

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  chipo['revenue'] = chipo['quantity'] * chipo['item_price']


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,revenue
1,1,1,Izze,[Clementine],3.39,3.39
2,1,1,Nantucket Nectar,[Apple],3.39,3.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98,33.96
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",10.98,10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",11.75,11.75
...,...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",11.75,11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75,11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",11.25,11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",8.75,8.75


Ahora el *head* ha cambiado

In [None]:
chipo.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,revenue
1,1,1,Izze,[Clementine],3.39,3.39
2,1,1,Nantucket Nectar,[Apple],3.39,3.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98,33.96
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",10.98,10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",11.75,11.75


Podemos realizar operaciones más complejas.

> **Ejercicio**: Investiga qué hace lo siguiente.

In [None]:
chipo.groupby(by=['order_id']).sum().mean()['revenue']

18.33168576104746

In [None]:
chipo.groupby(by=['order_id']).sum().mean()['revenue']

18.33168576104746

In [None]:
chipo.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,revenue
1,1,1,Izze,[Clementine],3.39,3.39
2,1,1,Nantucket Nectar,[Apple],3.39,3.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98,33.96
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",10.98,10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",11.75,11.75


> **Ejercicio**: ¿Y la siguiente instrucción?

In [None]:
chipo.item_name.value_counts().count()

38

## Fichero en JSON

Podemos hacer algo parecido si el fichero que tenemos está en un formato JSON. Por ejemplo, el siguiente, que creamos de forma manual.

In [None]:
# Create an example dataframe about a fictional army
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'],
            'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'],
            'deaths': [523, 52, 25, 616, 43, 234, 523, 62, 62, 73, 37, 35],
            'battles': [5, 42, 2, 2, 4, 7, 8, 3, 4, 7, 8, 9],
            'size': [1045, 957, 1099, 1400, 1592, 1006, 987, 849, 973, 1005, 1099, 1523],
            'veterans': [1, 5, 62, 26, 73, 37, 949, 48, 48, 435, 63, 345],
            'readiness': [1, 2, 3, 3, 2, 1, 2, 3, 2, 1, 2, 3],
            'armored': [1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1],
            'deserters': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
            'origin': ['Arizona', 'California', 'Texas', 'Florida', 'Maine', 'Iowa', 'Alaska', 'Washington', 'Oregon', 'Wyoming', 'Louisana', 'Georgia']}

Esta vez, como no leemos fichero, sino que tenemos la estructura de datos ya creada en Python, usamos el siguiente comando para convertirla en dataframe.

In [None]:
army = pd.DataFrame(data=raw_data)
army

Unnamed: 0,regiment,company,deaths,battles,size,veterans,readiness,armored,deserters,origin
0,Nighthawks,1st,523,5,1045,1,1,1,4,Arizona
1,Nighthawks,1st,52,42,957,5,2,0,24,California
2,Nighthawks,2nd,25,2,1099,62,3,1,31,Texas
3,Nighthawks,2nd,616,2,1400,26,3,1,2,Florida
4,Dragoons,1st,43,4,1592,73,2,0,3,Maine
5,Dragoons,1st,234,7,1006,37,1,1,4,Iowa
6,Dragoons,2nd,523,8,987,949,2,0,24,Alaska
7,Dragoons,2nd,62,3,849,48,3,1,31,Washington
8,Scouts,1st,62,4,973,48,2,0,2,Oregon
9,Scouts,1st,73,7,1005,435,1,0,3,Wyoming


Ahora que tiene la misma pinta que el ejemplo anterior, podríamos hacer algo parecido. Por ejemplo, seleccionar los datos de 3 columnas concretas.

In [None]:
army[ ["size",'deaths', "veterans"] ]

Unnamed: 0,size,deaths,veterans
0,1045,523,1
1,957,52,5
2,1099,25,62
3,1400,616,26
4,1592,43,73
5,1006,234,37
6,987,523,949
7,849,62,48
8,973,62,48
9,1005,73,435


In [None]:
army.columns

Index(['regiment', 'company', 'deaths', 'battles', 'size', 'veterans',
       'readiness', 'armored', 'deserters', 'origin'],
      dtype='object')

*iloc* permite acceder a posiciones concretas de la tabla.

In [None]:
army.iloc[:7, :] #Filas, Columnas

Unnamed: 0,regiment,company,deaths,battles,size,veterans,readiness,armored,deserters,origin
0,Nighthawks,1st,523,5,1045,1,1,1,4,Arizona
1,Nighthawks,1st,52,42,957,5,2,0,24,California
2,Nighthawks,2nd,25,2,1099,62,3,1,31,Texas
3,Nighthawks,2nd,616,2,1400,26,3,1,2,Florida
4,Dragoons,1st,43,4,1592,73,2,0,3,Maine
5,Dragoons,1st,234,7,1006,37,1,1,4,Iowa
6,Dragoons,2nd,523,8,987,949,2,0,24,Alaska


In [None]:
army.iloc[:, 2:]

Unnamed: 0,deaths,battles,size,veterans,readiness,armored,deserters,origin
0,523,5,1045,1,1,1,4,Arizona
1,52,42,957,5,2,0,24,California
2,25,2,1099,62,3,1,31,Texas
3,616,2,1400,26,3,1,2,Florida
4,43,4,1592,73,2,0,3,Maine
5,234,7,1006,37,1,1,4,Iowa
6,523,8,987,949,2,0,24,Alaska
7,62,3,849,48,3,1,31,Washington
8,62,4,973,48,2,0,2,Oregon
9,73,7,1005,435,1,0,3,Wyoming


In [None]:
army[ (army['deaths'] > 50) ] # & = and. | = or.


Unnamed: 0,regiment,company,deaths,battles,size,veterans,readiness,armored,deserters,origin
0,Nighthawks,1st,523,5,1045,1,1,1,4,Arizona
1,Nighthawks,1st,52,42,957,5,2,0,24,California
3,Nighthawks,2nd,616,2,1400,26,3,1,2,Florida
5,Dragoons,1st,234,7,1006,37,1,1,4,Iowa
6,Dragoons,2nd,523,8,987,949,2,0,24,Alaska
7,Dragoons,2nd,62,3,849,48,3,1,31,Washington
8,Scouts,1st,62,4,973,48,2,0,2,Oregon
9,Scouts,1st,73,7,1005,435,1,0,3,Wyoming


## A practicar!

In [None]:
import pandas as pd
import datetime

Vamos, en primer lugar a cargar y leer el fichero en un dataframe.

In [None]:
data = pd.read_csv('wind.data', sep = "\s+", parse_dates = [[0,1,2]])
data

Unnamed: 0,Yr_Mo_Dy,RPT,VAL,ROS,KIL,SHA,BIR,DUB,CLA,MUL,CLO,BEL,MAL
0,2061-01-01,15.04,14.96,13.17,9.29,,9.87,13.67,10.25,10.83,12.58,18.50,15.04
1,2061-01-02,14.71,,10.83,6.50,12.62,7.67,11.50,10.04,9.79,9.67,17.54,13.83
2,2061-01-03,18.50,16.88,12.33,10.13,11.17,6.17,11.25,,8.50,7.67,12.75,12.71
3,2061-01-04,10.58,6.63,11.75,4.58,4.54,2.88,8.63,1.79,5.83,5.88,5.46,10.88
4,2061-01-05,13.33,13.25,11.42,6.17,10.71,8.21,11.92,6.54,10.92,10.34,12.92,11.83
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6569,1978-12-27,17.58,16.96,17.62,8.08,13.21,11.67,14.46,15.59,14.04,14.00,17.21,40.08
6570,1978-12-28,13.21,5.46,13.46,5.00,8.12,9.42,14.33,16.25,15.25,18.05,21.79,41.46
6571,1978-12-29,14.00,10.29,14.42,8.71,9.71,10.54,19.17,12.46,14.50,16.42,18.88,29.58
6572,1978-12-30,18.50,14.04,21.29,9.13,12.75,9.71,18.08,12.87,12.46,12.12,14.67,28.79


> **Ejercicio**: Investiga qué hace la instrucción 'parse_dates = [[0,1,2]]'. ¿Qué ha pasado con la fecha? ¿Cómo puede haber fechas con el año 2061?. Algo va mal. Primero corrige el error. Crea una función para ello y aplícala a los elementos de la columna apropiada con el uso de *apply* y usando *x.year*. Completa el siguiente fragmento de código.

In [None]:
# Funciones de corregir columnas...
def fix_century(x):
  year = x.year - 100 if x.year > 2000 else x.year #<SOL>
  return datetime.date(year, x.month, x.day)

# Otro apply :D
data['Yr_Mo_Dy'] =  data['Yr_Mo_Dy'].apply(fix_century)#<SOL>

# data.info()
data.head()

Unnamed: 0,Yr_Mo_Dy,RPT,VAL,ROS,KIL,SHA,BIR,DUB,CLA,MUL,CLO,BEL,MAL
0,1961-01-01,15.04,14.96,13.17,9.29,,9.87,13.67,10.25,10.83,12.58,18.5,15.04
1,1961-01-02,14.71,,10.83,6.5,12.62,7.67,11.5,10.04,9.79,9.67,17.54,13.83
2,1961-01-03,18.5,16.88,12.33,10.13,11.17,6.17,11.25,,8.5,7.67,12.75,12.71
3,1961-01-04,10.58,6.63,11.75,4.58,4.54,2.88,8.63,1.79,5.83,5.88,5.46,10.88
4,1961-01-05,13.33,13.25,11.42,6.17,10.71,8.21,11.92,6.54,10.92,10.34,12.92,11.83


A continuación, vamos a seleccionar el campo de la fecha como índice.

In [None]:
# Transformamos Yr_Mo_Dy a tipo de datos fecha= datetime64
data["Yr_Mo_Dy"] = pd.to_datetime(data["Yr_Mo_Dy"])

#  'Yr_Mo_Dy' Como indice...
data = data.set_index('Yr_Mo_Dy')

data.head()
# data.info()

Unnamed: 0_level_0,RPT,VAL,ROS,KIL,SHA,BIR,DUB,CLA,MUL,CLO,BEL,MAL
Yr_Mo_Dy,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1961-01-01,15.04,14.96,13.17,9.29,,9.87,13.67,10.25,10.83,12.58,18.5,15.04
1961-01-02,14.71,,10.83,6.5,12.62,7.67,11.5,10.04,9.79,9.67,17.54,13.83
1961-01-03,18.5,16.88,12.33,10.13,11.17,6.17,11.25,,8.5,7.67,12.75,12.71
1961-01-04,10.58,6.63,11.75,4.58,4.54,2.88,8.63,1.79,5.83,5.88,5.46,10.88
1961-01-05,13.33,13.25,11.42,6.17,10.71,8.21,11.92,6.54,10.92,10.34,12.92,11.83


> **Ejercicio**: ¿Cuántos valores nulos hay?

In [None]:
#<SOL>
data.isnull().sum().sum()
#</SOL>


31

> **Ejercicio**: ¿Y no nulos?

In [None]:
#<SOL>
data.notnull().sum().sum()

#</SOL>

78857

> **Ejercicio**: Por último, calcula la media de cada columna cuando la fecha tenga el mes de junio. Usa la función *loc* de los dataframes.

In [None]:
#<SOL>
mediaJunio = data.loc[data.index.month == 6].mean()
mediaJunio
#</SOL>

RPT    10.451317
VAL     8.949704
ROS    10.361315
KIL     5.652278
SHA     9.529926
BIR     6.410093
DUB     8.009556
CLA     7.920796
MUL     7.639796
CLO     7.729185
BEL    12.246407
MAL    12.861818
dtype: float64