### IS727272 - Cordero Hernández, Marco Ricardo

# 7. Pandas

Es una librería de código abierto que provee un alto desempeño, y un fácil manejo de estructuras de datos y herramientas de análisis de datos para el lenguaje de programación Python*

* https://pandas.pydata.org/

Para utilizar este módulo es necesario importarlo:

In [1]:
import pandas as pd

## 7.1 Series

Pandas utiliza un formato para bases de datos. Crea las columnas de esas bases datos (series) y las indexa automáticamente:

In [2]:
col1 = pd.Series([3, 5, 7])
print(col1)

0    3
1    5
2    7
dtype: int64


In [3]:
print(col1[1])

5


### Otro ejemplo:

In [4]:
asignaturas = ['Matemáticas', 'Física', 'COE', 'MANINFO']
calificaciones = [10, 8, 6, 5]
series_datos_luis = pd.Series(calificaciones, asignaturas)

print(series_datos_luis)

Matemáticas    10
Física          8
COE             6
MANINFO         5
dtype: int64


In [5]:
print(series_datos_luis['COE'])

6


In [6]:
series_datos_luis.name = 'Notas de Luis'

In [7]:
print(series_datos_luis)

Matemáticas    10
Física          8
COE             6
MANINFO         5
Name: Notas de Luis, dtype: int64


### Convirtiendo una serie a un diccionario

In [8]:
dic = series_datos_luis.to_dict()

print(dic)

{'Matemáticas': 10, 'Física': 8, 'COE': 6, 'MANINFO': 5}


### Convirtiendo un diccionario a una serie

In [9]:
serie = pd.Series(dic)

print(serie)

Matemáticas    10
Física          8
COE             6
MANINFO         5
dtype: int64


## 7.2 Dataframes

Los dataframes son bases de datos, formados por series. Como ejemplo crearemos un dataframe desde un sitio web:

In [10]:
import webbrowser
website = 'https://es.wikipedia.org/wiki/Anexo:Campeones_de_la_NBA'
webbrowser.open(website)

True

In [11]:
df_nba = pd.read_clipboard(sep='\t')
df_nba

Unnamed: 0,Año,Campeón del Oeste,Resultado,Campeón del Este,Ref.
0,1950,Minneapolis Lakersn. 2​,4–2,Syracuse Nationals†,19​18​
1,1951,Rochester Royals,4–3,New York Knicks,20​
2,1952,Minneapolis Lakers,4–3,New York Knicks,21​
3,1953,Minneapolis Lakers†,4–1,New York Knicks,22​
4,1954,Minneapolis Lakers†,4–3,Syracuse Nationals,23​
5,1955,Ft. Wayne Pistons,3–4,Syracuse Nationals†,24​
6,1956,Ft. Wayne Pistons,1–4,Philadelphia Warriors†,25​
7,1957,St. Louis Hawks,3–4,Boston Celtics†,26​
8,1958,St. Louis Hawks,4–2,Boston Celtics†,27​
9,1959,Minneapolis Lakers,0–4,Boston Celtics†,28​


In [12]:
df_salaries = pd.read_csv('Datasets\ds_salaries.csv') # param header=None para omitir encabezados y tomarlos como datos
df_salaries

Unnamed: 0.1,Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,0,2020,MI,FT,Data Scientist,70000,EUR,79833,DE,0,DE,L
1,1,2020,SE,FT,Machine Learning Scientist,260000,USD,260000,JP,0,JP,S
2,2,2020,SE,FT,Big Data Engineer,85000,GBP,109024,GB,50,GB,M
3,3,2020,MI,FT,Product Data Analyst,20000,USD,20000,HN,0,HN,S
4,4,2020,SE,FT,Machine Learning Engineer,150000,USD,150000,US,50,US,L
...,...,...,...,...,...,...,...,...,...,...,...,...
602,602,2022,SE,FT,Data Engineer,154000,USD,154000,US,100,US,M
603,603,2022,SE,FT,Data Engineer,126000,USD,126000,US,100,US,M
604,604,2022,SE,FT,Data Analyst,129000,USD,129000,US,0,US,M
605,605,2022,SE,FT,Data Analyst,150000,USD,150000,US,100,US,M


### Nombres de columnas

In [13]:
df_nba.columns

Index(['Año ', 'Campeón del Oeste ', 'Resultado ', 'Campeón del Este ',
       'Ref.'],
      dtype='object')

### Obtener solo una columna

In [14]:
df_nba['Campeón del Oeste ']

0     Minneapolis Lakersn. 2​ 
1            Rochester Royals 
2          Minneapolis Lakers 
3         Minneapolis Lakers† 
4         Minneapolis Lakers† 
5           Ft. Wayne Pistons 
6           Ft. Wayne Pistons 
7             St. Louis Hawks 
8             St. Louis Hawks 
9          Minneapolis Lakers 
10            St. Louis Hawks 
11            St. Louis Hawks 
12         Los Angeles Lakers 
13         Los Angeles Lakers 
14     San Francisco Warriors 
15         Los Angeles Lakers 
16         Los Angeles Lakers 
17     San Francisco Warriors 
18         Los Angeles Lakers 
19         Los Angeles Lakers 
20         Los Angeles Lakers 
21           Milwaukee Bucks† 
Name: Campeón del Oeste , dtype: object

### Obtener solo un registro

In [15]:
df_nba.loc[5]

Año                                  1955 
Campeón del Oeste       Ft. Wayne Pistons 
Resultado                             3–4 
Campeón del Este      Syracuse Nationals† 
Ref.                                   24​
Name: 5, dtype: object

### Obtener solo los primeros 'n' registros

In [16]:
df_nba.head() # Para primeros 5, el argumento es omisible

Unnamed: 0,Año,Campeón del Oeste,Resultado,Campeón del Este,Ref.
0,1950,Minneapolis Lakersn. 2​,4–2,Syracuse Nationals†,19​18​
1,1951,Rochester Royals,4–3,New York Knicks,20​
2,1952,Minneapolis Lakers,4–3,New York Knicks,21​
3,1953,Minneapolis Lakers†,4–1,New York Knicks,22​
4,1954,Minneapolis Lakers†,4–3,Syracuse Nationals,23​


### Obtener los últimos 'n' registros

In [17]:
df_nba.tail(2)

Unnamed: 0,Año,Campeón del Oeste,Resultado,Campeón del Este,Ref.
20,1970,Los Angeles Lakers,3–4,New York Knicks†,39​
21,1971,Milwaukee Bucks†,4–0,Baltimore Bullets,40​


### Dataframes de diccionarios

In [18]:
l_asignaturas = ['Matemáticas', 'Física', 'Historia']
l_notas = [8, 7, 9]
diccionario = {'Lista de asignaturas': l_asignaturas, 'Lista de notas': l_notas}
print(diccionario)

{'Lista de asignaturas': ['Matemáticas', 'Física', 'Historia'], 'Lista de notas': [8, 7, 9]}


In [19]:
dataframe_notas = pd.DataFrame(diccionario)
dataframe_notas

Unnamed: 0,Lista de asignaturas,Lista de notas
0,Matemáticas,8
1,Física,7
2,Historia,9


In [20]:
dataframe_notas.index # Hace referencia a la cantidad de renglones del dataframe

RangeIndex(start=0, stop=3, step=1)

### Construyendo Dataframes

In [21]:
lista_valores = [[6, 7, 8], [8, 9, 5], [6, 9, 7]]
lista_indices = ['Matemáticas', 'Historia', 'Física']
lista_columnas = ['Antonio', 'María', 'Rocío']

In [22]:
df = pd.DataFrame(lista_valores, index = lista_indices, columns = lista_columnas)
df

Unnamed: 0,Antonio,María,Rocío
Matemáticas,6,7,8
Historia,8,9,5
Física,6,9,7


- ¿Cuáles son los índices?


In [23]:
df.index

Index(['Matemáticas', 'Historia', 'Física'], dtype='object')

In [24]:
df.index[0]

'Matemáticas'

## 7.3 Eliminar elementos

In [25]:
import numpy as np

#Creamos una serie

serie = pd.Series(np.arange(4), index = ['a', 'b', 'c', 'd'])
print(serie)

a    0
b    1
c    2
d    3
dtype: int32


### Función drop()

La función $drop()$ elimina un elemento pero sin modificar la serie original.

In [26]:
serie2 = serie.drop('c')
print(serie2)

a    0
b    1
d    3
dtype: int32


#### Ejemplo con DataFrames


In [27]:
lista_valores = np.arange(9).reshape(3,3)
print(lista_valores)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


In [28]:
lista_indices = ['a', 'b', 'c']
lista_columnas = ['c1', 'c2', 'c3']

df = pd.DataFrame(lista_valores, index = lista_indices, columns = lista_columnas)
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8


Borrando registros o renglones:

In [29]:
df1 = df.drop('b')
df1

Unnamed: 0,c1,c2,c3
a,0,1,2
c,6,7,8


Borrando columnas:

In [30]:
df2 = df.drop('c2', axis = 1)
df2

Unnamed: 0,c1,c3
a,0,2
b,3,5
c,6,8


In [31]:
df

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8


## 7.4 Seleccionar datos

### 7.4.1 Series

In [32]:
lista_valores = np.arange(3)
lista_indices = ['i1', 'i2', 'i3']
serie = pd.Series(lista_valores, index = lista_indices)
print(serie)

i1    0
i2    1
i3    2
dtype: int32


In [33]:
serie = serie * 2
print(serie)

i1    0
i2    2
i3    4
dtype: int32


In [34]:
print(serie['i2'])

2


In [35]:
print(serie[2])

4


In [36]:
print(serie[:3])

i1    0
i2    2
i3    4
dtype: int32


In [37]:
print(serie['i1':'i3'])

i1    0
i2    2
i3    4
dtype: int32


In [38]:
print(serie['i1':'i2'])

i1    0
i2    2
dtype: int32


Seleccionar datos con una condición:

In [39]:
print(serie[serie > 2])

i3    4
dtype: int32


Cambiar valores bajo una condición:

In [40]:
serie[serie > 2] = 6
print(serie)

i1    0
i2    2
i3    6
dtype: int32


### 7.4.2 DataFrames

In [41]:
lista_valores = np.arange(25).reshape(5, 5)
print(lista_valores)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]


In [42]:
lista_indices = ['i1', 'i2', 'i3', 'i4', 'i5']
lista_columnas = ['c1', 'c2', 'c3', 'c4', 'c5']
df = pd.DataFrame(lista_valores, index = lista_indices, columns = lista_columnas)
df

Unnamed: 0,c1,c2,c3,c4,c5
i1,0,1,2,3,4
i2,5,6,7,8,9
i3,10,11,12,13,14
i4,15,16,17,18,19
i5,20,21,22,23,24


In [43]:
df['c2']

i1     1
i2     6
i3    11
i4    16
i5    21
Name: c2, dtype: int32

Para seleccionar un dato individual, se deberán utilizar los índices entre corchetes con el siguiente orden $[columna][renglón]$:

In [44]:
df['c2']['i2']

6

Para seleccionar 2 columnas $[[columna1, columna2]]$:

In [45]:
df[['c3', 'c5']]

Unnamed: 0,c3,c5
i1,2,4
i2,7,9
i3,12,14
i4,17,19
i5,22,24


Para seleccionar un rango de columnas y todos los renglones, se utiliza loc o iloc:
        
    - df.loc[:, 'columna1':'columna2']
    - df.iloc[ : , columna1:columna2]

In [46]:
df.loc[:, 'c2':'c5']

Unnamed: 0,c2,c3,c4,c5
i1,1,2,3,4
i2,6,7,8,9
i3,11,12,13,14
i4,16,17,18,19
i5,21,22,23,24


In [47]:
df.iloc[:, 2:5]

Unnamed: 0,c3,c4,c5
i1,2,3,4
i2,7,8,9
i3,12,13,14
i4,17,18,19
i5,22,23,24


Para seleccionar un rango de renglones y todos las columnas, se utiliza loc o iloc:
        
    - df.loc['renglon1':'renglon2', :]
    - df.iloc[renglon1:renglon, :]

In [48]:
df.loc['i3':'i5', :]

Unnamed: 0,c1,c2,c3,c4,c5
i3,10,11,12,13,14
i4,15,16,17,18,19
i5,20,21,22,23,24


In [49]:
df.iloc[2:5, :]

Unnamed: 0,c1,c2,c3,c4,c5
i3,10,11,12,13,14
i4,15,16,17,18,19
i5,20,21,22,23,24


Para seleccionar columnas o filas específicas que no están dentro de un rango, use una lista:

        - df.loc['renglon2':'renglon5',['columna1','columna4']]
        - df.iloc[[2,5]1:3]

In [50]:
df.loc['i2':'i5', ['c1','c3']]

Unnamed: 0,c1,c3
i2,5,7
i3,10,12
i4,15,17
i5,20,22


In [51]:
df.iloc[2:5, [1, 3]]

Unnamed: 0,c2,c4
i3,11,13
i4,16,18
i5,21,23


Para seleccionar aquellos registros donde los valores de la columna 2 sean mayores que 15:

In [52]:
df[df['c2'] > 15]

Unnamed: 0,c1,c2,c3,c4,c5
i4,15,16,17,18,19
i5,20,21,22,23,24


## 7.5 Operaciones

In [53]:
#Crear 2 dataframes

#Dataframe1
df1 = pd.DataFrame(np.arange(4).reshape(2,2), index = list('ab'), columns = list('12'))

print(df1)

print()

#Dataframe2
df2 = pd.DataFrame(np.arange(9).reshape(3,3), index = list('abc'), columns = list('123'))


print(df2)

   1  2
a  0  1
b  2  3

   1  2  3
a  0  1  2
b  3  4  5
c  6  7  8


### Suma de Dataframes

In [54]:
df3 = df1 + df2
df3

Unnamed: 0,1,2,3
a,0.0,2.0,
b,5.0,7.0,
c,,,


### Ordenar y clasificar

In [55]:
serie1 = pd.Series(np.random.rand(10))
serie1

0    0.281537
1    0.363009
2    0.408573
3    0.020496
4    0.448670
5    0.999322
6    0.592685
7    0.698565
8    0.451698
9    0.396442
dtype: float64

In [56]:
serie1.rank()

0     2.0
1     3.0
2     5.0
3     1.0
4     6.0
5    10.0
6     8.0
7     9.0
8     7.0
9     4.0
dtype: float64

In [57]:
serie1.sort_values()

3    0.020496
0    0.281537
1    0.363009
9    0.396442
2    0.408573
4    0.448670
8    0.451698
6    0.592685
7    0.698565
5    0.999322
dtype: float64

In [58]:
serie1.sort_index()

0    0.281537
1    0.363009
2    0.408573
3    0.020496
4    0.448670
5    0.999322
6    0.592685
7    0.698565
8    0.451698
9    0.396442
dtype: float64