## Pandas

In [4]:
#!pip install --upgrade xlrd
import pandas as pd # normalmente pandas se renombra como pd
import matplotlib.pyplot as plt
import numpy as np
from pandas import Series, DataFrame

## Series de `pandas`

**Serie.** Una Serie de `pandas` es como una columna de un dataframe.

Podemos construir Series de `pandas` a partir de una lista unidimensional

In [None]:
a = [1, 2, 3, 4, 5]
my_series = pd.Series(a)
print(my_series)

0    1
1    2
2    3
3    4
4    5
dtype: int64


La columna de la izquierda contiene los índices. Un error muy común es creer que el índice que simplemente es la posición de cada elemento, como parece a primera vista.

Estas etiquetas pueden ser usadas para acceder a un valor específico, pero tienen porque coincidir con la posición

In [None]:
print(my_series[1])

2


Para evitar ambigüedades es recomendable usar los atributos:

    - `iloc` nos permite acceder por posición
    - `loc` que permite acceder por índice

In [None]:
my_series = pd.Series(a, index = ["a", "b", "c", "d", "e"])
print(my_series)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [None]:
print(my_series["c"])
print(my_series.iloc[2])
print(my_series.loc["c"])

3
3
3


Una series tiene dos componentes: los valores y sus índices

In [None]:
print(my_series.values)
print(my_series.index)

[1 2 3 4 5]
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')


También podemos crear Series a partir de diccionarios. En este caso, las claves se corresponderán con las etiquetas de las series, y los valores del diccionario con los valores que toman las entradas de la Serie.

In [None]:
videos = {"day1": 5, "day2": 9, "day3": 7, "day4": 6, "day5": 8}
my_series = pd.Series(videos)
print(my_series)

day1    5
day2    9
day3    7
day4    6
day5    8
dtype: int64


Series tiene además varias funciones para extraer información numérica como *mean*, *std*, *max*, *min* y muchas otras. Además de por eficiencia se deben utilizar por su buen tratamiento de los valores nulos:

In [None]:
my_series.mean()

7.0

Muchos otros métodos y atributos aplicados en los dataframes también son aplicables aquí: isnull(), size...

<a name="Modificación"></a>
## Modificación, inserción y borrado de columnas y filas

Para modificar los datos seleccionamos los datos a modificar y le asignamos el nuevo valor

In [33]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = DataFrame(datos ,columns=['provincias','habitantes'], index=['a','b','c','d','e','f'])
df.iloc[1] = 0
df

Unnamed: 0,provincias,habitantes
a,Madrid,6507184
b,0,0
c,Valencia,2547986
d,Sevilla,1939887
e,Alicante,1838819
f,Málaga,1641121


In [34]:
df['superficie'] = 0
df

Unnamed: 0,provincias,habitantes,superficie
a,Madrid,6507184,0
b,0,0,0
c,Valencia,2547986,0
d,Sevilla,1939887,0
e,Alicante,1838819,0
f,Málaga,1641121,0


Por tanto para crear una columna nos basta con "rellenarla" del valor que se desee. Luego veremos casos más complejos.

### Eliminar filas y columnas
Una forma de eliminar columnas es seleccionar solo las que se quieren mantener. Primero preparamos los datos.

In [35]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887,  1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df             

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [36]:
df2 = df.loc[ : , ['superficie'] ]  # todas las filas, columna solo superficie
df2

Unnamed: 0,superficie
0,0
1,0
2,0
3,0
4,0
5,0


Equivalente a 

In [37]:
df2 = df[["superficie"]]
df2

Unnamed: 0,superficie
0,0
1,0
2,0
3,0
4,0
5,0


Varias columnas

In [38]:
df2 = df[['provincia', 'superficie'] ]
df2

Unnamed: 0,provincia,superficie
0,Madrid,0
1,Barcelona,0
2,Valencia,0
3,Sevilla,0
4,Alicante,0
5,Málaga,0


En general para borrar filas o columnas por nombre usaremos [drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html). El parámetro `axis`indica si queremos borrar filas (0) o columnas (1)

In [39]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [40]:
dfSinFila = df.drop([3,5],axis=0)
dfSinFila

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
4,Alicante,1838819,0


In [41]:
dfSinCol = df.drop(['superficie'],axis=1)
dfSinCol

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


Si queremos podemos eviar el uso de axis utilizando los parámetros `index` y `columns`

In [42]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [43]:
df.drop(index=[1,3])

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
2,Valencia,2547986,0
4,Alicante,1838819,0
5,Málaga,1641121,0


In [44]:
df.drop(columns=['provincia'])

Unnamed: 0,habitantes,superficie
0,6507184,0
1,5609350,0
2,2547986,0
3,1939887,0
4,1838819,0
5,1641121,0


Las columnas también se puede eliminar con `del` como en los diccionarios

In [45]:
if 'superficie' in df2:
    del df2['superficie'] 
df2

Unnamed: 0,provincia
0,Madrid
1,Barcelona
2,Valencia
3,Sevilla
4,Alicante
5,Málaga


Una variante interesante es `pop`, que borra una fila y la devuelve

In [46]:
df2 = df.copy()
habi = df2.pop("habitantes")
df2

Unnamed: 0,provincia,superficie
0,Madrid,0
1,Barcelona,0
2,Valencia,0
3,Sevilla,0
4,Alicante,0
5,Málaga,0


In [47]:
habi

0    6507184
1    5609350
2    2547986
3    1939887
4    1838819
5    1641121
Name: habitantes, dtype: int64

In [48]:
df

Unnamed: 0,provincia,habitantes,superficie
0,Madrid,6507184,0
1,Barcelona,5609350,0
2,Valencia,2547986,0
3,Sevilla,1939887,0
4,Alicante,1838819,0
5,Málaga,1641121,0


## Filtrando dataframes

Dado un dataframe, podemos filtrar sus filas comprobando cuáles satisfacen una condición. Para *filtrar* filas lo normal es escribir una expresión booleana que solo cumplan las filas que queremos y acceder mediante este filtro

In [1]:
letters_freq_df = pd.read_csv("https://people.sc.fsu.edu/~jburkardt/data/csv/letter_frequency.csv")
letters_freq_df.columns = ["Letra", "Frecuencia", "Porcentaje"] 

NameError: name 'pd' is not defined

In [None]:
letters_freq_df

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
1,"""B""",4762938,1.6
2,"""C""",8982417,3.0
3,"""D""",10805580,3.6
4,"""E""",37907119,12.6
5,"""F""",7486889,2.5
6,"""G""",5143059,1.7
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
9,"""J""",474021,0.2


In [None]:
# Mostramos las observaciones con porcentaje mayor a 5
letters_freq_df[letters_freq_df["Porcentaje"] > 5]

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
4,"""E""",37907119,12.6
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
13,"""N""",21402466,7.1
14,"""O""",23215532,7.7
17,"""R""",17897352,5.9
18,"""S""",19059775,6.3
19,"""T""",28691274,9.5


In [None]:
# Mostramos las observaciones con frecuencia menor o igual a la de la letra S
freq_S = letters_freq_df.loc[18, "Frecuencia"]
letters_freq_df[letters_freq_df["Frecuencia"] <= freq_S]

Unnamed: 0,Letra,Frecuencia,Porcentaje
1,"""B""",4762938,1.6
2,"""C""",8982417,3.0
3,"""D""",10805580,3.6
5,"""F""",7486889,2.5
6,"""G""",5143059,1.7
7,"""H""",18058207,6.0
9,"""J""",474021,0.2
10,"""K""",1720909,0.6
11,"""L""",11730498,3.9
12,"""M""",7391366,2.5


El método `.query()` nos puede ser útil para este cometido, pero funciona únicamente cuando los valores de la columna no contienen espacios en blanco.

In [None]:
# Mostramos aquellas observaciones cuyo porcentaje es mayor a 5
letters_freq_df.query('Porcentaje > 5')

Unnamed: 0,Letra,Frecuencia,Porcentaje
0,"""A""",24373121,8.1
4,"""E""",37907119,12.6
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
13,"""N""",21402466,7.1
14,"""O""",23215532,7.7
17,"""R""",17897352,5.9
18,"""S""",19059775,6.3
19,"""T""",28691274,9.5


In [None]:
# Mostramos aquellas observaciones cuyo porcentaje es mayor a 5 y menor o igual a 8
letters_freq_df.query("Porcentaje > 5 and Porcentaje <= 8")

Unnamed: 0,Letra,Frecuencia,Porcentaje
7,"""H""",18058207,6.0
8,"""I""",21820970,7.3
13,"""N""",21402466,7.1
14,"""O""",23215532,7.7
17,"""R""",17897352,5.9
18,"""S""",19059775,6.3


### Vamos a ver un segundo ejemplo de filtrado

In [50]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['ciudades','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Ciudad','Ciudad','Ciudad'])

df

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986
Ciudad,Sevilla,1939887
Ciudad,Alicante,1838819
Ciudad,Málaga,1694089


Ciudades con más de 200000 habitantes

In [51]:
filtro = df.habitantes > 2000000
df2 = df[filtro]
df2

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986


Esto es importante pero bastante complejo. Para entenderlo veamos primero el filtro

In [52]:
filtro

Capital                   True
Capital Com. Autonoma     True
Capital Com. Autonoma     True
Ciudad                   False
Ciudad                   False
Ciudad                   False
Name: habitantes, dtype: bool

Aquí el índice no es importante, lo importante es que hay un True en cada fila que cumple la condición y un false en la que no.

Y Python permite usar una secuencia de Trues y False para acceder a elementos, devolviendo solo en los que hay Trues; por eso df[filtro] es equivalente a 

In [53]:
df[[True,True,True,False,False,False]]

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Capital Com. Autonoma,Barcelona,5609350
Capital Com. Autonoma,Valencia,2547986


**Ejemplo** La función de strings `startswith` indica si un string empieza por una letra, vamos a usarla para quedarnos solo con las ciudades que empiezan por M

In [54]:
filtro = df.ciudades.str.startswith("M")  # ciudades cuyo nombre empieza por M
df2 = df[filtro]
df2

Unnamed: 0,ciudades,habitantes
Capital,Madrid,6507184
Ciudad,Málaga,1694089


In [55]:
filtro

Capital                   True
Capital Com. Autonoma    False
Capital Com. Autonoma    False
Ciudad                   False
Ciudad                   False
Ciudad                    True
Name: ciudades, dtype: bool

**Detalle**: Fijate en el df.ciudades**.str**.startswith("M"). Es necesario porque al ser startswith una función que solo vale para strings tenemos que "avisar" a Python de que la función es de tipo string, cuando por defecto las considera numéricas.

Si lo que queremos es saber cuántos elementos cumplen el filtro, nos basta con recordar que los Trues se corresponden con 1s, y los Falses con 0s.

In [56]:
sum(filtro)

2

### Ordenar

Para ordenar utilizaremos `sort_values`, nótese el uso de inplace=True para que modifique el dataframe y no devuelva una copia

In [61]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['provincia','habitantes'])
df.sort_values(by='provincia', ascending=True, inplace=True)
df

Unnamed: 0,provincia,habitantes
4,Alicante,1838819
1,Barcelona,5609350
0,Madrid,6507184
5,Málaga,1694089
3,Sevilla,1939887
2,Valencia,2547986


Ordenar por dos columnas

In [62]:
datos = [['Bea', 'Caceno'], ['Antonio', 'Caceno'],  ['Olatz', 'Ducasse'], ['Andrew', 'Albrich'] ]
df = DataFrame(datos ,columns=['nombre','apellido'])
df.sort_values(by='apellido',ascending=True)

Unnamed: 0,nombre,apellido
3,Andrew,Albrich
0,Bea,Caceno
1,Antonio,Caceno
2,Olatz,Ducasse


In [63]:
df.sort_values(by=['apellido','nombre'],ascending=True)

Unnamed: 0,nombre,apellido
3,Andrew,Albrich
1,Antonio,Caceno
0,Bea,Caceno
2,Olatz,Ducasse


<a name="Samples"></a>
## Muestras

En ocasiones nos interesará tomar muestras de un dataset muy grande para tener unos pocos datos manejables y representativos

Las muestras también se utilizarán en nuestros experimentos con datos, dividiendo el conjunto en dos:

- Entrenamiento

- Test

El conjunto de entrenamiento lo usaremos para nuestras hipótesis, nuestros modelos. Una vez realizado el modelo lo probaremos con datos "nuevos" los datos de test

En ambos casos utilizaremos [sample](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) al que se puede pasar la proporción de datos a obtener o el número de valores a obtener



In [64]:
url = "https://github.com/ainaramu-icjardin/big_data/raw/main/madpollution_output.csv"
df = pd.read_csv(url)
df

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
0,2019,8,1,0,0,0,0,1,0,0,...,10.0,29.0,58.87,1.84,97.0,26.1,52.0,943.0,0.0,570.0
1,2019,8,1,1,0,0,0,1,0,0,...,10.0,18.0,63.73,1.97,117.0,24.9,55.0,943.0,0.0,404.0
2,2019,8,1,2,0,0,0,1,0,0,...,9.0,19.0,66.50,1.72,96.0,24.0,55.0,943.0,0.0,287.0
3,2019,8,1,3,0,0,0,1,0,0,...,10.0,15.0,66.62,1.55,106.0,23.3,55.0,943.0,0.0,209.0
4,2019,8,1,4,0,0,0,1,0,0,...,10.0,18.0,62.57,1.13,67.0,22.9,57.0,943.0,0.0,194.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14744,2021,5,25,19,0,0,0,1,0,0,...,10.0,55.0,0.00,0.98,6.0,26.1,29.0,948.0,0.0,1399.0
14745,2021,5,25,20,0,0,0,1,0,0,...,7.0,58.0,0.00,0.91,42.0,25.0,30.0,948.0,0.0,1342.0
14746,2021,5,25,21,0,0,0,1,0,0,...,11.0,94.0,0.00,0.61,76.0,24.5,32.0,948.0,0.0,1096.0
14747,2021,5,25,22,0,0,0,1,0,0,...,6.0,84.0,0.00,1.26,92.0,22.7,42.0,949.0,0.0,835.0


In [65]:
# solo queremos 100 filas al azar
df.sample(n=100)

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
3114,2019,12,17,7,0,0,0,1,0,0,...,13.0,121.0,12.46,1.15,146.0,9.1,82.0,930.0,0.0,1262.0
14036,2021,4,26,7,0,0,0,1,0,0,...,14.0,149.0,11.73,0.64,83.0,11.6,93.0,937.0,0.0,1295.0
6283,2020,5,18,18,0,0,0,1,0,0,...,5.0,25.0,105.40,1.43,219.0,28.9,23.0,949.0,0.0,780.0
12250,2021,2,10,20,0,0,0,1,0,0,...,9.0,45.0,48.16,1.60,224.0,10.4,67.0,945.0,0.0,1271.0
7142,2020,6,23,20,0,0,0,1,0,0,...,13.0,115.0,61.80,0.72,192.0,34.5,19.0,943.0,0.0,1209.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11677,2021,1,17,15,0,0,0,0,0,1,...,36.0,97.0,50.02,0.88,189.0,9.9,37.0,956.0,0.0,961.0
8908,2020,9,9,2,0,0,0,1,0,0,...,1.0,88.0,10.93,0.52,41.0,18.1,42.0,952.0,0.0,202.0
5073,2020,3,29,6,0,0,0,0,0,1,...,4.0,33.0,30.86,0.62,72.0,4.7,73.0,947.0,0.0,97.0
10568,2020,12,2,7,0,0,0,1,0,0,...,10.0,213.0,5.88,0.55,58.0,8.1,69.0,945.0,0.0,1307.0


Ejemplo de división de un dataframe en dos de forma aleatoria

In [66]:
train_dataset = df.sample(frac=0.8,random_state=0)
test_dataset = df.drop(train_dataset.index)
print(len(train_dataset), len(test_dataset))

11799 2950


También se pueden tomar muestras con reemplazamiento, lo que significa que se puede repetir

In [67]:
datos = [['Bea', 'Caceno'], ['Antonio', 'Caceno'],  ['Olatz', 'Ducasse'], ['Andrew', 'Albrich'] ]
df = DataFrame(datos ,columns=['nombre','apellido'])
df

Unnamed: 0,nombre,apellido
0,Bea,Caceno
1,Antonio,Caceno
2,Olatz,Ducasse
3,Andrew,Albrich


In [68]:
df.sample(n=10,replace=True)

Unnamed: 0,nombre,apellido
2,Olatz,Ducasse
1,Antonio,Caceno
3,Andrew,Albrich
0,Bea,Caceno
1,Antonio,Caceno
2,Olatz,Ducasse
3,Andrew,Albrich
2,Olatz,Ducasse
2,Olatz,Ducasse
2,Olatz,Ducasse


## Índices

Ya hemos visto unas cuantas cosas sobre los índices

- Se usan para referenciar fila
- Se puede acceder con loc
- Hay índices de tipos diversos

Algunas cosas nuevas:



In [73]:
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df1 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = ['i'+chr(ord('a')+i) for i in range(len(data))])
df2 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df3 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [np.random.randint(3) for i in range(len(data),0,-1)])


In [74]:
print(df1,df2,df3,sep="\n")

    a  b  c  d  e  f  g
ia  1  2  3  4  5  6  7
ib  1  2  0  0  0  6  7
ic  1  2  0  0  0  6  7
id  1  2  0  0  0  6  7
ie  1  2  3  4  5  6  7
   a  b  c  d  e  f  g
4  1  2  3  4  5  6  7
3  1  2  0  0  0  6  7
2  1  2  0  0  0  6  7
1  1  2  0  0  0  6  7
0  1  2  3  4  5  6  7
   a  b  c  d  e  f  g
2  1  2  3  4  5  6  7
0  1  2  0  0  0  6  7
0  1  2  0  0  0  6  7
2  1  2  0  0  0  6  7
2  1  2  3  4  5  6  7


A menudo interesa asegurarse de si es monótono creciente.

In [75]:
df1.index.is_monotonic_increasing, df2.index.is_monotonic_increasing, df3.index.is_monotonic_increasing

(True, False, False)

También de si hay valores repetidos

In [76]:
df1.index.is_unique, df2.index.is_unique, df3.index.is_unique

(True, True, False)

En caso de que no sea único podemos querer obtener los valores distintos

In [77]:
df3.index.unique()

Int64Index([2, 0], dtype='int64')

Una de las operaciones más básicas, que haremos a menudo es reindexar:

In [78]:
df4 = df2.reindex([1,2,3,4,5])
df4

Unnamed: 0,a,b,c,d,e,f,g
1,1.0,2.0,0.0,0.0,0.0,6.0,7.0
2,1.0,2.0,0.0,0.0,0.0,6.0,7.0
3,1.0,2.0,0.0,0.0,0.0,6.0,7.0
4,1.0,2.0,3.0,4.0,5.0,6.0,7.0
5,,,,,,,


- ¿Por qué necesitamos hacer df4 y no queda modificado df2? Porque los índices son inmutables. Para que se cambie en el propio DataFrame usar el argumento `inplace=True`

- ¿Por qué aparecen los NaN? Porque no existe el indice 5

In [79]:
df4 = df2.reindex([1,2,3,4,5],fill_value=0)
df4

Unnamed: 0,a,b,c,d,e,f,g
1,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
3,1,2,0,0,0,6,7
4,1,2,3,4,5,6,7
5,0,0,0,0,0,0,0


También vale para columnas

In [80]:
df4 = df2.reindex(columns=[1,2,3,4,5],fill_value=-1)
df4

Unnamed: 0,1,2,3,4,5
4,-1,-1,-1,-1,-1
3,-1,-1,-1,-1,-1
2,-1,-1,-1,-1,-1
1,-1,-1,-1,-1,-1
0,-1,-1,-1,-1,-1


Esto es un poco desastre. ¿No podemos solo cambiar los índices sin cargarnos todo? La solución es `reset_index()`

In [81]:
df2 = DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2

Unnamed: 0,a,b,c,d,e,f,g
4,1,2,3,4,5,6,7
3,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
1,1,2,0,0,0,6,7
0,1,2,3,4,5,6,7


In [82]:
df2.reset_index(inplace=True)
df2

Unnamed: 0,index,a,b,c,d,e,f,g
0,4,1,2,3,4,5,6,7
1,3,1,2,0,0,0,6,7
2,2,1,2,0,0,0,6,7
3,1,1,2,0,0,0,6,7
4,0,1,2,3,4,5,6,7


El índice se 'guarda' en una columna `index`. Se puede evitar utilizando `drop=True`

In [83]:
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df2 = DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2.reset_index(drop=True, inplace=True)
df2

Unnamed: 0,a,b,c,d,e,f,g
0,1,2,3,4,5,6,7
1,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
3,1,2,0,0,0,6,7
4,1,2,3,4,5,6,7


Si no se quiere que el índice empiece en 0, ni tampoco que se pierda información, se puede acceder directamente a .index o a .columns

In [84]:
df2.index = ['a','b','c','d','e']
df2

Unnamed: 0,a,b,c,d,e,f,g
a,1,2,3,4,5,6,7
b,1,2,0,0,0,6,7
c,1,2,0,0,0,6,7
d,1,2,0,0,0,6,7
e,1,2,3,4,5,6,7


In [85]:
df2[df2.index=='a']

Unnamed: 0,a,b,c,d,e,f,g
a,1,2,3,4,5,6,7


In [86]:
df2.loc['a']

a    1
b    2
c    3
d    4
e    5
f    6
g    7
Name: a, dtype: int64

Si se accede directamente a `index` se deben poner tantos elementos como filas hay, si no se obtendrá un error

In [102]:
df2.index = ['a','b','c','d']

**Ej.** Queremos sumar dos series:

In [88]:
a = Series([1,2,3,4],['a','b','c','d'])
b = Series([1,2,3,4],[10,20,30,40])

Sin embargo:

In [89]:
a+b

a    NaN
b    NaN
c    NaN
d    NaN
10   NaN
20   NaN
30   NaN
40   NaN
dtype: float64

¿qué podemos hacer?

In [90]:
a.reset_index(drop=True)+b.reset_index(drop=True)

0    2
1    4
2    6
3    8
dtype: int64

Se pueden eliminar filas a partir del índice con drop()

In [91]:
c = a.reset_index(drop=True)+b.reset_index(drop=True)
print(c,type(c))
d = c.drop([1,2])
print(d)

0    2
1    4
2    6
3    8
dtype: int64 <class 'pandas.core.series.Series'>
0    2
3    8
dtype: int64


In [92]:
df = DataFrame(np.arange(16).reshape((4, 4)), 
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df

Unnamed: 0,c0,c1,c2,c3
f0,0,1,2,3
f1,4,5,6,7
f2,8,9,10,11
f3,12,13,14,15


In [93]:
df.drop(['c1','c2'],axis=1,inplace=True)
df

Unnamed: 0,c0,c3
f0,0,3
f1,4,7
f2,8,11
f3,12,15


In [94]:
df = DataFrame(np.arange(16).reshape((4, 4)), 
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df.drop(['f1','f2'],axis=0,inplace=True)
df

Unnamed: 0,c0,c1,c2,c3
f0,0,1,2,3
f3,12,13,14,15


Como ya hemos visto las operaciones aritméticas utilizan los índices comunes. Esto vale tanto para filas como para columnas

In [95]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))
print(df1)
print(df2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   6.0   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0


In [96]:
df1+df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


Para evitarlo se puede añadir 0 para evitar el valor `NaN`

In [97]:
df1.add(df2,fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


Análogamente existen funciones `add`, `sub`, `div`, `mul`

Si lo que se quiere es ordenar los índices, no cambiarlo, se puede utilizar `sort_index()`

In [98]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('dfab'),index=list('431'))
df1

Unnamed: 0,d,f,a,b
4,0.0,1.0,2.0,3.0
3,4.0,5.0,6.0,7.0
1,8.0,9.0,10.0,11.0


In [101]:
df1.sort_index(inplace=True)