# Introducción a Python 

## Pandas - DataFrames

Los DataFrames son la estructura principal de Pandas. Se trata de una tabla bidimensional, aunque se pueden lograr representar más dimensiones usando *índices jerárquicos*.


### Índice
[Creación](#Creación)<br>
[Acceso a columnas y filas](#Acceso-a-columnas-y-filas)<br>
[Modificación, inserción y borrado de columnas y filas](#Modificación)<br>
[Muestras](#Samples)<br>
[Iterar](#Iterar)<br>
[Índices](#Índices)<br>

<a name="Creación"></a>
## Creación

Ya hemos visto como cargar Dataframes desde un fichero CSV o Excel. 
Otra alternativa es a través de listas de listas. Esto es habitual cuando por ejemplo estamos recopilando la información mediante web scraping y la vamos acumulando en listas. En este caso habrá que indicar, además, los nombres de las columnas

In [68]:
import pandas as pd
from pandas import Series, DataFrame # para no tener que poner pd.

datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = DataFrame(datos ,columns=['provincia','habitantes'])
df

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


El siguiente resultado, quizás inesperado, debe ser fácil de entender

In [69]:

ciudades = ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga']
habitantes = [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]

df2 = DataFrame([ciudades,habitantes],['provincia','habitantes'])
df2

Unnamed: 0,0,1,2,3,4,5
provincia,Madrid,Barcelona,Valencia,Sevilla,Alicante,Málaga
habitantes,6507184,5609350,2547986,1939887,1838819,1641121


También se puede crear a partir de un diccionario

In [70]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


## Acceso a columnas y filas

Al acceder a una columna obtenemos una "serie", es decir una secuencia de datos todos ellos con su etiqueta (en principio un número)

In [71]:
df['provincia']

0       Madrid
1    Barcelona
2     Valencia
3      Sevilla
4     Alicante
5       Málaga
Name: provincia, dtype: object

Otra forma de acceder es con la notación . que solo puede usarse si el nombre de columna no contiene espacios ni símbolos especiales

In [72]:
df.provincia

0       Madrid
1    Barcelona
2     Valencia
3      Sevilla
4     Alicante
5       Málaga
Name: provincia, dtype: object

Veamos cuál es el tipo de una columna

In [73]:
print(type(df['provincia']))

<class 'pandas.core.series.Series'>


Una "Serie" representa una columna tiene 2 componentes, el índice y los valores

In [74]:
df.provincia.values

array(['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Alicante', 'Málaga'],
      dtype=object)

In [75]:
df.provincia.index

RangeIndex(start=0, stop=6, step=1)

Para acceder por varias columnas a la vez usar dobles corchetes, y el resultado es un nuevo Dataframe

In [76]:
df[['ciudades','habitantes']]

KeyError: "['ciudades'] not in index"

Se puede acceder a las columnas, a los índices y a los valores

In [None]:
df.columns

In [None]:
df.index

In [None]:
df.values

Sin embargo, no podemos acceder a la fila por posición directamente:

In [None]:
df[0]

Sí podríamos usar df.values, que nos da todas las filas, aunque no es muy habitual

In [None]:
df.values[0]

En lugar de eso, utilizaremos `iloc` que recibe un entero como parámetro para acceder a la fila

In [None]:
df.iloc[0]

**Ejercicio 1**

Acceder a las 3 primeras filas. Pista: utilizar la misma notación que si fuera una lista

Igualmente dentro de la fila  podemos acceder a la columna por posición

In [None]:
df.iloc[0][0], df.iloc[0][1] 

Otra forma de lograr lo mismo [fila,columna]

In [None]:
df.iloc[0,0], df.iloc[0,1]  

**Ejercicio 2** Seleccionar las filas de la 2 a la 4, ambas incluidas (comenzando en 0) y solo la primera columna (la número 0)

In [None]:
# solución


**Acceso por índice.**

A menudo el índice es la posición sin más, con lo que la función iloc nos sirve. Sin embargo esto no es siempre así

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = DataFrame(datos ,columns=['provincia','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Capital Com. Autonoma','Provincia','Provincia'])
df

Vemos que iloc en este caso no vale

In [None]:
df.iloc['Capital']

Si se quiere acceder por el índice se puede usar `loc`

In [None]:
df.loc['Capital']

In [None]:
df.loc['Provincia']

Si se quiere acceder por nombre de fila y columna podemos hacerlo seleccionando primero la fila:

In [None]:
df.loc['Provincia']["provincia"]

O utilizar `loc`con la notación habitual fila, columna

In [None]:
df.loc['Provincia','provincia']

<a name="Modificación"></a>
## Modificación, inserción y borrado de columnas y filas

**Ejercicio 3** ¿Qué hace el siguiente código?

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1641121]  ]
df = DataFrame(datos ,columns=['provincias','habitantes'],
               index=['a','b','c','d','e','f'])

df.iloc[1] = 0
df

**Ejercicio 4** ¿Qué hace el siguiente código?

In [None]:
df['superficie'] = 0
df

Por tanto para crear una columna nos basta con "rellenarla" del valor que se desee. Luego veremos casos más complejos.

### Eliminar filas y columnas
Una forma de eliminar columnas es seleccionar solo las que se quieren mantener. Primero preparamos los datos.

In [None]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df             

In [None]:
df2 = df.loc[ : , ['superficie'] ]  # todas las filas, columna solo superficie
df2

Equivalente a 

In [None]:
df2 = df[["superficie"]]
df2

**Pregunta** ¿También es equivalente a `df["superficie"]`?

Varias columnas

In [None]:
df2 = df[['provincia', 'superficie'] ]
df2

En general para borrar filas o columnas por nombre usaremos [drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html). El parámetro `axis`indica si queremos borrar filas (0) o columnas (1)

In [None]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df

In [None]:
dfSinFila = df.drop([3,5],axis=0)
dfSinFila

In [None]:
dfSinCol = df.drop(['superficie'],axis=1)
dfSinCol

Si queremos podemos eviar el uso de axis utilizando los parámetros `index` y `columns`

In [None]:
datos = {'provincia' : ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 
         'Alicante', 'Málaga'],
         'habitantes' : [6507184, 5609350,  2547986,  1939887, 
          1838819, 1641121 ]}
df = DataFrame(datos)
df["superficie"] = 0
df

In [None]:
df.drop(index=[1,3])

In [None]:
df.drop(columns=['provincia'])

Las columnas también se puede eliminar con `del` como en los diccionarios

In [None]:
if 'superficie' in df2:
    del df2['superficie'] 
df2

Una variante interesante es `pop`, que borra una fila y la devuelve

In [77]:
df2 = df.copy()
habi = df2.pop("habitantes")
df2

Unnamed: 0,provincia
0,Madrid
1,Barcelona
2,Valencia
3,Sevilla
4,Alicante
5,Málaga


In [78]:
habi

0    6507184
1    5609350
2    2547986
3    1939887
4    1838819
5    1641121
Name: habitantes, dtype: int64

In [79]:
df

Unnamed: 0,provincia,habitantes
0,Madrid,6507184
1,Barcelona,5609350
2,Valencia,2547986
3,Sevilla,1939887
4,Alicante,1838819
5,Málaga,1641121


### Filtros

Para *filtrar* filas lo normal es escribir una expresión booleana que solo cumplan las filas que queremos y acceder mediante este filtro

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['ciudades','habitantes'],
               index=['Capital','Capital Com. Autonoma','Capital Com. Autonoma','Ciudad','Ciudad','Ciudad'])

df

Ciudades con más de 200000 habitantes

In [None]:
filtro = df.habitantes > 2000000
df2 = df[filtro]
df2

Esto es importante pero bastante complejo. Para entenderlo veamos primero el filtro

In [None]:
filtro

Aquí el índice no es importante, lo importante es que hay un True en cada fila que cumple la condición y un false en la que no.

Y Python permite usar una secuencia de Trues y False para acceder a elementos, devolviendo solo en los que hay Trues; por eso df[filtro] es equivalente a 

In [None]:
df[[True,True,True,False,False,False]]

**Ejemplo** La función de strings `startswith` indica si un string empieza por una letra

In [None]:
s = "Barcerlona"
print(s.startswith("B"))
print(s.startswith("V"))

vamos a usarla para quedarnos solo con las ciudades que empiezan por M

In [None]:
filtro = df.ciudades.str.startswith("M")  # ciudades cuyo nombre empieza por M

df2 = df[filtro]
df2

In [None]:
filtro

**Detalle**: Fijarse en el df.ciudades**.str**.startswith("M"). Es necesario porque al ser startswith una función que solo vale para strings tenemos que "avisar" a Python de que la función es de tipo string, cuando por defecto las considera numéricas.

Si lo que queremos es saber cuántos elementos cumplen el filtro, nos basta con recordar que los Trues se corresponden con 1s, y los Falses con 0s.

In [None]:
sum(filtro)

**Ejercicio 4**

a) Cargar el fichero "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv" que está con codificación (`encoding`) "latin1" y dejarlo en un dataframe `df_paro`


 

In [None]:
import pandas as pd
url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/parocomunidades.csv"


b) Mostrar solo las filas de `df_paro` que corresponden al Periodo 2019

c) Mostrar solo las filas de `df_paro` que corresponden a un total mayor de 15

In [None]:
filtro = df_paro["Total"]>15
df_paro[filtro]

d) (más difícil) Mostrar solo las filas que corresponden al Periodo 2019 y tienen Total mayor de 15

**Nota** Para combinar varias condiciones en un filtro se utilizan los operadores de bit: `&` en lugar de `and`, `|` en lugar de `or` y `~` en lugar de not.

**Ejemplo** 

Queremos todos los datos de `df_paro` salvo los de Andalucía

In [None]:
# método 1
filtro = df_paro["Comunidad"]!="Andalucía"
df_paro[filtro]

In [None]:
# método 2, más raro 
filtro = df_paro["Comunidad"]=="Andalucía"
df_paro[~filtro]

**Ejercicio 5** Consideramos este DataFrame

In [None]:

data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df = DataFrame(data)
df

Encontrar una expresión de cambiar todos los 0s por 9s (hay varias formas, alguna utilizando posiciones y alguna otra sin posiciones)

### Añadir filas

Veamos como [añadir filas](https://www.stackvidhya.com/add-row-to-dataframe/#:~:text=You%20can%20add%20rows%20to,append()) a un dataframe ya existente con append

In [None]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['ciudades','habitantes'])
df

In [None]:
df = df.append( {'ciudades':'Cáceres', 'habitantes': 394151 }, ignore_index = True)
df

Ahora añadimos una columna con la superficie

In [None]:
df["superficie"] = [8027, 7773, 10807,14036,5817,7306, 19868]
df

Y obtenemos la densidad:

In [None]:
df["densidad"] = df["habitantes"]/df["superficie"]
df

Finalmente, ordenamos por nombre de ciudad con `sort_values`. Nótese el uso de `inplace=True` para que modifique el dataframe y no devuelva una copia

### Ordenar

Para ordenar utilizaremos `sort_values`

In [82]:
datos = [['Madrid', 6507184], ['Barcelona', 5609350], 
         ['Valencia', 2547986], ['Sevilla', 1939887], 
         ['Alicante', 1838819], ['Málaga',1694089]  ]
df = DataFrame(datos ,columns=['provincia','habitantes'])
df
df.sort_values(by='provincia', ascending=True, inplace=True)
df

Unnamed: 0,provincia,habitantes
4,Alicante,1838819
1,Barcelona,5609350
0,Madrid,6507184
5,Málaga,1694089
3,Sevilla,1939887
2,Valencia,2547986


Ordenar por dos columnas

In [83]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'], 
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = DataFrame(datos ,columns=['nombre','apellido'])
df.sort_values(by='apellido',ascending=True)

Unnamed: 0,nombre,apellido
3,Calixta,Albrich
0,Bertoldo,Cacaseno
1,Aniceto,Cacaseno
2,Herminia,Ducasse


In [84]:
df.sort_values(by=['apellido','nombre'],ascending=True)

Unnamed: 0,nombre,apellido
3,Calixta,Albrich
1,Aniceto,Cacaseno
0,Bertoldo,Cacaseno
2,Herminia,Ducasse


<a name="Samples"></a>
## Muestras

En ocasiones nos interesará tomar muestras de un dataset muy grande para tener unos pocos datos manejables y representativos

Las muestras también se utilizarán en nuestros experimentos con datos, dividiendo el conjunto en dos:

- Entrenamiento

- Test

El conjunto de entrenamiento lo usaremos para nuestras hipótesis, nuestros modelos. Una vez realizado el modelo lo probaremos con datos "nuevos" los datos de test

En ambos casos utilizaremos [sample](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) al que se puede pasar la proporción de datos a obtener o el número de valores a obtener



In [86]:
# lectura de un fichero en panda
import pandas as pd

url = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/madpollution_output.csv"
df = pd.read_csv(url)
df

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
0,2019,8,1,0,0,0,0,1,0,0,...,10.0,29.0,58.87,1.84,97.0,26.1,52.0,943.0,0.0,570.0
1,2019,8,1,1,0,0,0,1,0,0,...,10.0,18.0,63.73,1.97,117.0,24.9,55.0,943.0,0.0,404.0
2,2019,8,1,2,0,0,0,1,0,0,...,9.0,19.0,66.50,1.72,96.0,24.0,55.0,943.0,0.0,287.0
3,2019,8,1,3,0,0,0,1,0,0,...,10.0,15.0,66.62,1.55,106.0,23.3,55.0,943.0,0.0,209.0
4,2019,8,1,4,0,0,0,1,0,0,...,10.0,18.0,62.57,1.13,67.0,22.9,57.0,943.0,0.0,194.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14744,2021,5,25,19,0,0,0,1,0,0,...,10.0,55.0,0.00,0.98,6.0,26.1,29.0,948.0,0.0,1399.0
14745,2021,5,25,20,0,0,0,1,0,0,...,7.0,58.0,0.00,0.91,42.0,25.0,30.0,948.0,0.0,1342.0
14746,2021,5,25,21,0,0,0,1,0,0,...,11.0,94.0,0.00,0.61,76.0,24.5,32.0,948.0,0.0,1096.0
14747,2021,5,25,22,0,0,0,1,0,0,...,6.0,84.0,0.00,1.26,92.0,22.7,42.0,949.0,0.0,835.0


In [87]:
# solo queremos 100 filas al azar
df.sample(n=100)

Unnamed: 0,year,month,day,hour,minute,second,laborday,saturday,sunday,holiday,...,PM25,NOx,O3,windspeed,winddirection,temperature,humidity,pressure,rain,traffic
13906,2021,4,20,21,0,0,0,1,0,0,...,6.0,44.0,54.95,1.09,238.0,16.5,54.0,940.0,0.0,1007.0
11189,2020,12,28,7,0,0,0,1,0,0,...,2.0,33.0,62.89,1.57,240.0,6.0,70.0,930.0,0.0,907.0
2501,2019,11,13,18,0,0,0,1,0,0,...,8.0,164.0,12.53,0.62,234.0,14.1,54.0,942.0,0.0,1420.0
9921,2020,11,5,8,0,0,0,1,0,0,...,8.0,130.0,10.11,1.21,70.0,9.4,89.0,949.0,3.2,1431.0
966,2019,9,10,16,0,0,0,1,0,0,...,3.0,58.0,47.06,1.20,308.0,20.9,28.0,945.0,0.0,1367.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10371,2020,11,24,2,0,0,0,1,0,0,...,13.0,71.0,5.77,0.58,55.0,4.9,86.0,954.0,0.0,85.0
1558,2019,10,5,10,0,0,0,0,1,0,...,11.0,131.0,21.27,0.72,317.0,21.1,47.0,947.0,0.0,840.0
5325,2020,4,8,18,0,0,0,1,0,0,...,6.0,17.0,83.70,1.48,178.0,22.9,39.0,949.0,0.0,319.0
2629,2019,11,19,2,0,0,0,1,0,0,...,13.0,115.0,3.00,0.61,36.0,2.2,83.0,947.0,0.0,187.0


Ejemplo de división de un dataframe en dos de forma aleatoria

In [89]:
train_dataset = df.sample(frac=0.8,random_state=0)
test_dataset = df.drop(train_dataset.index)
print(len(train_dataset), len(test_dataset))

11799 2950


También se pueden tomar muestras con reemplazamiento, lo que significa que se puede repetir

In [91]:
datos = [['Bertoldo', 'Cacaseno'], ['Aniceto', 'Cacaseno'], 
         ['Herminia', 'Ducasse'], ['Calixta', 'Albrich'] ]
df = DataFrame(datos ,columns=['nombre','apellido'])
df

Unnamed: 0,nombre,apellido
0,Bertoldo,Cacaseno
1,Aniceto,Cacaseno
2,Herminia,Ducasse
3,Calixta,Albrich


In [92]:
df.sample(n=10,replace=True)

Unnamed: 0,nombre,apellido
1,Aniceto,Cacaseno
2,Herminia,Ducasse
0,Bertoldo,Cacaseno
0,Bertoldo,Cacaseno
3,Calixta,Albrich
0,Bertoldo,Cacaseno
1,Aniceto,Cacaseno
2,Herminia,Ducasse
2,Herminia,Ducasse
2,Herminia,Ducasse


<a name="Iterar"></a>
## Iterar

Intentaremos evitar iterar por el dataframe con un `for`, pero a veces no hay más remedio. En ese caso usaremos `iterrows`
 que nos devuelve cada fila como un array con dos posiciones, la 0 para el índice y la 1 para la fila en sí

In [94]:
import pandas as pd
file = "https://raw.githubusercontent.com/RafaelCaballero/tdm/master/datos/top10s.csv"
df = pd.read_csv(file,encoding="latin-1", index_col=0)
df

Unnamed: 0,title,artist,top genre,year,bpm,nrgy,dnce,dB,live,val,dur,acous,spch,pop
1,"Hey, Soul Sister",Train,neo mellow,2010,97,89,67,-4,8,80,217,19,4,83
2,Love The Way You Lie,Eminem,detroit hip hop,2010,87,93,75,-5,52,64,263,24,23,82
3,TiK ToK,Kesha,dance pop,2010,120,84,76,-3,29,71,200,10,14,80
4,Bad Romance,Lady Gaga,dance pop,2010,119,92,70,-4,8,71,295,0,4,79
5,Just the Way You Are,Bruno Mars,pop,2010,109,84,64,-5,9,43,221,2,4,78
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
599,Find U Again (feat. Camila Cabello),Mark Ronson,dance pop,2019,104,66,61,-7,20,16,176,1,3,75
600,Cross Me (feat. Chance the Rapper & PnB Rock),Ed Sheeran,pop,2019,95,79,75,-6,7,61,206,21,12,75
601,"No Brainer (feat. Justin Bieber, Chance the Ra...",DJ Khaled,dance pop,2019,136,76,53,-5,9,65,260,7,34,70
602,Nothing Breaks Like a Heart (feat. Miley Cyrus),Mark Ronson,dance pop,2019,114,79,60,-6,42,24,217,1,7,69


In [95]:
for row in df.iterrows():
    print(row[1]["title"])

Hey, Soul Sister
Love The Way You Lie
TiK ToK
Bad Romance
Just the Way You Are
Baby
Dynamite
Secrets
Empire State of Mind (Part II) Broken Down
Only Girl (In The World)
Club Can't Handle Me (feat. David Guetta)
Marry You
Cooler Than Me - Single Mix
Telephone
Like A G6
OMG (feat. will.i.am)
Eenie Meenie
The Time (Dirty Bit)
Alejandro
Your Love Is My Drug
Meet Me Halfway
Whataya Want from Me
Take It Off
Misery
All The Right Moves
Animal
Naturally
I Like It
Teenage Dream
California Gurls
3
My First Kiss - feat. Ke$ha
Blah Blah Blah (feat. 3OH!3)
Imma Be
Try Sleeping with a Broken Heart
Sexy Bitch (feat. Akon)
Bound To You - Burlesque Original Motion Picture Soundtrack
If I Had You
Rock That Body
Dog Days Are Over
Something's Got A Hold On Me - Burlesque Original Motion Picture Soundtrack
Doesn't Mean Anything
Hard
Loca
You Lost Me
Not Myself Tonight
Written in the Stars (feat. Eric Turner)
DJ Got Us Fallin' In Love (feat. Pitbull)
Castle Walls (feat. Christina Aguilera)
Break Your Heart
H

**Ejemplo 11** Utilizar iterrows para encontrar el título de la canción  con más bpm.

Idea: usar una variable bpm que lleve el máximo hasta el momento y otra título con el título del máximo hasta el momento, e ir actualizando ambas variables

In [None]:
## Y ahora sin iterrows...

## Índices

Ya hemos visto unas cuantas cosas sobre los índices

- Se usan para referenciar fila
- Se puede acceder con loc
- Hay índices de tipos diversos

Algunas cosas nuevas:



In [59]:
import pandas as pd
import numpy as np
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df1 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = ['i'+chr(ord('a')+i) for i in range(len(data))])
df2 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df3 = pd.DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [np.random.randint(3) for i in range(len(data),0,-1)])


In [None]:
print(df1,df2,df3,sep="\n")

A menudo interesa asegurarse de si es monótono creciente.

In [None]:
df1.index.is_monotonic, df2.index.is_monotonic, df3.index.is_monotonic

También de si hay valores repetidos

In [None]:
df1.index.is_unique, df2.index.is_unique, df3.index.is_unique

En caso de que no sea único podemos querer obtener los valores distintos

In [None]:
df3.index.unique()

Una de las operaciones más básicas, que haremos a menudo es reindexar:

In [None]:

df4 = df2.reindex([1,2,3,4,5])
df4


- ¿Por qué necesitamos hacer df4 y no queda modificado df2? Porque los índices son inmutables. Para que se cambie en el propio DataFram usar el argumento `inplace=True`

- ¿Por qué aparecen los NaN? (pensar...)


In [None]:
df4 = df2.reindex([1,2,3,4,5],fill_value=0)
df4

También vale para columnas

In [None]:
df4 = df2.reindex(columns=[1,2,3,4,5],fill_value=-1)
df4

Esto es un poco desastre. ¿No podemos solo cambiar los índices sin cargarnos todo? La solución es `reset_index()`

In [None]:
df2 = DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2

In [None]:
df2.reset_index(inplace=True)
df2

El índice se 'guarda' en una columna `index`. Se puede evitar utilizando `drop=True`

In [7]:
from pandas import DataFrame
data = [[1,2,3,4,5,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,0,0,0,6,7],
        [1,2,3,4,5,6,7],
       ]
df2 = DataFrame(data, columns=[chr(ord('a')+i) for i in range(len(data[0]))],
               index = [i-1 for i in range(len(data),0,-1)])
df2.reset_index(drop=True, inplace=True)
df2

Unnamed: 0,a,b,c,d,e,f,g
0,1,2,3,4,5,6,7
1,1,2,0,0,0,6,7
2,1,2,0,0,0,6,7
3,1,2,0,0,0,6,7
4,1,2,3,4,5,6,7


Si no se quiere que el índice empiece en 0, ni tampoco que se pierda información, se puede acceder directamente a .index o a .columns

In [8]:
df2.index = ['a','b','c','d','e']
df2

Unnamed: 0,a,b,c,d,e,f,g
a,1,2,3,4,5,6,7
b,1,2,0,0,0,6,7
c,1,2,0,0,0,6,7
d,1,2,0,0,0,6,7
e,1,2,3,4,5,6,7


In [12]:
df2[df2.index=='a']

Unnamed: 0,a,b,c,d,e,f,g
a,1,2,3,4,5,6,7


In [13]:
df2.loc['a']

a    1
b    2
c    3
d    4
e    5
f    6
g    7
Name: a, dtype: int64

Si se accede directamente a `index` se deben poner tantos elementos como filas hay, si no se obtendrá un error

In [None]:
df2.index = ['a','b','c','d']

**Ej.** Queremos sumar dos series:

In [None]:
a = Series([1,2,3,4],['a','b','c','d'])
b = Series([1,2,3,4],[10,20,30,40])

Sin embargo:

In [None]:
a+b

¿qué podemos hacer?

In [None]:
a.reset_index(drop=True)+b.reset_index(drop=True)

Se pueden eliminar filas a partir del índice con drop()

In [None]:
c = a.reset_index(drop=True)+b.reset_index(drop=True)
print(c,type(c))
d = c.drop([1,2])
print(d)

In [None]:
df = DataFrame(np.arange(16).reshape((4, 4)), 
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df

In [None]:
df.drop(['c1','c2'],axis=1,inplace=True)
df

In [None]:
df = DataFrame(np.arange(16).reshape((4, 4)), 
               columns=['c'+str(i) for i in range(4)],
               index = ['f'+str(i) for i in range(4)])
df.drop(['f1','f2'],axis=0,inplace=True)
df

Como ya hemos visto las operaciones aritméticas utilizan los índices comunes. Esto vale tanto para filas como para columnas

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

print(df1)
print(df2)

In [None]:
df1+df2

Para evitarlo se puede añadir 0 para evitar el valor `NaN`

In [None]:
df1.add(df2,fill_value=0)

Análogamente existen funciones `add`, `sub`, `div`, `mul`

La siguiente operación ya no debe sorprendernos:

In [None]:
f = df1.loc[1,:]
print(df1,"\n",f,"\n",df1-f,sep="")



Si lo que queremos es restar sobre las columnas

In [None]:
f.index = range(len(f))
df1.sub(f,axis=0)

Si lo que se quiere es ordenar los índices, no cambiarlo, se puede utilizar `sort_index()`

In [None]:
df1 = DataFrame(np.arange(12.).reshape((3, 4)), 
                columns=list('dfab'),index=list('431'))
df1

In [None]:
df1.sort_index(inplace=True)
df1