<a href="https://colab.research.google.com/github/martinbedia/mineria/blob/main/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas
https://pandas.pydata.org/

In [23]:
import pandas as pd
import numpy as np

## Creacion de objetos
- Series: columnas de un dataframe
- DataFrame: tablas

para crear una series:
pd.Series(datos)

un data frame:
pd.DataFrame(datos)

In [None]:
s = pd.Series([1,20,3])
s

0     1
1    20
2     3
dtype: int64

In [None]:
type(s)

pandas.core.series.Series

In [None]:
s = pd.Series([1.5,20,3,'Hola'])
s


0     1.5
1      20
2       3
3    Hola
dtype: object

In [None]:
s = pd.Series(np.arange(1,5))
s

0    1
1    2
2    3
3    4
dtype: int64

In [None]:
s = pd.Series(np.array([30,20.1,50]))
s

0    30.0
1    20.1
2    50.0
dtype: float64

In [None]:
s = pd.Series([1500.32,2021.54,1890.43],
              index = ['Enero','Febrero','Marzo'],
              name = 'ventas')
s

Enero      1500.32
Febrero    2021.54
Marzo      1890.43
Name: ventas, dtype: float64

## Dataframes

In [None]:
# definicion usando una lista de tuplas

datos = [('Lunes',15),('Martes',22),('Miercoles',23)]
df = pd.DataFrame(datos)
df

Unnamed: 0,0,1
0,Lunes,15
1,Martes,22
2,Miercoles,23


In [None]:
# usando un diccionario
nombres = ['Ana','Juan','Carlos']
apellidos = ['Garcia','Perez','Diaz']

# para cada clave del diccionario me crea una columna distinta
df = pd.DataFrame({
    'nombre': nombres,
    'apellido': apellidos
})
df


Unnamed: 0,nombre,apellido
0,Ana,Garcia
1,Juan,Perez
2,Carlos,Diaz


In [None]:
df = pd.DataFrame({
    'verdadero': [48,2],
    'falso': [2,26]
}, index = ['Pregunta 1', 'Pregunta 2'])
df

Unnamed: 0,verdadero,falso
Pregunta 1,48,2
Pregunta 2,2,26


In [None]:
# usando un array de numpy
arr = np.array([
    [1,'A',10.1],
    [2,'B',20.2],
    [3,'C',30.3]
])
df = pd.DataFrame(arr)
df

Unnamed: 0,0,1,2
0,1,A,10.1
1,2,B,20.2
2,3,C,30.3


In [None]:
# para que no de por defecto los nombres de las columnas
arr = np.array([
    [1,'A',10.1],
    [2,'B',20.2],
    [3,'C',30.3]
])
df = pd.DataFrame(arr, columns= ['Columna 1', 'Columna 2', 'Columna 3'])
df

Unnamed: 0,Columna 1,Columna 2,Columna 3
0,1,A,10.1
1,2,B,20.2
2,3,C,30.3


In [None]:
df.index = ['Fila1','Fila2','Fila3']
df

Unnamed: 0,Columna 1,Columna 2,Columna 3
Fila1,1,A,10.1
Fila2,2,B,20.2
Fila3,3,C,30.3


In [None]:
nuevos_nombres = {'Fila2': 'FilaModificada'}
df.rename(index= nuevos_nombres)    # sobrescribir para que el df salgan esos valores
df = df.rename(index= nuevos_nombres)
df

Unnamed: 0,Columna 1,Columna 2,Columna 3
Fila1,1,A,10.1
FilaModificada,2,B,20.2
Fila3,3,C,30.3


In [None]:
df.set_index('Columna 1')

Unnamed: 0_level_0,Columna 2,Columna 3
Columna 1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,A,10.1
2,B,20.2
3,C,30.3


Los indices pueden estar repetidos. No es como en SQL

# Exploracion

In [2]:
from numpy.random.mtrand import rand
# nombre, edad, altura en cm, puntuacion, aprobado
# ids: uo001, uo002m uo003...

# def nombre_funcion (x):
# return f'uo{x:03d}'
# si no lo tuviera dentro del vectorize
# for i in range(n):
#  nombre_funcion(x)


generar_secuencia = np.vectorize(lambda x: f'uo{x:03d}')   #completa con ceros hasta tres posiciones decimales
ids = generar_secuencia(np.arange(1,16))

datos = {'Nombre': ['Alcia', 'Bruno' ,'Carlos' , 'David', 'Elena', 'Fernando', 'gloria' , 'hector' , 'isabel', 'juan', 'laura', 'Martin', 'nuria', 'oscar', 'patricia'],
         'Edad': [25, 30, 22, 35, 28, 40, 27, 29, 32, 24, 33, 26, 31, 23, 37],
         'Altura (cm)': [165, 180, 175, 160, 170, 160, 180, 172, 165, 187, np.nan, 181, 179, 176, 186],
         'Puntuacion': np.random.randint(0, 11, size = 15)
         }

df_ejemplo = pd.DataFrame(datos,  index= ids)
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo001,Alcia,25,165.0,5
uo002,Bruno,30,180.0,6
uo003,Carlos,22,175.0,5
uo004,David,35,160.0,5
uo005,Elena,28,170.0,10
uo006,Fernando,40,160.0,3
uo007,gloria,27,180.0,10
uo008,hector,29,172.0,6
uo009,isabel,32,165.0,9
uo010,juan,24,187.0,4


In [3]:
df_ejemplo.head

<bound method NDFrame.head of          Nombre  Edad  Altura (cm)  Puntuacion
uo001     Alcia    25        165.0           5
uo002     Bruno    30        180.0           6
uo003    Carlos    22        175.0           5
uo004     David    35        160.0           5
uo005     Elena    28        170.0          10
uo006  Fernando    40        160.0           3
uo007    gloria    27        180.0          10
uo008    hector    29        172.0           6
uo009    isabel    32        165.0           9
uo010      juan    24        187.0           4
uo011     laura    33          NaN           8
uo012    Martin    26        181.0           5
uo013     nuria    31        179.0           3
uo014     oscar    23        176.0           1
uo015  patricia    37        186.0           4>

In [None]:
pd.set_option('display.max_rows',5)

In [None]:
pd.reset_option('display.max_rows')
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo001,Alcia,25,165.0,7
uo002,Bruno,30,180.0,8
uo003,Carlos,22,175.0,10
uo004,David,35,160.0,3
uo005,Elena,28,170.0,4
uo006,Fernando,40,160.0,7
uo007,gloria,27,180.0,10
uo008,hector,29,172.0,1
uo009,isabel,32,165.0,2
uo010,juan,24,187.0,1


Para acceder a las columnas podemos hacer:

df.nombre_columna

df['nombre_columna']    mejor esta por si hay caracteres especiales

In [None]:
df_ejemplo.Edad

uo001    25
uo002    30
uo003    22
uo004    35
uo005    28
uo006    40
uo007    27
uo008    29
uo009    32
uo010    24
uo011    33
uo012    26
uo013    31
uo014    23
uo015    37
Name: Edad, dtype: int64

In [None]:
df_ejemplo['Edad']     #mejor esta sintaxis

uo001    25
uo002    30
uo003    22
uo004    35
uo005    28
uo006    40
uo007    27
uo008    29
uo009    32
uo010    24
uo011    33
uo012    26
uo013    31
uo014    23
uo015    37
Name: Edad, dtype: int64

In [None]:
df_ejemplo['Altura (cm)'][0]   #primer valor

165.0

In [None]:
df_ejemplo[['Edad', 'Altura (cm)']]

Unnamed: 0,Edad,Altura (cm)
uo001,25,165.0
uo002,30,180.0
uo003,22,175.0
uo004,35,160.0
uo005,28,170.0
uo006,40,160.0
uo007,27,180.0
uo008,29,172.0
uo009,32,165.0
uo010,24,187.0


Para la indexacion de filas existe iloc (por indice) y loc (por etiquetas)

In [None]:
df_ejemplo.iloc[2]    # esto me devuelve una serie tambien

Nombre         Carlos
Edad               22
Altura (cm)     175.0
Puntuacion         10
Name: uo003, dtype: object

In [None]:
df_ejemplo.loc['uo003']
# si no hubieramos definido nombres para las filas podria funcionar solo el numero
# pero tenemos etiquetas (uo001...), necesitamos que en el loc vaya el nombre de la fila

In [None]:
df_ejemplo.iloc[1:4]   #devuelve las de indice 1,2,3 (segunda, tercera y cuarta fila)

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo002,Bruno,30,180.0,8
uo003,Carlos,22,175.0,10
uo004,David,35,160.0,3


In [None]:
df_ejemplo.loc['uo002' : 'uo004']   # ambos limites van incluidos

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo002,Bruno,30,180.0,8
uo003,Carlos,22,175.0,10
uo004,David,35,160.0,3


In [None]:
df = pd.DataFrame({
    'verdadero': [48,2,25,1],
    'falso': [2,26,25,49]
})
df

Unnamed: 0,verdadero,falso
0,48,2
1,2,26
2,25,25
3,1,49


In [None]:
df.loc[0:2]   # con el loc el limite superior se incluye

Unnamed: 0,verdadero,falso
0,48,2
1,2,26
2,25,25


In [None]:
df_ejemplo.loc['uo003','Nombre']

'Carlos'

In [None]:
df_ejemplo.iloc[-2]

Nombre         oscar
Edad              23
Altura (cm)    176.0
Puntuacion         1
Name: uo014, dtype: object

In [None]:
df_ejemplo.iloc[3,0]   #cuarta fila, primera columna

'David'

In [None]:
df_ejemplo.iloc[: , 0]   #todas las filas y la primera columna

uo001       Alcia
uo002       Bruno
uo003      Carlos
uo004       David
uo005       Elena
uo006    Fernando
uo007      gloria
uo008      hector
uo009      isabel
uo010        juan
uo011       laura
uo012      Martin
uo013       nuria
uo014       oscar
uo015    patricia
Name: Nombre, dtype: object

In [None]:
df_ejemplo.iloc[[1,3], -4:2]

Unnamed: 0,Nombre,Edad
uo002,Bruno,30
uo004,David,35


In [None]:
df_ejemplo['Altura (cm)'] > 170  # valores booleanos

uo001    False
uo002     True
uo003     True
uo004    False
uo005    False
uo006    False
uo007     True
uo008     True
uo009    False
uo010     True
uo011    False
uo012     True
uo013     True
uo014     True
uo015     True
Name: Altura (cm), dtype: bool

In [None]:
# el where nos permite filtrar utilizando los valores booleanos
# mantiene los datos que cumplen la condicion y pone NaN
# mantiene la misma shape
df_ejemplo['Altura (cm)'].where(df_ejemplo['Altura (cm)'] > 170)

uo001      NaN
uo002    180.0
uo003    175.0
uo004      NaN
uo005      NaN
uo006      NaN
uo007    180.0
uo008    172.0
uo009      NaN
uo010    187.0
uo011      NaN
uo012    181.0
uo013    179.0
uo014    176.0
uo015    186.0
Name: Altura (cm), dtype: float64

In [None]:
# en este caso no mantiene la shape, porque filtra las filas que no cumplen la condicion
# mantiene aquellas que son true
df_ejemplo.loc[df_ejemplo['Altura (cm)'] > 170]

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo002,Bruno,30,180.0,8
uo003,Carlos,22,175.0,10
uo007,gloria,27,180.0,10
uo008,hector,29,172.0,1
uo010,juan,24,187.0,1
uo012,Martin,26,181.0,6
uo013,nuria,31,179.0,9
uo014,oscar,23,176.0,1
uo015,patricia,37,186.0,4


La estrucutura solo se mantiene con el where

In [None]:
df_ejemplo.loc[(df_ejemplo['Altura (cm)'] > 170) & (df_ejemplo['Edad'] <= 25)]

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo003,Carlos,22,175.0,10
uo010,juan,24,187.0,1
uo014,oscar,23,176.0,1


In [None]:
datos = np.random.randint(0,101, 12*5).reshape(12,5)
df_numeros = pd.DataFrame(datos)
df_numeros

Unnamed: 0,0,1,2,3,4
0,87,33,68,9,89
1,64,26,52,65,4
2,36,66,4,69,42
3,64,99,3,83,37
4,86,76,66,90,84
5,97,3,25,70,69
6,23,98,85,5,89
7,33,56,98,94,51
8,96,100,61,96,27
9,7,98,39,10,53


In [None]:
#como un for para cada uno de los elementos
df_numeros < 50

Unnamed: 0,0,1,2,3,4
0,False,True,False,True,False
1,False,True,False,False,True
2,True,False,True,False,True
3,False,False,True,False,True
4,False,False,False,False,False
5,False,True,True,False,False
6,True,False,False,True,False
7,True,False,False,False,False
8,False,False,False,False,True
9,True,False,True,True,False


In [None]:
#mantener solo aquellos que coumplen la condicion
df_numeros.where(df_numeros < 50, -1)
# el -1 es para el que no cumpla la condicion poner un -1
# es como un for, si se cumple la condicion deja el numero y sino por un -1

Unnamed: 0,0,1,2,3,4
0,-1,33,-1,9,-1
1,-1,26,-1,-1,4
2,36,-1,4,-1,42
3,-1,-1,3,-1,37
4,-1,-1,-1,-1,-1
5,-1,3,25,-1,-1
6,23,-1,-1,5,-1
7,33,-1,-1,-1,-1
8,-1,-1,-1,-1,27
9,7,-1,39,10,-1


Pandas tiene seleccionares condicionales implementados _built-in_ para las columnas, a destacar:

- .isin()
- .notnull()   permite filtar los NaN

In [None]:
df_ejemplo.loc[df_ejemplo['Edad'].isin([23,33])]    # valores unicos, el 23,33 no es un rango

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo011,laura,33,,3
uo014,oscar,23,176.0,1


In [None]:
df_ejemplo['Altura (cm)'].notnull()   #vector de booleanos

uo001     True
uo002     True
uo003     True
uo004     True
uo005     True
uo006     True
uo007     True
uo008     True
uo009     True
uo010     True
uo011    False
uo012     True
uo013     True
uo014     True
uo015     True
Name: Altura (cm), dtype: bool

In [None]:
df_ejemplo.loc[df_ejemplo['Altura (cm)'].notnull()]   #devuelve sin laura que era la que tenia el valor nulo de la altura

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo001,Alcia,25,165.0,7
uo002,Bruno,30,180.0,8
uo003,Carlos,22,175.0,10
uo004,David,35,160.0,3
uo005,Elena,28,170.0,4
uo006,Fernando,40,160.0,7
uo007,gloria,27,180.0,10
uo008,hector,29,172.0,1
uo009,isabel,32,165.0,2
uo010,juan,24,187.0,1


## Para modificar los datos

Usamos:
- df['nombre_nueva_columna'] = valores

Tienen que ser del mismo type

In [None]:
df_ejemplo['curso'] = 'Primer curso'
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,curso
uo001,Alcia,25,165.0,7,Primer curso
uo002,Bruno,30,180.0,8,Primer curso
uo003,Carlos,22,175.0,10,Primer curso
uo004,David,35,160.0,3,Primer curso
uo005,Elena,28,170.0,4,Primer curso
uo006,Fernando,40,160.0,7,Primer curso
uo007,gloria,27,180.0,10,Primer curso
uo008,hector,29,172.0,1,Primer curso
uo009,isabel,32,165.0,2,Primer curso
uo010,juan,24,187.0,1,Primer curso


In [None]:
df_ejemplo['Curso'] = 'Primer curso'   #ahora tengo dos columnas curso
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,curso,Curso
uo001,Alcia,25,165.0,7,Primer curso,Primer curso
uo002,Bruno,30,180.0,8,Primer curso,Primer curso
uo003,Carlos,22,175.0,10,Primer curso,Primer curso
uo004,David,35,160.0,3,Primer curso,Primer curso
uo005,Elena,28,170.0,4,Primer curso,Primer curso
uo006,Fernando,40,160.0,7,Primer curso,Primer curso
uo007,gloria,27,180.0,10,Primer curso,Primer curso
uo008,hector,29,172.0,1,Primer curso,Primer curso
uo009,isabel,32,165.0,2,Primer curso,Primer curso
uo010,juan,24,187.0,1,Primer curso,Primer curso


In [None]:
#para borrar una columna. se elimina sobre el conjunto original (cuidado!!!)
df_ejemplo.drop('curso', axis= 1, inplace= True)  #axis fila es eje 0
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,Curso
uo001,Alcia,25,165.0,7,Primer curso
uo002,Bruno,30,180.0,8,Primer curso
uo003,Carlos,22,175.0,10,Primer curso
uo004,David,35,160.0,3,Primer curso
uo005,Elena,28,170.0,4,Primer curso
uo006,Fernando,40,160.0,7,Primer curso
uo007,gloria,27,180.0,10,Primer curso
uo008,hector,29,172.0,1,Primer curso
uo009,isabel,32,165.0,2,Primer curso
uo010,juan,24,187.0,1,Primer curso


In [None]:
# a los que tienen un 4 ponerles un 5
df_ejemplo['Puntuacion'].replace(4,5)    #valor que buscamos y valor por el que lo sustituimos

uo001     7
uo002     8
uo003    10
uo004     3
uo005     5
uo006     7
uo007    10
uo008     1
uo009     2
uo010     1
uo011     3
uo012     6
uo013     9
uo014     1
uo015     5
Name: Puntuacion, dtype: int64

In [None]:
df_ejemplo['Puntuacion'] = df_ejemplo['Puntuacion'].replace(4,5)   #reemplazar
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,Curso
uo001,Alcia,25,165.0,7,Primer curso
uo002,Bruno,30,180.0,8,Primer curso
uo003,Carlos,22,175.0,10,Primer curso
uo004,David,35,160.0,3,Primer curso
uo005,Elena,28,170.0,5,Primer curso
uo006,Fernando,40,160.0,7,Primer curso
uo007,gloria,27,180.0,10,Primer curso
uo008,hector,29,172.0,1,Primer curso
uo009,isabel,32,165.0,2,Primer curso
uo010,juan,24,187.0,1,Primer curso


In [None]:
df_ejemplo['Turno presentacion'] = range(len(df_ejemplo),0,-1)
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,Curso,Turno presentacion
uo001,Alcia,25,165.0,7,Primer curso,15
uo002,Bruno,30,180.0,8,Primer curso,14
uo003,Carlos,22,175.0,10,Primer curso,13
uo004,David,35,160.0,3,Primer curso,12
uo005,Elena,28,170.0,5,Primer curso,11
uo006,Fernando,40,160.0,7,Primer curso,10
uo007,gloria,27,180.0,10,Primer curso,9
uo008,hector,29,172.0,1,Primer curso,8
uo009,isabel,32,165.0,2,Primer curso,7
uo010,juan,24,187.0,1,Primer curso,6


In [None]:
df_ejemplo['Grupo'] = [1,2,3]*5
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,Curso,Turno presentacion,Grupo
uo001,Alcia,25,165.0,7,Primer curso,15,1
uo002,Bruno,30,180.0,8,Primer curso,14,2
uo003,Carlos,22,175.0,10,Primer curso,13,3
uo004,David,35,160.0,3,Primer curso,12,1
uo005,Elena,28,170.0,5,Primer curso,11,2
uo006,Fernando,40,160.0,7,Primer curso,10,3
uo007,gloria,27,180.0,10,Primer curso,9,1
uo008,hector,29,172.0,1,Primer curso,8,2
uo009,isabel,32,165.0,2,Primer curso,7,3
uo010,juan,24,187.0,1,Primer curso,6,1


Crear columnas a partir de condicionales

In [None]:
df_ejemplo['Aprobado'] = df_ejemplo['Puntuacion'] >= 5
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,Curso,Turno presentacion,Grupo,Aprobado
uo001,Alcia,25,165.0,7,Primer curso,15,1,True
uo002,Bruno,30,180.0,8,Primer curso,14,2,True
uo003,Carlos,22,175.0,10,Primer curso,13,3,True
uo004,David,35,160.0,3,Primer curso,12,1,False
uo005,Elena,28,170.0,5,Primer curso,11,2,True
uo006,Fernando,40,160.0,7,Primer curso,10,3,True
uo007,gloria,27,180.0,10,Primer curso,9,1,True
uo008,hector,29,172.0,1,Primer curso,8,2,False
uo009,isabel,32,165.0,2,Primer curso,7,3,False
uo010,juan,24,187.0,1,Primer curso,6,1,False


Cuando tenemos cosas duplicadas

In [None]:
edades= df_ejemplo['Edad']
edades

uo001    25
uo002    30
uo003    22
uo004    35
uo005    28
uo006    40
uo007    27
uo008    29
uo009    32
uo010    24
uo011    33
uo012    26
uo013    31
uo014    23
uo015    37
Name: Edad, dtype: int64

¿Que ocurre si creamos una variable con una de las columnas y luego hacemos modificaciones sobre el dataframe original? ¿Se modifica la variable?


In [None]:
df_ejemplo.loc['uo001','Edad']

25

In [None]:
df_ejemplo.loc['uo001','Edad'] = 33
df_ejemplo

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,Curso,Turno presentacion,Grupo,Aprobado
uo001,Alcia,33,165.0,7,Primer curso,15,1,True
uo002,Bruno,30,180.0,8,Primer curso,14,2,True
uo003,Carlos,22,175.0,10,Primer curso,13,3,True
uo004,David,35,160.0,3,Primer curso,12,1,False
uo005,Elena,28,170.0,5,Primer curso,11,2,True
uo006,Fernando,40,160.0,7,Primer curso,10,3,True
uo007,gloria,27,180.0,10,Primer curso,9,1,True
uo008,hector,29,172.0,1,Primer curso,8,2,False
uo009,isabel,32,165.0,2,Primer curso,7,3,False
uo010,juan,24,187.0,1,Primer curso,6,1,False


In [None]:
edades   # tiene la edad modificada

uo001    33
uo002    30
uo003    22
uo004    35
uo005    28
uo006    40
uo007    27
uo008    29
uo009    32
uo010    24
uo011    33
uo012    26
uo013    31
uo014    23
uo015    37
Name: Edad, dtype: int64

¿Y al reves?

In [None]:
edades [0] = 22
edades

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  edades [0] = 22


uo001    22
uo002    30
uo003    22
uo004    35
uo005    28
uo006    40
uo007    27
uo008    29
uo009    32
uo010    24
uo011    33
uo012    26
uo013    31
uo014    23
uo015    37
Name: Edad, dtype: int64

In [None]:
df_ejemplo    #sale modificado

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion,Curso,Turno presentacion,Grupo,Aprobado
uo001,Alcia,22,165.0,7,Primer curso,15,1,True
uo002,Bruno,30,180.0,8,Primer curso,14,2,True
uo003,Carlos,22,175.0,10,Primer curso,13,3,True
uo004,David,35,160.0,3,Primer curso,12,1,False
uo005,Elena,28,170.0,5,Primer curso,11,2,True
uo006,Fernando,40,160.0,7,Primer curso,10,3,True
uo007,gloria,27,180.0,10,Primer curso,9,1,True
uo008,hector,29,172.0,1,Primer curso,8,2,False
uo009,isabel,32,165.0,2,Primer curso,7,3,False
uo010,juan,24,187.0,1,Primer curso,6,1,False


# Clase 2

In [None]:
df_ejemplo.dropna()   # elimina cualquier fila que tenga un NA en cualquier columna
                     # no sobreescribe el original

In [6]:
df_ejemplo.dropna(subset=['Nombre'])  # lista con los nombres de las columnas donde hay NaN

Unnamed: 0,Nombre,Edad,Altura (cm),Puntuacion
uo001,Alcia,25,165.0,5
uo002,Bruno,30,180.0,6
uo003,Carlos,22,175.0,5
uo004,David,35,160.0,5
uo005,Elena,28,170.0,10
uo006,Fernando,40,160.0,3
uo007,gloria,27,180.0,10
uo008,hector,29,172.0,6
uo009,isabel,32,165.0,9
uo010,juan,24,187.0,4


In [8]:
df_ejemplo['Altura (cm)'].fillna(-1)   # rellena el na con un -1

uo001    165.0
uo002    180.0
uo003    175.0
uo004    160.0
uo005    170.0
uo006    160.0
uo007    180.0
uo008    172.0
uo009    165.0
uo010    187.0
uo011     -1.0
uo012    181.0
uo013    179.0
uo014    176.0
uo015    186.0
Name: Altura (cm), dtype: float64

In [9]:
df_ejemplo['Altura (cm)'].fillna(df_ejemplo['Altura (cm)'])

uo001    165.0
uo002    180.0
uo003    175.0
uo004    160.0
uo005    170.0
uo006    160.0
uo007    180.0
uo008    172.0
uo009    165.0
uo010    187.0
uo011      NaN
uo012    181.0
uo013    179.0
uo014    176.0
uo015    186.0
Name: Altura (cm), dtype: float64

In [10]:
df_ejemplo['Puntuacion'].replace(4,5)
# si quisiera modificar el original tendria que asignarlo

uo001     5
uo002     6
uo003     5
uo004     5
uo005    10
uo006     3
uo007    10
uo008     6
uo009     9
uo010     5
uo011     8
uo012     5
uo013     3
uo014     1
uo015     5
Name: Puntuacion, dtype: int64

In [None]:
# para duplicar los datos y poder modificar en uno sin que se modifique en el otro y asi tener una copia de seguridad
new_df = df_ejemplo.copy()
new_df

# Importar y exportar datos

Volver a subir el archivo, no queda guardado cuando se reinicia

In [12]:
pokemon = pd.read_csv('Pokemon.csv')
pokemon

Unnamed: 0,Number,Name,Type1,Type2,Total,HitPoints,Attack,Defense,SpecialAttack,SpecialDefense,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,600,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,700,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,600,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,680,80,160,60,170,130,80,6,True


In [15]:
# despues de exclamacion es como la terminal
!pip install palmerpenguins

Collecting palmerpenguins
  Downloading palmerpenguins-0.1.4-py3-none-any.whl (17 kB)
Installing collected packages: palmerpenguins
Successfully installed palmerpenguins-0.1.4


In [8]:
import palmerpenguins

In [9]:
# poner esa funcion en nuestro entorno para cargar los fatos
from palmerpenguins import load_penguins


In [10]:
penguins = load_penguins()
penguins

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


In [21]:
datos = {'Colunma 1': [2,3,50],
         'Columna 2': ['a','b','c']}

df= pd.DataFrame(datos)
df

Unnamed: 0,Colunma 1,Columna 2
0,2,a
1,3,b
2,50,c


In [23]:
df.to_csv('mi_archivo.csv', index= False)   #esta en el entorno, si no lo guardo o descargo lo pierdo

# Explorar

In [24]:
# estadisticas basicas
penguins.describe()

Unnamed: 0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
count,342.0,342.0,342.0,342.0,344.0
mean,43.92193,17.15117,200.915205,4201.754386,2008.02907
std,5.459584,1.974793,14.061714,801.954536,0.818356
min,32.1,13.1,172.0,2700.0,2007.0
25%,39.225,15.6,190.0,3550.0,2007.0
50%,44.45,17.3,197.0,4050.0,2008.0
75%,48.5,18.7,213.0,4750.0,2009.0
max,59.6,21.5,231.0,6300.0,2009.0


In [25]:
type(penguins)   # veo el tipo de la base de datos

pandas.core.frame.DataFrame

In [26]:
penguins.dtypes    # veo los de cada uno

species               object
island                object
bill_length_mm       float64
bill_depth_mm        float64
flipper_length_mm    float64
body_mass_g          float64
sex                   object
year                   int64
dtype: object

In [18]:
penguins.info()  # tipos y si hay NaNs

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   species            344 non-null    object 
 1   island             344 non-null    object 
 2   bill_length_mm     342 non-null    float64
 3   bill_depth_mm      342 non-null    float64
 4   flipper_length_mm  342 non-null    float64
 5   body_mass_g        342 non-null    float64
 6   sex                333 non-null    object 
 7   year               344 non-null    int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 21.6+ KB


In [32]:
penguins['species'] == 'Adelie'   # booleanos

0       True
1       True
2       True
3       True
4       True
       ...  
339    False
340    False
341    False
342    False
343    False
Name: species, Length: 344, dtype: bool

In [33]:
# si quiero quedarme solo con esos
penguins[penguins['species'] == 'Adelie']

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
147,Adelie,Dream,36.6,18.4,184.0,3475.0,female,2009
148,Adelie,Dream,36.0,17.8,195.0,3450.0,female,2009
149,Adelie,Dream,37.8,18.1,193.0,3750.0,male,2009
150,Adelie,Dream,36.0,17.1,187.0,3700.0,female,2009


In [34]:
penguins['species'].unique()  # valores unicos de la columna

array(['Adelie', 'Gentoo', 'Chinstrap'], dtype=object)

In [36]:
# cualquier funcion con groupby lo devuelve en tabla
penguins.groupby('species').mean()     # la media por especie

  penguins.groupby('species').mean()


Unnamed: 0_level_0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adelie,38.791391,18.346358,189.953642,3700.662252,2008.013158
Chinstrap,48.833824,18.420588,195.823529,3733.088235,2007.970588
Gentoo,47.504878,14.982114,217.186992,5076.01626,2008.080645


In [38]:
penguins.groupby(['species','sex'])[['bill_length_mm','flipper_length_mm']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,bill_length_mm,flipper_length_mm
species,sex,Unnamed: 2_level_1,Unnamed: 3_level_1
Adelie,female,37.257534,187.794521
Adelie,male,40.390411,192.410959
Chinstrap,female,46.573529,191.735294
Chinstrap,male,51.094118,199.911765
Gentoo,female,45.563793,212.706897
Gentoo,male,49.47377,221.540984


In [46]:
penguins.dtypes

species                object
island                 object
bill_length_mm        float64
bill_depth_mm         float64
flipper_length_mm     float64
body_mass_g           float64
sex                    object
year                 category
dtype: object

In [45]:
penguins['year'].unique()

[2007, 2008, 2009]
Categories (3, int64): [2007 < 2008 < 2009]

In [44]:
# cambiar el año que esta en numeros a date
penguins['year'] = penguins['year'].astype(pd.CategoricalDtype(ordered= True))

In [11]:
penguins.dtypes

species               object
island                object
bill_length_mm       float64
bill_depth_mm        float64
flipper_length_mm    float64
body_mass_g          float64
sex                   object
year                   int64
dtype: object

In [48]:
columnas_a_convertir = ['species','island','sex']
penguins[columnas_a_convertir] = penguins[columnas_a_convertir].astype('category')

In [49]:
penguins.dtypes

species              category
island               category
bill_length_mm        float64
bill_depth_mm         float64
flipper_length_mm     float64
body_mass_g           float64
sex                  category
year                 category
dtype: object

In [50]:
penguins['year'].value_counts()    # de cada categoria cuantos valores tengo

2009    120
2008    114
2007    110
Name: year, dtype: int64

In [12]:
penguins.groupby('sex')['species'].value_counts()    # tablas contingencia

sex     species  
female  Adelie       73
        Gentoo       58
        Chinstrap    34
male    Adelie       73
        Gentoo       61
        Chinstrap    34
Name: species, dtype: int64

In [13]:
penguins.groupby(['sex','species','island']).size().reset_index(name="frecuencia")   # size para crear el formato

Unnamed: 0,sex,species,island,frecuencia
0,female,Adelie,Biscoe,22
1,female,Adelie,Dream,27
2,female,Adelie,Torgersen,24
3,female,Chinstrap,Dream,34
4,female,Gentoo,Biscoe,58
5,male,Adelie,Biscoe,22
6,male,Adelie,Dream,28
7,male,Adelie,Torgersen,23
8,male,Chinstrap,Dream,34
9,male,Gentoo,Biscoe,61


In [16]:
tabla_frecuencias = penguins.groupby(['species','island']).size().reset_index(name="frecuencia")
tabla_frecuencias

Unnamed: 0,species,island,frecuencia
0,Adelie,Biscoe,44
1,Adelie,Dream,56
2,Adelie,Torgersen,52
3,Chinstrap,Dream,68
4,Gentoo,Biscoe,124


Pivote a lo ancho. Quiero coger los valores de una columna y pasarlos a que sean muchas columnas. Luego voy a rellenar las celdas con los valores de otra columna

In [17]:
tabla_frecuencias.pivot(index= 'species', columns='island',values= 'frecuencia')

island,Biscoe,Dream,Torgersen
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adelie,44.0,56.0,52.0
Chinstrap,,68.0,
Gentoo,124.0,,


Pivotar a lo largo. Los nombres de las columnas pasan a estar almacenados en una unica columna y los valores que tomaban en otra columna.

In [19]:
penguins

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


In [22]:
# id vars lista variables que se mantiene fija en la estructura
penguins_long = pd.melt(penguins, id_vars= ['species' , 'island', 'sex', 'year'],
                        var_name= 'medida',
                        value_name = 'valor')
penguins_long

Unnamed: 0,species,island,sex,year,medida,valor
0,Adelie,Torgersen,male,2007,bill_length_mm,39.1
1,Adelie,Torgersen,female,2007,bill_length_mm,39.5
2,Adelie,Torgersen,female,2007,bill_length_mm,40.3
3,Adelie,Torgersen,,2007,bill_length_mm,
4,Adelie,Torgersen,female,2007,bill_length_mm,36.7
...,...,...,...,...,...,...
1371,Chinstrap,Dream,male,2009,body_mass_g,4000.0
1372,Chinstrap,Dream,female,2009,body_mass_g,3400.0
1373,Chinstrap,Dream,male,2009,body_mass_g,3775.0
1374,Chinstrap,Dream,male,2009,body_mass_g,4100.0


In [25]:
# saber cuantos NaNs hay
penguins.isnull().sum()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
year                  0
dtype: int64

In [26]:
penguins.isna().sum()   # lo mismo pero mejor isnull

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
year                  0
dtype: int64

In [29]:
# saber si todos los valores de la fila son nulos
penguins.isnull().all(axis=1)


0      False
1      False
2      False
3      False
4      False
       ...  
339    False
340    False
341    False
342    False
343    False
Length: 344, dtype: bool

In [30]:
# saber si alguna fila tiene todos los valores nulos
penguins.isnull().all(axis=1).any()

False

In [32]:
# veo donde estan los que tienen algun valor nulo
num_nas_por_fila = penguins.isnull().sum(axis=1)
penguins[num_nas_por_fila != 0]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
3,Adelie,Torgersen,,,,,,2007
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,,2007
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,,2007
10,Adelie,Torgersen,37.8,17.1,186.0,3300.0,,2007
11,Adelie,Torgersen,37.8,17.3,180.0,3700.0,,2007
47,Adelie,Dream,37.5,18.9,179.0,2975.0,,2007
178,Gentoo,Biscoe,44.5,14.3,216.0,4100.0,,2007
218,Gentoo,Biscoe,46.2,14.4,214.0,4650.0,,2008
256,Gentoo,Biscoe,47.3,13.8,216.0,4725.0,,2009
268,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,,2009


## Definiendo funciones de limpieza propias

In [34]:
def calcular_rango(columna):
  return columna.max() - columna.min()

penguins.groupby('species')['bill_length_mm'].agg(calcular_rango)

species
Adelie       13.9
Chinstrap    17.1
Gentoo       18.7
Name: bill_length_mm, dtype: float64

In [41]:
# dime las espcies en las que hay al menos un pinguino con una longitud de aleta superior a 200 mm
(penguins['flipper_length_mm'] > 220).any()     # devuelve un true asi que hay al menos una fila que cumple

# en x vamos a tener un subconjunto de los datos que tiene solo a los pinguinos de una especie
# (x['flipper_length_mm'] > 220).any()

penguins.groupby('species').filter(lambda x: (x['flipper_length_mm'] > 220).any())['species'].unique()    # crea los grupos y para subconjunto mira si se cumple la condicion

array(['Gentoo'], dtype=object)

las funciones lambda es como un for para cada uno de los grupos