<img src = "img/images.png" style="height:85px;">

<div style="text-align:center">
    Enero 20, 2025

 # Pandas 
    
    
<img src ="img/Python-Logo.jpg" style="height:355px;">
    
</div>

*Esteban Sánchez*

## 1. Pandas

- Librería estándar de Python para datos tabulares.
- Ofrece dos estructuras: Series (1-D) y DataFrame (2-D).

In [1]:
import pandas as pd
from pandas import Series, DataFrame

In [2]:
pd.__version__

'2.3.3'

## 2. Series
- Vector + índice personalizable.
- Se comporta como array de NumPy y como diccionario: se accede por posición o por etiqueta, se puede iterar, filtrar con mascaras, aplicar funciones de NumPy y castear a lista, array o dict.
- Operaciones aritméticas alinean los índices; falta de coincidencia → NaN.

In [3]:
paises = pd.Series(['España' , 'Andorra' , 'Gibraltar' , 'Portugal' , 'Francia'])
print(paises)

0       España
1      Andorra
2    Gibraltar
3     Portugal
4      Francia
dtype: object


In [4]:
paises = pd.Series(['España' , 'Andorra' , 'Gibraltar' , 'Portugal' , 'Francia'],
                  index = range(10,60,10))
print(paises)

10       España
20      Andorra
30    Gibraltar
40     Portugal
50      Francia
dtype: object


In [5]:
ciudades = pd.Series(['Barcelona' , 'Madrid' , 'Valencia' , 'Sevilla'] , 
                    index =['a', 'b' , 'c' , 'd'])  #Especificando el indice
print(ciudades)

a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
dtype: object


In [6]:
ciudades.name = 'Ciudades con 2 equipos en primera división' #Nombre de Serie

ciudades.index.name = 'ID' #Nombre de la columna de indices 

print(ciudades)

ID
a    Barcelona
b       Madrid
c     Valencia
d      Sevilla
Name: Ciudades con 2 equipos en primera división, dtype: object


In [7]:
print (ciudades[2])
print (ciudades['c'])
print (ciudades['c'] == ciudades[2])

Valencia
Valencia
True


  print (ciudades[2])
  print (ciudades['c'] == ciudades[2])


## 3. Comportamiento similar a ndarray

In [8]:
print(ciudades[ ['a','c'] ])
print(ciudades[ [0,3] ])

ID
a    Barcelona
c     Valencia
Name: Ciudades con 2 equipos en primera división, dtype: object
ID
a    Barcelona
d      Sevilla
Name: Ciudades con 2 equipos en primera división, dtype: object


  print(ciudades[ [0,3] ])


In [9]:
print(ciudades [:'c']) # incluye ambos extremos con el indice semantico
print(ciudades [:2])

ID
a    Barcelona
b       Madrid
c     Valencia
Name: Ciudades con 2 equipos en primera división, dtype: object
ID
a    Barcelona
b       Madrid
Name: Ciudades con 2 equipos en primera división, dtype: object


In [10]:
lista = list(ciudades[:'c'])

print(lista)
print(type(lista))

['Barcelona', 'Madrid', 'Valencia']
<class 'list'>


In [11]:
type(ciudades[:'c'])

pandas.core.series.Series

In [12]:
import numpy as np

ciudades_2 = np.array(ciudades[:'c'])
print(ciudades_2)
print(type(ciudades_2))

['Barcelona' 'Madrid' 'Valencia']
<class 'numpy.ndarray'>


In [13]:
lista = dict(ciudades[:'c'])
print(lista)

{'a': 'Barcelona', 'b': 'Madrid', 'c': 'Valencia'}


In [14]:
#uso de mask

fibonacci = pd.Series ([0,1,1,2,3,5,8,13,21])

print(fibonacci)

mask = fibonacci > 10
print(mask)
print(fibonacci[mask])

dst = pd.Series([13,21])

print(dst)
dst.equals(fibonacci)

fb = fibonacci[mask]

fb.reset_index(drop=True, inplace=True)

print(fb)

dst.equals(fb)

0     0
1     1
2     1
3     2
4     3
5     5
6     8
7    13
8    21
dtype: int64
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7     True
8     True
dtype: bool
7    13
8    21
dtype: int64
0    13
1    21
dtype: int64
0    13
1    21
dtype: int64


True

In [15]:
import numpy as np 

print(np.sum(fibonacci))

54


In [16]:
#filtrar con np.where

distancias =pd.Series ([12.1,np.nan, 12.8,76.9,6.1,7.2])

distancias_validas = np.where(pd.notnull(distancias) , distancias,2)

print(distancias_validas)
print(type(distancias_validas))

[12.1  2.  12.8 76.9  6.1  7.2]
<class 'numpy.ndarray'>


#### 3.0.1 Iteración

In [17]:
#iteracion sobre elemento

for value in fibonacci :
    print('Valor: ' + str(value))
for index in fibonacci.index:
    print('Indice: ' + str(index)) 

Valor: 0
Valor: 1
Valor: 1
Valor: 2
Valor: 3
Valor: 5
Valor: 8
Valor: 13
Valor: 21
Indice: 0
Indice: 1
Indice: 2
Indice: 3
Indice: 4
Indice: 5
Indice: 6
Indice: 7
Indice: 8


In [18]:
for index , value in fibonacci.items():
    print('Índice:' + str(index) + ' Valor:' + str(value))

Índice:0 Valor:0
Índice:1 Valor:1
Índice:2 Valor:1
Índice:3 Valor:2
Índice:4 Valor:3
Índice:5 Valor:5
Índice:6 Valor:8
Índice:7 Valor:13
Índice:8 Valor:21


In [19]:
for index , value in zip(fibonacci.index , fibonacci):
    print('Índice:' + str(index) + ' Valor:' + str(value))

Índice:0 Valor:0
Índice:1 Valor:1
Índice:2 Valor:1
Índice:3 Valor:2
Índice:4 Valor:3
Índice:5 Valor:5
Índice:6 Valor:8
Índice:7 Valor:13
Índice:8 Valor:21


### 3.1 Series como diccionarios

- Interpreta al índice como clave
- Acepta operaciones para diccionarios

In [20]:
# crear una serie a partir de un diccionario

serie = pd.Series({'Carlos' : 100 , 'Marcos' : 98})

print(serie.index)
print(serie.values)

print(serie)
print(type(serie))

Index(['Carlos', 'Marcos'], dtype='object')
[100  98]
Carlos    100
Marcos     98
dtype: int64
<class 'pandas.core.series.Series'>


In [21]:
serie['Pedro'] = 12
serie ['Pedro'] = 15
del serie['Marcos']
print(serie)

Carlos    100
Pedro      15
dtype: int64


### 3.2 Operaciones entre series

In [22]:
# suma de 2 series

#suma de valores con el mismo indice (NaN no aparece en ambas)
serie1 = pd.Series([10,20,30,40] , index =range(4) )
serie2 = pd.Series([1,2,3] , index =range(3) )

suma = serie1+ serie2
print(suma)

0    11.0
1    22.0
2    33.0
3     NaN
dtype: float64


In [23]:
print(serie1-serie2)

0     9.0
1    18.0
2    27.0
3     NaN
dtype: float64


In [24]:
result = serie1 + serie2

result[pd.isnull(result)] = 0 #mask con `isnull`
print(result)

0    11.0
1    22.0
2    33.0
3     0.0
dtype: float64


#### 3.2.1 Diferencias entre Pandas Series y diccionarios
- Diccionario, es una estructura que relaciona las claves y los valores de forma arbitraria.
-  Series, estructura de forma estricta listas de valores con listas de índice asignado en la posición.
-  Series, es más eficiente para ciertas operaciones que los dicionarios.
-  En las Series los valores de entrada pueden ser listas o Numpy arrays.
-  En Series los índices semánticos pueden ser integers o caracteres, en los valores igual.
-  Series se podría entender entre una lista y un diccionario Python, pero es de una dimensión

## 4. DataFrame
- Datos Tabulares (Fila x Columna)
- Columnas: Series con índices compartidos

In [25]:
#añadir columnas

diccionario = {'Nombre' : ['Maria' , 'Laura' , 'Manuel'] ,
              "Edad" : [34,29,12] }
frame = pd.DataFrame (diccionario, index = ['a', 'b' , 'c'])
display(frame)

Unnamed: 0,Nombre,Edad
a,Maria,34
b,Laura,29
c,Manuel,12


In [26]:
#ademas de 'index' el parametro 'columns' especifica el numero y orden de las columnas
frame = pd.DataFrame(diccionario , columns =['Nacionalidad' , 'Nombre' , 'Edad' , 'Profesion' , 'Genero'])
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Genero
0,,Maria,34,,
1,,Laura,29,,
2,,Manuel,12,,


In [27]:
#acceso a las columnas

nombres = frame['Nombre']
display(nombres)
print(type(nombres))

edad = frame ['Edad']
display(edad)
print(type(edad))

0     Maria
1     Laura
2    Manuel
Name: Nombre, dtype: object

<class 'pandas.core.series.Series'>


0    34
1    29
2    12
Name: Edad, dtype: int64

<class 'pandas.core.series.Series'>


In [28]:
#siempre y cuando el nombre de la columna lo permita (espacios, ...=

nombres = frame.Profesion
display(nombres)
type(nombres)

0    NaN
1    NaN
2    NaN
Name: Profesion, dtype: object

pandas.core.series.Series

In [29]:
print(frame['Nombre'][0])
print(frame.Nombre[0])
print(nombres[0])

Maria
Maria
nan


#### 4.0.1 Formas de crear un DataFrame

- Serie de pandas
- Lista de diccionarios
- Diccionario de Serie Pandas
- Con un array de Numpy bidimensional
- Con un array de NumPy

### 4.1 Modificar un DataFrame

In [30]:
# añadir columnas
diccionario = {"Nombre" : ["Maria" , "Laura" , "Daniel"] ,
              "Edad" : [34,29,12]}
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad' , 'Nombre' , 'Edad' , 'Profesion' , 'Direccion'])
frame ['Direccion'] = 'Desconocida'
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Maria,34,,Desconocida
1,,Laura,29,,Desconocida
2,,Daniel,12,,Desconocida


In [31]:
lista_direcciones = ['Rue 13 del Percebe, 13', 'Evergreen Terrace, 3', 'Av de los Rombos, 12']

In [32]:
frame['Direccion'] = lista_direcciones

display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Maria,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Daniel,12,,"Av de los Rombos, 12"


In [33]:
#añadir una fila
user_2  = ['Alemania' , 'Klaus' , 20, 'none' , 'Desconocida']

frame.loc[3] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Maria,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Daniel,12,,"Av de los Rombos, 12"
3,Alemania,Klaus,20,none,Desconocida


In [34]:
frame = pd.DataFrame(diccionario , columns =['Nacionalidad' , 'Nombre' , 'Edad',  'Profesion'])

frame = frame.drop(2)
display(frame)

frame.drop('Nombre' , axis=1, inplace=True)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Maria,34,
1,,Laura,29,


Unnamed: 0,Nacionalidad,Edad,Profesion
0,,34,
1,,29,


In [35]:
#elimiar columna

del frame['Profesion']
display(frame)

Unnamed: 0,Nacionalidad,Edad
0,,34
1,,29


In [36]:
display(frame.T)

Unnamed: 0,0,1
Nacionalidad,,
Edad,34.0,29.0


### 4.2 Iteración

In [37]:
frame = pd.DataFrame(diccionario, columns = ['Nacionalidad' , 'Nombre' , 'Edad' , 'Profesion'])
display(frame)

for a in frame :
    print(a)
    print(type(a))

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Maria,34,
1,,Laura,29,
2,,Daniel,12,


Nacionalidad
<class 'str'>
Nombre
<class 'str'>
Edad
<class 'str'>
Profesion
<class 'str'>


In [38]:
# iteracion sobre filas
for value in frame.values:
    print(value)
    print(type(value))

[nan 'Maria' 34 nan]
<class 'numpy.ndarray'>
[nan 'Laura' 29 nan]
<class 'numpy.ndarray'>
[nan 'Daniel' 12 nan]
<class 'numpy.ndarray'>


In [40]:
# iterar sobre filas y luego sobre cada valor?
for values in frame.values:
    for value in values:
        print(value)

nan
Maria
34
nan
nan
Laura
29
nan
nan
Daniel
12
nan


## 4.3 Indexación y slicing con DataFrame

In [41]:
d1= {'ciudad' : 'Valencia' , 'temperatura' : 10, 'o2' : 1}
d2= {'ciudad' : 'Barcelona' , 'temperatura' : 8}
d3= {'ciudad' : 'Valencia' , 'temperatura' : 9}
d4= {'ciudad' : 'Madrid' , 'temperatura' :10, 'humedad' : 80}
d5= {'ciudad' : 'Sevilla' , 'temperatura' : 15 , 'humedad' : 50, 'co2' : 6}
d6= {'ciudad' : 'Valencia' , 'temperatura' :10 , 'humedad' : 90, 'co2' :10 }

ls_data = [d1,d2,d3,d4,d5,d6] #lista de diccionarios

df_data = pd.DataFrame(ls_data, index=list('abcdef'))
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [42]:
#Acesso a un valor en concreto por indice posicional

print(df_data.iloc[1,1])

display(df_data.iloc[3,4])
display(df_data.loc['a','temperatura'])
display(df_data.loc[:'c',:'o2'])
display(df_data.loc[:'c','temperatura' : 'o2'])
display(df_data.loc[:, ['ciudad' , 'o2']])

8


np.float64(nan)

np.int64(10)

Unnamed: 0,ciudad,temperatura,o2
a,Valencia,10,1.0
b,Barcelona,8,
c,Valencia,9,


Unnamed: 0,temperatura,o2
a,10,1.0
b,8,
c,9,


Unnamed: 0,ciudad,o2
a,Valencia,1.0
b,Barcelona,
c,Valencia,
d,Madrid,
e,Sevilla,
f,Valencia,


In [43]:
print(df_data['ciudad'])
print(df_data[['ciudad','o2']])

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object
      ciudad   o2
a   Valencia  1.0
b  Barcelona  NaN
c   Valencia  NaN
d     Madrid  NaN
e    Sevilla  NaN
f   Valencia  NaN


In [44]:
df_data[0]

KeyError: 0

In [45]:
print(df_data.iloc[0])

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


In [46]:
df_data.loc['a']

ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

In [47]:
df_data.loc[:'b']

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,


In [48]:
df_data.loc[:'b'].loc[:,["o2" , "humedad"]]

Unnamed: 0,o2,humedad
a,1.0,
b,,


In [49]:
display(df_data)

serie = df_data.loc['a']
print(serie)

serie.iloc[2]
display(df_data)

df_2 = df_data.loc['a'].copy()

df_2.iloc[2]

display(df_2)
display(df_data)

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object


Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


ciudad         Valencia
temperatura          10
o2                  1.0
humedad             NaN
co2                 NaN
Name: a, dtype: object

Unnamed: 0,ciudad,temperatura,o2,humedad,co2
a,Valencia,10,1.0,,
b,Barcelona,8,,,
c,Valencia,9,,,
d,Madrid,10,,80.0,
e,Sevilla,15,,50.0,6.0
f,Valencia,10,,90.0,10.0


In [50]:
df_data.loc(axis=1) ['ciudad']

a     Valencia
b    Barcelona
c     Valencia
d       Madrid
e      Sevilla
f     Valencia
Name: ciudad, dtype: object

In [51]:
frame = pd.DataFrame({"Nombre" : ['Carlos', 'Pedro'] , "Edad": [34,22] },
                     index = [1,0])
display(frame)

Unnamed: 0,Nombre,Edad
1,Carlos,34
0,Pedro,22


In [52]:
print('Primera fila\n')

print(frame.iloc[0])

print('Elemento con Index\n')

print(frame.loc[0])

Primera fila

Nombre    Carlos
Edad          34
Name: 1, dtype: object
Elemento con Index

Nombre    Pedro
Edad         22
Name: 0, dtype: object


## 4.4 Objeto Index de Pandas

In [57]:
# construccion de indices
ind = pd.Index([2,3,5,23,26])

print(ind[3])
print(ind[::2])

23
Index([2, 5, 26], dtype='int64')


In [58]:
frame = pd.DataFrame({"Nombre" :  ['Carlos' , 'Pepe' , 'Manolo' , 'Luis' ,'Alberto'] , "Edad" :[34,22,15,55,23]} ,index = ind)

display(frame)


Unnamed: 0,Nombre,Edad
2,Carlos,34
3,Pepe,22
5,Manolo,15
23,Luis,55
26,Alberto,23


In [59]:
ind[3] = 8

TypeError: Index does not support mutable operations

In [61]:
frame = pd.DataFrame({"Nombre" : ['Carlos' , 'Pedro' ,'Manolo' , 'Luis' , 'Alberto'] , "Edad" : [34,22,15,55,23]} , index=ind)

display(frame)


frame.set_index('Edad' , inplace = True)

display(frame)

Unnamed: 0,Nombre,Edad
2,Carlos,34
3,Pedro,22
5,Manolo,15
23,Luis,55
26,Alberto,23


Unnamed: 0_level_0,Nombre
Edad,Unnamed: 1_level_1
34,Carlos
22,Pedro
15,Manolo
55,Luis
23,Alberto


## 4.5 Slicing

In [64]:
#slice por filas

d_and_d_characters = {'Nombre' :['bundenth' , 'theorin' , 'barlok'] , 'Fuerza' : [10,12,19] , 'Sabiduria' : [20,13,6]}

character_data = pd.DataFrame(d_and_d_characters, index = ['a','b','c'])
display(character_data)
display(character_data[:-1])
display(character_data[1:2])

Unnamed: 0,Nombre,Fuerza,Sabiduria
a,bundenth,10,20
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Nombre,Fuerza,Sabiduria
a,bundenth,10,20
b,theorin,12,13


Unnamed: 0,Nombre,Fuerza,Sabiduria
b,theorin,12,13


In [65]:
#slicing por columna

display(character_data[['Nombre' , 'Sabiduria']])

Unnamed: 0,Nombre,Sabiduria
a,bundenth,20
b,theorin,13
c,barlok,6


In [67]:
# sliocing con iloc y loc

display(character_data.iloc[1:])
display(character_data.loc[:'b' , 'Nombre' : 'Fuerza'])

Unnamed: 0,Nombre,Fuerza,Sabiduria
b,theorin,12,13
c,barlok,19,6


Unnamed: 0,Nombre,Fuerza
a,bundenth,10
b,theorin,12


¿Cómo filtrar filas y columnas? Por ejemplo, para todos los personajes, obtener 'Nombre’ y ‘Fuerza’

In [69]:
#usando loc para buscar especificamente filas y columnas

display(character_data.loc[['a','c'] , ['Nombre' , 'Sabiduria']])

Unnamed: 0,Nombre,Sabiduria
a,bundenth,20
c,barlok,6


In [70]:
# lo mismo con iloc

display(character_data.iloc[[0,2] , [0,2]])
display(character_data.iloc[[0,-1] , [0,-1]])

Unnamed: 0,Nombre,Sabiduria
a,bundenth,20
c,barlok,6


Unnamed: 0,Nombre,Sabiduria
a,bundenth,20
c,barlok,6


In [74]:
# lista de los personajes con Fuerza > 15 o Sabiduria > 15

display(character_data.loc[(character_data['Fuerza'] > 15) | (character_data['Sabiduria'] > 15)])

Unnamed: 0,Nombre,Fuerza,Sabiduria
a,bundenth,10,20
c,barlok,19,6


## 5. Cargar y guardar datos en pandas

In [81]:
import os 
ruta = os.path.join("res" , 'o_d_d_characters.csv')
character_data.to_csv(ruta, sep=';')

In [83]:
loaded = pd.read_csv(ruta, sep= ';')
display(loaded)

Unnamed: 0.1,Unnamed: 0,Nombre,Fuerza,Sabiduria
0,a,bundenth,10,20
1,b,theorin,12,13
2,c,barlok,19,6


In [84]:
ruta = os.path.join("res" , "titanic.csv")

In [85]:
titanic = pd.read_csv(ruta, sep=',')
display(titanic)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [86]:
loaded = pd.read_csv(ruta,sep=',' , index_col=0)
display(loaded)

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


***otros argumentos to_csv()**
- `na_resp='string'` --> representar valorrs NaN en el archivo csv

**otros argmunetos read_csv()**

- `na_values =='string'`

Puedes tambien ofrece funciones para leer/guardar a otros formatos estándares: JSON, HDF5 o Excel en su API

## 6. Ejemplo práctico en Pandas
- MovieLens dataset
- Reviews de películas
- 1 millón de entradas
- Datos demográficos de usuarios

In [87]:
import numpy as np
import pandas as pd
import zipfile
import urllib.request
import os

url = 'http://files.grouplens.org/datasets/movielens/ml-1m.zip'
ruta = os.path.join("res" , "ml-1m.zip")
urllib.request.urlretrieve(url,ruta)

('res\\ml-1m.zip', <http.client.HTTPMessage at 0x1d22673b590>)

In [88]:
ruta_ext = os.path.join("res")
with zipfile.ZipFile(ruta, 'r') as z :
    print('Extrayendo archivos...')
    z.extractall(ruta_ext)
    print("Finalizado con Exito!")

Extrayendo archivos...
Finalizado con Exito!


In [91]:
ruta_users = os.path.join("res" ,"ml-1m" , "users.dat")
users_dataset = pd.read_csv(ruta_users, sep='::' , index_col=0 , engine='python')
display(users_dataset)

Unnamed: 0_level_0,F,1.1,10,48067
1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
6,F,50,9,55117
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [92]:
pd.read_csv?

[31mSignature:[39m
pd.read_csv(
    filepath_or_buffer: [33m'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]'[39m,
    *,
    sep: [33m'str | None | lib.NoDefault'[39m = <no_default>,
    delimiter: [33m'str | None | lib.NoDefault'[39m = [38;5;28;01mNone[39;00m,
    header: [33m"int | Sequence[int] | None | Literal['infer']"[39m = [33m'infer'[39m,
    names: [33m'Sequence[Hashable] | None | lib.NoDefault'[39m = <no_default>,
    index_col: [33m'IndexLabel | Literal[False] | None'[39m = [38;5;28;01mNone[39;00m,
    usecols: [33m'UsecolsArgType'[39m = [38;5;28;01mNone[39;00m,
    dtype: [33m'DtypeArg | None'[39m = [38;5;28;01mNone[39;00m,
    engine: [33m'CSVEngine | None'[39m = [38;5;28;01mNone[39;00m,
    converters: [33m'Mapping[Hashable, Callable] | None'[39m = [38;5;28;01mNone[39;00m,
    true_values: [33m'list | None'[39m = [38;5;28;01mNone[39;00m,
    false_values: [33m'list | None'[39m = [38;5;28;01mNone[39;00m,
    skipinitialspac

In [94]:
users_dataset = pd.read_csv(ruta_users , sep='::' , index_col=0, header=None, names = ['UserID' , 'Género' , 'Edad' , 'Ocupación' , 'Zip-Code'] , engine='python')
display(users_dataset)

Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,02460
5,M,25,20,55455
...,...,...,...,...
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,01060


In [95]:
display(users_dataset.sample(10))

Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2298,M,35,17,77584
1854,M,25,0,92346
4788,M,35,7,85331
2675,M,35,18,98664
3752,F,18,1,86314
4189,M,35,14,91364
2886,M,18,4,60073
5477,M,35,1,55343
4547,M,18,12,2115
4951,F,35,17,90291


In [96]:
display(users_dataset.head(4))

Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
2,M,56,16,70072
3,M,25,15,55117
4,M,45,7,2460


In [97]:
display(users_dataset.tail(10))

Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6031,F,18,0,45123
6032,M,45,7,55108
6033,M,50,13,78232
6034,M,25,14,94117
6035,F,25,1,78734
6036,F,25,15,32603
6037,F,45,1,76006
6038,F,56,1,14706
6039,F,45,0,1060
6040,M,25,6,11106


In [98]:
users_dataset.dtypes

Género       object
Edad          int64
Ocupación     int64
Zip-Code     object
dtype: object

In [100]:
display(users_dataset[users_dataset['Zip-Code'].str.len() > 5])

Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
161,M,45,16,98107-2117
233,F,45,20,37919-4204
293,M,56,1,55337-4056
458,M,50,16,55405-2546
506,M,25,16,55103-1006
...,...,...,...,...
5682,M,18,0,23455-4959
5904,F,45,12,954025
5925,F,25,0,90035-4444
5967,M,50,16,73069-5429


In [101]:
display(users_dataset.describe())

Unnamed: 0,Edad,Ocupación
count,6040.0,6040.0
mean,30.639238,8.146854
std,12.895962,6.329511
min,1.0,0.0
25%,25.0,3.0
50%,25.0,7.0
75%,35.0,14.0
max,56.0,20.0


In [102]:
users_dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6040 entries, 1 to 6040
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Género     6040 non-null   object
 1   Edad       6040 non-null   int64 
 2   Ocupación  6040 non-null   int64 
 3   Zip-Code   6040 non-null   object
dtypes: int64(2), object(2)
memory usage: 235.9+ KB


In [103]:
display(users_dataset.describe(include='all'))

Unnamed: 0,Género,Edad,Ocupación,Zip-Code
count,6040,6040.0,6040.0,6040.0
unique,2,,,3439.0
top,M,,,48104.0
freq,4331,,,19.0
mean,,30.639238,8.146854,
std,,12.895962,6.329511,
min,,1.0,0.0,
25%,,25.0,3.0,
50%,,25.0,7.0,
75%,,35.0,14.0,


In [105]:
len(users_dataset[users_dataset['Género'] == 'F'])

1709

In [106]:
under_age = users_dataset[users_dataset['Edad'] == 1]
print(len(under_age))
display(under_age.sample(10))

222


Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1353,M,1,10,95926
5414,M,1,10,7652
4787,M,1,11,94610
5953,M,1,10,21030
940,M,1,10,76240
4997,M,1,10,90210
2244,M,1,10,60565
51,F,1,10,10562
2687,M,1,10,8805
762,M,1,10,63041


In [108]:
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
header=None, names=['UserID','Género','Edad','Ocupación','Zip-Code'], engine='python')
under_age = users_dataset[users_dataset['Edad'] == 1]
under_age.loc['Edad'] = np.nan
display(under_age.head())

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  under_age.loc['Edad'] = np.nan


Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1.0,10.0,48067
19,M,1.0,10.0,48073
51,F,1.0,10.0,10562
75,F,1.0,10.0,1748
86,F,1.0,10.0,54467


In [110]:
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0, header=None, names=['UserID','Género','Edad','Ocupación','Zip-Code'], engine='python')
under_age = users_dataset[users_dataset['Edad'] == 1]
under_age_copy = under_age.copy()
display(under_age_copy.head())
under_age_copy['Edad'] = np.nan
display(under_age_copy.head())
users_dataset[users_dataset['Edad'] == 1] = under_age_copy # sets the rows according to the indexes
display(users_dataset.head())

Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,1748
86,F,1,10,54467


Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,1748
86,F,,10,54467


Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,2460
5,M,25.0,20,55455


In [111]:
users_dataset = pd.read_csv(ruta_users, sep='::', index_col=0,
header=None, names=['UserID','Género','Edad','Ocupación','Zip-Code'], engine='python')
display(users_dataset[users_dataset['Edad'] == 1].head(4))
users_dataset.loc[users_dataset['Edad'] == 1, 'Edad'] = np.nan
display(users_dataset)
display(users_dataset.loc[pd.isnull(users_dataset['Edad'])].head(4))
users_dataset.drop(users_dataset[pd.isnull(users_dataset['Edad'])].index, inplace = True)
display(users_dataset.head(4))

Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,1,10,48067
19,M,1,10,48073
51,F,1,10,10562
75,F,1,10,1748


Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,02460
5,M,25.0,20,55455
...,...,...,...,...
6036,F,25.0,15,32603
6037,F,45.0,1,76006
6038,F,56.0,1,14706
6039,F,45.0,0,01060


Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,F,,10,48067
19,M,,10,48073
51,F,,10,10562
75,F,,10,1748


Unnamed: 0_level_0,Género,Edad,Ocupación,Zip-Code
UserID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,M,56.0,16,70072
3,M,25.0,15,55117
4,M,45.0,7,2460
5,M,25.0,20,55455


In [113]:
display(users_dataset.groupby(by='Género').describe())

Unnamed: 0_level_0,Edad,Edad,Edad,Edad,Edad,Edad,Edad,Edad,Ocupación,Ocupación,Ocupación,Ocupación,Ocupación,Ocupación,Ocupación,Ocupación
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Género,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
F,1631.0,32.287554,11.792015,18.0,25.0,25.0,45.0,56.0,1631.0,6.498467,5.960285,0.0,1.0,4.0,11.0,20.0
M,4187.0,31.568665,11.716053,18.0,25.0,25.0,35.0,56.0,4187.0,8.743253,6.441753,0.0,4.0,7.0,15.0,20.0


In [114]:
ruta_output = os.path.join('res', 'ml-1m', 'o_users_processed.csv')
users_dataset.to_csv(ruta_output, sep=',',na_rep='null')

## 7. Ejercicios

2. Imprimir la version de pandas que se ha importado
4. Crear un DataFrame del diccionario data que tiene los indices `labels`
6. Retornar las 3 primeras filas de el DataFrame `df`
8. Seleccionar los datos de las filas `[3,4,8]` and en las columnas `[animal , 'age']`
10. Selcciona las filas donde la edad sea NaN
12. Selecciona las filas donde la edad este entre 2 y 4 (incluidos ambos)
14. Calcula la suma de todas las visitas en `df`
16. Añade una nueva fila `k` a `df` con los valores de cada colmna a tu elección. Luego, elimna esa fila par volver al DataFrame original
18. Ordena `df` primero por los valores de `age` en orden descendente, luego, por el valor  de  la columna `visits` en orden ascendente
20. En la colmna `animal` change la 'serpiente a 'python'

## Solución
2.

In [115]:
pd.__version__

'2.3.3'

4.

In [117]:
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(data, index=labels)
display(df)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


6.

In [118]:
display(df.head(3))

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no


8.

In [119]:
df.loc[['d', 'e', 'i'], ['animal', 'age']]

Unnamed: 0,animal,age
d,dog,
e,dog,5.0
i,dog,7.0


10.

In [120]:
df[df['age'].isna()]

Unnamed: 0,animal,age,visits,priority
d,dog,,3,yes
h,cat,,1,yes


12.

In [121]:
df[df['age'].between(2, 4)]

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
f,cat,2.0,3,no
j,dog,3.0,1,no


14.

In [122]:
df['visits'].sum()

np.int64(19)

16.

In [123]:
df.loc['k'] = ['python', 6, 4, 'yes']
display(df)
# Eliminarla para volver al DataFrame original
df = df.drop('k')
display(df)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,snake,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,snake,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


18.

In [124]:
df.sort_values(by=['age', 'visits'], ascending=[False, True])

Unnamed: 0,animal,age,visits,priority
i,dog,7.0,2,no
e,dog,5.0,2,no
g,snake,4.5,1,no
j,dog,3.0,1,no
b,cat,3.0,3,yes
a,cat,2.5,1,yes
f,cat,2.0,3,no
c,snake,0.5,2,no
h,cat,,1,yes
d,dog,,3,yes


20.

In [127]:
df['animal'] = df['animal'].replace('snake', 'python')
display(df)

Unnamed: 0,animal,age,visits,priority
a,cat,2.5,1,yes
b,cat,3.0,3,yes
c,python,0.5,2,no
d,dog,,3,yes
e,dog,5.0,2,no
f,cat,2.0,3,no
g,python,4.5,1,no
h,cat,,1,yes
i,dog,7.0,2,no
j,dog,3.0,1,no


Repositorio en GitHub: https://github.com/EstebanSan140106/machine-2.git