# Introducción a Pandas



[*Pandas*](http://pandas.pydata.org/) Es una librería de python para análisis de datos estructuradas en columnas y renglones, muy popular para manipulación, análisis y preprocesamiento  en columnas, ideal para manipular y analizar datos de entrada. Además, *Pandas* se integra muy bien con otras librerías de Ciencia de Datos, de manera que usualmente los algoritmos de machine learning reciben como entradas las dos principales estructuras de *Pandas*: los `DataFrames` y las `Series`




# Objetos de Pandas

In [1]:
import numpy as np
import pandas as pd

## Series

Las series son equivalentes a los vectores de NumPy.

Pueden crearse a partir de listas o vectores.

In [2]:
c = ['rojo', 'verde', 'azul', 'amarillo']
colores = pd.Series(c)
colores

0        rojo
1       verde
2        azul
3    amarillo
dtype: object

In [3]:
p = np.array([0.2, 0.4, 0.8, 1])
porcentajes = pd.Series(p)
porcentajes

0    0.2
1    0.4
2    0.8
3    1.0
dtype: float64

Una serie consta de los valores y de los índices y se puede acceder a ellos con los atributos  ``values`` e ``index``.

Los valores son un vector de NumPy

In [4]:
porcentajes.values

array([0.2, 0.4, 0.8, 1. ])

In [5]:
porcentajes.index

RangeIndex(start=0, stop=4, step=1)

Como en un vector de numpy, usamos los indices par obtener un subconjunto de elementos.

In [6]:
porcentajes[1]

0.4

In [7]:
porcentajes[1:3]

1    0.4
2    0.8
dtype: float64

Los objetos ``Series`` tienen la ventaja sobre los vectores de numpy que permite definir indices asociados a los valores, y pueden ser de cualquier tipo por ejemplo:

In [9]:
nivel_color = pd.Series(p,   # toma el objeto p (puede ser lista o vector)
                 index=c)    #asigna como índice el objeto c (lista o vector)
nivel_color

rojo        0.2
verde       0.4
azul        0.8
amarillo    1.0
dtype: float64

In [10]:
nivel_color.index

Index(['rojo', 'verde', 'azul', 'amarillo'], dtype='object')

In [11]:
nivel_color['azul']         # Nos recuerda el uso de los diccionarios

0.8

### Series son también como diccionarios



In [12]:
#diccionario con la población en 2020 para estados seleccionados

poblacion_dict = {'Aguascalientes': 1425607	,
                   'Guanajuato': 6166934,
                   'Jalisco': 8348151	,
                   'CDMX': 9209944,
                   'Querétaro': 2368467}

pob = pd.Series(poblacion_dict)
pob

Aguascalientes    1425607
Guanajuato        6166934
Jalisco           8348151
CDMX              9209944
Querétaro         2368467
dtype: int64

In [13]:
pob['Querétaro']

2368467

Con la ventaja de que podemos seleccionar una parte de los datos

In [14]:
pob['Aguascalientes':'CDMX']

Aguascalientes    1425607
Guanajuato        6166934
Jalisco           8348151
CDMX              9209944
dtype: int64

lo que no es posible hacer con los diccionarios

In [15]:
poblacion_dict['Aguascalientes':'CDMX']  

TypeError: ignored

### Más ejemplos de series

In [16]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

In [18]:
pd.Series(14, index=[150, 220, 380])

150    14
220    14
380    14
dtype: int64

In [19]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

##  DataFrame 

Igual que las ```Series```, un ```DataFrame``` se puede entender como una matriz de NumPy o como un diccionario, con ventajas adicionales

In [21]:
hombres_dic = {'Aguascalientes': 696683	,  'Guanajuato': 2996454,
               'Jalisco':4098455 , 'CDMX': 4404927, 'Querétaro': 1156820,
               }

In [22]:
pd.DataFrame({'total': poblacion_dict,'hombres': hombres_dic}) # A partir de dos diccionarios

Unnamed: 0,total,hombres
Aguascalientes,1425607,696683
Guanajuato,6166934,2996454
Jalisco,8348151,4098455
CDMX,9209944,4404927
Querétaro,2368467,1156820


guardamos el DataFrame con el nombre poblacion

In [23]:
poblacion = pd.DataFrame({'total': poblacion_dict,'hombres': hombres_dic}) 
poblacion

Unnamed: 0,total,hombres
Aguascalientes,1425607,696683
Guanajuato,6166934,2996454
Jalisco,8348151,4098455
CDMX,9209944,4404927
Querétaro,2368467,1156820


Un  ``DataFrame`` tiene además de los atributos ``values`` e ``index``, el atributo ``columns`` que es un índice que contiene las etiquetas de cada columna.

In [24]:
poblacion.values   

array([[1425607,  696683],
       [6166934, 2996454],
       [8348151, 4098455],
       [9209944, 4404927],
       [2368467, 1156820]])

In [25]:
poblacion.index

Index(['Aguascalientes', 'Guanajuato', 'Jalisco', 'CDMX', 'Querétaro'], dtype='object')

In [26]:
poblacion.columns

Index(['total', 'hombres'], dtype='object')

Los DataFrame son también una especie de diccionario donde las columnas actuan como claves


In [27]:
poblacion['hombres']

Aguascalientes     696683
Guanajuato        2996454
Jalisco           4098455
CDMX              4404927
Querétaro         1156820
Name: hombres, dtype: int64

pero no el índice (como ocurre para las Series)

In [28]:
poblacion['Guanajuato']

KeyError: ignored

al igual que los diccionarios, podemos agregar nuevas claves , y al igual que en NumPy podemos hacer opercion de vectores sin necesidad de recurrir a ciclos for

In [29]:
poblacion['mujeres'] = poblacion['total'] - poblacion['hombres']
poblacion

Unnamed: 0,total,hombres,mujeres
Aguascalientes,1425607,696683,728924
Guanajuato,6166934,2996454,3170480
Jalisco,8348151,4098455,4249696
CDMX,9209944,4404927,4805017
Querétaro,2368467,1156820,1211647


In [30]:
poblacion['porcentaje_muj'] = poblacion['mujeres']/poblacion['total']
poblacion

Unnamed: 0,total,hombres,mujeres,porcentaje_muj
Aguascalientes,1425607,696683,728924,0.511308
Guanajuato,6166934,2996454,3170480,0.51411
Jalisco,8348151,4098455,4249696,0.509058
CDMX,9209944,4404927,4805017,0.521721
Querétaro,2368467,1156820,1211647,0.511574


### Creación de DataFrame a partir de distintos objetos



#### Desde una series

In [38]:
type(pob)

pandas.core.series.Series

In [41]:
pd.DataFrame(pob, columns=['total'])  #desde una serie

Unnamed: 0,total
Aguascalientes,1425607
Guanajuato,6166934
Jalisco,8348151
CDMX,9209944
Querétaro,2368467


#### Desde un diccionario

In [42]:
[{'longitud': i, 'área': i*i} for i in range(5)]

[{'longitud': 0, 'área': 0},
 {'longitud': 1, 'área': 1},
 {'longitud': 2, 'área': 4},
 {'longitud': 3, 'área': 9},
 {'longitud': 4, 'área': 16}]

In [43]:
dimensiones = [{'longitud': i, 'área': i*i} for i in range(5)]
pd.DataFrame(dimensiones)

Unnamed: 0,longitud,área
0,0,0
1,1,1
2,2,4
3,3,9
4,4,16


#### Desde una matriz de NumPy


In [46]:
pd.DataFrame(np.random.rand(5, 3),
             columns=['columna1', 'columna2','columna3'],
             index=['a', 'b', 'c', 'd', 'e']
             )

Unnamed: 0,columna1,columna2,columna3
a,0.25129,0.349596,0.565288
b,0.54768,0.921614,0.619982
c,0.803448,0.058503,0.645445
d,0.435062,0.788268,0.498423
e,0.421964,0.938624,0.287901


## Lectura de archivos csv como DataFrames

In [66]:
#Leer datos mediante la función csv

titanic = pd.read_csv("https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv")
type(titanic)

pandas.core.frame.DataFrame

In [67]:
titanic

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.2500
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.9250
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1000
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.0500
...,...,...,...,...,...,...,...,...
882,0,2,Rev. Juozas Montvila,male,27.0,0,0,13.0000
883,1,1,Miss. Margaret Edith Graham,female,19.0,0,0,30.0000
884,0,3,Miss. Catherine Helen Johnston,female,7.0,1,2,23.4500
885,1,1,Mr. Karl Howell Behr,male,26.0,0,0,30.0000


In [68]:
titanic = titanic.set_index("Name")
titanic.head()

Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mr. Owen Harris Braund,0,3,male,22.0,1,0,7.25
Mrs. John Bradley (Florence Briggs Thayer) Cumings,1,1,female,38.0,1,0,71.2833
Miss. Laina Heikkinen,1,3,female,26.0,0,0,7.925
Mrs. Jacques Heath (Lily May Peel) Futrelle,1,1,female,35.0,1,0,53.1
Mr. William Henry Allen,0,3,male,35.0,0,0,8.05


In [71]:
titanic.columns


Index(['Survived', 'Pclass', 'Sex', 'Age', 'Siblings/Spouses Aboard',
       'Parents/Children Aboard', 'Fare'],
      dtype='object')

In [72]:
titanic.index

Index(['Mr. Owen Harris Braund',
       'Mrs. John Bradley (Florence Briggs Thayer) Cumings',
       'Miss. Laina Heikkinen', 'Mrs. Jacques Heath (Lily May Peel) Futrelle',
       'Mr. William Henry Allen', 'Mr. James Moran', 'Mr. Timothy J McCarthy',
       'Master. Gosta Leonard Palsson',
       'Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson',
       'Mrs. Nicholas (Adele Achem) Nasser',
       ...
       'Mr. Johann Markun', 'Miss. Gerda Ulrika Dahlberg',
       'Mr. Frederick James Banfield', 'Mr. Henry Jr Sutehall',
       'Mrs. William (Margaret Norton) Rice', 'Rev. Juozas Montvila',
       'Miss. Margaret Edith Graham', 'Miss. Catherine Helen Johnston',
       'Mr. Karl Howell Behr', 'Mr. Patrick Dooley'],
      dtype='object', name='Name', length=887)

In [73]:
titanic.values

array([[0, 3, 'male', ..., 1, 0, 7.25],
       [1, 1, 'female', ..., 1, 0, 71.2833],
       [1, 3, 'female', ..., 0, 0, 7.925],
       ...,
       [0, 3, 'female', ..., 1, 2, 23.45],
       [1, 1, 'male', ..., 0, 0, 30.0],
       [0, 3, 'male', ..., 0, 0, 7.75]], dtype=object)

In [74]:
## Una sola columna del datafreme es una Serie

edad = titanic['Age']
type(edad)

pandas.core.series.Series

In [75]:
edad

Name
Mr. Owen Harris Braund                                22.0
Mrs. John Bradley (Florence Briggs Thayer) Cumings    38.0
Miss. Laina Heikkinen                                 26.0
Mrs. Jacques Heath (Lily May Peel) Futrelle           35.0
Mr. William Henry Allen                               35.0
                                                      ... 
Rev. Juozas Montvila                                  27.0
Miss. Margaret Edith Graham                           19.0
Miss. Catherine Helen Johnston                         7.0
Mr. Karl Howell Behr                                  26.0
Mr. Patrick Dooley                                    32.0
Name: Age, Length: 887, dtype: float64

### Funciones, métodos y atributos .


In [77]:
titanic.head(3)

Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mr. Owen Harris Braund,0,3,male,22.0,1,0,7.25
Mrs. John Bradley (Florence Briggs Thayer) Cumings,1,1,female,38.0,1,0,71.2833
Miss. Laina Heikkinen,1,3,female,26.0,0,0,7.925


In [76]:
titanic.info() #regresa el numero de renglones, el número de columnas, los nombres de las columnas, 
                #la cantidad de datos faltanes, la clase de cada variable

<class 'pandas.core.frame.DataFrame'>
Index: 887 entries, Mr. Owen Harris Braund to Mr. Patrick Dooley
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Survived                 887 non-null    int64  
 1   Pclass                   887 non-null    int64  
 2   Sex                      887 non-null    object 
 3   Age                      887 non-null    float64
 4   Siblings/Spouses Aboard  887 non-null    int64  
 5   Parents/Children Aboard  887 non-null    int64  
 6   Fare                     887 non-null    float64
dtypes: float64(2), int64(4), object(1)
memory usage: 95.4+ KB


In [81]:
titanic.describe()  

Unnamed: 0,Survived,Pclass,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
count,887.0,887.0,887.0,887.0,887.0,887.0
mean,0.385569,2.305524,29.471443,0.525366,0.383315,32.30542
std,0.487004,0.836662,14.121908,1.104669,0.807466,49.78204
min,0.0,1.0,0.42,0.0,0.0,0.0
25%,0.0,2.0,20.25,0.0,0.0,7.925
50%,0.0,3.0,28.0,0.0,0.0,14.4542
75%,1.0,3.0,38.0,1.0,0.0,31.1375
max,1.0,3.0,80.0,8.0,6.0,512.3292


In [82]:
#ver la cantidad de renglones y de columnas utilizando el atributo shape
print('dimensiones: ', titanic.shape)
print('\nrenglones: ', titanic.shape[0])
print('columnas:  ', titanic.shape[1])

dimensiones:  (887, 7)

renglones:  887
columnas:   7


In [83]:
#regresa el número de valores en cada variable 
titanic.nunique()  

Survived                     2
Pclass                       3
Sex                          2
Age                         89
Siblings/Spouses Aboard      7
Parents/Children Aboard      7
Fare                       248
dtype: int64

Para conocer la distribución y los valores de cada columna utilizamos el método value_counts() que es un método para Series

In [85]:
titanic['Sex'].value_counts()

male      573
female    314
Name: Sex, dtype: int64

In [84]:
titanic.columns

Index(['Survived', 'Pclass', 'Sex', 'Age', 'Siblings/Spouses Aboard',
       'Parents/Children Aboard', 'Fare'],
      dtype='object')

Para hacer lo anterior con cada columna del data frame podemos iterar por cada una de las columnas

In [86]:
for column in titanic.columns:
    print(titanic[column].value_counts(),'\n')   
    

0    545
1    342
Name: Survived, dtype: int64 

3    487
1    216
2    184
Name: Pclass, dtype: int64 

male      573
female    314
Name: Sex, dtype: int64 

22.00    39
28.00    37
18.00    36
21.00    34
24.00    34
         ..
70.50     1
36.50     1
23.50     1
55.50     1
0.42      1
Name: Age, Length: 89, dtype: int64 

0    604
1    209
2     28
4     18
3     16
8      7
5      5
Name: Siblings/Spouses Aboard, dtype: int64 

0    674
1    118
2     80
5      5
3      5
4      4
6      1
Name: Parents/Children Aboard, dtype: int64 

8.0500     43
13.0000    42
7.8958     36
7.7500     33
26.0000    31
           ..
8.4583      1
9.8375      1
8.3625      1
14.1083     1
17.4000     1
Name: Fare, Length: 248, dtype: int64 



### Métodos para resumir en un solo valor información

Producen un único valor relacionado con los datos a los que se aplica. Si no se especifica otra cosa se Pandas lo aplica resumiendo los valores de cada columna de un dataframe, si se quiere resumir las variables de cada renglón, se deberá especificar axis=1 entre los paréntesis.

Algunos de ellos son:
![image.png](attachment:image.png)

In [None]:
titanic.mean()

Survived                    0.385569
Pclass                      2.305524
Age                        29.471443
Siblings/Spouses Aboard     0.525366
Parents/Children Aboard     0.383315
Fare                       32.305420
dtype: float64

In [87]:
titanic.count()

Survived                   887
Pclass                     887
Sex                        887
Age                        887
Siblings/Spouses Aboard    887
Parents/Children Aboard    887
Fare                       887
dtype: int64

In [88]:
titanic.isnull()

Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mr. Owen Harris Braund,False,False,False,False,False,False,False
Mrs. John Bradley (Florence Briggs Thayer) Cumings,False,False,False,False,False,False,False
Miss. Laina Heikkinen,False,False,False,False,False,False,False
Mrs. Jacques Heath (Lily May Peel) Futrelle,False,False,False,False,False,False,False
Mr. William Henry Allen,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
Rev. Juozas Montvila,False,False,False,False,False,False,False
Miss. Margaret Edith Graham,False,False,False,False,False,False,False
Miss. Catherine Helen Johnston,False,False,False,False,False,False,False
Mr. Karl Howell Behr,False,False,False,False,False,False,False


In [89]:
titanic.isnull().sum( )

Survived                   0
Pclass                     0
Sex                        0
Age                        0
Siblings/Spouses Aboard    0
Parents/Children Aboard    0
Fare                       0
dtype: int64

In [93]:
titanic.isnull().sum(axis=1)

Name
Mr. Owen Harris Braund                                0
Mrs. John Bradley (Florence Briggs Thayer) Cumings    0
Miss. Laina Heikkinen                                 0
Mrs. Jacques Heath (Lily May Peel) Futrelle           0
Mr. William Henry Allen                               0
                                                     ..
Rev. Juozas Montvila                                  0
Miss. Margaret Edith Graham                           0
Miss. Catherine Helen Johnston                        0
Mr. Karl Howell Behr                                  0
Mr. Patrick Dooley                                    0
Length: 887, dtype: int64

## Acceso a los datos usando etiquetas o posiciones

Acceso a los datos utilizando etiquetas de las columnas

Las siguientes expresiones son equivalentes:
- titanic['Age'] 
- titanic.Age  

En la segunda forma, se asume que cada columna es un atributo del DataFrame

In [None]:
print(type(titanic['Age']), '\n')
titanic['Age'] 

<class 'pandas.core.series.Series'> 



Name
Mr. Owen Harris Braund                                22.0
Mrs. John Bradley (Florence Briggs Thayer) Cumings    38.0
Miss. Laina Heikkinen                                 26.0
Mrs. Jacques Heath (Lily May Peel) Futrelle           35.0
Mr. William Henry Allen                               35.0
                                                      ... 
Rev. Juozas Montvila                                  27.0
Miss. Margaret Edith Graham                           19.0
Miss. Catherine Helen Johnston                         7.0
Mr. Karl Howell Behr                                  26.0
Mr. Patrick Dooley                                    32.0
Name: Age, Length: 887, dtype: float64

podemos llamar a dos o más columnas juntas, agrupandolas en una lista

In [103]:
titanic[['Survived','Sex']]

Unnamed: 0_level_0,Survived,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Mr. Owen Harris Braund,0,male
Mrs. John Bradley (Florence Briggs Thayer) Cumings,1,female
Miss. Laina Heikkinen,1,female
Mrs. Jacques Heath (Lily May Peel) Futrelle,1,female
Mr. William Henry Allen,0,male
...,...,...
Rev. Juozas Montvila,0,male
Miss. Margaret Edith Graham,1,female
Miss. Catherine Helen Johnston,0,female
Mr. Karl Howell Behr,1,male


Para los renglones, hemos dicho que no se puede usar el índice como si fuera la clave de un diccionario

In [104]:
titanic['Miss. Laina Heikkinen']

KeyError: ignored

### Propiedad **`loc[]`** 

Se utiliza **`df.loc[renglones, columnas]`**  para tener acceso a los datos usando etiquetas

Podemos utilizar esta propiedad de los DataFrames para llamar a un solo renglón

In [106]:
titanic.loc['Miss. Laina Heikkinen']  

Survived                        1
Pclass                          3
Sex                        female
Age                            26
Siblings/Spouses Aboard         0
Parents/Children Aboard         0
Fare                        7.925
Name: Miss. Laina Heikkinen, dtype: object

O varios renglones, agrupandolos en una lista

In [110]:
titanic.loc[['Miss. Laina Heikkinen','Mr. Timothy J McCarthy']]  

Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Miss. Laina Heikkinen,1,3,female,26.0,0,0,7.925
Mr. Timothy J McCarthy,0,1,male,54.0,0,0,51.8625


o un grupo de renglones y columnas

In [111]:
titanic.loc[['Miss. Laina Heikkinen','Mr. Timothy J McCarthy'], ['Survived','Age']]

Unnamed: 0_level_0,Survived,Age
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Miss. Laina Heikkinen,1,26.0
Mr. Timothy J McCarthy,0,54.0


o utilizar '*slicing*'

In [112]:
titanic.loc['Miss. Laina Heikkinen':'Mr. Timothy J McCarthy', 'Survived':'Age']  

Unnamed: 0_level_0,Survived,Pclass,Sex,Age
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Miss. Laina Heikkinen,1,3,female,26.0
Mrs. Jacques Heath (Lily May Peel) Futrelle,1,1,female,35.0
Mr. William Henry Allen,0,3,male,35.0
Mr. James Moran,0,3,male,27.0
Mr. Timothy J McCarthy,0,1,male,54.0


In [116]:
titanic.loc[:,'Age']

Name
Mr. Owen Harris Braund                                22.0
Mrs. John Bradley (Florence Briggs Thayer) Cumings    38.0
Miss. Laina Heikkinen                                 26.0
Mrs. Jacques Heath (Lily May Peel) Futrelle           35.0
Mr. William Henry Allen                               35.0
                                                      ... 
Rev. Juozas Montvila                                  27.0
Miss. Margaret Edith Graham                           19.0
Miss. Catherine Helen Johnston                         7.0
Mr. Karl Howell Behr                                  26.0
Mr. Patrick Dooley                                    32.0
Name: Age, Length: 887, dtype: float64

### Propiedad **`iloc[]`** para acceder mediante posiciones


Se utiliza **`df.iloc[row, column]`**, para  usar las posiciones de un valor

In [117]:
titanic.iloc[15:22,3:5]  

Unnamed: 0_level_0,Age,Siblings/Spouses Aboard
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Mrs. (Mary D Kingcome) Hewlett,55.0,0
Master. Eugene Rice,2.0,4
Mr. Charles Eugene Williams,23.0,0
Mrs. Julius (Emelia Maria Vandemoortele) Vander Planke,31.0,1
Mrs. Fatima Masselmani,22.0,0
Mr. Joseph J Fynney,35.0,0
Mr. Lawrence Beesley,34.0,0


In [118]:
titanic.iloc[[15,22],[3,5]]  

Unnamed: 0_level_0,Age,Parents/Children Aboard
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Mrs. (Mary D Kingcome) Hewlett,55.0,0
Miss. Anna McGowan,15.0,0


## Filtrado de datos

In [120]:
filtro = titanic['Pclass']==3

tercera = titanic[filtro]
tercera

Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mr. Owen Harris Braund,0,3,male,22.0,1,0,7.2500
Miss. Laina Heikkinen,1,3,female,26.0,0,0,7.9250
Mr. William Henry Allen,0,3,male,35.0,0,0,8.0500
Mr. James Moran,0,3,male,27.0,0,0,8.4583
Master. Gosta Leonard Palsson,0,3,male,2.0,3,1,21.0750
...,...,...,...,...,...,...,...
Miss. Gerda Ulrika Dahlberg,0,3,female,22.0,0,0,10.5167
Mr. Henry Jr Sutehall,0,3,male,25.0,0,0,7.0500
Mrs. William (Margaret Norton) Rice,0,3,female,39.0,0,5,29.1250
Miss. Catherine Helen Johnston,0,3,female,7.0,1,2,23.4500


In [122]:
#Guarda el conjunto de datos que cumple la condición 
menores10anios = titanic[titanic['Age']<10]   
print(menores10anios.shape)
menores10anios.head()

(71, 7)


Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Master. Gosta Leonard Palsson,0,3,male,2.0,3,1,21.075
Miss. Marguerite Rut Sandstrom,1,3,female,4.0,1,1,16.7
Master. Eugene Rice,0,3,male,2.0,4,1,29.125
Miss. Torborg Danira Palsson,0,3,female,8.0,3,1,21.075
Miss. Simonne Marie Anne Andree Laroche,1,2,female,3.0,1,2,41.5792


In [123]:
hombres = titanic[titanic['Sex']=='male']
print(hombres.shape)
hombres.tail()

(573, 7)


Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mr. Frederick James Banfield,0,2,male,28.0,0,0,10.5
Mr. Henry Jr Sutehall,0,3,male,25.0,0,0,7.05
Rev. Juozas Montvila,0,2,male,27.0,0,0,13.0
Mr. Karl Howell Behr,1,1,male,26.0,0,0,30.0
Mr. Patrick Dooley,0,3,male,32.0,0,0,7.75


In [126]:
filtro1 = titanic['Pclass']==1
filtro2 = titanic['Sex']=='female'

filtro1 & filtro2

Name
Mr. Owen Harris Braund                                False
Mrs. John Bradley (Florence Briggs Thayer) Cumings     True
Miss. Laina Heikkinen                                 False
Mrs. Jacques Heath (Lily May Peel) Futrelle            True
Mr. William Henry Allen                               False
                                                      ...  
Rev. Juozas Montvila                                  False
Miss. Margaret Edith Graham                            True
Miss. Catherine Helen Johnston                        False
Mr. Karl Howell Behr                                  False
Mr. Patrick Dooley                                    False
Length: 887, dtype: bool

In [124]:
#Subconjunto de pasajeros de primera clase mujeres
filtro1 = titanic['Pclass']==1
filtro2 = titanic['Sex']=='female'

MujeresPrimera = titanic[filtro1 & filtro2]

print(MujeresPrimera.shape)
MujeresPrimera.head()

(94, 7)


Unnamed: 0_level_0,Survived,Pclass,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Mrs. John Bradley (Florence Briggs Thayer) Cumings,1,1,female,38.0,1,0,71.2833
Mrs. Jacques Heath (Lily May Peel) Futrelle,1,1,female,35.0,1,0,53.1
Miss. Elizabeth Bonnell,1,1,female,58.0,0,0,26.55
Mrs. William Augustus (Marie Eugenie) Spencer,1,1,female,48.0,1,0,146.5208
Mrs. Henry Sleeper (Myna Haxtun) Harper,1,1,female,49.0,1,0,76.7292


## Recomendacion para programadores que inician su práctica.


1. Escribe y ejecuta una sola linea de codigo para explorar tus datos
2. Verifica su correcto funcionamiento, obteniendo el output de esa linea
3. Asigna el resultad a una variable
4. En la misma linea, muestra las primeras lineas del Data Frame o la Serie, según la acción ejecutada.
5. Continua en la siguiente celda.