# SELECCIÓN Y FILTRO DE DATOS DE UN DATAFRAME UTILIZANDO LA LIBRERÍA PANDAS
***

En este notebook se explicarán los principales métodos filtros de datos utilizando las herramientas de la librería Pandas.

[1. Lectura de archivos excel, csv, txt, html](#1.-Lectura-de-archivos-excel,-csv,-txt,-html)<br>
[2. ¿Cómo selecciono un subconjunto de un DataFrame?](#2.-¿Cómo-selecciono-un-subconjunto-de-un-DataFrame?)<br>
[3. ¿Cómo filtro filas específicas de un DataFrame?](#3.-¿Cómo-filtro-filas-específicas-de-un-DataFrame?)<br>
[4. ¿Cómo selecciono filas y columnas específicas de un DataFrame?](#4.-¿Cómo-selecciono-filas-y-columnas-específicas-de-un-DataFrame?)<br>
[5. Aprendiendo algunas funciones de pandas](#5.-Aprendiendo-algunas-funciones-de-pandas)<br>

In [116]:
# importar libreria
import pandas as pd
import xlrd
pd.__version__

'1.5.2'

## <font color=#33A5FF>****1. Lectura de archivos excel, csv, txt, html****<tfont>

### Descripción del las columnas del DataFrame

Para leer ficheros de excel puedes instalar en el anaconda Prom: **pip install xlrd**, seguido de ello puedes cargar el fichero titanic el cual contiene la siguiente información:

* **Id_Pasajero:** Id de cada pasajero.

* **Survived:** esta característica tiene valor 0 y 1. 0 para no sobrevivido y 1 para sobrevivido.

* **Clase:** Hay 3 clases: Clase 1, Clase 2 y Clase 3.

* **Nombre:** Nombre del pasajero.

* **Sexo:** Género del pasajero.

* **Edad:** Edad del pasajero.

* **Familiares:** numero de familiares del pasajero.

* **Ticket:** Número de ticket del pasajero.

* **Tarifa:** Indicando la tarifa.

* **Cabina:** La cabina del pasajero.

* **Embarcado:** La categoría embarcada.

Leer datos archivos excel con extensión **--->** .xls, .xlsx

In [117]:
# Cargar datos
df = pd.read_excel('titanic.xlsx', index_col=0)

In [118]:
df.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S


## <font color=#33A5FF>****2. ¿Cómo selecciono un subconjunto de un DataFrame?****<tfont>

![image.png](attachment:71145035-6f25-4a13-8429-05d58059aabf.png)

In [119]:
# Seleccionando el nombre
df[['Nombre', 'Sexo']]

Unnamed: 0_level_0,Nombre,Sexo
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1
1,"Braund, Mr. Owen Harris",Masculino
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino
3,"Heikkinen, Miss. Laina",Femenino
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino
5,"Allen, Mr. William Henry",Masculino
...,...,...
887,"Montvila, Rev. Juozas",Masculino
888,"Graham, Miss. Margaret Edith",Femenino
889,"Johnston, Miss. Catherine Helen ""Carrie""",Femenino
890,"Behr, Mr. Karl Howell",Masculino


## <font color=#33A5FF>****3. ¿Cómo filtro filas específicas de un DataFrame?****<tfont>

![image.png](attachment:41e952fa-b878-4f21-9386-914378f68997.png)

In [120]:
# Seleccion de los hombres que abordaron el titanic
hombres = df[df['Sexo'] == 'Masculino']

In [121]:
hombres

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",Masculino,,0,330877,8.46,,Q
7,0,1,"McCarthy, Mr. Timothy J",Masculino,54.0,0,17463,51.86,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",Masculino,2.0,1,349909,21.08,,S
...,...,...,...,...,...,...,...,...,...,...
884,0,2,"Banfield, Mr. Frederick James",Masculino,28.0,0,C.A./SOTON 34068,10.50,,S
885,0,3,"Sutehall, Mr. Henry Jr",Masculino,25.0,0,SOTON/OQ 392076,7.05,,S
887,0,2,"Montvila, Rev. Juozas",Masculino,27.0,0,211536,13.00,,S
890,1,1,"Behr, Mr. Karl Howell",Masculino,26.0,0,111369,30.00,C148,C


In [122]:
hombres.shape
# Nos devuelve una tupla con las filas y las columnas, de esta manera sabemos que tenemos 577 filas (hombres)

(577, 10)

In [123]:
# Seleccion de las mujeres que abordaron el titanic
mujeres = df[df['Sexo'] == 'Femenino']

mujeres.shape

In [124]:
mujeres.head(10)

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",Femenino,27.0,2,347742,11.13,,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",Femenino,14.0,0,237736,30.07,,C
11,1,3,"Sandstrom, Miss. Marguerite Rut",Femenino,4.0,1,PP 9549,16.7,G6,S
12,1,1,"Bonnell, Miss. Elizabeth",Femenino,58.0,0,113783,26.55,C103,S
15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",Femenino,14.0,0,350406,7.85,,S
16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",Femenino,55.0,0,248706,16.0,,S
19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",Femenino,31.0,0,345763,18.0,,S


In [125]:
# Persona con mas de 30 años que abordaron el
mas_30 = df[df['Edad'] > 30]

In [126]:
mas_30.shape

(305, 10)

In [127]:
mas_30.head()

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S
7,0,1,"McCarthy, Mr. Timothy J",Masculino,54.0,0,17463,51.86,E46,S
12,1,1,"Bonnell, Miss. Elizabeth",Femenino,58.0,0,113783,26.55,C103,S


In [128]:
# Personas que tienen justo 49 años
clase = df[df['Edad'].isin([18, 33, 49])]
clase.head(10)

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
39,0,3,"Vander Planke, Miss. Augusta Maria",Femenino,18.0,0,345764,18.0,,S
50,0,3,"Arnold-Franchi, Mrs. Josef (Josefine Franchi)",Femenino,18.0,0,349237,17.8,,S
53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",Femenino,49.0,0,PC 17572,76.73,D33,C
86,1,3,"Backstrom, Mrs. Karl Alfred (Maria Mathilda Gu...",Femenino,33.0,0,3101278,15.85,,S
104,0,3,"Johansson, Mr. Gustaf Joel",Masculino,33.0,0,7540,8.65,,S
131,0,3,"Drazenoic, Mr. Jozef",Masculino,33.0,0,349241,7.9,,C
145,0,2,"Andrew, Mr. Edgardo Samuel",Masculino,18.0,0,231945,11.5,,S
176,0,3,"Klasen, Mr. Klas Albin",Masculino,18.0,1,350404,7.85,,S
205,1,3,"Cohen, Mr. Gurshon ""Gus""",Masculino,18.0,0,A/5 3540,8.05,,S
229,0,2,"Fahlstrom, Mr. Arne Jonas",Masculino,18.0,0,236171,13.0,,S


In [129]:
clase.shape

(47, 10)

In [130]:
# Personas que no registraron su edad al abordar el barco 
sin_cabina = df[df['Cabina'].notna()]

In [131]:
sin_cabina

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.10,C123,S
7,0,1,"McCarthy, Mr. Timothy J",Masculino,54.0,0,17463,51.86,E46,S
11,1,3,"Sandstrom, Miss. Marguerite Rut",Femenino,4.0,1,PP 9549,16.70,G6,S
12,1,1,"Bonnell, Miss. Elizabeth",Femenino,58.0,0,113783,26.55,C103,S
...,...,...,...,...,...,...,...,...,...,...
872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",Femenino,47.0,1,11751,52.55,D35,S
873,0,1,"Carlsson, Mr. Frans Olof",Masculino,33.0,0,695,5.00,B51 B53 B55,S
880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",Femenino,56.0,1,11767,83.16,C50,C
888,1,1,"Graham, Miss. Margaret Edith",Femenino,19.0,0,112053,30.00,B42,S


## <font color=#33A5FF>****4. ¿Cómo selecciono filas y columnas específicas de un DataFrame?****<tfont>

![image.png](attachment:4cf9f133-dac5-4fbd-84ec-95b5e91521a4.png)

In [132]:
# Me interesan los nombres de los pasajeros mayores de 30 años
nom_mas30 = df.loc[df['Edad'] > 30, ['Nombre']]

In [133]:
nom_mas30.head(10)

Unnamed: 0_level_0,Nombre
Id_Pasajero,Unnamed: 1_level_1
2,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
5,"Allen, Mr. William Henry"
7,"McCarthy, Mr. Timothy J"
12,"Bonnell, Miss. Elizabeth"
14,"Andersson, Mr. Anders Johan"
16,"Hewlett, Mrs. (Mary D Kingcome)"
19,"Vander Planke, Mrs. Julius (Emelia Maria Vande..."
21,"Fynney, Mr. Joseph J"
22,"Beesley, Mr. Lawrence"


In [134]:
# Me interesan las filas 0 a 10 y las columnas 2 a 6.
df.iloc[0:11, 2:7]

Unnamed: 0_level_0,Nombre,Sexo,Edad,Familiares,Tiquete
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599
3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803
5,"Allen, Mr. William Henry",Masculino,35.0,0,373450
6,"Moran, Mr. James",Masculino,,0,330877
7,"McCarthy, Mr. Timothy J",Masculino,54.0,0,17463
8,"Palsson, Master. Gosta Leonard",Masculino,2.0,1,349909
9,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",Femenino,27.0,2,347742
10,"Nasser, Mrs. Nicholas (Adele Achem)",Femenino,14.0,0,237736


In [157]:
df

Unnamed: 0_level_0,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
Id_Pasajero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,0,3,"Braund, Mr. Owen Harris",Masculino,22.0,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0,PC 17599,71.28,C85,C
3,1,3,"Heikkinen, Miss. Laina",Femenino,26.0,0,STON/O2. 3101282,7.93,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0,113803,53.10,C123,S
5,0,3,"Allen, Mr. William Henry",Masculino,35.0,0,373450,8.05,,S
...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",Masculino,27.0,0,211536,13.00,,S
888,1,1,"Graham, Miss. Margaret Edith",Femenino,19.0,0,112053,30.00,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",Femenino,,2,W./C. 6607,23.45,,S
890,1,1,"Behr, Mr. Karl Howell",Masculino,26.0,0,111369,30.00,C148,C


## <font color=#33A5FF>****5. Aprendiendo algunas funciones de pandas****<tfont>

In [158]:
# Valor promedio de la edad de los pasajeros
df['Edad'].mean()

29.69911764705882

In [159]:
# Pasajeros mujeres con mayor edad que abordaron el titanic
df[df['Sexo']=='Femenino'].max()

  df[df['Sexo']=='Femenino'].max()


Survived                                                 1
Clase                                                    3
Nombre        de Messemaeker, Mrs. Guillaume Joseph (Emma)
Sexo                                              Femenino
Edad                                                  63.0
Familiares                                               6
Tiquete                                          WE/P 5735
Tarifa                                              512.33
dtype: object

In [161]:
# Pasajeros mujeres con menor edad que abordaron el titanic
df[df['Sexo'] == 'Femenino'].min()

  df[df['Sexo'] == 'Femenino'].min()


Survived                                     0
Clase                                        1
Nombre        Abbott, Mrs. Stanton (Rosa Hunt)
Sexo                                  Femenino
Edad                                      0.75
Familiares                                   0
Tiquete                                 110152
Tarifa                                    6.75
dtype: object

In [164]:
# Número total de pasajeros registrados en el titanic
len(df)

891