# SELECCIÓN Y FILTRO DE DATOS DE UN DATAFRAME UTILIZANDO LA LIBRERÍA PANDAS
***

En este notebook se explicarán los principales métodos filtros de datos utilizando las herramientas de la librería Pandas.

[1. Lectura de archivos excel, csv, txt, html](#1.-Lectura-de-archivos-excel,-csv,-txt,-html)<br>
[2. ¿Cómo selecciono un subconjunto de un DataFrame?](#2.-¿Cómo-selecciono-un-subconjunto-de-un-DataFrame?)<br>
[3. ¿Cómo filtro filas específicas de un DataFrame?](#3.-¿Cómo-filtro-filas-específicas-de-un-DataFrame?)<br>
[4. ¿Cómo selecciono filas y columnas específicas de un DataFrame?](#4.-¿Cómo-selecciono-filas-y-columnas-específicas-de-un-DataFrame?)<br>
[5. Aprendiendo algunas funciones de pandas](#5.-Aprendiendo-algunas-funciones-de-pandas)<br>

In [None]:
# importar libreria
import pandas as pd
import xlrd
pd.__version__

'1.3.5'

## <font color=#33A5FF>****1. Lectura de archivos excel, csv, txt, html****<tfont>

### Descripción del las columnas del DataFrame

Para leer ficheros de excel puedes instalar en el anaconda Prom: **pip install xlrd**, seguido de ello puedes cargar el fichero titanic el cual contiene la siguiente información:

* **Id_Pasajero:** Id de cada pasajero.

* **Survived:** esta característica tiene valor 0 y 1. 0 para no sobrevivido y 1 para sobrevivido.

* **Clase:** Hay 3 clases: Clase 1, Clase 2 y Clase 3.

* **Nombre:** Nombre del pasajero.

* **Sexo:** Género del pasajero.

* **Edad:** Edad del pasajero.

* **Familiares:** numero de familiares del pasajero.

* **Ticket:** Número de ticket del pasajero.

* **Tarifa:** Indicando la tarifa.

* **Cabina:** La cabina del pasajero.

* **Embarcado:** La categoría embarcada.

Leer datos archivos excel con extensión **--->** .xls, .xlsx

In [None]:
# Cargar datos
df = pd.read_excel('https://docs.google.com/spreadsheets/d/e/2PACX-1vQXYDg9NgUj_fGD4hx8m-YklJpZ73UX77EolcnqmZt8hims7RHsWnvU5L1-20Z5_g/pub?output=xlsx')

In [None]:
# Leer datos excel con ruta, en caso de que el archivo se encuentre en una ruta diferente 
df.head()

Unnamed: 0,Id_Pasajero,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
0,1.0,0.0,3.0,"Braund, Mr. Owen Harris",Masculino,22.0,0.0,A/5 21171,7.25,,S
1,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0.0,PC 17599,71.28,C85,C
2,3.0,1.0,3.0,"Heikkinen, Miss. Laina",Femenino,26.0,0.0,STON/O2. 3101282,7.93,,S
3,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0.0,113803.0,53.1,C123,S
4,5.0,0.0,3.0,"Allen, Mr. William Henry",Masculino,35.0,0.0,373450.0,2022-05-08 00:00:00,,S


## <font color=#33A5FF>****2. ¿Cómo selecciono un subconjunto de un DataFrame?****<tfont>

![image.png](attachment:71145035-6f25-4a13-8429-05d58059aabf.png)

In [None]:
# Seleccionando el nombre
df[['Nombre']]

Unnamed: 0,Nombre
0,"Braund, Mr. Owen Harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,"Allen, Mr. William Henry"
...,...
886,"Montvila, Rev. Juozas"
887,"Graham, Miss. Margaret Edith"
888,"Johnston, Miss. Catherine Helen ""Carrie"""
889,"Behr, Mr. Karl Howell"


In [None]:
# Seleccionando y el sexo
df[['Sexo','Nombre']]

Unnamed: 0,Sexo,Nombre
0,Masculino,"Braund, Mr. Owen Harris"
1,Femenino,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,Femenino,"Heikkinen, Miss. Laina"
3,Femenino,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,Masculino,"Allen, Mr. William Henry"
...,...,...
886,Masculino,"Montvila, Rev. Juozas"
887,Femenino,"Graham, Miss. Margaret Edith"
888,Femenino,"Johnston, Miss. Catherine Helen ""Carrie"""
889,Masculino,"Behr, Mr. Karl Howell"


## <font color=#33A5FF>****3. ¿Cómo filtro filas específicas de un DataFrame?****<tfont>

![image.png](attachment:41e952fa-b878-4f21-9386-914378f68997.png)

In [None]:
# Seleccion de los hombres que abordaron el titanic
hombres = df[df['Sexo'] == 'Masculino']

In [None]:
hombres.head()

Unnamed: 0,Id_Pasajero,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
0,1.0,0.0,3.0,"Braund, Mr. Owen Harris",Masculino,22.0,0.0,A/5 21171,7.25,,S
4,5.0,0.0,3.0,"Allen, Mr. William Henry",Masculino,35.0,0.0,373450.0,2022-05-08 00:00:00,,S
5,6.0,0.0,3.0,"Moran, Mr. James",Masculino,0.0,0.0,330877.0,8.46,,Q
6,7.0,0.0,1.0,"McCarthy, Mr. Timothy J",Masculino,54.0,0.0,17463.0,51.86,E46,S
7,8.0,0.0,3.0,"Palsson, Master. Gosta Leonard",Masculino,2.0,1.0,349909.0,2022-08-21 00:00:00,,S


In [None]:
# Seleccion de las mujeres que abordaron el titanic
mujeres = df[df['Sexo'] == 'Femenino']

In [None]:
mujeres.head()

Unnamed: 0,Id_Pasajero,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
1,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0.0,PC 17599,71.28,C85,C
2,3.0,1.0,3.0,"Heikkinen, Miss. Laina",Femenino,26.0,0.0,STON/O2. 3101282,7.93,,S
3,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0.0,113803.0,53.1,C123,S
8,9.0,1.0,3.0,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",Femenino,27.0,2.0,347742.0,11.13,,S
9,10.0,1.0,2.0,"Nasser, Mrs. Nicholas (Adele Achem)",Femenino,14.0,0.0,237736.0,2022-07-30 00:00:00,,C


In [None]:
# Personas con mas de 30 años que abordaron el
mas30 = df[df['Edad'] > 30]

In [None]:
mas30.head()

In [None]:
# Personas que pertenecen a la clase 1 y 2 del titanic
clase = df[df['Clase'].isin ([1,2]) ]

In [None]:
clase = df[df["Clase"] == 1 & (df["Clase"] == 2)]

In [None]:
clase.head()

Unnamed: 0,Id_Pasajero,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado


In [None]:
# Personas que no registraron su edad al abordar el barco 
sin_edad = df[df["Edad"].notna() ]

In [None]:
sin_edad

Unnamed: 0,Id_Pasajero,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
0,1.0,0.0,3.0,"Braund, Mr. Owen Harris",Masculino,22.0,0.0,A/5 21171,7.25,,S
1,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0.0,PC 17599,71.28,C85,C
2,3.0,1.0,3.0,"Heikkinen, Miss. Laina",Femenino,26.0,0.0,STON/O2. 3101282,7.93,,S
3,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0.0,113803.0,53.1,C123,S
4,5.0,0.0,3.0,"Allen, Mr. William Henry",Masculino,35.0,0.0,373450.0,2022-05-08 00:00:00,,S
...,...,...,...,...,...,...,...,...,...,...,...
886,887.0,0.0,2.0,"Montvila, Rev. Juozas",Masculino,27.0,0.0,211536.0,13.0,,S
887,888.0,1.0,1.0,"Graham, Miss. Margaret Edith",Femenino,19.0,0.0,112053.0,30.0,B42,S
888,889.0,0.0,3.0,"Johnston, Miss. Catherine Helen ""Carrie""",Femenino,0.0,2.0,W./C. 6607,23.45,,S
889,890.0,1.0,1.0,"Behr, Mr. Karl Howell",Masculino,26.0,0.0,111369.0,30.0,C148,C


## <font color=#33A5FF>****4. ¿Cómo selecciono filas y columnas específicas de un DataFrame?****<tfont>

![image.png](attachment:4cf9f133-dac5-4fbd-84ec-95b5e91521a4.png)

In [None]:
df.head()

Unnamed: 0,Id_Pasajero,Survived,Clase,Nombre,Sexo,Edad,Familiares,Tiquete,Tarifa,Cabina,Embarcado
0,1.0,0.0,3.0,"Braund, Mr. Owen Harris",Masculino,22.0,0.0,A/5 21171,7.25,,S
1,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0.0,PC 17599,71.28,C85,C
2,3.0,1.0,3.0,"Heikkinen, Miss. Laina",Femenino,26.0,0.0,STON/O2. 3101282,7.93,,S
3,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0.0,113803.0,53.1,C123,S
4,5.0,0.0,3.0,"Allen, Mr. William Henry",Masculino,35.0,0.0,373450.0,2022-05-08 00:00:00,,S


In [None]:
df.iloc[0:4,0:3]

Unnamed: 0,Id_Pasajero,Survived,Clase
0,1.0,0.0,3.0
1,2.0,1.0,1.0
2,3.0,1.0,3.0
3,4.0,1.0,1.0


In [None]:
# Me interesan los nombres de los pasajeros mayores de 30 años
nombres = df.loc[df["Edad"] > 35, ["Nombre"]]

In [None]:
nombres.head()

Unnamed: 0,Nombre
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
6,"McCarthy, Mr. Timothy J"
11,"Bonnell, Miss. Elizabeth"
13,"Andersson, Mr. Anders Johan"
15,"Hewlett, Mrs. (Mary D Kingcome)"


In [None]:
# Me interesan las filas 0 a 10 y las columnas 2 a 6.
df.iloc[0:11,2:7]

Unnamed: 0,Clase,Nombre,Sexo,Edad,Familiares
0,3.0,"Braund, Mr. Owen Harris",Masculino,22.0,0.0
1,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Femenino,38.0,0.0
2,3.0,"Heikkinen, Miss. Laina",Femenino,26.0,0.0
3,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Femenino,35.0,0.0
4,3.0,"Allen, Mr. William Henry",Masculino,35.0,0.0
5,3.0,"Moran, Mr. James",Masculino,0.0,0.0
6,1.0,"McCarthy, Mr. Timothy J",Masculino,54.0,0.0
7,3.0,"Palsson, Master. Gosta Leonard",Masculino,2.0,1.0
8,3.0,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",Femenino,27.0,2.0
9,2.0,"Nasser, Mrs. Nicholas (Adele Achem)",Femenino,14.0,0.0


## <font color=#33A5FF>****5. Aprendiendo algunas funciones de pandas****<tfont>

In [None]:
# Valor promedio de la edad de los pasajeros
df['Edad'].max()

44711.0

In [None]:
# Pasajeros mujeres con mayor edad que abordaron el titanic
df[df['Sexo'] == 'Femenino'].max()

  


Id_Pasajero                                           889.0
Survived                                                1.0
Clase                                                   3.0
Nombre         de Messemaeker, Mrs. Guillaume Joseph (Emma)
Sexo                                               Femenino
Edad                                                   63.0
Familiares                                              6.0
dtype: object

In [None]:
# Pasajeros mujeres con menor edad que abordaron el titanic
df[df['Sexo'] == 'Femenino'].min()

  


Id_Pasajero                                 2.0
Survived                                    0.0
Clase                                       1.0
Nombre         Abbott, Mrs. Stanton (Rosa Hunt)
Sexo                                   Femenino
Edad                                        0.0
Familiares                                  0.0
dtype: object

In [None]:
# Número total de pasajeros registrados en el titanic
len(df)

891