# Introducción a la biblioteca `Pandas`

Pandas es una de las bibliotecas más populares en Python para la manipulación y análisis de datos. Fue desarrollada para facilitar el trabajo con grandes conjuntos de datos y proporciona estructuras de datos y herramientas de alto rendimiento para análisis de datos tabulares y de series temporales. 
### Características clave de Pandas:

1. **Estructuras de datos principales**:
   - Series: Es una estructura unidimensional que puede almacenar datos de cualquier tipo (como un array o lista), con una etiqueta o índice para cada elemento.
   - DataFrame: Es una estructura bidimensional similar a una tabla en bases de datos o en Excel. Cada columna puede tener un tipo de datos diferente, y las filas y columnas están etiquetadas.

2. **Manipulación de datos**:
   - Pandas permite leer y escribir datos desde diversas fuentes como archivos CSV, Excel, bases de datos SQL, archivos JSON, entre otros.
   - Permite realizar filtrado, selección y modificación de datos de forma eficiente, similar a las operaciones que se realizan en bases de datos SQL o en hojas de cálculo.
   - Agrupación y agregación de datos para calcular estadísticas agregadas de forma sencilla.
   - Reorganización y pivotado de datos, facilitando la transformación de datos de largo a ancho (y viceversa).
   - Limpieza de datos, como manejar valores nulos, eliminar duplicados o normalizar datos.

3. **Manejo de datos ausentes**:
   Pandas tiene funcionalidades integradas para detectar y gestionar datos ausentes, algo crucial en análisis de datos reales. Puedes identificar datos nulos, reemplazarlos o eliminarlos según las necesidades del análisis.

4. **Integración con otras bibliotecas**:
   Pandas se integra perfectamente con otras bibliotecas populares de Python, como NumPy (para operaciones numéricas eficientes), Matplotlib y Seaborn (para visualización de datos), y SciPy (para análisis estadísticos avanzados).

5. **Operaciones de tiempo y fechas**:
   Pandas facilita el manejo y la manipulación de datos temporales, como la creación de rangos de fechas, conversión de fechas y operaciones sobre series temporales.

Pandas es fundamental para los científicos de datos porque permite realizar análisis de manera eficiente, manejando grandes volúmenes de datos y facilitando su manipulación y transformación para obtener resultados útiles.


## Instalación e importación de `Pandas`

Podemos instalar bibliotecas `Python`, como `Pandas`, de la siguiente manera:

In [None]:
pip install pandas

Así como importar la biblioteca de la siguiente manera:

In [4]:
import pandas as pd

## Crear un data-frame manualmente

Podemos crear un marco de datos manualmente.

- Primero tenemos que crear cada columna individual (variable) del marco de datos. Podemos hacer esto usando Pandas `pd.Series()`, una estructura de Pandas similar al vector (matrices de una dimensión).
- Cada columna se guarda en una variable. Por ejemplo, `StudentID` es la variable que guardará la primera serie, es decir, la primera columna.


In [23]:
StudentID = pd.Series(['01', '02', '03', '04', '05', '06', '07', '08', '09', '10','11','12'])
Name = pd.Series(['Carlos', 'John', 'Sergio', 'Lucía', 'Miguel', 'Juan', 'Roberto', 'Pedro', 'Sara', 'Marta', 'Ismael', 'Luis'])
Country = pd.Series(['España', 'España', 'Germany', 'United States', 'España', 'España', 'España', 'Italia', 'United States', 'Perú','España','Argentina'])
City = pd.Series(['','','Berlin','California','Madrid', 'Sevilla', '', 'Roma', 'New York', 'Lima', 'Madrid', 'Buenos Aires'])
Email = pd.Series(['','john@e-works.com','sergio0@e-works.com','luciaf@e-works.com','miguel1999@gmail.com', '', 'robertoperez@hotmail.com', 'pedro_99@gmail.com', 'sara_010596@gmail.com', 'marta00@gmail.com', 'isma98@gmail.com', 'luismiguel1234@gmail.com'])
Phone = pd.Series(['917755053', '915547890', '', '', '915547111', '915869448', '', '', '', '', '912234543', ''])

- Luego, podemos usar `pd.DataFrame()` para construir un marco de datos con las columnas anteriores que hemos creado usando `pd.Series()`.
- También almacenamos el data-frame en la variable `Students_df`.

In [24]:
Students_df = pd.DataFrame({'StudentID': StudentID, 'Name': Name, 'Country':Country, 'City':City, 'Email':Email, 'Phone':Phone})

- Podemos imprimir el marco de datos `Students_df` escribiendo la variable en otra celda de código y ejecutándola.
- Entonces, podremos ver tanto las columnas como las filas del data-frame `Students_df`.

In [25]:
Students_df

Unnamed: 0,StudentID,Name,Country,City,Email,Phone
0,1,Carlos,España,,,917755053.0
1,2,John,España,,john@e-works.com,915547890.0
2,3,Sergio,Germany,Berlin,sergio0@e-works.com,
3,4,Lucía,United States,California,luciaf@e-works.com,
4,5,Miguel,España,Madrid,miguel1999@gmail.com,915547111.0
5,6,Juan,España,Sevilla,,915869448.0
6,7,Roberto,España,,robertoperez@hotmail.com,
7,8,Pedro,Italia,Roma,pedro_99@gmail.com,
8,9,Sara,United States,New York,sara_010596@gmail.com,
9,10,Marta,Perú,Lima,marta00@gmail.com,


- Un marco de datos es una estructura de programación común para guardar y representar conjuntos de datos.
- Por esta razón, las columnas de un marco de datos generalmente se interpretan como variables, porque cuando un marco de datos representa un conjunto de datos, estas columnas son las variables de ese conjunto de datos.
- Además, los flujos de un marco de datos también se interpretan a menudo como observaciones porque, como antes, cuando un marco de datos representa un conjunto de datos, sus filas son las observaciones de ese conjunto de datos.
  
- Entonces, resumiendo, **columnas** son **variables** y **filas** son **observaciones**, en la mayor parte de los casos.

- De hecho, desde una perspectiva teórica, un conjunto de datos es una matriz cuyos vectores de columna son variables y sus vectores de fila son observaciones.

Ahora, vamos a crear otro par de marcos de datos, siguiendo el mismo procedimiento que antes.

In [26]:
ProfessorID = pd.Series(['P1', 'P2', 'P3', 'P4', 'P5', 'P6', 'P7'])
Name = pd.Series(['Juan', 'Sonia', 'Lucia', 'Marcos', 'Carlos', 'Daniel', 'Garazi'])
Studies =  pd.Series(['Matemáticas', 'Física', 'Lengua', 'Biología', 'Educación Física', 'Geografía', 'Inglés'])
Email = pd.Series(['juanperez@colegio.es','sonidiaz@colegio.es','luciaperez@colegio.es','marcossanz@colegio.es','carlosfernandez@colegio.es', 'danielortiz@colegio.es', 'garazigarcia@colegio.es'])

In [27]:
Professors_df = pd.DataFrame({'ProfessorID': ProfessorID, 'Name':Name, 'Studies':Studies, 'Email':Email})

In [28]:
Professors_df

Unnamed: 0,ProfessorID,Name,Studies,Email
0,P1,Juan,Matemáticas,juanperez@colegio.es
1,P2,Sonia,Física,sonidiaz@colegio.es
2,P3,Lucia,Lengua,luciaperez@colegio.es
3,P4,Marcos,Biología,marcossanz@colegio.es
4,P5,Carlos,Educación Física,carlosfernandez@colegio.es
5,P6,Daniel,Geografía,danielortiz@colegio.es
6,P7,Garazi,Inglés,garazigarcia@colegio.es


A continuación introducimos otro ejemplo de DataFrame.

In [29]:
ExamId = pd.Series(['E1', 'E2', 'E3', 'E4', 'E5'])
Mark = pd.Series([6.7, 8, 4.25, 6.5, 7])
Subject = pd.Series(['Matemáticas', 'Física', 'Matemáticas', 'Inglés', 'Lengua'])
StudentID = pd.Series(['A2','A4','A1','A7', 'A9'])
ProfessorID = pd.Series(['P1', 'P2', 'P1', 'P7', 'P3'])

In [30]:
Exams_df = pd.DataFrame({'ExamId':ExamId, 'Mark':Mark, 'Subject':Subject , 
                         'StudentID':StudentID, 'ProfessorID':ProfessorID})

In [31]:
Exams_df

Unnamed: 0,ExamId,Mark,Subject,StudentID,ProfessorID
0,E1,6.7,Matemáticas,A2,P1
1,E2,8.0,Física,A4,P2
2,E3,4.25,Matemáticas,A1,P1
3,E4,6.5,Inglés,A7,P7
4,E5,7.0,Lengua,A9,P3


## Importar un archivo CSV como marco de datos

En esta sección vamos a utilizar un conjunto de datos reales que contiene características de los clientes de una determinada empresa. Puedes encontrar descargarlo en el siguiente enlace de `Kaggle`: https://www.kaggle.com/datasets/datascientistanna/customers-dataset

`Kaggle` es un sitio web que contiene una gran cantidad de conjuntos de datos, otro recurso útil para los científicos de datos.

- Podemos importar un archivo CSV como marco de datos usando `pd.read_csv()`.

In [32]:
Customer_Data = pd.read_csv('Customers_Data.csv')

In [33]:
Customer_Data

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
...,...,...,...,...,...,...,...,...
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2


Breve descripción de las variables (columnas) del conjunto de datos `Clientes`:

- Identificación: esta es una variable para identificar, de manera única, cada observación del conjunto de datos. Esta es una variable común en muchos conjuntos de datos, porque juega un papel importante (el papel de identificación).

- Sexo: indica el sexo del cliente.

- Edad: refleja la edad del cliente.

- Ingreso Anual ($): indica el ingreso anual del cliente en dólares.

- Puntaje de gasto (1-100): indica el puntaje asignado por la tienda al cliente, en función del comportamiento del cliente y la naturaleza del gasto.

- Profesión: es la profesión del cliente.

- Experiencia Laboral: es la experiencia laboral medida en años.

- Tamaño de la Familia: indicaba el número de miembros de la familia del cliente.

## Exportar un data-frame como un archivo CSV

Podemos exportar un marco de datos como un archivo CSV usando `to_csv()`

- Si queremos que `Pandas` genere un índice en el CSV exportado, podemos establecer el parámetro `index` de la función `to_csv()` en True, de lo contrario, en False.

In [34]:
Students_df.to_csv('Students_df.csv', index=False)

Y luego podemos importar ese CSV exportado con `pd.read_csv()`, como hicimos antes.

In [35]:
pd.read_csv('Students_df.csv')

Unnamed: 0,StudentID,Name,Country,City,Email,Phone
0,1,Carlos,España,,,917755053.0
1,2,John,España,,john@e-works.com,915547890.0
2,3,Sergio,Germany,Berlin,sergio0@e-works.com,
3,4,Lucía,United States,California,luciaf@e-works.com,
4,5,Miguel,España,Madrid,miguel1999@gmail.com,915547111.0
5,6,Juan,España,Sevilla,,915869448.0
6,7,Roberto,España,,robertoperez@hotmail.com,
7,8,Pedro,Italia,Roma,pedro_99@gmail.com,
8,9,Sara,United States,New York,sara_010596@gmail.com,
9,10,Marta,Perú,Lima,marta00@gmail.com,


## Número de filas y columnas de un data-frame

Podemos obtener el número de filas y columnas de un marco de datos mediante diferentes métodos, como `shape` y `len()`.

El comando `Customer_Data.shape` nos da el número de filas y columnas del marco de datos `Customer_Data`, en ese orden.

In [36]:
Customer_Data.shape

(2000, 8)

Luego, podemos extraer el número de filas y columnas individualmente de la siguiente manera:

- El número de filas:

In [37]:
Customer_Data.shape[0]

2000

In [38]:
len(Customer_Data)

2000

- El número de columnas:

In [39]:
Customer_Data.shape[1]

8


## Head y Tail


Cuando tenemos un conjunto de datos, en algún momento puede ser interesante ver solo las primeras filas del mismo o las últimas filas.

Podemos hacer eso con los comandos `head()` y `tail()`, respectivamente.

   - `Customer_Data.head()` nos muestra las primeras cinco filas del marco de datos `Custumer_Data`.

In [40]:
Customer_Data.head()

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6


- `Customer_Data.head(k)` nos muestra las primeras k filas del marco de datos `Custumer_Data`.

In [41]:
Customer_Data.head(2)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3


- `Customer_Data.tail()` nos muestra las últimas cinco filas del marco de datos `Custumer_Data`.

In [42]:
Customer_Data.tail()

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2
1999,1999,Male,90,110610,52,Entertainment,5,2


- `Customer_Data.head(k)` nos muestra las últimas *k* filas del marco de datos `Custumer_Data`.

In [43]:
k=3

Customer_Data.tail(k)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2
1999,1999,Male,90,110610,52,Entertainment,5,2


## Nombres de columnas

Podemos obtener los nombres de columna (variable) de un marco de datos de la siguiente manera:

In [44]:
Customer_Data.columns

Index(['CustomerID', 'Gender', 'Age', 'Annual Income ($)',
       'Spending Score (1-100)', 'Profession', 'Work Experience',
       'Family Size'],
      dtype='object')

Podemos extraer un nombre de columna específico usando su índice. Por ejemplo, podemos obtener el nombre de la tercera columna de la siguiente manera:

In [45]:
Customer_Data.columns[2]

'Age'

¿Por qué hemos usado el número dos (2) para extraer el nombre de la tercera (3) columna?

- Esta es una característica importante y especial de Python que lo hace diferente de otros lenguajes de programación, como R. Y, en pocas palabras, el conjunto de números enteros que Python usa para indexar elementos comienza desde 0 y no desde 1.
- Este es un tema relevante que hay que tener en cuenta cuando estamos programando en Python.
- Si lo olvidamos, probablemente tendremos problemas cuando estemos intentando hacer diferentes tareas de programación.

## Filtrado de filas de un data-frame

Hay varias formas de filtrar filas de un marco de datos. Específicamente los dos más comunes son los métodos `loc` e `iloc`. Los vamos a ver en detalle a continuación.

### Filtrado de filas por índice

In [48]:
Customer_sample_1.head()

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
1342,1342,Female,45,114741,96,Artist,0,5
1338,1338,Male,16,79257,82,Healthcare,6,2
189,189,Female,36,95000,85,Artist,4,2
1332,1332,Female,82,82060,46,Healthcare,7,1
1816,1816,Female,29,165254,7,Executive,9,7


- El método `loc` nos permite filtrar filas por su índice de etiqueta, es decir, el número que tiene asignado como etiqueta. Por ejemplo, si queremos filtrar la fila con k como índice de etiqueta, podemos hacerlo con `Customer_sample_1.loc[k-1,:]`.

- El método `iloc` nos permite filtrar filas por índice entero, es decir, por la posición real de la fila en el marco de datos. Por ejemplo, si queremos filtrar la primera fila de `Customer_sample_1`, podemos hacerlo con `Customer_sample_1.iloc[0,:]`. Y, en general, si queremos filtrar el número de fila k del marco de datos `Customer_sample_1`, podemos hacerlo con `Customer_sample_1.iloc[k-1, :]`.

Puede haber circunstancias en las que la etiqueta y el índice entero sean diferentes. `Customer_sample_1` es un ejemplo de ello porque, por ejemplo, en este marco de datos, el índice de etiqueta de la primera fila no es 1 (índice entero) sino 1342, por lo que el índice entero y el de etiqueta no son lo mismo en este caso.

Un ejemplo contrario es `Customer_Data`, porque en este marco de datos todas las filas tienen la misma etiqueta e índice entero, como puedes comprobar.

In [49]:
Customer_sample_1.loc[0, :]

CustomerID                         0
Gender                          Male
Age                               19
Annual Income ($)              15000
Spending Score (1-100)            39
Profession                Healthcare
Work Experience                    1
Family Size                        4
Name: 0, dtype: object

In [50]:
Customer_sample_1.iloc[0, :]

CustomerID                  1342
Gender                    Female
Age                           45
Annual Income ($)         114741
Spending Score (1-100)        96
Profession                Artist
Work Experience                0
Family Size                    5
Name: 1342, dtype: object

In [51]:
Customer_sample_1.loc[100, :]

CustomerID                   100
Gender                    Female
Age                           23
Annual Income ($)          65000
Spending Score (1-100)        41
Profession                Artist
Work Experience                0
Family Size                    4
Name: 100, dtype: object

In [52]:
Customer_sample_1.iloc[100, :]

CustomerID                    1079
Gender                        Male
Age                             91
Annual Income ($)            94846
Spending Score (1-100)          95
Profession                Engineer
Work Experience                  0
Family Size                      5
Name: 1079, dtype: object

También podemos filtrar un subconjunto de filas por un conjunto de índices enteros, usando el método `iloc`.

- Para filtrar las filas de un marco de datos cuyo índice entero está en el intervalo de enteros $[k, h)$, donde $k\leq h$, podemos usar `DataFrame.iloc[k:h, :]`

Ahora veamos un par de ejemplos de este enfoque de filtrado.

In [53]:
Customer_Data.iloc[0:6, :] # [0, 6) = [0, 5]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
5,5,Female,22,58000,76,Artist,0,2


In [54]:
Customer_sample_1.iloc[2:6, :] # [2, 6) = [2, 5]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
189,189,Female,36,95000,85,Artist,4,2
1332,1332,Female,82,82060,46,Healthcare,7,1
1816,1816,Female,29,165254,7,Executive,9,7
1685,1685,Male,87,110434,20,Artist,7,3


In [55]:
Customer_Data.iloc[150:500, :] # [150, 500) = [150, 499]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
150,150,Male,43,30000,17,Lawyer,0,9
151,151,Male,39,41000,88,Engineer,0,1
152,152,Female,44,17000,20,Engineer,0,2
153,153,Female,38,92000,76,Artist,2,2
154,154,Female,47,80000,16,Healthcare,0,4
...,...,...,...,...,...,...,...,...
495,495,Female,85,179877,17,Healthcare,12,4
496,496,Female,83,93351,65,Doctor,1,1
497,497,Male,12,84547,96,Homemaker,3,3
498,498,Male,95,121725,3,,12,3


### Filtrado de filas por condiciones

Usando el método `loc` podemos filtrar filas que satisfacen ciertas condiciones relacionadas con sus valores.

Para filtrar filas usando condiciones apropiadamente es importante tener al menos un conocimiento básico sobre lógica proposicional, ya que para llevar a cabo este tipo de tareas de filtrado necesitamos manejar algunas propiedades de la lógica proposicional. Esta es la razón por la que vamos a hacer un breve recordatorio al respecto.



##### Un breve recordatorio sobre la lógica proposicional y la teoría de conjuntos.

Sean las proposiciones $p$ y $q$, es decir, condiciones, entonces, se cumplen las siguientes propiedades:

- $(\hspace{0.05cm} p\hspace{0.15cm} | \hspace{0.15cm} q\hspace{0.05cm}) \hspace{0.05cm}\Leftrightarrow\hspace{0.05cm}$ al menos uno de las dos condiciones, $p$ o $q$, es verdadera.
- $(\hspace{0.05cm} p\hspace{0.15cm} \& \hspace{0.15cm} q\hspace{0.05cm}) \hspace{0.05cm}\Leftrightarrow\hspace{0.05cm}$ ambas condiciones, $p$ y $q$, son verdaderas.
- ~ $p \hspace{0.05cm}\Leftrightarrow\hspace{0.05cm}$ $p$ es falso.
- ~ $(\hspace{0.05cm} p\hspace{0.15cm} \& \hspace{0.15cm} q\hspace{0.05cm}) \hspace{0.05cm}\Leftrightarrow\hspace{0.05cm}$ ~ $ p\hspace{0.1cm} | \hspace{0.1cm}$~ $q$
- ~ $(\hspace{0.05cm} p\hspace{0.15cm} | \hspace{0.15cm} q\hspace{0.05cm}) \hspace{0.05cm}\Leftrightarrow\hspace{0.05cm}$ ~ $p \hspace{0.15 cm} \& \hspace{0.15 cm}$~ $q$

 Sea $A=\{a_1, a_2\}$ un conjunto de elementos, se cumplen las siguientes propiedades:

- $x \in A \hspace{0.12cm}\Leftrightarrow\hspace{0.12cm} x=a_1 \hspace{0.1cm}|\hspace{0.1cm} x=a_2$
- ~ $(x \in A)$ $\hspace{0.12cm}\Leftrightarrow\hspace{0.12cm}$ $x \neq a_1 \hspace{0.1cm}\&\hspace{0.1cm} x \neq a_2$

veamos algunos ejemplos prácticos:

- Podemos filtrar las filas de `Customer_Data` que tienen valores *mayores a 90* en la columna `Age`.

In [56]:
Customer_Data.loc[Customer_Data['Age'] > 90, :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
221,221,Female,95,72000,51,Engineer,4,2
223,223,Female,93,93000,37,Healthcare,1,5
236,236,Male,91,9000,96,Healthcare,1,5
237,237,Male,95,36000,35,,0,4
240,240,Male,92,83000,16,Executive,1,5
...,...,...,...,...,...,...,...,...
1948,1948,Female,91,142602,64,Lawyer,7,6
1972,1972,Male,98,104249,12,Engineer,5,2
1991,1991,Female,97,129444,96,Entertainment,5,6
1992,1992,Male,94,181183,24,Marketing,9,3


- Podemos filtrar las filas de `Customer_Data` que tienen el valor *Hombre* en la columna `Género`.

In [57]:
Customer_Data.loc[Customer_Data['Gender']  == 'Male', :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
8,8,Male,64,97000,3,Engineer,0,3
10,10,Male,67,7000,14,Engineer,1,3
14,14,Male,37,19000,13,Doctor,0,1
...,...,...,...,...,...,...,...,...
1987,1987,Male,63,59244,80,Artist,7,1
1992,1992,Male,94,181183,24,Marketing,9,3
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2


- Podemos filtrar las filas de `Customer_Data` que tienen el valor *78* en la columna `CustomerID`.

In [58]:
Customer_Data.loc[Customer_Data['CustomerID']  == 78, :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
78,78,Female,23,97000,52,Engineer,2,2


- Podríamos filtrar las filas de `Customer_Data` que tienen uno de los valores del conjunto *[Marketing, Engineer, Artis]* en la columna `Profession`.

In [59]:
Customer_Data.loc[Customer_Data['Profession'].isin(['Marketing', 'Engineer', 'Artist']), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
5,5,Female,22,58000,76,Artist,0,2
8,8,Male,64,97000,3,Engineer,0,3
9,9,Female,30,98000,72,Artist,1,4
...,...,...,...,...,...,...,...,...
1990,1990,Female,30,166983,69,Artist,7,3
1992,1992,Male,94,181183,24,Marketing,9,3
1993,1993,Female,64,175254,100,Artist,9,5
1994,1994,Female,19,54121,89,Engineer,6,3


- Nuevamente, podemos filtrar las filas de `Customer_Data` que tienen algún valor del conjunto *[21, 55, 30, 60]* en la columna `Age`.

In [60]:
Customer_Data.loc[Customer_Data['Age'].isin([21, 55, 30, 60]), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
1,1,Male,21,35000,81,Engineer,3,3
9,9,Female,30,98000,72,Artist,1,4
30,30,Male,60,39000,4,Artist,0,3
31,31,Female,21,34000,73,Doctor,1,2
35,35,Female,21,95000,81,Healthcare,3,4
...,...,...,...,...,...,...,...,...
1942,1942,Female,55,66728,50,Healthcare,10,5
1970,1970,Male,55,107099,89,Executive,4,6
1976,1976,Male,60,127438,82,Engineer,7,2
1977,1977,Male,60,125968,100,Lawyer,8,2


- Por otro lado, podemos filtrar filas de `Customer_Data` que tengan un valor entre *15000* y *30000* para la columna `Ingreso Anual ($)`.

In [61]:
Customer_Data.loc[(Customer_Data['Annual Income ($)'] >= 15000) & (Customer_Data['Annual Income ($)'] < 30000), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
14,14,Male,37,19000,13,Doctor,0,1
16,16,Female,35,29000,35,Homemaker,9,5
18,18,Male,52,20000,29,Entertainment,1,4
28,28,Female,40,18000,31,Artist,0,1
29,29,Female,23,20000,87,Artist,5,4
40,40,Female,65,25000,35,Artist,4,1
42,42,Male,48,22000,36,Artist,14,3
49,49,Female,31,25000,42,Engineer,1,1
54,54,Female,50,18000,45,Marketing,1,1


También es posible filtrar filas de un marco de datos por sus valores en dos o más columnas.

- Podemos filtrar las filas con un `Ingreso Anual ($)` mayor o igual a *65000* **y** un valor en `Género` igual a *Femenino*.

In [62]:
Customer_Data.loc[(Customer_Data['Annual Income ($)'] >= 65000) & (Customer_Data['Gender']=='Female'), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
2,2,Female,20,86000,6,Engineer,1,1
7,7,Female,23,84000,94,Healthcare,1,3
9,9,Female,30,98000,72,Artist,1,4
11,11,Female,35,93000,99,Healthcare,4,4
12,12,Female,58,80000,15,Executive,0,5
...,...,...,...,...,...,...,...,...
1990,1990,Female,30,166983,69,Artist,7,3
1991,1991,Female,97,129444,96,Entertainment,5,6
1993,1993,Female,64,175254,100,Artist,9,5
1995,1995,Female,71,184387,40,Artist,8,7


- También podríamos filtrar las filas que tienen un valor de `Profesión` en el conjunto *['Cuidado de la salud', 'Ingeniero']* **o** un valor de `Género` igual a *Mujer*

In [63]:
Customer_Data.loc[(Customer_Data['Profession'].isin(['Healthcare', 'Engineer'])) | (Customer_Data['Gender']=='Female'), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
...,...,...,...,...,...,...,...,...
1993,1993,Female,64,175254,100,Artist,9,5
1994,1994,Female,19,54121,89,Engineer,6,3
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7


Otra posibilidad es filtrar las filas del data-frame que tengan un valor diferente a uno específico en alguna columna.

- Podríamos filtrar las filas que tienen un valor diferente a *Ingeniero* en la columna `Profession`.

In [64]:
Customer_Data.loc[(Customer_Data['Profession'] != 'Engineer'), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
5,5,Female,22,58000,76,Artist,0,2
6,6,Female,35,31000,6,Healthcare,1,3
...,...,...,...,...,...,...,...,...
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2


Otra forma es filtrar las filas que no cumplen una condición específica.

- Podríamos filtrar las filas que tengan un valor de Profesión que no pertenezca al conjunto *[Engineer, Healthcare]*.

In [65]:
Customer_Data.loc[ ~ Customer_Data['Profession'].isin(['Engineer', 'Healthcare']), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
5,5,Female,22,58000,76,Artist,0,2
9,9,Female,30,98000,72,Artist,1,4
12,12,Female,58,80000,15,Executive,0,5
...,...,...,...,...,...,...,...,...
1993,1993,Female,64,175254,100,Artist,9,5
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1998,1998,Male,77,182109,4,Executive,7,2


- También podemos filtrar las filas que no tengan un `Ingreso Anual` *mayor o igual a 10000* ni un valor *Femenino* en `Género`.

In [66]:
Customer_Data.loc[ ~ ( (Customer_Data['Annual Income ($)'] >= 10000) | (Customer_Data['Gender']=='Female') ), :]

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
10,10,Male,67,7000,14,Engineer,1,3
21,21,Male,25,4000,73,Healthcare,3,4
57,57,Male,69,8000,46,Doctor,8,2
65,65,Male,18,9000,59,Entertainment,0,2
113,113,Male,19,2000,46,Artist,1,1
123,123,Male,39,6000,91,Healthcare,1,3
127,127,Male,40,4000,95,Artist,0,2
169,169,Male,32,0,63,Artist,2,2
171,171,Male,28,4000,75,Executive,0,2
197,197,Male,32,4000,74,Artist,1,5



## Selecting columns from a data-frame


También podemos seleccionar columnas de un marco de datos usando los métodos `loc` e `iloc`.

- El método `loc` permite seleccionar columnas por sus nombres.

In [67]:
Customer_Data.head()

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6


In [68]:
Customer_Data.loc[:, ['Age']]

Unnamed: 0,Age
0,19
1,21
2,20
3,23
4,31
...,...
1995,71
1996,91
1997,87
1998,77


In [69]:
Customer_Data.loc[:, ['Age', 'Gender', 'Annual Income ($)']]

Unnamed: 0,Age,Gender,Annual Income ($)
0,19,Male,15000
1,21,Male,35000
2,20,Female,86000
3,23,Female,59000
4,31,Female,38000
...,...,...,...
1995,71,Female,184387
1996,91,Female,73158
1997,87,Male,90961
1998,77,Male,182109


- Otra forma de seleccionar columnas es usando `loc` junto con el método `isin`.

In [70]:
Customer_Data.loc[:, Customer_Data.columns.isin(['Age', 'Gender', 'Annual Income ($)'])]

Unnamed: 0,Gender,Age,Annual Income ($)
0,Male,19,15000
1,Male,21,35000
2,Female,20,86000
3,Female,23,59000
4,Female,31,38000
...,...,...,...
1995,Female,71,184387
1996,Female,91,73158
1997,Male,87,90961
1998,Male,77,182109


- Podemos seleccionar las diferentes columnas de las de un determinado conjunto combinando `~` con `isin`.

In [71]:
Customer_Data.loc[:, ~ Customer_Data.columns.isin(['Age', 'Gender', 'Annual Income ($)'])]

Unnamed: 0,CustomerID,Spending Score (1-100),Profession,Work Experience,Family Size
0,0,39,Healthcare,1,4
1,1,81,Engineer,3,3
2,2,6,Engineer,1,1
3,3,77,Lawyer,0,2
4,4,40,Entertainment,2,6
...,...,...,...,...,...
1995,1995,40,Artist,8,7
1996,1996,32,Doctor,7,7
1997,1997,14,Healthcare,9,2
1998,1998,4,Executive,7,2


- El método `iloc` permite seleccionar columnas por su índice entero.

In [72]:
Customer_Data.iloc[:, 1]

0         Male
1         Male
2       Female
3       Female
4       Female
         ...  
1995    Female
1996    Female
1997      Male
1998      Male
1999      Male
Name: Gender, Length: 2000, dtype: object

In [73]:
Customer_Data.iloc[:, 5]

0          Healthcare
1            Engineer
2            Engineer
3              Lawyer
4       Entertainment
            ...      
1995           Artist
1996           Doctor
1997       Healthcare
1998        Executive
1999    Entertainment
Name: Profession, Length: 2000, dtype: object

In [74]:
Customer_Data.iloc[:, 1:3]  # [1,3) = [1,2]

Unnamed: 0,Gender,Age
0,Male,19
1,Male,21
2,Female,20
3,Female,23
4,Female,31
...,...,...
1995,Female,71
1996,Female,91
1997,Male,87
1998,Male,77


In [75]:
Customer_Data.iloc[:, 2:5]  # [2,5) = [2,4]

Unnamed: 0,Age,Annual Income ($),Spending Score (1-100)
0,19,15000,39
1,21,35000,81
2,20,86000,6
3,23,59000,77
4,31,38000,40
...,...,...,...
1995,71,184387,40
1996,91,73158,32
1997,87,90961,14
1998,77,182109,4


In [76]:
Customer_Data.iloc[:, 5:8]  # [5,8) = [5,7]

Unnamed: 0,Profession,Work Experience,Family Size
0,Healthcare,1,4
1,Engineer,3,3
2,Engineer,1,1
3,Lawyer,0,2
4,Entertainment,2,6
...,...,...,...
1995,Artist,8,7
1996,Doctor,7,7
1997,Healthcare,9,2
1998,Executive,7,2


## Filtrado de filas y columnas al mismo tiempo

Podemos combinar las operaciones anteriores para filtrar filas y columnas al mismo tiempo.

Hay tres opciones disponibles:

- Podemos filtrar filas por índice y columnas por nombres, con el método `loc`. (Índice-Nombres)

In [77]:
Customer_Data.loc[0:10, ['Age', 'Gender', 'Profession']] # [0,10]

Unnamed: 0,Age,Gender,Profession
0,19,Male,Healthcare
1,21,Male,Engineer
2,20,Female,Engineer
3,23,Female,Lawyer
4,31,Female,Entertainment
5,22,Female,Artist
6,35,Female,Healthcare
7,23,Female,Healthcare
8,64,Male,Engineer
9,30,Female,Artist


- Podemos filtrar filas por condiciones y columnas por nombres, con el método `loc` nuevamente. (Condiciones-Nombres)

In [78]:
Customer_Data.loc[(Customer_Data['Age'] > 50) & (Customer_Data['Annual Income ($)'] < 8000), ['Age', 'Gender', 'Profession']] 

Unnamed: 0,Age,Gender,Profession
10,67,Male,Engineer
231,84,Male,Healthcare
233,78,Female,Healthcare
244,53,Female,Artist
252,78,Female,Artist
272,96,Female,Entertainment


- Podemos filtrar filas por índice y columnas por índice también, con el método `iloc`. (Índice-Índice)

In [79]:
Customer_Data.iloc[0:10, 2:5] # [0,10) = [0,9], [2:5)=[2,4]

Unnamed: 0,Age,Annual Income ($),Spending Score (1-100)
0,19,15000,39
1,21,35000,81
2,20,86000,6
3,23,59000,77
4,31,38000,40
5,22,58000,76
6,35,31000,6
7,23,84000,94
8,64,97000,3
9,30,98000,72



## Trasponer un data-frame


También podemos realizar la transposición, la operación matricial típica, en marcos de datos.

In [80]:
Customer_Data.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999
CustomerID,0,1,2,3,4,5,6,7,8,9,...,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999
Gender,Male,Male,Female,Female,Female,Female,Female,Female,Male,Female,...,Female,Female,Male,Female,Female,Female,Female,Male,Male,Male
Age,19,21,20,23,31,22,35,23,64,30,...,30,97,94,64,19,71,91,87,77,90
Annual Income ($),15000,35000,86000,59000,38000,58000,31000,84000,97000,98000,...,166983,129444,181183,175254,54121,184387,73158,90961,182109,110610
Spending Score (1-100),39,81,6,77,40,76,6,94,3,72,...,69,96,24,100,89,40,32,14,4,52
Profession,Healthcare,Engineer,Engineer,Lawyer,Entertainment,Artist,Healthcare,Healthcare,Engineer,Artist,...,Artist,Entertainment,Marketing,Artist,Engineer,Artist,Doctor,Healthcare,Executive,Entertainment
Work Experience,1,3,1,0,2,0,1,1,0,1,...,7,5,9,9,6,8,7,9,7,5
Family Size,4,3,1,2,6,2,3,3,3,4,...,3,6,3,5,3,7,7,2,2,2



## `Pandas` data-frame to `Numpy` array


Podemos convertir el marco de datos `Pandas` en matrices `Numpy`.

Esto es útil porque permite aplicar operaciones `Numpy` a marcos de datos `Pandas`, una vez que se han transformado en matrices `Numpy`.

Más tarde, en este curso, haremos una introducción completa a `Numpy`, donde veremos muchas de las utilidades de `Numpy`, y luego nos daremos cuenta más de la importancia de esta biblioteca y la operación `to_numpy`.

In [81]:
Customer_Data.to_numpy()

array([[0, 'Male', 19, ..., 'Healthcare', 1, 4],
       [1, 'Male', 21, ..., 'Engineer', 3, 3],
       [2, 'Female', 20, ..., 'Engineer', 1, 1],
       ...,
       [1997, 'Male', 87, ..., 'Healthcare', 9, 2],
       [1998, 'Male', 77, ..., 'Executive', 7, 2],
       [1999, 'Male', 90, ..., 'Entertainment', 5, 2]], dtype=object)


## Eliminar columnas de un data-frame



Podemos eliminar columnas de un marco de datos con la función `drop()` configurando `axis=1`.

Con este método tenemos que indicar los nombres de las columnas que queremos eliminar.

In [82]:
Customer_Data.drop(['Age'], axis=1)

Unnamed: 0,CustomerID,Gender,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,15000,39,Healthcare,1,4
1,1,Male,35000,81,Engineer,3,3
2,2,Female,86000,6,Engineer,1,1
3,3,Female,59000,77,Lawyer,0,2
4,4,Female,38000,40,Entertainment,2,6
...,...,...,...,...,...,...,...
1995,1995,Female,184387,40,Artist,8,7
1996,1996,Female,73158,32,Doctor,7,7
1997,1997,Male,90961,14,Healthcare,9,2
1998,1998,Male,182109,4,Executive,7,2


Podemos eliminar varias columnas a la vez haciendo lo siguiente.

In [83]:
Customer_Data.drop(['Age', 'Gender', 'Profession'], axis=1)

Unnamed: 0,CustomerID,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
0,0,15000,39,1,4
1,1,35000,81,3,3
2,2,86000,6,1,1
3,3,59000,77,0,2
4,4,38000,40,2,6
...,...,...,...,...,...
1995,1995,184387,40,8,7
1996,1996,73158,32,7,7
1997,1997,90961,14,9,2
1998,1998,182109,4,7,2


## Eliminar filas de un data-frame

Podemos eliminar filas de un marco de datos con la función `drop()` configurando `axis=0`.

Con este método tenemos que establecer los índices enteros de las filas que queremos borrar.

In [84]:
Customer_Data.drop([2], axis=0)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
5,5,Female,22,58000,76,Artist,0,2
...,...,...,...,...,...,...,...,...
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2


Podemos eliminar varias filas al mismo tiempo de la siguiente manera.

In [85]:
Customer_Data.drop([2,3,1998], axis=0)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
4,4,Female,31,38000,40,Entertainment,2,6
5,5,Female,22,58000,76,Artist,0,2
6,6,Female,35,31000,6,Healthcare,1,3
...,...,...,...,...,...,...,...,...
1994,1994,Female,19,54121,89,Engineer,6,3
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2



## Renombrar columnas de un data-frame


También podemos cambiar el nombre de las columnas de un marco de datos usando el método `remane()`.

In [86]:
Customer_Data.rename(columns={'Age' : 'Age_rename'})


Unnamed: 0,CustomerID,Gender,Age_rename,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
...,...,...,...,...,...,...,...,...
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2


Podemos cambiar el nombre de varias columnas al mismo tiempo de la siguiente manera.

In [87]:
Customer_Data.rename(columns={'Age' : 'Age_rename', 'Gender': 'Gender_rename'})

Unnamed: 0,CustomerID,Gender_rename,Age_rename,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
...,...,...,...,...,...,...,...,...
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2


In [88]:
Customer_Data.rename(columns={'Age' : 'Age_rename', 'Gender': 'Gender_rename'})

Unnamed: 0,CustomerID,Gender_rename,Age_rename,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
...,...,...,...,...,...,...,...,...
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2



## Group by


In [89]:
numeric_columns = Customer_Data.select_dtypes(include=['float', 'int'])
numeric_columns

Unnamed: 0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
0,0,19,15000,39,1,4
1,1,21,35000,81,3,3
2,2,20,86000,6,1,1
3,3,23,59000,77,0,2
4,4,31,38000,40,2,6
...,...,...,...,...,...,...
1995,1995,71,184387,40,8,7
1996,1996,91,73158,32,7,7
1997,1997,87,90961,14,9,2
1998,1998,77,182109,4,7,2


In [90]:
Customer_Data.groupby('Gender')[numeric_columns.columns].sum()

Unnamed: 0_level_0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,1182843,57904,131116706,60456,4786,4469
Male,816157,40016,90346937,41469,3419,3068


In [91]:
Customer_Data.groupby('Gender')[numeric_columns.columns].mean()

Unnamed: 0_level_0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,997.338111,48.822934,110553.715008,50.974705,4.035413,3.768128
Male,1002.649877,49.159705,110991.323096,50.944717,4.200246,3.769042


In [92]:
Customer_Data.groupby('Gender')[numeric_columns.columns].median()

Unnamed: 0_level_0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,993.5,48.0,111174.0,50.0,3.0,4.0
Male,1005.5,48.0,108055.0,51.0,3.5,4.0


In [93]:
Customer_Data.groupby('Gender')[numeric_columns.columns].std()

Unnamed: 0_level_0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,574.226456,28.263988,45883.436382,28.03258,3.884896,1.976494
Male,582.563041,28.685795,45555.982548,27.808573,3.976307,1.963561


In [94]:
Customer_Data.groupby('Gender')[numeric_columns.columns].min()

Unnamed: 0_level_0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,2,0,1000,0,0,1
Male,0,0,0,1,0,1


In [95]:
Customer_Data.groupby('Gender')[numeric_columns.columns].max()

Unnamed: 0_level_0,CustomerID,Age,Annual Income ($),Spending Score (1-100),Work Experience,Family Size
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Female,1996,99,189974,100,17,8
Male,1999,99,189945,100,17,9



## Concatenar data-frames


Concatenar dos tramas de datos es, básicamente, unirlas desde un punto de vista físico.

Podemos concatenar marcos de datos por columnas y filas.

Imaginemos que tenemos dos marcos de datos `df1` y `df2`.
- Concatenar `df1` con `df2` significa sumar las filas del segundo (`df2`) al primero (`df1`).
- Por otro lado, concatenar `df1` con `df2` por columnas significa sumar las columnas del segundo (`df2`) a la primera (`df1`).

In [96]:
Professors_df

Unnamed: 0,ProfessorID,Name,Studies,Email
0,P1,Juan,Matemáticas,juanperez@colegio.es
1,P2,Sonia,Física,sonidiaz@colegio.es
2,P3,Lucia,Lengua,luciaperez@colegio.es
3,P4,Marcos,Biología,marcossanz@colegio.es
4,P5,Carlos,Educación Física,carlosfernandez@colegio.es
5,P6,Daniel,Geografía,danielortiz@colegio.es
6,P7,Garazi,Inglés,garazigarcia@colegio.es


In [97]:
Students_df

Unnamed: 0,StudentID,Name,Country,City,Email,Phone
0,1,Carlos,España,,,917755053.0
1,2,John,España,,john@e-works.com,915547890.0
2,3,Sergio,Germany,Berlin,sergio0@e-works.com,
3,4,Lucía,United States,California,luciaf@e-works.com,
4,5,Miguel,España,Madrid,miguel1999@gmail.com,915547111.0
5,6,Juan,España,Sevilla,,915869448.0
6,7,Roberto,España,,robertoperez@hotmail.com,
7,8,Pedro,Italia,Roma,pedro_99@gmail.com,
8,9,Sara,United States,New York,sara_010596@gmail.com,
9,10,Marta,Perú,Lima,marta00@gmail.com,


### Concatenación por columns

Primero tenemos que importar el módulo `concat` de `pandas`.

In [98]:
from pandas import concat

Podemos concatenar marcos de datos por columnas configurando `axis = 1`.

In [99]:
concat([Professors_df, Students_df], axis=1)

Unnamed: 0,ProfessorID,Name,Studies,Email,StudentID,Name.1,Country,City,Email.1,Phone
0,P1,Juan,Matemáticas,juanperez@colegio.es,1,Carlos,España,,,917755053.0
1,P2,Sonia,Física,sonidiaz@colegio.es,2,John,España,,john@e-works.com,915547890.0
2,P3,Lucia,Lengua,luciaperez@colegio.es,3,Sergio,Germany,Berlin,sergio0@e-works.com,
3,P4,Marcos,Biología,marcossanz@colegio.es,4,Lucía,United States,California,luciaf@e-works.com,
4,P5,Carlos,Educación Física,carlosfernandez@colegio.es,5,Miguel,España,Madrid,miguel1999@gmail.com,915547111.0
5,P6,Daniel,Geografía,danielortiz@colegio.es,6,Juan,España,Sevilla,,915869448.0
6,P7,Garazi,Inglés,garazigarcia@colegio.es,7,Roberto,España,,robertoperez@hotmail.com,
7,,,,,8,Pedro,Italia,Roma,pedro_99@gmail.com,
8,,,,,9,Sara,United States,New York,sara_010596@gmail.com,
9,,,,,10,Marta,Perú,Lima,marta00@gmail.com,


### Concatenación por filas

Podemos concatenar marcos de datos por filas configurando `axis=0`.

In [100]:
concat([Professors_df, Students_df], axis=0)

Unnamed: 0,ProfessorID,Name,Studies,Email,StudentID,Country,City,Phone
0,P1,Juan,Matemáticas,juanperez@colegio.es,,,,
1,P2,Sonia,Física,sonidiaz@colegio.es,,,,
2,P3,Lucia,Lengua,luciaperez@colegio.es,,,,
3,P4,Marcos,Biología,marcossanz@colegio.es,,,,
4,P5,Carlos,Educación Física,carlosfernandez@colegio.es,,,,
5,P6,Daniel,Geografía,danielortiz@colegio.es,,,,
6,P7,Garazi,Inglés,garazigarcia@colegio.es,,,,
0,,Carlos,,,1.0,España,,917755053.0
1,,John,,john@e-works.com,2.0,España,,915547890.0
2,,Sergio,,sergio0@e-works.com,3.0,Germany,Berlin,


Creamos dos nuevos marcos de datos con los mismos nombres de columna, para mostrar cómo funciona `concat(,axis=0)` en este caso.

In [101]:
X1 = pd.Series([ 2 , 4 , 3, 35, 23 ])
X2 = pd.Series([10, 12, 3, 3, -13])
X3 = pd.Series([22, 33, 1, 5, -3])
X4 = pd.Series([52, 2, 23, 6, -5])
X5 = pd.Series([ 22 , 34 , 13, 35, 23, 100, 152])
X6 = pd.Series([10, 12, 32, 30, -13, 54, 20])
X7 = pd.Series([22, 33, 1, 56, -13, 2, 5])
X8 = pd.Series([5, 12, 2, 66, -5, -9, 6])

df1 = pd.DataFrame( {"X1": X1 , "X2": X2 , "X3": X3 , "X4": X4} ) 
df2 = pd.DataFrame( {"X1": X5 , "X2": X6 , "X3": X7 , "X4": X8} )

In [102]:
df1

Unnamed: 0,X1,X2,X3,X4
0,2,10,22,52
1,4,12,33,2
2,3,3,1,23
3,35,3,5,6
4,23,-13,-3,-5


In [103]:
df2

Unnamed: 0,X1,X2,X3,X4
0,22,10,22,5
1,34,12,33,12
2,13,32,1,2
3,35,30,56,66
4,23,-13,-13,-5
5,100,54,2,-9
6,152,20,5,6


In [104]:
concat([df1, df2], axis=0)

Unnamed: 0,X1,X2,X3,X4
0,2,10,22,52
1,4,12,33,2
2,3,3,1,23
3,35,3,5,6
4,23,-13,-3,-5
0,22,10,22,5
1,34,12,33,12
2,13,32,1,2
3,35,30,56,66
4,23,-13,-13,-5


Creamos dos nuevos marcos de datos con el mismo número de filas, para mostrar cómo funciona `concat(,axis=1)` en este caso.

In [105]:
X1 = pd.Series([ 2 , 4 , 3, 35, 23 ])
X2 = pd.Series([10, 12, 3, 3, -13])
X3 = pd.Series([22, 33, 1, 5, -3])
X4 = pd.Series([52, 2, 23, 6, -5])
X5 = pd.Series([ 22 , 34 , 13, 35, 23])
X6 = pd.Series([10, 12, 32, 30, -13])
X7 = pd.Series([22, 33, 1, 56, -13])
X8 = pd.Series([5, 12, 2, 66, -5])

df1 = pd.DataFrame( {"X1": X1 , "X2": X2 , "X3": X3 , "X4": X4} ) 
df2 = pd.DataFrame( {"X5": X5 , "X6": X6 , "X7": X7} )

In [106]:
df1

Unnamed: 0,X1,X2,X3,X4
0,2,10,22,52
1,4,12,33,2
2,3,3,1,23
3,35,3,5,6
4,23,-13,-3,-5


In [107]:
df2

Unnamed: 0,X5,X6,X7
0,22,10,22
1,34,12,33
2,13,32,1
3,35,30,56
4,23,-13,-13


In [108]:
concat([df1, df2], axis=1)

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7
0,2,10,22,52,22,10,22
1,4,12,33,2,34,12,33
2,3,3,1,23,13,32,1
3,35,3,5,6,35,30,56
4,23,-13,-3,-5,23,-13,-13



## Join data-frames 


Vamos a recordar `Exams_df` y `Students_df`, porque se utilizarán en esta sección.

In [109]:
Exams_df

Unnamed: 0,ExamId,Mark,Subject,StudentID,ProfessorID
0,E1,6.7,Matemáticas,A2,P1
1,E2,8.0,Física,A4,P2
2,E3,4.25,Matemáticas,A1,P1
3,E4,6.5,Inglés,A7,P7
4,E5,7.0,Lengua,A9,P3


In [110]:
Students_df

Unnamed: 0,StudentID,Name,Country,City,Email,Phone
0,1,Carlos,España,,,917755053.0
1,2,John,España,,john@e-works.com,915547890.0
2,3,Sergio,Germany,Berlin,sergio0@e-works.com,
3,4,Lucía,United States,California,luciaf@e-works.com,
4,5,Miguel,España,Madrid,miguel1999@gmail.com,915547111.0
5,6,Juan,España,Sevilla,,915869448.0
6,7,Roberto,España,,robertoperez@hotmail.com,
7,8,Pedro,Italia,Roma,pedro_99@gmail.com,
8,9,Sara,United States,New York,sara_010596@gmail.com,
9,10,Marta,Perú,Lima,marta00@gmail.com,


In [111]:
Professors_df

Unnamed: 0,ProfessorID,Name,Studies,Email
0,P1,Juan,Matemáticas,juanperez@colegio.es
1,P2,Sonia,Física,sonidiaz@colegio.es
2,P3,Lucia,Lengua,luciaperez@colegio.es
3,P4,Marcos,Biología,marcossanz@colegio.es
4,P5,Carlos,Educación Física,carlosfernandez@colegio.es
5,P6,Daniel,Geografía,danielortiz@colegio.es
6,P7,Garazi,Inglés,garazigarcia@colegio.es



### Inner join


La operación de inner join  aplicada a dos data-frames `df1` y `df2` produce otro marco de datos que consiste en la concatenación de las filas de `df1` y `df2` que comparten el mismo valor en la *columna de enlace* (share *linking valor*).

In [112]:
pd.merge(Exams_df, Students_df, on='StudentID', how='inner')  

Unnamed: 0,ExamId,Mark,Subject,StudentID,ProfessorID,Name,Country,City,Email,Phone


In [113]:
pd.merge(Exams_df, Professors_df, on='ProfessorID', how='inner')  

Unnamed: 0,ExamId,Mark,Subject,StudentID,ProfessorID,Name,Studies,Email
0,E1,6.7,Matemáticas,A2,P1,Juan,Matemáticas,juanperez@colegio.es
1,E2,8.0,Física,A4,P2,Sonia,Física,sonidiaz@colegio.es
2,E3,4.25,Matemáticas,A1,P1,Juan,Matemáticas,juanperez@colegio.es
3,E4,6.5,Inglés,A7,P7,Garazi,Inglés,garazigarcia@colegio.es
4,E5,7.0,Lengua,A9,P3,Lucia,Lengua,luciaperez@colegio.es


Observación:

La forma correcta de usar la combinación cuando los nombres de las columnas de enlace son diferentes es:

In [94]:
df_merge = pd.merge(df1, df2, left_on='id1' , right_on='id2', how='inner')


### Outer join


La operación de outer join aplicada a dos data-frames `df1` y `df2` produce el mismo marco de datos de unión interna, pero agregando también las filas de
`df1` que no comparten el valor de enlace con ninguna fila de `df2`, y los de `df2` que no comparten el valor de enlace con ninguna fila de `df1`.

In [114]:
pd.merge(Exams_df, Students_df, on='StudentID', how='outer')  

Unnamed: 0,ExamId,Mark,Subject,StudentID,ProfessorID,Name,Country,City,Email,Phone
0,,,,01,,Carlos,España,,,917755053.0
1,,,,02,,John,España,,john@e-works.com,915547890.0
2,,,,03,,Sergio,Germany,Berlin,sergio0@e-works.com,
3,,,,04,,Lucía,United States,California,luciaf@e-works.com,
4,,,,05,,Miguel,España,Madrid,miguel1999@gmail.com,915547111.0
5,,,,06,,Juan,España,Sevilla,,915869448.0
6,,,,07,,Roberto,España,,robertoperez@hotmail.com,
7,,,,08,,Pedro,Italia,Roma,pedro_99@gmail.com,
8,,,,09,,Sara,United States,New York,sara_010596@gmail.com,
9,,,,10,,Marta,Perú,Lima,marta00@gmail.com,


In [115]:
pd.merge(Exams_df, Professors_df, on='ProfessorID', how='outer')   

Unnamed: 0,ExamId,Mark,Subject,StudentID,ProfessorID,Name,Studies,Email
0,E1,6.7,Matemáticas,A2,P1,Juan,Matemáticas,juanperez@colegio.es
1,E3,4.25,Matemáticas,A1,P1,Juan,Matemáticas,juanperez@colegio.es
2,E2,8.0,Física,A4,P2,Sonia,Física,sonidiaz@colegio.es
3,E5,7.0,Lengua,A9,P3,Lucia,Lengua,luciaperez@colegio.es
4,,,,,P4,Marcos,Biología,marcossanz@colegio.es
5,,,,,P5,Carlos,Educación Física,carlosfernandez@colegio.es
6,,,,,P6,Daniel,Geografía,danielortiz@colegio.es
7,E4,6.5,Inglés,A7,P7,Garazi,Inglés,garazigarcia@colegio.es



### Left join


La operación de left join aplicada a dos data-frames `df1` y `df2` produce otro marco de datos que consiste en la concatenación de las filas de `df1` y `df2` que comparten el valor del enlace, y el resto de las filas de `df1`.

In [116]:
pd.merge(Exams_df, Students_df, on='StudentID', how='left')   

Unnamed: 0,ExamId,Mark,Subject,StudentID,ProfessorID,Name,Country,City,Email,Phone
0,E1,6.7,Matemáticas,A2,P1,,,,,
1,E2,8.0,Física,A4,P2,,,,,
2,E3,4.25,Matemáticas,A1,P1,,,,,
3,E4,6.5,Inglés,A7,P7,,,,,
4,E5,7.0,Lengua,A9,P3,,,,,


In [117]:
pd.merge(Students_df, Exams_df, on='StudentID', how='left')   

Unnamed: 0,StudentID,Name,Country,City,Email,Phone,ExamId,Mark,Subject,ProfessorID
0,1,Carlos,España,,,917755053.0,,,,
1,2,John,España,,john@e-works.com,915547890.0,,,,
2,3,Sergio,Germany,Berlin,sergio0@e-works.com,,,,,
3,4,Lucía,United States,California,luciaf@e-works.com,,,,,
4,5,Miguel,España,Madrid,miguel1999@gmail.com,915547111.0,,,,
5,6,Juan,España,Sevilla,,915869448.0,,,,
6,7,Roberto,España,,robertoperez@hotmail.com,,,,,
7,8,Pedro,Italia,Roma,pedro_99@gmail.com,,,,,
8,9,Sara,United States,New York,sara_010596@gmail.com,,,,,
9,10,Marta,Perú,Lima,marta00@gmail.com,,,,,



### Right join


La operación de right join aplicada a dos data-frames `df1` y `df2` produce otro marco de datos que consiste en las filas de
`df1` y `df2` que comparten valor de enlace, y el resto de filas de `df2`.

## Ordenar data-frame por columnas


Podemos ordenar las filas de un marco de datos ordenando los valores en una columna específica de ese marco de datos.

In [118]:
Customer_Data

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
0,0,Male,19,15000,39,Healthcare,1,4
1,1,Male,21,35000,81,Engineer,3,3
2,2,Female,20,86000,6,Engineer,1,1
3,3,Female,23,59000,77,Lawyer,0,2
4,4,Female,31,38000,40,Entertainment,2,6
...,...,...,...,...,...,...,...,...
1995,1995,Female,71,184387,40,Artist,8,7
1996,1996,Female,91,73158,32,Doctor,7,7
1997,1997,Male,87,90961,14,Healthcare,9,2
1998,1998,Male,77,182109,4,Executive,7,2


- Establecemos un ajuste de clasificación ascendente `ascending=True`. En este caso, los valores de la columna de selección se ordenan de menor a mayor.

In [119]:
Customer_Data.sort_values(by='Annual Income ($)', ascending=True)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
246,246,Male,23,0,96,Doctor,1,3
169,169,Male,32,0,63,Artist,2,2
272,272,Female,96,1000,76,Entertainment,0,3
96,96,Female,47,2000,47,Artist,0,1
113,113,Male,19,2000,46,Artist,1,1
...,...,...,...,...,...,...,...,...
638,638,Female,59,189672,8,Doctor,0,7
1576,1576,Female,16,189689,37,Healthcare,8,5
1825,1825,Male,7,189709,18,Artist,6,6
1257,1257,Male,60,189945,20,Engineer,0,5


- Establecemos un ordenamiento no ascendente `ascending=False`. En este caso, los valores en la columna de selección se ordenan de mayor a menor.

In [120]:
Customer_Data.sort_values(by='Annual Income ($)', ascending=False)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
569,569,Female,91,189974,37,Engineer,8,1
1257,1257,Male,60,189945,20,Engineer,0,5
1825,1825,Male,7,189709,18,Artist,6,6
1576,1576,Female,16,189689,37,Healthcare,8,5
638,638,Female,59,189672,8,Doctor,0,7
...,...,...,...,...,...,...,...,...
96,96,Female,47,2000,47,Artist,0,1
113,113,Male,19,2000,46,Artist,1,1
272,272,Female,96,1000,76,Entertainment,0,3
169,169,Male,32,0,63,Artist,2,2


In [121]:
Customer_Data.sort_values(by='Age', ascending=False)

Unnamed: 0,CustomerID,Gender,Age,Annual Income ($),Spending Score (1-100),Profession,Work Experience,Family Size
361,361,Male,99,63364,61,Entertainment,1,2
351,351,Male,99,173394,4,Engineer,13,1
347,347,Female,99,184426,41,Artist,9,1
1103,1103,Female,99,103706,50,Entertainment,1,2
1771,1771,Female,99,84167,46,Artist,10,7
...,...,...,...,...,...,...,...,...
794,794,Female,0,147719,86,Lawyer,1,7
1925,1925,Female,0,105935,46,Doctor,4,5
852,852,Female,0,121926,41,Lawyer,7,1
821,821,Female,0,116759,28,Marketing,7,3
