# Sesión 12: Pandas

En esta sesión vamos a hacer una breve introducción a Pandas, para ello nos basaremos en el [capítulo dedicado a este tema de nuestro libro de referencia](https://wesmckinney.com/book/pandas-basics).



## Principales métodos de Pandas

**[Pandas](http://pandas.pydata.org)** es una librería que proporciona una gran cantidad de métodos para el análisis de datos. Los científicos de datos suelen trabajar con datos almacenados en tablas usando ficheros con formatos como `.csv`, `.tsv`, o `.xlsx`. La librería Pandas proporciona la funcionalidad necesaria para cargar, procesar y analizar dichos datos tabulares usando *queries* al estilo SQL.

Las principales estructuras de datos en Pandas se implementan con las clases `Series` y `DataFrame`. La primera de ellas es un array indexado de una dimensión donde todos los elementos de dicho array tienen el mismo tipo. La segunda es una estructura de dos dimensiones (es decir, una tabla) donde todos los datos de una columna tienen el mismo tipo. Los `DataFrames` son una buena manera de representar datos reales: las filas se corresponden con las instancias (ejemplos, observaciones, etc.), y las columnas corresponden a los descriptores de dichas instancias.

Para este notebook comenzamos cargando, además de la librería pandas, la librería [numpy](http://www.numpy.org/).

In [1]:
import numpy as np
import pandas as pd

## Estructura de datos en Pandas

En pandas hay dos estructuras de datos principales: las ``Series`` y los ``DataFrames``.


### Series

Una ``Serie`` en Pandas es un objeto similar a un array 1-dimensional que contiene una secuencia de valores del mismo tipo, junto con un array de etiquetas de datos llamada índice. La ``Serie`` más simple está formada por un array de datos.

In [2]:
s1 = pd.Series([4,7,-5,3])
print(s1.array,s1.index)
s1

<NumpyExtensionArray>
[np.int64(4), np.int64(7), np.int64(-5), np.int64(3)]
Length: 4, dtype: int64 RangeIndex(start=0, stop=4, step=1)


Unnamed: 0,0
0,4
1,7
2,-5
3,3


También podemos proporcionar un índice a nuestra ``Serie``.

In [3]:
s2 = pd.Series([4,7,-5,3],index=["d","b","c","a"])
print(s2.array,s2.index)
s2

<NumpyExtensionArray>
[np.int64(4), np.int64(7), np.int64(-5), np.int64(3)]
Length: 4, dtype: int64 Index(['d', 'b', 'c', 'a'], dtype='object')


Unnamed: 0,0
d,4
b,7
c,-5
a,3


La diferencia principal con los arrays de numpy es que podemos seleccionar valores usando las etiquetas de los índices.

In [4]:
print(s2["a"])
s2["d"] = 6
s2[["c","a","d"]]
# También podemos usar la posición
# s2[0:2]

3


Unnamed: 0,0
c,-5
a,3
d,6


También podemos usar las operaciones al estilo de numpy e incluso las funciones de esta librería.

In [5]:
s2[s2>0]

Unnamed: 0,0
d,6
b,7
a,3


In [6]:
s2*2

Unnamed: 0,0
d,12
b,14
c,-10
a,6


In [7]:
np.exp(s2)

Unnamed: 0,0
d,403.428793
b,1096.633158
c,0.006738
a,20.085537


### Dataframes

Un ``DataFrame`` representa una tabla rectangular de datos y contiene una colección ordenada de columnas con un nombre asociado. Cada columna puede tener un tipo diferente (numérico, booleano, string, etc.). El ``DataFrame`` tiene dos índices: uno por fila y otro por columna.

Hay muchas formas de construir un ``DataFrame``, aunque la más común es a partir de un diccionario con listas de igual longitud de arrays.


In [8]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


El ``DataFrame`` resultante tendrá un índice asignado de forma automática, como en las ``Series``, y la columnas se ordenerán siguiendo el orden de las claves proporcionadas.

### Acceso a elementos del ``DataFrame``

Los métodos ``head`` y ``tail`` devuelven respectivamente las 5 primeras y las 5 últimas filas del ``DataFrame``.

In [9]:
df.head()
df.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


El acceso a una columna del ``DataFrame`` es análogo al de las ``Series``usando o bien la notación de diccionario o la notación de atributo.

In [10]:
df.year
#df["year"]

Unnamed: 0,year
0,2000
1,2001
2,2002
3,2001
4,2002
5,2003


Las filas también pueden ser recuperadas usando los atributos ``iloc`` y ``loc`` (el primero obtiene las filas en base a los índices enteros, mientras que el segundo se basa en las etiquetas de los ejes).

In [11]:
df.loc[1]
# df.iloc[[0,3]]

Unnamed: 0,1
state,Ohio
year,2001
pop,1.7


Las columnas se pueden modificar por asignación. Por ejemplo, podemos crear una nueva columna y asignarle un valor escalar o un array de valores. Esta asignación solo se puede realizar con la notación de diccionario no con la de punto de acceso a atributo.

In [12]:
df["debt"] = 16.5
df

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,16.5
1,Ohio,2001,1.7,16.5
2,Ohio,2002,3.6,16.5
3,Nevada,2001,2.4,16.5
4,Nevada,2002,2.9,16.5
5,Nevada,2003,3.2,16.5


In [13]:
df["debt"] = np.arange(6.)
df

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,0.0
1,Ohio,2001,1.7,1.0
2,Ohio,2002,3.6,2.0
3,Nevada,2001,2.4,3.0
4,Nevada,2002,2.9,4.0
5,Nevada,2003,3.2,5.0


También es posible asignar una ``Serie``, cuyas etiquetas serán alineadas con las del índice del ``DataFrame``.

In [14]:
df["debt"] = pd.Series([-1.2,-1.5,1.7],index=[2,4,5])
df # Notar que aparecen valores nulos

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,-1.2
3,Nevada,2001,2.4,
4,Nevada,2002,2.9,-1.5
5,Nevada,2003,3.2,1.7


También es posible crear un ``DataFrame`` con un diccionario anidado en otro diccionario.

In [15]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},"Nevada": {2001: 2.4, 2002: 2.9}}
df2 = pd.DataFrame(populations)
df2 # Notar que valores desconocidos se ponen a NaN

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


Es posible usar la notación de Numpy para transponer un  ``DataFrame``.

In [16]:
df2.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


La lista completa de las cosas que se le pueden pasar al constructor de un  ``DataFrame`` pueden verse en el [libro de Python for Data Analysis](https://wesmckinney.com/book/pandas-basics#tbl-table_dataframe_constructor).

## Guardando y cargando datos

Normalmente, un ``DataFrame`` no se construye directamente, sino que se carga desde un fichero de texto o una base de datos. Vamos a empezar guardando los ``DataFrames`` que hemos creado.

Uno de los formatos más comunes para ello es el formato CSV (Comma Separated Value).

In [17]:
df.to_csv("ejemplo1.csv")
!cat ejemplo1.csv

,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,-1.2
3,Nevada,2001,2.4,
4,Nevada,2002,2.9,-1.5
5,Nevada,2003,3.2,1.7


Como podemos ver los datos se han separado por comas, pero tambien se pueden separar con otros delimitadores (esto habrá que tenerlo en cuenta a la hora de cargar posteriormente los datos).

In [18]:
df.to_csv("ejemplo1_barra.csv",sep="|")
!cat ejemplo1_barra.csv

|state|year|pop|debt
0|Ohio|2000|1.5|
1|Ohio|2001|1.7|
2|Ohio|2002|3.6|-1.2
3|Nevada|2001|2.4|
4|Nevada|2002|2.9|-1.5
5|Nevada|2003|3.2|1.7


Notar que se guardan cabeceras de columnas e índices. Ambas opciones se pueden deshabilitar.

In [19]:
df.to_csv("ejemplo1_sin_indices.csv",index=False, header=False)
!cat ejemplo1_sin_indices.csv

Ohio,2000,1.5,
Ohio,2001,1.7,
Ohio,2002,3.6,-1.2
Nevada,2001,2.4,
Nevada,2002,2.9,-1.5
Nevada,2003,3.2,1.7


In [20]:
df.to_csv("ejemplo1_sin_indice.csv",index=False)
!cat ejemplo1_sin_indice.csv

state,year,pop,debt
Ohio,2000,1.5,
Ohio,2001,1.7,
Ohio,2002,3.6,-1.2
Nevada,2001,2.4,
Nevada,2002,2.9,-1.5
Nevada,2003,3.2,1.7


In [21]:
df.to_csv("ejemplo1_sin_cabecera.csv", header=False)
!cat ejemplo1_sin_cabecera.csv

0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,-1.2
3,Nevada,2001,2.4,
4,Nevada,2002,2.9,-1.5
5,Nevada,2003,3.2,1.7


También es posible guardar los datos en formato JSON, HTML o XML.

In [22]:
df.to_json("ejemplo1.json")
!cat ejemplo1.json

{"state":{"0":"Ohio","1":"Ohio","2":"Ohio","3":"Nevada","4":"Nevada","5":"Nevada"},"year":{"0":2000,"1":2001,"2":2002,"3":2001,"4":2002,"5":2003},"pop":{"0":1.5,"1":1.7,"2":3.6,"3":2.4,"4":2.9,"5":3.2},"debt":{"0":null,"1":null,"2":-1.2,"3":null,"4":-1.5,"5":1.7}}

In [23]:
df.to_html("ejemplo1.html")
!cat ejemplo1.html

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>state</th>
      <th>year</th>
      <th>pop</th>
      <th>debt</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>Ohio</td>
      <td>2000</td>
      <td>1.5</td>
      <td>NaN</td>
    </tr>
    <tr>
      <th>1</th>
      <td>Ohio</td>
      <td>2001</td>
      <td>1.7</td>
      <td>NaN</td>
    </tr>
    <tr>
      <th>2</th>
      <td>Ohio</td>
      <td>2002</td>
      <td>3.6</td>
      <td>-1.2</td>
    </tr>
    <tr>
      <th>3</th>
      <td>Nevada</td>
      <td>2001</td>
      <td>2.4</td>
      <td>NaN</td>
    </tr>
    <tr>
      <th>4</th>
      <td>Nevada</td>
      <td>2002</td>
      <td>2.9</td>
      <td>-1.5</td>
    </tr>
    <tr>
      <th>5</th>
      <td>Nevada</td>
      <td>2003</td>
      <td>3.2</td>
      <td>1.7</td>
    </tr>
  </tbody>
</table>

In [24]:
df.to_xml("ejemplo1.xml")
!cat ejemplo1.xml

<?xml version='1.0' encoding='utf-8'?>
<data>
  <row>
    <index>0</index>
    <state>Ohio</state>
    <year>2000</year>
    <pop>1.5</pop>
    <debt/>
  </row>
  <row>
    <index>1</index>
    <state>Ohio</state>
    <year>2001</year>
    <pop>1.7</pop>
    <debt/>
  </row>
  <row>
    <index>2</index>
    <state>Ohio</state>
    <year>2002</year>
    <pop>3.6</pop>
    <debt>-1.2</debt>
  </row>
  <row>
    <index>3</index>
    <state>Nevada</state>
    <year>2001</year>
    <pop>2.4</pop>
    <debt/>
  </row>
  <row>
    <index>4</index>
    <state>Nevada</state>
    <year>2002</year>
    <pop>2.9</pop>
    <debt>-1.5</debt>
  </row>
  <row>
    <index>5</index>
    <state>Nevada</state>
    <year>2003</year>
    <pop>3.2</pop>
    <debt>1.7</debt>
  </row>
</data>


Veámos ahora las distintas opciones para cargar un ``DataFrame``. Habitualmente nos encontramos ficheros CSV cuya primera fila indica el nombre de las columnas (pero no disponemos de un índice, es decir como el fichero ejemplo1_sin_indice.csv).

In [25]:
df1 = pd.read_csv("ejemplo1_sin_indice.csv")
df1

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,-1.2
3,Nevada,2001,2.4,
4,Nevada,2002,2.9,-1.5
5,Nevada,2003,3.2,1.7


¿Qué ocurre si nuestro fichero no contiene el nombre de las columnas?

In [26]:
pd.read_csv("ejemplo1_sin_indices.csv")
# pd.read_csv("ejemplo1_sin_indices.csv",header=None)
# pd.read_csv("ejemplo1_sin_indices.csv",names=["state","year","pop","debt"])

Unnamed: 0,Ohio,2000,1.5,Unnamed: 3
0,Ohio,2001,1.7,
1,Ohio,2002,3.6,-1.2
2,Nevada,2001,2.4,
3,Nevada,2002,2.9,-1.5
4,Nevada,2003,3.2,1.7


¿Y si contiene un índice?

In [27]:
pd.read_csv("ejemplo1.csv")
# pd.read_csv("ejemplo1.csv",index_col=0)

Unnamed: 0.1,Unnamed: 0,state,year,pop,debt
0,0,Ohio,2000,1.5,
1,1,Ohio,2001,1.7,
2,2,Ohio,2002,3.6,-1.2
3,3,Nevada,2001,2.4,
4,4,Nevada,2002,2.9,-1.5
5,5,Nevada,2003,3.2,1.7


¿Y si el delimitador no es una coma?

In [28]:
pd.read_csv("ejemplo1_barra.csv")
pd.read_csv("ejemplo1_barra.csv",sep="|",index_col=0)

Unnamed: 0,state,year,pop,debt
0,Ohio,2000,1.5,
1,Ohio,2001,1.7,
2,Ohio,2002,3.6,-1.2
3,Nevada,2001,2.4,
4,Nevada,2002,2.9,-1.5
5,Nevada,2003,3.2,1.7


De forma similar se pueden leer los ficheros JSON, HTML, o XML.

In [29]:
pd.read_json("ejemplo1.json")
pd.read_html("ejemplo1.html")
pd.read_xml("ejemplo1.xml")

Unnamed: 0,index,state,year,pop,debt
0,0,Ohio,2000,1.5,
1,1,Ohio,2001,1.7,
2,2,Ohio,2002,3.6,-1.2
3,3,Nevada,2001,2.4,
4,4,Nevada,2002,2.9,-1.5
5,5,Nevada,2003,3.2,1.7


## Principales métodos de Pandas

Vamos a demostrar los principales métodos de pandas usando un [dataset de la fidelidad de clientes de una compañía de telefonía](https://bigml.com/user/francisco/gallery/dataset/5163ad540c0b5e5b22000383). Lo primero que hacemos es descargar dicho dataset.

In [30]:
!wget https://raw.githubusercontent.com/IA1819/Datasets/master/telecom_churn.csv -O telecom_churn.csv

--2025-10-30 16:38:21--  https://raw.githubusercontent.com/IA1819/Datasets/master/telecom_churn.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 279997 (273K) [text/plain]
Saving to: ‘telecom_churn.csv’


2025-10-30 16:38:21 (7.79 MB/s) - ‘telecom_churn.csv’ saved [279997/279997]



Vamos a leer los datos, usando la función `read_csv` y almacenando el resultado en un DataFrame llamado `df`. A continuación mostramos las 5 primeras instancias del dataset usando el método `head` del DataFrame:

In [31]:
df = pd.read_csv('telecom_churn.csv')
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,False
1,OH,107,415,No,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,False
2,NJ,137,415,No,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,False
3,OH,84,408,Yes,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,False
4,OK,75,415,Yes,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,False


En los notebooks de Jupyter, los DataFrames de Pandas se muestran usando las tablas vistas en la celda anterior.

En este caso cada fila corresponde con un cliente, una **instancia**, y las columnas son los **descriptores** de dicha instancia.

Vamos ahora a ver las dimensiones de nuestros datos, los nombres de los descriptores, y los tipos de los descriptores.

La siguiente función nos muestra la dimensión del dataset.

In [32]:
print(df.shape)

(3333, 20)


A partir de la salida anterior, podemos ver que la tabla contiene 3333 filas y 20 columnas.

Vamos a mostrar los nombres de las columnas usando el atributo `columns` del DataFrame:

In [33]:
print(df.columns)

Index(['State', 'Account length', 'Area code', 'International plan',
       'Voice mail plan', 'Number vmail messages', 'Total day minutes',
       'Total day calls', 'Total day charge', 'Total eve minutes',
       'Total eve calls', 'Total eve charge', 'Total night minutes',
       'Total night calls', 'Total night charge', 'Total intl minutes',
       'Total intl calls', 'Total intl charge', 'Customer service calls',
       'Churn'],
      dtype='object')


También podemos udar el método `info()` para mostrar información general sobre el DataFrame.

In [34]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   State                   3333 non-null   object 
 1   Account length          3333 non-null   int64  
 2   Area code               3333 non-null   int64  
 3   International plan      3333 non-null   object 
 4   Voice mail plan         3333 non-null   object 
 5   Number vmail messages   3333 non-null   int64  
 6   Total day minutes       3333 non-null   float64
 7   Total day calls         3333 non-null   int64  
 8   Total day charge        3333 non-null   float64
 9   Total eve minutes       3333 non-null   float64
 10  Total eve calls         3333 non-null   int64  
 11  Total eve charge        3333 non-null   float64
 12  Total night minutes     3333 non-null   float64
 13  Total night calls       3333 non-null   int64  
 14  Total night charge      3333 non-null   

`bool`, `int64`, `float64` y `object` son los tipos de datos de nuestros descriptores. En la celda anterior podemos ver que hay un descriptor lógico (de tipo `bool`), 3 descriptores categóricos (los de tipo `object`), y 16 descriptores numéricos. Con el mismo método podemos ver si faltan valores para alguna instancia. Aquí vemos que no ya que cada columna contiene 3333  observaciones, el mismo número de filas que vimos anteriormente con `shape`.

Es posible cambiar el tipo de una  columna con el método `astype`. Vamos aplicar este método al descriptor `Churn` para convertirlo al tipo `int64`:

In [35]:
df['Churn'] = df['Churn'].astype('int64')

El método `describe` muestra características estadísticas básicas de cada descriptor numérico. En concreto, el número de valores nulos, la media, la desviación típica, el rango (mediante los valores mínimo y máximo), la mediana (indicado mediante el cuartil 50), y los cuartiles 0.25 y 0.75.

In [36]:
df.describe()

Unnamed: 0,Account length,Area code,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.064806,437.182418,8.09901,179.775098,100.435644,30.562307,200.980348,100.114311,17.08354,200.872037,100.107711,9.039325,10.237294,4.479448,2.764581,1.562856,0.144914
std,39.822106,42.37129,13.688365,54.467389,20.069084,9.259435,50.713844,19.922625,4.310668,50.573847,19.568609,2.275873,2.79184,2.461214,0.753773,1.315491,0.352067
min,1.0,408.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.04,0.0,0.0,0.0,0.0,0.0
25%,74.0,408.0,0.0,143.7,87.0,24.43,166.6,87.0,14.16,167.0,87.0,7.52,8.5,3.0,2.3,1.0,0.0
50%,101.0,415.0,0.0,179.4,101.0,30.5,201.4,100.0,17.12,201.2,100.0,9.05,10.3,4.0,2.78,1.0,0.0
75%,127.0,510.0,20.0,216.4,114.0,36.79,235.3,114.0,20.0,235.3,113.0,10.59,12.1,6.0,3.27,2.0,0.0
max,243.0,510.0,51.0,350.8,165.0,59.64,363.7,170.0,30.91,395.0,175.0,17.77,20.0,20.0,5.4,9.0,1.0


Para ver estadísticas de descriptores no númericos, es necesario indicar explícitamente los tipos de datos que nos interesan en el parámetro `include`.

In [37]:
df.describe(include=['object', 'bool'])

Unnamed: 0,State,International plan,Voice mail plan
count,3333,3333,3333
unique,51,2,2
top,WV,No,No
freq,106,3010,2411


Para descriptores categóricos (de tipo `object`) y booleanos (tipo `bool`), podemos usar el método `value_counts`. Vamos a ver la distribución de valores del descriptor `Churn` (que indica si un cliente es leal a la empresa):

In [38]:
df['Churn'].value_counts()

Unnamed: 0_level_0,count
Churn,Unnamed: 1_level_1
0,2850
1,483


2850 usuarios son leales a la empresa, su valor de `Churn` es 0. Para calcular porcentajes, hay que pasar `normalize=True` a la función `value_counts`.

In [39]:
df['Churn'].value_counts(normalize=True)

Unnamed: 0_level_0,proportion
Churn,Unnamed: 1_level_1
0,0.855086
1,0.144914



### Ordenando

Un DataFrame se puede ordenar por el valor de uno de sus descriptores. Por ejemplo, podemos ordenar nuestro dataset por el valor de *Total day charge* (usamos `ascending=False` para ordenar en orden decreciente):


In [40]:
df.sort_values(by='Total day charge', ascending=False).head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
365,CO,154,415,No,No,0,350.8,75,59.64,216.5,94,18.4,253.9,100,11.43,10.1,9,2.73,1,1
985,NY,64,415,Yes,No,0,346.8,55,58.96,249.5,79,21.21,275.4,102,12.39,13.3,9,3.59,1,1
2594,OH,115,510,Yes,No,0,345.3,81,58.7,203.4,106,17.29,217.5,107,9.79,11.8,8,3.19,1,1
156,OH,83,415,No,No,0,337.4,120,57.36,227.4,116,19.33,153.9,114,6.93,15.8,7,4.27,0,1
605,MO,112,415,No,No,0,335.5,77,57.04,212.5,109,18.06,265.0,132,11.93,12.7,8,3.43,2,1


También es posible ordenar por múltiples descriptores.

In [41]:
df.sort_values(by=['Churn', 'Total day charge'],
        ascending=[True, False]).head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
688,MN,13,510,No,Yes,21,315.6,105,53.65,208.9,71,17.76,260.1,123,11.7,12.1,3,3.27,3,0
2259,NC,210,415,No,Yes,31,313.8,87,53.35,147.7,103,12.55,192.7,97,8.67,10.1,7,2.73,3,0
534,LA,67,510,No,No,0,310.4,97,52.77,66.5,123,5.65,246.5,99,11.09,9.2,10,2.48,4,0
575,SD,114,415,No,Yes,36,309.9,90,52.68,200.3,89,17.03,183.5,105,8.26,14.2,2,3.83,1,0
2858,AL,141,510,No,Yes,28,308.0,123,52.36,247.8,128,21.06,152.9,103,6.88,7.4,3,2.0,1,0



### Indexando y obteniendo datos

Un DataFrame se puede indexar de diferentes maneras.

Para obtener una única fila, se puede usar la construcción `DataFrame['Name']`. Vamos a usar esta construcción para responder a la pregunta de **¿Cuál es la proporción de abandonos de nuestra compañía?**


In [42]:
df['Churn'].mean()

np.float64(0.14491449144914492)


El 14.5%, un valor bastante malo.

El **indexado condicional** de una columna también es algo muy útil. La sintaxix es `df[P(df['Name'])]`, donde  `P` es alguna condición lógica que es comprobada para cada elemento de la columna `Name`. El resultado de dicho indexado es el Dataframe que consta solo de las filas que satisfacen la condición `P` en la columna `Name`.

Vamos a usar esto para responder a las siguientes preguntas: **¿Cuál es la media de los atributos numéricos de los usuarios que abandonan la compañía?**


In [43]:
df[df['Churn'] == 1].describe().mean()

Unnamed: 0,0
Account length,144.641552
Area code,401.826259
Number vmail messages,68.49701
Total day minutes,218.313984
Total day calls,134.739714
Total day charge,87.225079
Total eve minutes,227.448632
Total eve calls,140.160723
Total eve charge,74.576466
Total night minutes,219.195563


**¿Cuánto tiempo (en media) pasan los clientes que abandonan la compañía hablando por telefono durante el día?**

In [44]:
df[df['Churn'] == 1]['Total day minutes'].mean()

np.float64(206.91407867494823)

**¿Cuál es la duración máxima de las llamadas internacionales entre los clientes fieles (`Churn == 0`) que no tienen un plan internacional?**



In [45]:
df[(df['Churn'] == 0) & (df['International plan'] == 'No')]['Total intl minutes'].max()

18.9

También podemos usar el método ``query``.

In [46]:
df.query("Churn == 0 and `International plan` == 'No'")['Total intl minutes'].max()

18.9

Los DataFrames se pueden indexar por el nombre de la columna (etiqueta), por el nombre de la fila (índice) o por el número de serie de una fila. El método `loc` se usa para indexar por nombre, mientras que el método `iloc()` se utiliza para indexar por número.

En el siguiente ejemplo, estamos diciendo *dame los valores de las filas con los índices de 0 a 5 (ambos incluídos) y de las columnas de State a Area code (ambas incluídas)*.


In [47]:
df.loc[0:5, 'State':'Area code']

Unnamed: 0,State,Account length,Area code
0,KS,128,415
1,OH,107,415
2,NJ,137,415
3,OH,84,408
4,OK,75,415
5,AL,118,510


En el siguiente ejemplo decimos *dame los valores de las 5 primeras filas en las tres primeras columnas* (daros cuenta que estamos usando el mismo formato que utilizabamos para realizar el slicing de listas).

In [48]:
df.iloc[0:5, 0:3]

Unnamed: 0,State,Account length,Area code
0,KS,128,415
1,OH,107,415
2,NJ,137,415
3,OH,84,408
4,OK,75,415


Si necesitamos la primera o última instancia de un dataframe podemos usar respectivamente `df[:1]` y `df[-1:]`.

In [49]:
df[:1]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,No,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0


In [50]:
df[-1:]

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
3332,TN,74,415,No,Yes,25,234.4,113,39.85,265.9,82,22.6,241.4,77,10.86,13.7,4,3.7,0,0


Diferencia entre ``loc`` e ``iloc``.

In [51]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data
# data.loc["Colorado"]
# data.loc[["Colorado","Utah"]]
# data.iloc[2]
# data.iloc[[2,1]]
# data.loc[:"Utah", "two"]
# data.iloc[:, :3][data.three > 5]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15



### Aplicando funciones a las celdas, columnas y filas

Para aplicar funciones a una columna se usa el método `apply()`. Por ejemplo, a continuación mostramos cómo obtener el valor máximo de los distintos descriptores del dataset.


In [52]:
df.apply(np.max)
# df.apply(np.max,axis=1)

Unnamed: 0,0
State,WY
Account length,243
Area code,510
International plan,Yes
Voice mail plan,Yes
Number vmail messages,51
Total day minutes,350.8
Total day calls,165
Total day charge,59.64
Total eve minutes,363.7


El método `apply` también se puede aplicar a las filas. Para ello es necesario especificar `axis=1`. La funciones lambda suelen ser muy útiles en estos casos. Por ejemplo, si necesitamos seleccionar todos los estados que comienzan por W podemos hacer algo como lo siguiente:

In [53]:
df[df['State'].apply(lambda state: state[0] == 'W')].head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
9,WV,141,415,Yes,Yes,37,258.6,84,43.96,222.0,111,18.87,326.4,97,14.69,11.2,5,3.02,0,0
26,WY,57,408,No,Yes,39,213.0,115,36.21,191.1,112,16.24,182.7,115,8.22,9.5,3,2.57,0,0
44,WI,64,510,No,No,0,154.0,67,26.18,225.8,118,19.19,265.3,86,11.94,3.5,3,0.95,1,0
49,WY,97,415,No,Yes,24,133.2,135,22.64,217.2,58,18.46,70.6,79,3.18,11.0,3,2.97,1,0
54,WY,87,415,No,No,0,151.0,83,25.67,219.7,116,18.67,203.9,127,9.18,9.7,3,2.62,5,1


El método `map` se puede utilizar para reemplazar valores en una columna pasándole un diccionario de la forma `{old_value: new_value}` como argumento:

In [54]:
d = {'No' : False, 'Yes' : True}
df['International plan'] = df['International plan'].map(d)
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,Yes,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,False,Yes,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,False,No,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,True,No,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,No,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0


Lo mismo se puede hacer con el método `replace`:

In [55]:
df = df.replace({'Voice mail plan': d})
df.head()

  df = df.replace({'Voice mail plan': d})


Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,103,16.62,254.4,103,11.45,13.7,3,3.7,1,0
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,110,10.3,162.6,104,7.32,12.2,5,3.29,0,0
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0



### Agrupando

En general, para hacer grupos de datos en Pandas debemos utilizar una construcción como la siguiente.



```python
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. Primero, el método `groupby` divide `grouping_columns` por sus valores, que se convierten en un nuevo índice en el dataframe resultante.
2. Seguidamente, las columnas de interés se seleccionan (`columns_to_show`). Si no se incluye `columns_to_show` se muestran todas las clausulas que no hayan sido agrupadas.
3. Finalmente, una o varias funciones se aplican para obtener los grupos por las columnas seleccionadas.

Por ejemplo, a continuación se muestra cómo agrupar los datos con respecto a los valores del descriptor  `Churn` y se muestran estadísticas de tres columnas para cada grupo:

In [56]:
columns_to_show = ['Total day minutes', 'Total eve minutes',
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].describe(percentiles=[])

Unnamed: 0_level_0,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes
Unnamed: 0_level_1,count,mean,std,min,50%,max,count,mean,std,min,50%,max,count,mean,std,min,50%,max
Churn,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2
0,2850.0,175.175754,50.181655,0.0,177.2,315.6,2850.0,199.043298,50.292175,0.0,199.6,361.8,2850.0,200.133193,51.105032,23.2,200.25,395.0
1,483.0,206.914079,68.997792,0.0,217.6,350.8,483.0,212.410145,51.72891,70.9,211.3,363.7,483.0,205.231677,47.132825,47.4,204.8,354.9


Vamos a hacer algo parecido, pero en este caso pasando una lista de funciones a `agg()`:

In [57]:
columns_to_show = ['Total day minutes', 'Total eve minutes',
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

  df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])
  df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])
  df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])
  df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])


Unnamed: 0_level_0,Total day minutes,Total day minutes,Total day minutes,Total day minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total eve minutes,Total night minutes,Total night minutes,Total night minutes,Total night minutes
Unnamed: 0_level_1,mean,std,min,max,mean,std,min,max,mean,std,min,max
Churn,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
0,175.175754,50.181655,0.0,315.6,199.043298,50.292175,0.0,361.8,200.133193,51.105032,23.2,395.0
1,206.914079,68.997792,0.0,350.8,212.410145,51.72891,70.9,363.7,205.231677,47.132825,47.4,354.9



### Tablas resumen

Suponed que queremos ver cómo las muestras de nuestro dataset se distribuyen en el contexto de dos variables: `Churn` e `International plan`. Para ello podemos construir una tabla de contingencia usando el método `crosstab`:



In [58]:
pd.crosstab(df['Churn'], df['International plan'])

International plan,False,True
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2664,186
1,346,137


Podemos ver que la mayoría de usuarios son leales a la compañía (Churn 0) y que no usan un Plan Internacional (International plan con valor False), 2664 usuarios.


### Transformaciones de un DataFrame

En Pandas también es posible añadir columnas a un DataFrame.

Por ejemplo, si queremos calcular el número total de llamadas para cada usuario podemos crear un objeto de tipo Series llamado `total_calls` y pegarlo en el DataFrame:



In [59]:
total_calls = df['Total day calls'] + df['Total eve calls'] + \
              df['Total night calls'] + df['Total intl calls']
df.insert(loc=len(df.columns), column='Total calls', value=total_calls)
# El parámetro loc indica la posición detrás de la que se insertará el objeto Series.
# En este caso queremos insertarlo al final, por lo que usamos el valor de len(df.columns).
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,...,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn,Total calls
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,...,16.78,244.7,91,11.01,10.0,3,2.7,1,0,303
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,...,16.62,254.4,103,11.45,13.7,3,3.7,1,0,332
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,...,10.3,162.6,104,7.32,12.2,5,3.29,0,0,333
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,...,5.26,196.9,89,8.86,6.6,7,1.78,2,0,255
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,...,12.61,186.9,121,8.41,10.1,3,2.73,3,0,359


También es posible crear una columna sin necesidad de usar un objeto de tipo Series. Por ejemplo, a continuación mostramos cómo crear una columna con el coste total de las llamadas para cada usuario.

In [60]:
df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + \
                     df['Total night charge'] + df['Total intl charge']
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,...,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn,Total calls,Total charge
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.7,1,0,303,75.56
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,...,254.4,103,11.45,13.7,3,3.7,1,0,332,59.24
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,...,162.6,104,7.32,12.2,5,3.29,0,0,333,62.29
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,...,196.9,89,8.86,6.6,7,1.78,2,0,255,66.8
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,...,186.9,121,8.41,10.1,3,2.73,3,0,359,52.09


Para eliminar filas o columnas se usa el método `drop` al que se le pasan los índices requeridos y el parámetro `axis` (donde `1` indica que eliminas columnas, y `0` o nada que eliminas filas). El argumento `inplace` indica si se cambia el DataFrame original (con `inplace=False`, el método `drop` no cambia el DataFrame existente y devuelve un nuevo Dataframe donde se han eliminado las filas o columnas; con `inplace=True`, por el contrario, se modifica el DataFrame).

In [61]:
df.drop(['Total charge', 'Total calls'], axis=1, inplace=True)
df.drop([1, 2]).head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0
5,AL,118,510,True,False,0,223.4,98,37.98,220.6,101,18.75,203.9,118,9.18,6.3,6,1.7,0,0
6,MA,121,510,False,True,24,218.2,88,37.09,348.5,108,29.62,212.6,118,9.57,7.5,7,2.03,3,0


## Ejercicios

A continuación se proponen una serie de ejercicios con un nuevo dataset.

Comenzamos descargando el dataset de los supervivientes del Titanic.

In [62]:
!wget https://raw.githubusercontent.com/IA1819/Datasets/master/titanic_train.csv -O titanic_train.csv

--2025-10-30 16:57:36--  https://raw.githubusercontent.com/IA1819/Datasets/master/titanic_train.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 60302 (59K) [text/plain]
Saving to: ‘titanic_train.csv’


2025-10-30 16:57:36 (4.81 MB/s) - ‘titanic_train.csv’ saved [60302/60302]



Carga dicho dataset en la variable `df`.

In [66]:
df = pd.read_csv("titanic_train.csv")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Muestra las primeras instancias de dicho dataset.

In [67]:
df[0:20]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Muestra los tipos de los distintos descriptores del dataset.

In [72]:
df.dtypes

Unnamed: 0,0
PassengerId,int64
Survived,int64
Pclass,int64
Name,object
Sex,object
Age,float64
SibSp,int64
Parch,int64
Ticket,object
Fare,float64


Muestra los pasajeros que embarcaron en Cherbourg (Embarked=C) y pagaron más de 200 libras por su ticket (fare > 200).

In [95]:
df[(df["Fare"] > 200) & (df["Embarked"] == 'C')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
118,119,0,1,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
299,300,1,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0,0,1,PC 17558,247.5208,B58 B60,C
311,312,1,1,"Ryerson, Miss. Emily Borie",female,18.0,2,2,PC 17608,262.375,B57 B59 B63 B66,C
377,378,0,1,"Widener, Mr. Harry Elkins",male,27.0,0,2,113503,211.5,C82,C
380,381,1,1,"Bidois, Miss. Rosalie",female,42.0,0,0,PC 17757,227.525,,C
557,558,0,1,"Robbins, Mr. Victor",male,,0,0,PC 17757,227.525,,C
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
700,701,1,1,"Astor, Mrs. John Jacob (Madeleine Talmadge Force)",female,18.0,1,0,PC 17757,227.525,C62 C64,C
716,717,1,1,"Endres, Miss. Caroline Louise",female,38.0,0,0,PC 17757,227.525,C45,C


Vamos a crear un nuevo descriptor con la edad de los pasajeros, para lo que definimos la siguiente función.

In [96]:
def age_category(age):
    '''
    < 30 -> 1
    >= 30, <55 -> 2
    >= 55 -> 3
    '''
    if age < 30:
        return 1
    elif age < 55:
        return 2
    elif age >= 55:
        return 3

A continuación añadimos el nuevo descriptor usando el método `apply`.

In [102]:
df['Age_category'] = df['Age'].apply(lambda x : age_category(x))

Responde a las siguientes preguntas. Para ello, incluye el código necesario y edita la celda que contiene el texto **Respuesta.**

¿Cuál era la proporción entre hombres y mujeres que iba a bordo?

In [112]:
propHombre = len(df[df['Sex'] == "male"])/len(df)
print("Proporción de hombres: ", propHombre)
print("Proporción de mujeres: ", 1-propHombre)

Proporción de hombres:  0.6475869809203143
Proporción de mujeres:  0.3524130190796857


**Respuesta**.

Utiliza una tabla de contingencia para averiguar cuántos hombres iban en segunda clase.

In [155]:
cont = pd.crosstab(df["Sex"], df["Pclass"])
print(cont.loc["male", 2])

108


**Respuesta**.

¿Cuál era la media y la desviación típica del precio de los tickets (descriptor Fare)?

In [157]:
print("Media: ", np.mean(df["Fare"]))
print("Desviación: ", np.std(df["Fare"]))

Media:  32.204207968574636
Desviación:  49.66553444477411


**Respuesta**.

¿Es verdad que la media de edad de los supervivientes es inferior a la de los pasajeros que fallecieron?

In [161]:
mediaSup = np.mean(df[df["Survived"] == 1]["Age"])
mediaFall = np.mean(df[df["Survived"] == 0]["Age"])
print("¿Es verdad?:", mediaSup <= mediaFall)

¿Es verdad?: True


**Respuesta**.

¿Es verdad que hubo más pasajeros menores de 30 años que sobrevivieron que aquellos mayores de 55?

In [170]:
cont = pd.crosstab(df["Survived"], df["Age_category"])
print("¿Es verdad?:", cont.loc[1,1.0] >= cont.loc[1,3.0])

¿Es verdad?: True


**Respuesta**.

¿Es verdad que sobrevivieron más mujeres que hombres?

In [174]:
cont = pd.crosstab(df["Sex"], df["Survived"])
print("¿Es verdad?:", cont.loc["male", 1] <= cont.loc["female", 1])

¿Es verdad?: True


**Respuesta**.

¿Cuál es el nombre más común entre los hombres que iban abordo? Para ello deberás crear una nueva columna que contenga solo el nombre de los pasajeros. Dicha columna deberás construirla a partir de la columna que contiene el nombre completo. Añade tantas celdas de código como necesites.  

In [185]:
df["Nombre"] = df["Name"].apply(lambda x : x.split(",")[1].split(" ")[2])
df[df["Sex"] == "male"]["Nombre"].value_counts().idxmax()

'William'

**Respuesta**.

## Entrega

Recuerda guardar tus cambios en tu repositorio.