
## Pandas I: Fundamentos y Operaciones

<a id="indice"></a>
# Índice


* [1. Introducción](#introduccion)
* [2. Creacion de Series y DataFrames](#creacion)
* [3. Descripción y resumen](#operadoresResumen)
* [4. Acceso a los elementos](#acceso)
* [5. Manipulación de la estructura](#estructura)
* [6. Filtrado de elementos](#filtrado)

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="introduccion"></a>

# 1. Introducción

[**Pandas**](http://pandas.pydata.org) es una librería de _Python_ que proporciona estructuras y herramientas para el preprocesamiento y análisis exploratorio de conjuntos de datos. Trabaja principalemente con objetos denominados `DataFrame`, que representan tablas indexadas de datos, e implementan funciones avanzadas para selección, consultas, agrupamiento, procesamiento, etc. 

- Datos en forma tabular (`DataFrame`)
- Las filas están indexadas para un acceso eficiente
- Las columnas están formadas por elementos llamados `Series`

![pandas dataframe](../images/pandas.png)

Gran parte de la funcionalidad que ofrece `pandas` está definidas tanto para `Series` como para `DataFrames`. A lo largo de esta libreta veremos esta funcionalidad aplicada a `Series` y a `DataFrames`, intercalando con pequeños ejercicios para comprender su uso. 

In [1]:
# importamos el paquete pandas (recomendable "as pd")
import pandas as pd

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="creacion"></a>

# 2. Creación

Un `DataFrame` es una estructura _bidimensional_ de datos que se indexa por filas, y cuyas columnas pueden ser accedidas individualmente. Al igual que en una hoja de cálculo o una tabla SQL, cada columna puede almacenar datos de un tipo diferente, y es tratada como un objeto de tipo `Series`. 

Un `DataFrame` está formado por tres componentes principales:

1. Los _datos_, almacenados en el campo `DataFrame.values`, que es un array _NumPy_.
2. El _índice_, almacenado en el campo `DataFrame.index`, y que permite indexar las filas.
3. El _índice de columnas_, almacenado en el campo `DataFrame.columns`. 

### Creación mediante ficheros

Lo más habitual es crear un dataframe a partir de un fichero de datos, ya que es la forma natural en la que nos encontraremos los datos en nuestras aplicaciones.

Pandas proporciona funciones muy flexibles que permiten leer objetos `DataFrame` desde diversas fuentes de datos, como archivos csv, excel, JSON, HDF5, HTML, fuentes SQL, o incluso el portapapeles del sistema ([documentación](https://pandas.pydata.org/docs/reference/io.html)). 

#### Lectura de archivos en formato csv (_comma separated values_)

Uno de los formatos más habituales son los ficheros separados por comas o __csv__. En la carpeta `../data/` podéis encontrar el fichero `titanic`, que representa un problema de machine learning clásico. Vamos a intentar cargarlo con pandas, para lo cual utilizaremos la función `read_csv()`.

Esta funciún dispone de multitud de argumentos que permiten personalizar la forma en la que se quiere leer el fichero. Por ejemplo, el parámetro `skiprows` permite descartar las primeras `X` líneas, o el parámetro `sep` permite elegir el separador entre columnas (por defecto la coma). Además, puede acceder a la fuente de datos **a través de una URL** ([documentación](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)).

Podemos cargar datos directamente desde una url.

In [2]:
df_titanic = pd.read_csv("https://gist.githubusercontent.com/jcozar87/6df43b2dbf995f44f819d4343d7bc373/raw/f319a577c4e608e3a9a7f86f7952b13f58810f04/titanic.csv")
df_titanic

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.00,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.00,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.00,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.00,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
...,...,...,...,...,...,...
1308,"Zakarian, Mr Artun",3rd,27.00,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,26.00,male,0,0
1310,"Zenni, Mr Philip",3rd,22.00,male,0,0
1311,"Lievens, Mr Rene",3rd,24.00,male,0,0


_Obtenido de [kaggle](https://www.kaggle.com/shawon10/web-log-dataset/version/2). Este dataset describe el log de un servidor. Tiene 16007 filas y 4 columnas. Las columnas son **IP**, **Time**, **URL**, y response **Status**_

In [3]:
# o desde un fichero csv
df_weblog = pd.read_csv("../data/weblog.csv")  # usamos los parámetros por defecto
df_weblog

Unnamed: 0,IP,Time,URL,Status
0,10.128.2.1,[29/Nov/2017:06:58:55,GET /login.php HTTP/1.1,200
1,10.128.2.1,[29/Nov/2017:06:59:02,POST /process.php HTTP/1.1,302
2,10.128.2.1,[29/Nov/2017:06:59:03,GET /home.php HTTP/1.1,200
3,10.131.2.1,[29/Nov/2017:06:59:04,GET /js/vendor/moment.min.js HTTP/1.1,200
4,10.130.2.1,[29/Nov/2017:06:59:06,GET /bootstrap-3.3.7/js/bootstrap.js HTTP/1.1,200
...,...,...,...,...
15784,10.130.2.1,[02/Mar/2018:15:47:12,GET /showcode.php?id=309&nm=ham05 HTTP/1.1,200
15785,10.130.2.1,[02/Mar/2018:15:47:23,GET /allsubmission.php HTTP/1.1,200
15786,10.130.2.1,[02/Mar/2018:15:47:32,GET /showcode.php?id=309&nm=ham05 HTTP/1.1,200
15787,10.130.2.1,[02/Mar/2018:15:47:35,GET /allsubmission.php HTTP/1.1,200


## Lectura de archivos en formato JSON

La función `read_json` permite leer un `DataFrame` a partir de un fichero json. Al igual que antes, también puede ser una URL adems de la ruta a un fichero.

La ventaja de este formato frente al csv, es que es un formato semiestructurado, por lo que puede contener columnas complejas como listas o diccionarios. Pandas es capaz de leer y trabajar con este tipo de inforamción.

In [4]:
# Lectura desde URL (API covid: https://covid19api.com/)
df_covid = pd.read_json("https://api.covid19api.com/total/country/spain/status/confirmed")
df_covid

Unnamed: 0,Country,CountryCode,Province,City,CityCode,Lat,Lon,Cases,Status,Date
0,Spain,,,,,0,0,0,confirmed,2020-01-22 00:00:00+00:00
1,Spain,,,,,0,0,0,confirmed,2020-01-23 00:00:00+00:00
2,Spain,,,,,0,0,0,confirmed,2020-01-24 00:00:00+00:00
3,Spain,,,,,0,0,0,confirmed,2020-01-25 00:00:00+00:00
4,Spain,,,,,0,0,0,confirmed,2020-01-26 00:00:00+00:00
...,...,...,...,...,...,...,...,...,...,...
1138,Spain,,,,,0,0,13770429,confirmed,2023-03-05 00:00:00+00:00
1139,Spain,,,,,0,0,13770429,confirmed,2023-03-06 00:00:00+00:00
1140,Spain,,,,,0,0,13770429,confirmed,2023-03-07 00:00:00+00:00
1141,Spain,,,,,0,0,13770429,confirmed,2023-03-08 00:00:00+00:00


También podemos construirlo a partir de una llamada a una API usando `requests`.

In [5]:
import requests

In [6]:
org = "aws"
response = requests.get(f"https://api.github.com/orgs/{org}/repos")

In [7]:
# Podemos crear el DataFrame desde la respuesta de la API
df_aws_github_repos = pd.DataFrame(response.json())
df_aws_github_repos.head(2)

Unnamed: 0,id,node_id,name,full_name,private,owner,html_url,description,fork,url,...,allow_forking,is_template,web_commit_signoff_required,topics,visibility,forks,open_issues,watchers,default_branch,permissions
0,574877,MDEwOlJlcG9zaXRvcnk1NzQ4Nzc=,aws-sdk-java,aws/aws-sdk-java,False,"{'login': 'aws', 'id': 2232217, 'node_id': 'MD...",https://github.com/aws/aws-sdk-java,The official AWS SDK for Java.,False,https://api.github.com/repos/aws/aws-sdk-java,...,True,False,False,"[amazon, aws, aws-sdk, java]",public,2827,122,3941,master,"{'admin': False, 'maintain': False, 'push': Fa..."
1,1176081,MDEwOlJlcG9zaXRvcnkxMTc2MDgx,aws-toolkit-eclipse,aws/aws-toolkit-eclipse,False,"{'login': 'aws', 'id': 2232217, 'node_id': 'MD...",https://github.com/aws/aws-toolkit-eclipse,"(End of life: May 31, 2023) AWS Toolkit for Ec...",False,https://api.github.com/repos/aws/aws-toolkit-e...,...,True,False,False,"[aws, aws-lambda, cloudformation, codecommit, ...",public,190,107,275,master,"{'admin': False, 'maintain': False, 'push': Fa..."


In [8]:
df_aws_github_repos.to_csv("../data/aws_github_repos.csv")
df_aws_github_repos.to_json("../data/aws_github_repos.json")

## Lectura de archivos en formato EXCEL

Se hace mediante la función `read_excel()`. Permite especificar numerosos parámetros como la hoja concreta del archivo (`sheet_name`), tipos de datos, etc ([documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html)).

_Obtenido de [kaggle](https://www.kaggle.com/subh86/nutrientenergy-value?select=nutrient_energy.xlsx). Este dataset describe el valor nutricional y energético de diferentes alimentos._

In [9]:
# Requiere la librería openpyxl
# !python -m pip install openpyxl

In [10]:
#df_nutrient_energy = pd.read_excel("../data/nutrient_energy.xlsx") # usamos los parámetros por defecto
#df_nutrient_energy

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> NOTA: de forma análoga a las funciones de lectura `read_csv`, `read_json` y `read_excel`, existen las funciones `to_csv`, `to_json` y `to_excel` para guardar un `DataFrame` en disco (con unos parametros similares). Documentación <a href="https://pandas.pydata.org/pandas-docs/stable/reference/frame.html">aquí (funciones to_)</a>.</div>

### Creación manual

En ocasiones es útil poder crear `DataFrames` a partir de una estructura de datos en Python con el objetivo de realizar pequeñas pruebas o testear funciones bajo supuestos concretos (_por ejemplo, qué ocurre al aplicar mi función custom sobre un dataset con valores perdidos?_).

Existen varias formas de construir estos DataFrames de forma manual. La primera de ellas es especificar una lista de diccionarios, donde cada elemento es una fila, y cada diccionario contiene el mapeo de columnas y valores. Este formato es muy legible pero también muy _verbose_.

In [11]:
# Los DataFrames se construyen especificando una lista de diccionarios, donde la clave es el nombre de la columna
consumo_recursos = [
    {"Nombre": "Ordenador1", "CPU": 87.5, "Memoria": 47.2, "Disco": 10.2, "IO": 0.45},
    {"Nombre": "Ordenador2", "CPU": 23.6, "Memoria": 62.3, "Disco": 23.4, "IO": 1.35},
    {"Nombre": "Ordenador2", "CPU": 65.1, "Memoria": 35.6, "Disco": 14.9, "IO": 2.97}
]
df_consumo_recursos = pd.DataFrame(consumo_recursos)
df_consumo_recursos

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
1,Ordenador2,23.6,62.3,23.4,1.35
2,Ordenador2,65.1,35.6,14.9,2.97


También se pueden construir los **DataFrames** a partir de una lista de tuplas, cada tupla representando una fila donde las columnas están especificadas en orden. Esta forma es menos legible pero menos _verbose_. Esto se consigue mediante la función `DataFrame.from_records`:

In [12]:
# En este caso
consumo_recursos = [("Ordenador1", 87.5, 47.2, 10.2, 0.45),
                    ("Ordenador2", 23.6, 62.3, 23.4, 1.35),
                    ("Ordenador3", 65.1, 35.6, 14.9, 2.97)]

df_consumo_recursos = pd.DataFrame.from_records(consumo_recursos, columns=["Nombre", "CPU", "Memoria", "Disco", "IO"])
df_consumo_recursos

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
1,Ordenador2,23.6,62.3,23.4,1.35
2,Ordenador3,65.1,35.6,14.9,2.97


Adicionalmente, los **DataFrames** se pueden construir a partir de un diccionario, donde las claves son los nombres de las columnas, y los valores listas. ¡Cuidado porque el tamaño de las listas debe ser el mimso para todas las columnas!

In [13]:
# En este caso, el diccionario especifica las columnas como clave, y los valores como una lista asociada a la clave
consumo_recursos = {
    "Nombre": ["Ordenador1", "Ordenador2", "Ordenador3"],
    "CPU": [87.5, 23.6, 65.1],
    "Memoria": [47.2, 62.3, 35.6],
    "Disco": [10.2, 23.4, 14.9],
    "IO": [0.45, 1.35, 2.97]
}

df_consumo_recursos = pd.DataFrame.from_dict(consumo_recursos)
df_consumo_recursos

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
1,Ordenador2,23.6,62.3,23.4,1.35
2,Ordenador3,65.1,35.6,14.9,2.97


In [14]:
# En este último caso, si queremos especificar el nombre de las columnas,
# podemos hacerlo pasando una lista con los nombres
df_consumo_recursos = pd.DataFrame.from_records(consumo_recursos, columns=["Nombre", "CPU", "Memoria", "Disco", "IO"])
df_consumo_recursos

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
1,Ordenador2,23.6,62.3,23.4,1.35
2,Ordenador3,65.1,35.6,14.9,2.97


<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> La propiedad `shape` nos determina el número de filas (y columnas en el caso de un `DataFrame`). El órden es primero filas, y luego columnas.
</div>

In [15]:
# Obtención del número de filas y columnas de un DataFrame
filas, columnas = df_consumo_recursos.shape
print(filas, ";", columnas)

3 ; 5


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="operadoresResumen"></a>


## 3 Descripción y Resumen

Los objetos de tipo `Series` implementan también una gran cantidad de funciones que actúan sobre los elementos como un conjunto (no uno a uno). Algunas de ellas permiten obtener algunos datos de interés sobre la serie. El siguiente fragmento de código contiene ejemplos de llamadas a algunas de ellas. El listado completo puede consultarse en la sección correspondiente de la [API](https://pandas.pydata.org/pandas-docs/stable/api.html#computations-descriptive-stats).

Aplicado sobre un `DataFrame` devuelve diversa información con respecto a las columnas. Esta información varía según el tipo de datos. Además, se puede especificar sobre qué columnas se aplica la función con los parámetros `include` \ `exclude`.

In [16]:
# Accedemos a la columna CPU, que es una Serie
serie_cpu = df_consumo_recursos.CPU

print("Numero de elementos: ", serie_cpu.count())                   
print("Suma de los valores: ", serie_cpu.sum())                      
print("Índice del máximo valor: ", serie_cpu.idxmax())                   
print("Máximo valor: ", serie_cpu.max())                     
print("Media: ", serie_cpu.mean())                      
print("Desviación estándar: ", serie_cpu.std())                      
print("2 mayores valores: ", serie_cpu.nlargest(2))  
print("2 menores valores: ", serie_cpu.nsmallest(2))  

Numero de elementos:  3
Suma de los valores:  176.2
Índice del máximo valor:  0
Máximo valor:  87.5
Media:  58.73333333333333
Desviación estándar:  32.422266011698404
2 mayores valores:  0    87.5
2    65.1
Name: CPU, dtype: float64
2 menores valores:  1    23.6
2    65.1
Name: CPU, dtype: float64


In [17]:
df_consumo_recursos.describe(include="all")

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
count,3,3.0,3.0,3.0,3.0
unique,3,,,,
top,Ordenador1,,,,
freq,1,,,,
mean,,58.733333,48.366667,16.166667,1.59
std,,32.422266,13.388179,6.690541,1.277028
min,,23.6,35.6,10.2,0.45
25%,,44.35,41.4,12.55,0.9
50%,,65.1,47.2,14.9,1.35
75%,,76.3,54.75,19.15,2.16


Mediante la función `unique()` es posible determinar qué valores aparecen en la serie. Esta funcionalidad es especialmente  útil cuando los valores son categóricos.

In [18]:
print("Valores distintos: ", df_aws_github_repos.default_branch.unique())               
print("Número de valores distintos:", df_aws_github_repos.default_branch.nunique())             
print("Veces que aparece cada valor:\n", df_aws_github_repos.default_branch.value_counts())          

Valores distintos:  ['master' 'version-3' 'develop' 'release-chef-11.10' 'main']
Número de valores distintos: 5
Veces que aparece cada valor:
 master                19
main                   7
develop                2
release-chef-11.10     1
version-3              1
Name: default_branch, dtype: int64


In [19]:
df_aws_github_repos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 80 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   id                           30 non-null     int64 
 1   node_id                      30 non-null     object
 2   name                         30 non-null     object
 3   full_name                    30 non-null     object
 4   private                      30 non-null     bool  
 5   owner                        30 non-null     object
 6   html_url                     30 non-null     object
 7   description                  29 non-null     object
 8   fork                         30 non-null     bool  
 9   url                          30 non-null     object
 10  forks_url                    30 non-null     object
 11  keys_url                     30 non-null     object
 12  collaborators_url            30 non-null     object
 13  teams_url                    30 non-n

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="acceso"></a>

# 4. Acceso a los elementos

## Columnas

Se puede acceder a una columna individual de un `DataFrame` mediante corchetes y el nombre de la columna (**devuelve un `Series`**).

Se puede acceder a un subconjunto de las columnas de un `DataFrame` mediante corchetes y una lista de los nombres de las columnas (**devuelve un `DataFrame`**).

In [20]:
df_weblog.head(2)

Unnamed: 0,IP,Time,URL,Status
0,10.128.2.1,[29/Nov/2017:06:58:55,GET /login.php HTTP/1.1,200
1,10.128.2.1,[29/Nov/2017:06:59:02,POST /process.php HTTP/1.1,302


In [21]:
# Acceso a una sola columna (nos devuelve un objeto Series)
serie_ip = df_weblog["IP"]
serie_ip.head()

0    10.128.2.1
1    10.128.2.1
2    10.128.2.1
3    10.131.2.1
4    10.130.2.1
Name: IP, dtype: object

In [22]:
# Acceso a varias columnas (nos devuelve un objeto DataFrame)
df_weblog[["IP", "Status"]].head(5)

Unnamed: 0,IP,Status
0,10.128.2.1,200
1,10.128.2.1,302
2,10.128.2.1,200
3,10.131.2.1,200
4,10.130.2.1,200


También se puede usar la sintaxis del punto si el nombre de la columna lo permite, aunque es más genérico usar la sintaxis anterior.

In [23]:
df_weblog.IP

0        10.128.2.1
1        10.128.2.1
2        10.128.2.1
3        10.131.2.1
4        10.130.2.1
            ...    
15784    10.130.2.1
15785    10.130.2.1
15786    10.130.2.1
15787    10.130.2.1
15788    10.130.2.1
Name: IP, Length: 15789, dtype: object

## Filas

El **acceso** natural a los elementos de `Series` y filas de `DataFrames` se hace mediante su índice, con `.loc[índice]`, aunque también se puede acceder acceder a los elementos mediante la posición (un número entero de 0 a $N-1$), a través de `.iloc[posición]`. 

### Series

In [24]:
# Acceso por índice
print(serie_ip.loc[0])
# Acceso por posición
print(serie_ip.iloc[10])

10.128.2.1
10.131.2.1


Más adelante veremos que podemos cambiar el índice fácilmente con la función `set_index`. Vamos a usarlo para ver que `loc` e `iloc` son muy diferentes:

In [25]:
df_weblog_time = df_weblog.set_index("Time")
df_weblog_time

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Nov/2017:06:58:55,10.128.2.1,GET /login.php HTTP/1.1,200
[29/Nov/2017:06:59:02,10.128.2.1,POST /process.php HTTP/1.1,302
[29/Nov/2017:06:59:03,10.128.2.1,GET /home.php HTTP/1.1,200
[29/Nov/2017:06:59:04,10.131.2.1,GET /js/vendor/moment.min.js HTTP/1.1,200
[29/Nov/2017:06:59:06,10.130.2.1,GET /bootstrap-3.3.7/js/bootstrap.js HTTP/1.1,200
...,...,...,...
[02/Mar/2018:15:47:12,10.130.2.1,GET /showcode.php?id=309&nm=ham05 HTTP/1.1,200
[02/Mar/2018:15:47:23,10.130.2.1,GET /allsubmission.php HTTP/1.1,200
[02/Mar/2018:15:47:32,10.130.2.1,GET /showcode.php?id=309&nm=ham05 HTTP/1.1,200
[02/Mar/2018:15:47:35,10.130.2.1,GET /allsubmission.php HTTP/1.1,200


In [26]:
df_weblog_status = df_weblog.set_index("Status")
df_weblog_status

Unnamed: 0_level_0,IP,Time,URL
Status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
200,10.128.2.1,[29/Nov/2017:06:58:55,GET /login.php HTTP/1.1
302,10.128.2.1,[29/Nov/2017:06:59:02,POST /process.php HTTP/1.1
200,10.128.2.1,[29/Nov/2017:06:59:03,GET /home.php HTTP/1.1
200,10.131.2.1,[29/Nov/2017:06:59:04,GET /js/vendor/moment.min.js HTTP/1.1
200,10.130.2.1,[29/Nov/2017:06:59:06,GET /bootstrap-3.3.7/js/bootstrap.js HTTP/1.1
...,...,...,...
200,10.130.2.1,[02/Mar/2018:15:47:12,GET /showcode.php?id=309&nm=ham05 HTTP/1.1
200,10.130.2.1,[02/Mar/2018:15:47:23,GET /allsubmission.php HTTP/1.1
200,10.130.2.1,[02/Mar/2018:15:47:32,GET /showcode.php?id=309&nm=ham05 HTTP/1.1
200,10.130.2.1,[02/Mar/2018:15:47:35,GET /allsubmission.php HTTP/1.1


In [27]:
df_weblog_status.reset_index()

Unnamed: 0,Status,IP,Time,URL
0,200,10.128.2.1,[29/Nov/2017:06:58:55,GET /login.php HTTP/1.1
1,302,10.128.2.1,[29/Nov/2017:06:59:02,POST /process.php HTTP/1.1
2,200,10.128.2.1,[29/Nov/2017:06:59:03,GET /home.php HTTP/1.1
3,200,10.131.2.1,[29/Nov/2017:06:59:04,GET /js/vendor/moment.min.js HTTP/1.1
4,200,10.130.2.1,[29/Nov/2017:06:59:06,GET /bootstrap-3.3.7/js/bootstrap.js HTTP/1.1
...,...,...,...,...
15784,200,10.130.2.1,[02/Mar/2018:15:47:12,GET /showcode.php?id=309&nm=ham05 HTTP/1.1
15785,200,10.130.2.1,[02/Mar/2018:15:47:23,GET /allsubmission.php HTTP/1.1
15786,200,10.130.2.1,[02/Mar/2018:15:47:32,GET /showcode.php?id=309&nm=ham05 HTTP/1.1
15787,200,10.130.2.1,[02/Mar/2018:15:47:35,GET /allsubmission.php HTTP/1.1


In [28]:
# Le decimos que use la columna Time como índice
df_weblog.set_index("Time", inplace=True)

# Y volvemos a crear la serie_ip
serie_ip = df_weblog["IP"]

In [29]:
# Acceso por índice
print(serie_ip.loc["[29/Jan/2018:20:22:41"])

10.130.2.1


### DataFrame

In [30]:
# Acceso por índice
display(df_weblog.loc["[29/Jan/2018:20:22:41"])

print("----")

# Acceso por posición
print(df_weblog.iloc[10])

IP                    10.130.2.1
URL       GET /home.php HTTP/1.1
Status                       302
Name: [29/Jan/2018:20:22:41, dtype: object

----
IP                     10.131.2.1
URL       GET /login.php HTTP/1.1
Status                        200
Name: [29/Nov/2017:06:59:37, dtype: object


In [31]:
# Acceso por índice
df_weblog.loc["[29/Jan/2018:20:22:42"]

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Jan/2018:20:22:42,10.130.2.1,GET /login.php HTTP/1.1,200
[29/Jan/2018:20:22:42,10.130.2.1,GET /css/bootstrap.min.css HTTP/1.1,200


### Acceso a múltiples elementos simultáneamente
Tanto la función `loc` como `iloc` admiten el uso de colecciones como argumentos. Es decir, permiten acceder a varios elementos de la serie a la vez.

Una `Series` devuelve de nuevo un objeto `Series`, y un `DataFrame` devuelve igualmente un objeto `DataFrame`.

### Series

In [32]:
# Acceso por índice
print(serie_ip.loc[["[29/Nov/2017:06:58:55", "[30/Nov/2017:12:37:07"]])
# Acceso por posición (empezando por el 0)
print(serie_ip.iloc[[0, 2]])

Time
[29/Nov/2017:06:58:55    10.128.2.1
[30/Nov/2017:12:37:07    10.131.0.1
Name: IP, dtype: object
Time
[29/Nov/2017:06:58:55    10.128.2.1
[29/Nov/2017:06:59:03    10.128.2.1
Name: IP, dtype: object


### DataFrame

In [33]:
# Acceso por índice
display(df_weblog.loc[["[29/Nov/2017:06:58:55", "[30/Nov/2017:12:37:07"]])
# Acceso por posición (empezando por el 0)
df_weblog.iloc[[0, 2]]

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Nov/2017:06:58:55,10.128.2.1,GET /login.php HTTP/1.1,200
[30/Nov/2017:12:37:07,10.131.0.1,GET /compiler.php HTTP/1.1,200


Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Nov/2017:06:58:55,10.128.2.1,GET /login.php HTTP/1.1,200
[29/Nov/2017:06:59:03,10.128.2.1,GET /home.php HTTP/1.1,200


### Acceso a elementos del DataFrame.

Con `loc` se puede acceder también a los elementos dados el valor (o valores) de su índice y columna. No se recomienda utilizar la segunda de las alternativas que se proponen a continuación, ya que puede dar lugar a comportamientos inesperados (particularmente en escrituras).

In [34]:
# Acceso por índice
df_weblog.loc[["[29/Nov/2017:06:58:55", "[30/Nov/2017:12:37:07"], ["IP", "Status"]]
# Acceso por posición (empezando por el 0)
# print(weblog.iloc[[0, 2], [0, 1]])  # NO SE RECOMIENDA USAR ESTA ALTERNATIVA

Unnamed: 0_level_0,IP,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1
[29/Nov/2017:06:58:55,10.128.2.1,200
[30/Nov/2017:12:37:07,10.131.0.1,200


<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="estructura"></a>

# 5. Manipulación de la estructura

## Cambio de índice

Las `Series` y `DataFrames` creados anteriormente tienen una "especie" de columna a la izquierda. Ésta es el **índice**, y es la encargada de indexar los valores en las `Series` y las filas en los `DataFrames`.

Para especificar un índice en la creación de estos elementos, se indica una lista de valores (uno por valor o fila) en un parámetro `index`.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> La función `from_dict` de los `DataFrame` no dispone de esta opción.
</div>

In [35]:
# Una serie con índice
recursos = ["CPU", "Memoria", "Disco", "IO"]
precio = [350, 140, 99, 25]
serie_recursos = pd.Series(precio, index=recursos)
serie_recursos

CPU        350
Memoria    140
Disco       99
IO          25
dtype: int64

In [36]:
# NOTA: Funciona igual con las tres alternativas vistas para cread DataFrames
consumo_recursos = [(87.5, 47.2, 10.2, 0.45),
                    (23.6, 62.3, 23.4, 1.35),
                    (65.1, 35.6, 14.9, 2.97)]

index = ["Ordenador1", "Ordenador2", "Ordenador3"]
columns = ["CPU", "Memoria", "Disco", "IO"]

df_consumo_recursos = pd.DataFrame.from_records(consumo_recursos, index=index, columns=columns)
df_consumo_recursos

Unnamed: 0,CPU,Memoria,Disco,IO
Ordenador1,87.5,47.2,10.2,0.45
Ordenador2,23.6,62.3,23.4,1.35
Ordenador3,65.1,35.6,14.9,2.97


### Función  `set_index`

También se puede asignar una columna como índice en un `DataFrame` ya creado, mediante la funcióon `set_index`.

In [37]:
consumo_recursos = {
    "Nombre": ["Ordenador1", "Ordenador2", "Ordenador3"],
    "CPU": [87.5, 23.6, 65.1],
    "Memoria": [47.2, 62.3, 35.6],
    "Disco": [10.2, 23.4, 14.9],
    "IO": [0.45, 1.35, 2.97]
}

df_consumo_recursos = pd.DataFrame.from_dict(consumo_recursos)
df_consumo_recursos

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
1,Ordenador2,23.6,62.3,23.4,1.35
2,Ordenador3,65.1,35.6,14.9,2.97


In [38]:
df_consumo_recursos.set_index("Nombre")
# df_consumo_recursos

Unnamed: 0_level_0,CPU,Memoria,Disco,IO
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ordenador1,87.5,47.2,10.2,0.45
Ordenador2,23.6,62.3,23.4,1.35
Ordenador3,65.1,35.6,14.9,2.97


### Función  `reset_index`

Se puede "deseleccionar" una columna establecida como índice con la función `reset_index`. Como se ve en este primer ejemplo, el índice pasa a ser una columna (si no tenía nombre, como en el caso anterior, por defecto se nombra como `index`. Si queremos que esta columna se descarte, podemos especificar el parámetro `drop=True`.

In [39]:
# La columna que hacía de índice se mantiene
df_consumo_recursos = pd.DataFrame.from_dict(consumo_recursos)
# establecemos Nombre como indice
df_consumo_recursos = df_consumo_recursos.set_index("Nombre")
# y deshacemos el cambio
df_consumo_recursos = df_consumo_recursos.reset_index()
df_consumo_recursos

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
1,Ordenador2,23.6,62.3,23.4,1.35
2,Ordenador3,65.1,35.6,14.9,2.97


In [40]:
# La columna que hacía de índice se elimina
df_consumo_recursos = pd.DataFrame.from_dict(consumo_recursos)
# establecemos Nombre como indice
df_consumo_recursos = df_consumo_recursos.set_index("Nombre")
# y deshacemos el cambio, pero descartamos el indice!
df_consumo_recursos = df_consumo_recursos.reset_index(drop=True)
df_consumo_recursos

Unnamed: 0,CPU,Memoria,Disco,IO
0,87.5,47.2,10.2,0.45
1,23.6,62.3,23.4,1.35
2,65.1,35.6,14.9,2.97


<div class="alert alert-block alert-warning">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Si nos interesa jugar con un `DataFrame`, puede ser de utilidad la función `copy`. De esta manera podemos probar a modificar la copia de un `DataFrame` en lugar de alterar el `DataFrame` original.
</div>

In [41]:
copia_consumo_recursos = df_consumo_recursos.copy()

In [42]:
copia_consumo_recursos

Unnamed: 0,CPU,Memoria,Disco,IO
0,87.5,47.2,10.2,0.45
1,23.6,62.3,23.4,1.35
2,65.1,35.6,14.9,2.97


## Renombrado de índice y de columnas

Una operación bastante habitual consiste en renombrar las columnas para mejorar la legibilidad de nuestro DataFrame. Para ello usaremos el método `rename()` utilizando el argumento `columns`. Podemos referirnos a la [documentación](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html).

In [43]:
consumo_recursos = {
    "Nombre": ["Ordenador1", "Ordenador2", "Ordenador3"],
    "CPU": [87.5, 23.6, 65.1],
    "Memoria": [47.2, 62.3, 35.6],
    "Disco": [10.2, 23.4, 14.9],
    "IO": [0.45, 1.35, 2.97]
}

df_consumo_recursos = pd.DataFrame.from_dict(consumo_recursos)
df_consumo_recursos

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
1,Ordenador2,23.6,62.3,23.4,1.35
2,Ordenador3,65.1,35.6,14.9,2.97


In [44]:
copia_consumo_recursos = copia_consumo_recursos.rename(columns = {"CPU": "cpu", "IO":"Input/Output"})
copia_consumo_recursos.head()

Unnamed: 0,cpu,Memoria,Disco,Input/Output
0,87.5,47.2,10.2,0.45
1,23.6,62.3,23.4,1.35
2,65.1,35.6,14.9,2.97


## Creación/Modificación de columnas


Cuando se asignan valores a una columna no existente, se crea ésta automáticamente. Si el valor es una colección, asigna uno por uno, según el orden del índice, los elementos. El tamaño de la colección ha de coincidir con el número de filas del `DataFrame`.

Si la columna ya existe, ésta se reemplaza por la nueva Serie.

In [45]:
# Creamos una nueva columna, especificando para todos los casos que el consumo de GPU es 0
copia_consumo_recursos["GPU"] = [1, 2, 3] # se podría delegar en el broadcasting
copia_consumo_recursos

Unnamed: 0,cpu,Memoria,Disco,Input/Output,GPU
0,87.5,47.2,10.2,0.45,1
1,23.6,62.3,23.4,1.35,2
2,65.1,35.6,14.9,2.97,3


In [46]:
# Creamos una nueva columna, especificando para todos los casos que el consumo de GPU es 0
copia_consumo_recursos["GPU"] = 99 # se podría delegar en el broadcasting
copia_consumo_recursos

Unnamed: 0,cpu,Memoria,Disco,Input/Output,GPU
0,87.5,47.2,10.2,0.45,99
1,23.6,62.3,23.4,1.35,99
2,65.1,35.6,14.9,2.97,99


## Cambio de tipos de columnas


La función `.astype` permite cambiar el tipo de una columna a otro, siempre que sea posible. En caso contrario causará una excepción. Existen multitud de tipos, llamados [dtypes](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-dtypes). Se recomienda usar los tipos [nullables](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html), disponibles desde la versión 1.0 de pandas, ya que permiten trabajar con los valores perdidos de una forma mucho más natural y potente.

In [47]:
# La columna es un entero, si las sumamos realiza una operación numérica
copia_consumo_recursos["GPU"] + copia_consumo_recursos["GPU"]

0    198
1    198
2    198
Name: GPU, dtype: int64

In [48]:
copia_consumo_recursos["cpu"].astype("int")

0    87
1    23
2    65
Name: cpu, dtype: int64

In [49]:
copia_consumo_recursos["GPU"] = copia_consumo_recursos["GPU"].astype("string")

In [50]:
copia_consumo_recursos

Unnamed: 0,cpu,Memoria,Disco,Input/Output,GPU
0,87.5,47.2,10.2,0.45,99
1,23.6,62.3,23.4,1.35,99
2,65.1,35.6,14.9,2.97,99


In [51]:
# La columna es un string, si las sumamos realiza una concatenación
copia_consumo_recursos["GPU"] + copia_consumo_recursos["GPU"]

0    9999
1    9999
2    9999
Name: GPU, dtype: string

In [52]:
# esta conversión fallaría!
# copia_consumo_recursos["GPU"].astype("boolean")

## Ordenación

La operación `DataFrame.sort_index` ordena el `DataFrame` en función de su índice. Mediante el parámetro `ascending` se establece el orden de la ordenación. Además, por defecto produce un nuevo `DataFrame`, a no ser que se indique lo contrario mediante el parámetro `inplace`.

In [53]:
copia_consumo_recursos.sort_index(ascending=False, inplace=True)
copia_consumo_recursos.head()

Unnamed: 0,cpu,Memoria,Disco,Input/Output,GPU
2,65.1,35.6,14.9,2.97,99
1,23.6,62.3,23.4,1.35,99
0,87.5,47.2,10.2,0.45,99


El método `DataFrame.sort_values` ordena el `DataFrame` en función de una o varias columnas.

In [54]:
# Ordena primero (en prioridad) por CPU, y luego por Memoria (para los empates por CPU)
# En el primer caso es descendente, y en el segundo ascendente
copia_consumo_recursos = df_consumo_recursos.copy()
copia_consumo_recursos.sort_values(["CPU", "Memoria"], ascending=[False, True])

Unnamed: 0,Nombre,CPU,Memoria,Disco,IO
0,Ordenador1,87.5,47.2,10.2,0.45
2,Ordenador3,65.1,35.6,14.9,2.97
1,Ordenador2,23.6,62.3,23.4,1.35


## <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio

1. Crear el dataframe con los datos de titanic a partir de la url `"https://gist.githubusercontent.com/jcozar87/6df43b2dbf995f44f819d4343d7bc373/raw/f319a577c4e608e3a9a7f86f7952b13f58810f04/titanic.csv"`

2. Vamos a establecer como índice el campo **Name**

3. Vamos a añadir una nueva columna, que sea **adult** y que tenga el valor True para todas las filas donde el campus **Age** sera mayor que 18.

4. ¿Cuántos menores de edad había a bordo?

In [55]:
# Completar
df_titanic.set_index("Name")
df_titanic["adult"] = df_titanic["Age"] >= 18
df_titanic.adult.value_counts()

True     660
False    653
Name: adult, dtype: int64

<div style="text-align: right">
<a href="#indice"><font size=5><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#000000"></i></font></a></div>
<a id="filtrado"></a>

# 6. Filtrado de los elementos

## Acceso booleano

Lo más habitual a la hora de trabajar con pandas es hacer operaciones de búsqueda y transformaciones sobre todos los datos del dataframe. Muy inspirado a como se trabaja con una tabla de una base de datos relacional o a la de una hoja de cálculo.

Lo más básico es reordenar y filtrar los datos, para lo que tenemos una serie de funciones muy potentes.

La mayoría de las veces basta con usar el propio indexado del dataframe utilizando valores booleanos conforme a condiciones.

Aprovechando que hemos visto que las columnas de un dataframe son vectores, podemos aplicar operaciones de comparación vectorizadas para tranformarlas en índices booleanos.

Este vector lo podemos utilizar como índice para filtrar los datos. Si lo escribimos todo junto queda bastante expresivo.

In [56]:
# Personas menores de 2 años
df_titanic.loc[df_titanic.Age < 2]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode,adult
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0,False
339,"Becker, Master Richard F",2nd,1.0,male,1,0,False
358,"Caldwell, Master Alden Gates",2nd,0.83,male,1,0,False
425,"Hamalainen, Master Viljo",2nd,1.0,male,1,0,False
478,"LaRoche, Miss Louise",2nd,1.0,female,1,1,False
544,"Richards, Master George Sidney",2nd,0.8,male,1,0,False
616,"Aks, Master Philip",3rd,0.83,male,1,0,False
751,"Danbom, Master Gilbert Sigvard Emanuel",3rd,0.33,male,0,0,False
762,"Dean, Master Bertram Vere",3rd,1.0,male,1,0,False
763,"Dean, Miss Elizabeth Gladys (Millvena)",3rd,0.17,female,1,1,False


In [57]:
# Accede a los elementos con IP "10.131.2.1"
serie_ip = df_weblog["IP"]
seleccion_ip = serie_ip.loc[serie_ip == "10.131.2.1"]
seleccion_ip.shape

(1626,)

In [58]:
df_weblog.shape

(15789, 3)

In [59]:
# Accede a los elementos con IP "10.131.2.1"
seleccion_ip = df_weblog.loc[df_weblog["IP"] == "10.131.2.1"]
seleccion_ip.head(5)

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Nov/2017:06:59:04,10.131.2.1,GET /js/vendor/moment.min.js HTTP/1.1,200
[29/Nov/2017:06:59:19,10.131.2.1,GET /js/chart.min.js HTTP/1.1,200
[29/Nov/2017:06:59:30,10.131.2.1,GET /edit.php?name=bala HTTP/1.1,200
[29/Nov/2017:06:59:37,10.131.2.1,GET /logout.php HTTP/1.1,302
[29/Nov/2017:06:59:37,10.131.2.1,GET /login.php HTTP/1.1,200


La expresión booleana puede componerse de varios términos, pero hay que tener en cuenta dos cosas:

- Se deben utilizar los operadores bitwise (`&` para la conjunción, `|` para la disyunción, y `~` para la negación)
- Hay que encerrar entre paréntesis cada uno de los términos (por el orden de prioridad en estos operadores)

In [60]:
# Accede a los elementos con IP "10.131.2.1" y Status 404
seleccion_ip = df_weblog.loc[(df_weblog["IP"] == "10.131.2.1") & (df_weblog["Status"] == 404)]
seleccion_ip.head()

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[30/Nov/2017:20:06:56,10.131.2.1,GET /favicon.ico HTTP/1.1,404
[30/Nov/2017:20:33:51,10.131.2.1,GET /robots.txt HTTP/1.1,404
[01/Dec/2017:09:06:05,10.131.2.1,GET /robots.txt HTTP/1.1,404
[09/Nov/2017:17:25:59,10.131.2.1,GET /robots.txt HTTP/1.1,404
[10/Nov/2017:20:27:18,10.131.2.1,GET /robots.txt HTTP/1.1,404


### isna()/isnull() y notna()/notnull()

También existen las funciones `isna()/isnull()` y `notna()/notnull()` que permiten determinar qué elementos de la serie son `NaN` (o `None`, dependiendo del tipo de datos) o no lo son.

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i> Los `NaN` o `None` representan la ausencia de valores
</div>

In [61]:
print(serie_ip.isna().head(5))
print(serie_ip.isnull().head(5))
print(serie_ip.notna().head(5))
print(serie_ip.notnull().head(5))

Time
[29/Nov/2017:06:58:55    False
[29/Nov/2017:06:59:02    False
[29/Nov/2017:06:59:03    False
[29/Nov/2017:06:59:04    False
[29/Nov/2017:06:59:06    False
Name: IP, dtype: bool
Time
[29/Nov/2017:06:58:55    False
[29/Nov/2017:06:59:02    False
[29/Nov/2017:06:59:03    False
[29/Nov/2017:06:59:04    False
[29/Nov/2017:06:59:06    False
Name: IP, dtype: bool
Time
[29/Nov/2017:06:58:55    True
[29/Nov/2017:06:59:02    True
[29/Nov/2017:06:59:03    True
[29/Nov/2017:06:59:04    True
[29/Nov/2017:06:59:06    True
Name: IP, dtype: bool
Time
[29/Nov/2017:06:58:55    True
[29/Nov/2017:06:59:02    True
[29/Nov/2017:06:59:03    True
[29/Nov/2017:06:59:04    True
[29/Nov/2017:06:59:06    True
Name: IP, dtype: bool


In [62]:
# También se pueden aplicar a DataFrames, lo que se traduce en ejecutar la función para cada una de las columnas
df_weblog.notna().head(5)

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Nov/2017:06:58:55,True,True,True
[29/Nov/2017:06:59:02,True,True,True
[29/Nov/2017:06:59:03,True,True,True
[29/Nov/2017:06:59:04,True,True,True
[29/Nov/2017:06:59:06,True,True,True


In [63]:
# ejemplo de filtrado usando esta operación (supongamos que )
seleccion = df_titanic.Age.isna()
df_titanic.loc[seleccion].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode,adult
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1,False
13,"Barkworth, Mr Algernon H",1st,,male,1,0,False
14,"Baumann, Mr John D",1st,,male,0,0,False
29,"Borebank, Mr John James",1st,,male,0,0,False
32,"Bradley, Mr George",1st,,male,1,0,False


In [64]:
# se puede hacer una asignacion a los valores de una consulta, por ejemplo vamos a rellenar con la edad media!
df_titanic.loc[seleccion, "Age"] = df_titanic.Age.mean()
df_titanic.loc[seleccion].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode,adult
12,"Aubert, Mrs Leontine Pauline",1st,30.397989,female,1,1,False
13,"Barkworth, Mr Algernon H",1st,30.397989,male,1,0,False
14,"Baumann, Mr John D",1st,30.397989,male,0,0,False
29,"Borebank, Mr John James",1st,30.397989,male,0,0,False
32,"Bradley, Mr George",1st,30.397989,male,1,0,False


## isin()

La función `isin` también es de suma utiliad, ya que permite seleccionar las filas cuyo valor esté dentro de un conjunto. 

In [65]:
status_ok = df_weblog.loc[df_weblog["Status"].isin([206, 200])]
status_ok.head()

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Nov/2017:06:58:55,10.128.2.1,GET /login.php HTTP/1.1,200
[29/Nov/2017:06:59:03,10.128.2.1,GET /home.php HTTP/1.1,200
[29/Nov/2017:06:59:04,10.131.2.1,GET /js/vendor/moment.min.js HTTP/1.1,200
[29/Nov/2017:06:59:06,10.130.2.1,GET /bootstrap-3.3.7/js/bootstrap.js HTTP/1.1,200
[29/Nov/2017:06:59:19,10.130.2.1,GET /profile.php?user=bala HTTP/1.1,200


In [66]:
status_ok.shape

(11382, 3)

## <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio

Leer el `DataFrame` almacenado en el fichero `weblog.csv`.

1. ¿Cuántas IPs únicas hay?

Haz un subconjunto que contengan la IP "10.128.2.1". Haz otro subconjunto que contenga la IP "10.131.2.1". 

2. ¿Qué subconjunto tiene más filas?

3. A partir del dataframe original, haz un subconjunto que contenga la IP menos frecuente de las dos anteriores con solo códigos 200.

4. ¿Qué típo de códigos de respuesta (columna `Status`) son más frecuentes en el dataframe original? (TIP: puedes usar la funcón `value_counts`.

In [67]:
# 1 and 2
df_weblog.IP.value_counts()

10.128.2.1    4257
10.131.0.1    4198
10.130.2.1    4056
10.129.2.1    1652
10.131.2.1    1626
Name: IP, dtype: int64

In [68]:
# 3
#df_weblog.IP.value_counts().index[-1]
df_weblog[(df_weblog.Status == 200) & (df_weblog.IP == df_weblog.IP.value_counts().index[-1])]

Unnamed: 0_level_0,IP,URL,Status
Time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
[29/Nov/2017:06:59:04,10.131.2.1,GET /js/vendor/moment.min.js HTTP/1.1,200
[29/Nov/2017:06:59:19,10.131.2.1,GET /js/chart.min.js HTTP/1.1,200
[29/Nov/2017:06:59:30,10.131.2.1,GET /edit.php?name=bala HTTP/1.1,200
[29/Nov/2017:06:59:37,10.131.2.1,GET /login.php HTTP/1.1,200
[29/Nov/2017:13:38:20,10.131.2.1,GET /login.php HTTP/1.1,200
...,...,...,...
[26/Nov/2017:22:18:26,10.131.2.1,GET /contest.php HTTP/1.1,200
[26/Nov/2017:22:18:28,10.131.2.1,GET /contestproblem.php?name=RUET%20OJ%20Serve...,200
[26/Nov/2017:22:18:31,10.131.2.1,GET /details.php?id=43 HTTP/1.1,200
[26/Nov/2017:22:18:34,10.131.2.1,GET /editcontestproblem.php?id=43 HTTP/1.1,200


In [69]:
df_weblog.Status.value_counts()

200    11330
302     3498
304      658
404      251
206       52
Name: Status, dtype: int64