<center><h1>Exploración de datos con pandas: intermedio</h1></center>

<h2>01. Introducción</h2>
<br>

<p>En la última lección, aprendimos algunas de las funciones y métodos integrados que facilitan la exploración y el análisis de datos con pandas. En esta lección, continuaremos trabajando con el conjunto de datos Fortune 2017 <a href="https://en.wikipedia.org/wiki/Fortune_Global_500" target="_blank">Global 500</a> a medida que aprendemos técnicas de selección y exploración más avanzadas.</p>

<p>Puede <a href="https://drive.google.com/file/d/1MHjr9aMZwNjrmyyQXCsStxwdCa5ZAPJA/view?usp=sharing" target="_blank">descargar los datos aquí</a></p>

<p>Como recordatorio, el diccionario de datos para las columnas principales en el archivo <code>f500.csv</code> se encuentra a continuación:</p> 

<ul>
<li><code>company</code>: Nombre de la empresa.</li>
<li><code>rank</code>: Clasificación Global 500 para la empresa.</li>
<li><code>revenues</code>: ingresos totales de la empresa durante el año fiscal, en millones de dólares (USD).</li>
<li><code>revenue_change</code>: cambio porcentual en los ingresos entre el año fiscal actual y el anterior.</li>
<li><code>profits</code>: Utilidad neta del ejercicio, en millones de dólares (USD).</li>
<li><code>sector</code>: Sector en el que opera la empresa.</li>
<li><code>previous_rank</code>: Clasificación Global 500 de la empresa para el año anterior.</li>
<li><code>country</code>: País en el que tiene su sede la empresa.</li>
<li><code>hq_location</code>: Ciudad y país (o ciudad y estado para los EE. UU.) donde tiene su sede la empresa.</li>
<li><code>employees</code>: Total de empleados (equivalente a tiempo completo, si está disponible) al final del año fiscal.</li>
</ul>

<p>Hasta ahora, le proporcionamos el código para leer el archivo CSV en pandas. Para comenzar esta lección, aprenderemos a usar la función <a href="http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html" target="_blank"><code>pandas.read_csv()</code></a> para leer archivos CSV. </p> 

<p>Echemos un vistazo a las primeras líneas de nuestro archivo CSV en su forma original. Para que sea más fácil de leer, solo mostramos las primeras cuatro columnas de cada línea:</p> 

```python
company,rank,revenues,revenue_change
Walmart,1,485873,0.8
State Grid,2,315199,-4.4
Sinopec Group,3,267518,-9.1
China National Petroleum,4,262573,-12.3
Toyota Motor,5,254694,7.7
```


<p>En el siguiente ejercicio, veamos más de cerca cómo se leen estos datos en un marco de datos.</p>


<h3>Ejercicio</h3>
<br>
<div><p>Ya hemos leído el conjunto de datos en un dataframe de pandas y lo hemos asignado a una variable llamado <code>f500</code>. También reemplazamos todos los valores <code>0</code> en la columna <code>previous_rank</code> con <code>NaN</code>, como hicimos en la lección anterior.</p>
<ol>
<li>Seleccione las columnas <code>rank</code>, <code>revenues</code> y <code>revenue_change</code> en <code>f500</code>. Luego, usa el método <code>DataFrame.head()</code> para seleccionar las primeras cinco filas. Asigne el resultado a <code>f500_selection</code>.</li>
<li>Imprima la variable <code>f500_selection</code>. Compare los resultados con las primeras líneas de nuestro archivo CSV anterior.</li>
<li>Eche un vistazo a la documentación de la función <a href="http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html" target="_blank"><code>pandas.read_csv()</code></a> para intentar comprender los resultados.</li>
</ol></div>

<h2>02. Leyendo archivos CSV con pandas</h2>

<p>En el último ejercicio, usamos el siguiente fragmento para leer nuestro archivo CSV en pandas:</p>

```python
f500 = pd.read_csv("f500.csv", index_col=0)
f500.index.name = None
```

<p>Cuando comparamos el resultado con las primeras líneas del CSV, es posible que haya notado que las etiquetas del eje de índice son en realidad los valores de la primera columna en el conjunto de datos, <code>company</code>:</p> 

```python
company,rank,revenues,revenue_change
Walmart,1,485873,0.8
State Grid,2,315199,-4.4
Sinopec Group,3,267518,-9.1
China National Petroleum,4,262573,-12.3
Toyota Motor,5,254694,7.7
```

<p><img src="https://s3.amazonaws.com/dq-content/292/csv_to_dataframe.svg" alt="csv_to_dataframe" width="400" height="150" ></p> 

<p>Si vemos
    la documentación de <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html" target="_blank"> <code>read_csv()</code></a>, podemos ver que el parámetro <code>index_col</code> es un argumento opcional y debe especificar qué columna usar como etiquetas de fila para el dataframe. Cuando usamos un valor de <code>0</code>, especificamos que queríamos usar la <em>primera</em> columna como etiquetas de fila.</p> 

<p>Veamos cómo se ve el dataframe <code>f500</code> si eliminamos la segunda línea: <code>f500.index.name = None</code>.</p>

```python
f500 = pd.read_csv("f500.csv", index_col=0)
```

```python
_                         rank  revenues  revenue_change
company                                                    
Walmart                      1    485873             0.8
State Grid                   2    315199            -4.4
Sinopec Group                3    267518            -9.1
China National Petroleum     4    262573           -12.3
Toyota Motor                 5    254694             7.7
```

<p>Observe que arriba de las etiquetas de índice está el texto <code>company</code>, el nombre de la primera columna en el CSV. Pandas usó este valor como el <strong>nombre del eje</strong> para el eje índice.</p> 

<p>Tanto el eje de la columna como el del índice pueden tener nombres asignados. Sin embargo, originalmente usamos el siguiente código para acceder al nombre de los ejes del índice y lo configuramos en <code>None</code>, por lo que nuestro dataframe tienen un nombre para el eje de índice:</p>

<p>Volvamos al código restante:</p>

<pre>
f500 = pd.read_csv("f500.csv", index_col=0)
</pre>

<p>A continuación, veamos cómo se ve el dataframe si usamos <code>pandas.read_csv()</code> sin el parámetro <code>index_col</code>.</p>


<h3>Ejercicio</h3>
<ol>
<li>Utilice la función <code>pandas.read_csv()</code> para leer el archivo CSV <code>f500.csv</code> como un marco de datos pandas. Asígnelo al nombre de variable <code>f500</code>.
<ul>
<li>No utilice el parámetro <code>index_col</code>.</li>
</ul></li>
<li>Utilice el siguiente código para insertar los valores de NaN en la columna <code>previous_rank</code>:
<code>f500.loc[f500["previous_rank"] == 0, "previous_rank"] = np.nan</code></li>
</ol>

<div></div>
<h2>03. Uso de iloc para seleccionar por posición entera</h2>
<br>
<p>En la última sección, leímos nuestro archivo CSV en pandas nuevamente. Sin embargo, esta vez, no usamos el parámetro <code>index_col</code>:</p>


```
f500 = pd.read_csv("f500.csv")
print(f500[['company', 'rank', 'revenues']].head())
```


```
_                   company  rank  revenues
0                   Walmart     1    485873
1                State Grid     2    315199
2             Sinopec Group     3    267518
3  China National Petroleum     4    262573
4              Toyota Motor     5    254694
```

<p>Hay dos diferencias con este enfoque:</p>

<ul>
<li>La columna <code>company</code> ahora se incluye como una columna normal, en lugar de usarse para el índice.</li>
<li>Las etiquetas de índice ahora son números enteros a partir de <code>0</code>.</li>
</ul>

<p>Esta es la forma más convencional de leer en un dataframe, y es el método que usaremos a partir de ahora. </p> 

<p>Recuerde que cuando trabajamos con un dataframe con etiquetas de índice <em>string</em>, usamos <code>loc[]</code> para seleccionar datos:</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/selection_loc.svg" alt="selección usando etiqueta" width="500" height="300"></p> 

<p>En algunos escenarios, el uso de etiquetas para hacer selecciones facilita las cosas; en otros, sin embargo, las hace más difíciles. </p> 

<p>Al igual que en NumPy, también podemos usar posiciones <em>enteras</em> para seleccionar datos usando <a href="http://pandas.pydata.org/pandas-docs/stable/generated/ pandas.DataFrame.iloc.html" target="_blank"><code>Dataframe.iloc[]</code></a> y <a href="http://pandas.pydata.org/ pandas-docs/stable/generated/pandas.Series.iloc.html" target="_blank"><code>Series.iloc[]</code></a>. Es fácil confundir<code>loc[]</code> y <code>iloc[]</code>al principio, pero la forma más fácil es recordar la primera letra de cada método:</p> 

<ul>
<li><strong>l</strong>oc. <strong>l</strong>abel: selección basada en etiquetas</li>
<li><strong>i</strong>loc. <strong>i</strong>nteger: selección basada en la posición (número entero)</li>
</ul>

<p>Usar <code>iloc[]</code> es casi idéntico a indexar con NumPy, con posiciones enteras que comienzan en <code>0</code> como ndarrays y listas de Python. Veamos cómo realizaríamos el selección anterior usando <code>iloc[]</code>:</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/selection_iloc.svg" alt="selección usando iloc" width="500" height="300"></p> 

<p>Como puede ver, <code>DataFrame.iloc[]</code> se comporta de manera similar a <code>DataFrame.loc[]</code>. La sintaxis completa para <code>DataFrame.iloc[]</code>, en pseudocódigo, es:</p>

```
df.iloc[row_index, column_index]
```
 
<h3>Ejercicio</h3>
<br>
<ol>
<li>Seleccione solo la quinta fila del marco de datos <code>f500</code>. Asigne el resultado a <code>fifth_row</code>.</li>
<li>Seleccione el valor en la primera fila de la columna <code>company</code>. Asigne el resultado a <code>company_value</code>.</li>
</ol>

<h2>04. Utilización de iloc para seleccionar por posición de número entero (continuación)</h2>
<br>
<p>En la sección anterior, aprendimos cómo seleccionar una fila o un valor por <em>posición entera</em> usando <code>DataFrame.iloc[]</code>. Como recordatorio, la sintaxis completa para <code>DataFrame.iloc[]</code> en pseudocódigo es:</p>

```
df.iloc[row_index,column_index]
```

<p>Digamos que queremos seleccionar solo la primera columna de nuestro dataframe <code>f500</code>. Para hacer esto, usamos <code>:</code> (dos puntos) para especificar todas las filas, y luego use el número entero <code>0</code> para especificar la primera columna:</p>

```
first_column = f500.iloc[:,0]
print(first_column)
```

```
0                        Walmart
1                     State Grid
2                  Sinopec Group
...
497    Wm. Morrison Supermarkets
498                          TUI
499                   AutoNation
Name: company, dtype: object
```

<p>Para especificar un segmento posicional, podemos aprovechar el mismo atajo que usamos con las etiquetas. Así es como seleccionaríamos las filas entre los índices uno a cuatro (inclusive):</p> 

```
second_to_sixth_rows = f500[1:5]
```

```
company  rank  revenues ... employees  total_stockholder_equity
1         State Grid     2    315199 ...    926067                    209456
2      Sinopec Group     3    267518 ...    713288                    106523
3  China National...     4    262573 ...   1512048                    301893
4       Toyota Motor     5    254694 ...    364445                    157210
```

<p>En el ejemplo anterior, la fila en el índice <code>5</code> no está incluida, como si estuviéramos trabajando con una lista de Python o NumPy ndarray. Recuerde que <code>loc[]</code> maneja el corte de manera diferente:</p> 

<ul>
<li>Con <code>loc[]</code>, el segmento final <strong>está</strong> incluido.</li>
<li>Con <code>iloc[]</code>, el segmento final <strong>no</strong> se incluye.</li>
</ul>

<p>La siguiente tabla resume cómo podemos usar <code>DataFrame.iloc[]</code> y <code>Series.iloc[]</code> para seleccionar por posición de número entero:</p> 

| Seleccionar por posición de número entero | Sintaxis explícita | Convención |
|----------------------------------------|--------------- -----|-------------------------------------|
| Columna única del dataframe | df.iloc[:,3] |
| Lista de columnas del dataframe | df.iloc[:,[3,5,6]] |
| Sección de columnas del dataframe | df.iloc[:,3:7] |
| Fila única del dataframe | df.iloc[20] |
| Lista de filas del dataframe | df.iloc[[0,3,8]] |
| Sección de filas del dataframe | df.iloc[3:5] | df[3:5] |
| Elementos sueltos de serie | s.iloc[8] | s[8] |
| Lista de elementos de la serie | s.iloc[[2,8,1]] | s[[2,8,1]] |
| Sección de elementos de la serie | s.iloc[5:10] | s[5:10] |

<h3>Ejercicio</h3>
<br>
<ol>
<li>Seleccione las tres primeras filas del dataframe <code>f500</code>. Asigne el resultado a <code>first_three_rows</code>.</li>
<li>Seleccione la primera y la séptima fila y las primeras cinco columnas del dataframe <code>f500</code>. Asigne el resultado a <code>first_seventh_row_slice</code>.</li>
<li>Después de ejecutar su código, imprima sus variables.</li>
</ol>

<h2>05. Uso de métodos pandas para crear máscaras booleanas</h2>
<br>
<p>En las últimas dos lecciones, usamos operadores booleanos de Python como <code>&gt;</code>, <code>&lt;</code> y <code>==</code> para crear máscaras booleanas para seleccionar subconjuntos de datos. También hay una serie de métodos pandas que devuelven máscaras booleanas útiles para explorar datos.</p> 

<p>Dos ejemplos son el método <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.isnull.html" target="_blank"><code>Series.isnull()</code> </a> y el método<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.notnull.html" target="_blank"><code>Series.notnull()</code></a>. Estos se pueden usar para seleccionar filas que contienen valores nulos (o NaN) o filas que <strong>no </strong> contienen valores nulos para una determinada columna.</p> 

<p>Primero, usemos el método <code>Series.isnull()</code> para ver filas con valores nulos en la columna <code>revenue_change</code>:</p>

```
rev_is_null = f500["revenue_change"].isnull()
print(rev_is_null.head())
```

```
0    False
1    False
2    False
3    False
4    False
Name: revenue_change, dtype: bool
```

<p>Vemos que usar <code>Series.isnull()</code> dio como resultado una serie booleana. Al igual que en NumPy, podemos usar esta serie para filtrar nuestro dataframe, <code>f500</code>: </p>

```
rev_change_null = f500[rev_is_null]
print(rev_change_null[["company","country","sector"]])
```

```
_`                       company  country      sector
90                       Uniper  Germany      Energy
180  Hewlett Packard Enterprise      USA  Technology
```

<p>Podemos confirmar que las dos empresas a las que les faltan valores en la columna <code>revenue_change</code> son Uniper, una empresa de energía alemana, y Hewlett Parkard Enterprise, una empresa de tecnología estadounidense. Usemos lo que hemos aprendido para encontrar los valores nulos en la columna <code>previous_rank</code>.</p> 
<h3>Ejercicio</h3>
<br>
<ol>
<li>Use el método <code>Series.isnull()</code> para seleccionar todas las filas de <code>f500</code> que tienen un valor nulo para la columna <code>previous_rank</code>. Seleccione solo las columnas <code>company</code>, <code>rank</code> y <code>previous_rank</code>. Asigne el resultado a <code>null_previous_rank</code>.</li>
</ol>


<h2>06. Trabajar con etiquetas enteras</h2>
<br>
<p>En el último ejercicio, seleccionamos las filas con valores nulos en la columna <code>previous_rank</code>. A continuación se muestran las primeras filas:</p> 

|  | company                      |rank | previous_rank|
|---------|---------------------------|---------------|---|
| 48      | Legal &amp; General Group | 49            | NaN |
| 90      | Uniper                    | 91            | NaN |
| 123     | Dell Technologies         | 124           | NaN |


<p>Arriba, podemos ver que las <em>etiquetas</em> del eje de índice para esta selección son <code>48</code>, <code>90</code> y <code>123</code >.</p> 

<p>Si quisiéramos seleccionar la primera empresa de nuestro nuevo dataframe <code>null_previous_rank</code> por <em>posición entera</em>, podemos usar <code>DataFrame.iloc[]</code>:</p> 

```
first_null_prev_rank = null_previous_rank.iloc[0]
print(first_null_prev_rank)
```

```
company          Legal & General Group
rank                                49
previous_rank                      NaN
Name: 48, dtype: object
```

<p>Veamos qué sucede cuando usamos <code>DataFrame.loc[]</code> en lugar de <code>DataFrame.iloc[]</code>:</p> 

```
first_null_prev_rank = null_previous_rank.loc[0]
```

```
---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
/python3.4/site-packages/pandas/core/indexing.py in _has_valid_type(self, key, axis)
   1410                 if key not in ax:
-> 1411                     error()
   1412             except TypeError as e:

/python3.4/site-packages/pandas/core/indexing.py in error()
   1405                 raise KeyError("the label [%s] is not in the [%s]" %
-> 1406                                (key, self.obj._get_axis_name(axis)))
   1407 

KeyError: 'the label [0] is not in the [index]'
```

<p>Recibimos un error que nos dice que el <code>la etiqueta [0] no está en el [índice]</code> (el rastreo real de este error es mucho más largo que esto). Recuerde que <code >DataFrame.loc[]</code> se utiliza para la selección basada en <em>etiquetas</em> o "nombres": </p> 

<ul>
<li><strong>l</strong>oc. <strong>l</strong>abel. Selección por etiqueta ("nombre")</li>
<li><strong>i</strong>loc. <strong>integer</strong>. Selección por posición (número entero)</li>
</ul>


<p>Debido a que no hay una fila con una etiqueta <code>0</code> en el índice, obtuvimos el error anterior. Si quisiéramos seleccionar una fila usando <code>loc[]</code>, tendría que usar la etiqueta de número entero para la primera fila: <code>48</code>.</p> 

<p>Siempre piense detenidamente si desea seleccionar por <em>etiqueta</em> o <em>posición de número entero</em>. Utilice <code>DataFrame.loc[]</code> o <code> DataFrame.iloc[]</code> en consecuencia. </p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/integer_labels_2.svg" alt="loc vs iloc para filas en diferente orden" width="500" height="300"></p>  

<h3>Ejercicio</h3>
<br>
<ol>
<li>Asigne las primeras cinco filas del dataframe <code>null_previous_rank</code> a la variable <code>top5_null_prev_rank</code> eligiendo el método correcto entre <code>loc[]</code> o <code>iloc[]</code>.</li>
</ol>

<h2>07. Alineación de índices</h2>
<br>
<p>Ahora que hemos identificado las filas con valores nulos en la columna <code>previous_rank</code>, usemos el método <code>Series.notnull()</code> para excluirlas de la siguiente parte de nuestro análisis.</p> 

```
previously_ranked = f500[f500["previous_rank"].notnull()]
```

<p>Podemos crear una columna <code>rank_change</code> restando la columna <code>rank</code> de la columna <code>previous_rank</code>:</p> 

```
rank_change = previously_ranked["previous_rank"] - previously_ranked["rank"]
print(rank_change.shape)
print(rank_change.tail(3))
```

```
(467,)
496   -70.0
497   -61.0
498   -32.0
dtype: float64
```

<p>Arriba, podemos ver que nuestra serie <code>rank_change</code> tiene 467 filas. Dado que la última etiqueta de índice de número entero es 498, sabemos que nuestras etiquetas de índice ya no se alinean con las posiciones de número entero. </p > 

<p>Supongamos que ahora decidimos agregar la serie <code>rank_change</code> al dataframe <code>f500</code> como una nueva columna. Sus etiquetas de índice ya no coinciden con las etiquetas de índice en <code>f500 </code>, entonces, ¿cómo podría hacerse esto?</p> 

<p>Otro aspecto poderoso de pandas es que casi todas las operaciones <strong>se alinearán en las etiquetas de índice</strong>. Veamos un ejemplo: a continuación tenemos un dataframe llamado <code>food</code> y un serie llamada <code>alt_name</code>:</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/align_index_1_updated.svg" alt="alinear en el índice 1" width="600" height="400"></p> 

<p>El dataframe <code>food</code> y la serie <code>alt_name</code> no solo tienen una cantidad diferente de elementos, sino que también tienen dos etiquetas de índice iguales: <code>corn</code> y <code>eggplant</code> - y están en diferentes órdenes. Si quisiéramos agregar <code>alt_name</code> como una nueva columna en nuestro dataframe <code>food</code> , podemos usar el siguiente código:</p> 

```
food["alt_name"] = alt_name
```

<p>Cuando hagamos esto, se ignorará el orden de la serie <code>alt_name</code> y se alinearán en las etiquetas de índice:</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/align_index_2_updated.svg" alt="alinear en el índice 2" width="600" height="400"></p> 

<p>Pandas:</p> 

<ul>
<li>Descarta cualquier elemento que tenga un índice que no coincida con el dataframe (como <code>arugula</code>).</li>
<li>Rellena las filas restantes con <code>NaN</code>.</li>
</ul>


<p>A continuación se muestra el resultado:</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/align_index_5_updated.svg" alt="alinear en el índice 3" width="600" height="400"></p> 

<p>La biblioteca de pandas se alineará en el índice en cada oportunidad, sin importar si nuestras etiquetas de índice son cadenas o números enteros; esto hace que trabajar con datos de diferentes fuentes o trabajar con datos cuando hayamos eliminado, agregado o reordenado filas sea mucho más fácil de lo que sería de otra manera.</p> 
<h3>Ejercicio</h3>
<br>
<ol>
<li>Utilice el método <code>Series.notnull()</code> para seleccionar todas las filas de <code>f500</code> que tengan un valor no nulo para la columna <code>previous_rank</code>. Asigne el resultado a <code>previously_ranked</code></li>
<li>Del dataframe <code>previously_ranked</code>, reste la columna <code>rank</code> de la columna <code>previous_rank</code>. Asigne el resultado a <code>rank_change</code>.</li>
<li>Asigne los valores en <code>rank_change</code> a una nueva columna en el dataframe <code>f500</code>, <code>"rank_change"</code>.</li>
<li>Imprima las variables para ver el dataframe <code>f500</code> y observe cómo la nueva columna se alinea con los datos existentes.</li>
</ol>

<h2>08. Uso de operadores booleanos</h2>
<br>
<p>La indexación booleana es una herramienta poderosa que nos permite seleccionar o excluir partes de nuestros datos en función de sus valores. Sin embargo, para responder preguntas más complejas, debemos aprender a combinar matrices booleanas.</p> 

<p>Para recapitular, las matrices booleanas se crean utilizando cualquiera de los <strong>operadores de comparación</strong> estándar de Python: <code>==</code> (igual), <code>&gt;</code> ( mayor que), <code>&lt;</code> (menor que), <code>!=</code> (diferente que).</p> 

<p>Combinamos matrices booleanas usando <strong>operadores booleanos</strong>. En Python, estos operadores booleanos son <code>and</code>, <code>or</code>, y <code>not</code>. En pandas, los operadores son ligeramente diferentes:</p> 



| pandas | Equivalente de Python | Significado |
|-----------|-----------------------------------|----------------- --------------------------|
| `a & b` | `a and b` | `True` si tanto `a` como `b` son `True`, de lo contrario `False` |
| <code>a &#124; b</code> | `a or b` | `True` si `a` o `b` son `True` |
| `~a` | `not a` | `True` si `a` es `False`, de lo contrario `False` |

<p>Veamos un ejemplo usando <code>f500_sel</code>, una pequeña selección de nuestro dataframe <code>f500</code>:</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/bool_ops_1.svg" alt="operadores booleanos ejemplo 1" width="600" height="400"></p> 

<p>Supongamos que quisiéramos encontrar las empresas en <code>f500_sel</code> con más de 265 000 millones en ingresos que tienen su sede en China. Comenzaremos realizando dos comparaciones booleanas para producir dos matrices booleanas separadas (la la columna de ingresos ya está en millones).</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/bool_ops_2.svg" alt="operadores booleanos ejemplo 2" width="600" height="400"></p> 

<p>Luego usamos el operador <code>&amp;</code> para combinar las dos matrices booleanas usando la lógica booleana "y":</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/bool_ops_3.svg" alt="operadores booleanos ejemplo 3" width="600" height="400"></p> 

<p>Por último, usamos la matriz booleana combinada para realizar la selección en nuestro dataframe:</p> 

<p><img src="https://s3.amazonaws.com/dq-content/292/bool_ops_4.svg" alt="ejemplo de operadores booleanos 4" width="600" height="400"></p> 

<p>El resultado nos da dos empresas de <code>f500_sel</code> que son chinas y tienen más de 265 mil millones en ingresos. </p> 

<p>Practiquemos una selección más compleja utilizando operadores booleanos.</p> 
<h3>Ejercicio</h3>
<br>
<ol>
<li>Seleccione todas las empresas con ingresos superiores a 100 000 millones y beneficios negativos del dataframe <code>f500</code>. El resultado debe incluir todas las columnas.<ul>
<li>Cree una matriz booleana que seleccione las empresas con ingresos superiores a 100 000 millones. Asigne el resultado a <code>large_revenue</code>.</li>
<li>Cree una matriz booleana que seleccione las empresas con beneficios inferiores a 0. Asigne el resultado a <code>negative_profits</code>.</li>
<li>Combine <code>large_revenue</code> y <code>negative_profits</code>. Asigne el resultado a <code>combined</code>.</li>
<li>Utilice <code>combined</code> para filtrar <code>f500</code>. Asigne el resultado a <code>big_rev_neg_profit</code>.</li>
</ul>
</li>
</ol>

<h2>09. Uso de operadores booleanos, continuación</h2>
<br>
<p>En el último ejercicio, identificamos empresas que tienen más de 100 mil millones en ingresos y ganancias negativas:</p> 


```
large_revenue = f500["revenues"] > 100000
negative_profits = f500["profits"] < 0
combined = large_revenue & negative_profits
big_rev_neg_profit = f500[combined]
```

<p>Al igual que cuando usamos una sola matriz booleana para realizar la selección, no necesitamos usar variables intermedias. El primer lugar donde podemos optimizar nuestro código es combinando nuestras dos matrices booleanas en una sola línea, en lugar de asignar primero a las variables intermedias <code>large_revenue</code> y <code>negative_profits</code>:</p> 

```
combined = (f500["revenues"] > 100000) & (f500["profits"] < 0)
```

<p>Observe que usamos paréntesis alrededor de cada una de nuestras comparaciones booleanas. Esto es muy importante: <strong>nuestra operación booleana fallará sin paréntesis</strong>. Por último, en lugar de asignar las matrices booleanas a <code>combined</code>, podemos insertar la comparación directamente en nuestra selección:</p> 

```
big_rev_neg_profit = f500[(f500["revenues"] > 100000) & (f500["profits"] < 0)]
```
<p>Realizar este paso final es una cuestión de gustos. Como siempre, su decisión debe basarse en lo que hará que su código sea más legible.</p> 

<p>Practiquemos una selección más compleja usando operadores booleanos a continuación:</p>

| pandas    | Python equivalent | Meaning                                   |
|-----------|-------------------|-------------------------------------------|
| `a & b` | `a and b`           | `True` si ambos `a` y `b` son `True`, de lo contrario `False` |
| <code>a &#124; b<code>     | `a or b`            | `True` si `a` or `b` es `True`             |
| `~a `       | `not a`             | `True` si `a` es `False`, caso contrario `False`            |


<h3>Ejercicio</h3>
<br>
<ol>
<li>Seleccione todas las filas de empresas cuyo valor de <code>country</code> sea Brasil o Venezuela. Asigne el resultado a <code>brazil_venezuela</code>.</li>
<li>Seleccione las primeras cinco empresas en el sector de Tecnología cuyo país <strong>no</strong> es EE. UU. del dataframe <code>f500</code>. Asigne el resultado a <code>tech_outside_usa</code>.</li>
</ol>

<h2>10. Ordenar Valores</h2>
<br>
<p>Continuemos respondiendo preguntas más complejas sobre nuestro conjunto de datos. Supongamos que queremos encontrar la empresa que emplea a la mayor cantidad de personas en China. Podemos lograr esto seleccionando primero todas las filas donde la columna  <code>country</code> es igual a <code>China</code>:</p> 

```
selected_rows = f500[f500["country"] == "China"]
```


<p>Entonces, podemos usar el método <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.sort_values.html" target="_blank" ><code>DataFrame.sort_values()</code></a> para ordenar las filas en la columna <code>employees</code> Para hacerlo, le pasamos el nombre de la columna al método:</p>

```
sorted_rows = selected_rows.sort_values("employees")
print(sorted_rows[["company", "country", "employees"]].head())
```


```
_                               company country  employees
204                         Noble Group   China       1000
458             Yango Financial Holding   China      10234
438  China National Aviation Fuel Group   China      11739
128                         Tewoo Group   China      17353
182            Amer International Group   China      17852
```

<p>De forma predeterminada, el método <code>sort_values()</code> ordenará las filas en orden <em>ascendente</em>, de menor a mayor.</p> 

<p>Para ordenar las filas en orden <em>descendente</em>, de modo que la empresa con el mayor número de empleados aparezca primero, podemos establecer el parámetro <code>ascending</code> en <code>False</code>:</p>

```
sorted_rows = selected_rows.sort_values("employees", ascending=False)
print(sorted_rows[["company", "country", "employees"]].head())
```

```
_                       company country  employees
3      China National Petroleum   China    1512048
118            China Post Group   China     941211
1                    State Grid   China     926067
2                 Sinopec Group   China     713288
37   Agricultural Bank of China   China     501368
```

<p>Ahora, podemos ver que la empresa china que emplea a la mayor cantidad de personas es China National Petroleum. Busquemos a continuación la empresa japonesa con la mayor cantidad de empleados.</p> 
<h3>Ejercicio</h3>
<br>
<ol>
<li>Encuentre la empresa con sede en Japón y la mayor cantidad de empleados.<ul>
<li>Seleccione solo las filas que tengan un nombre de país igual a <code>Japón</code>. </li>
<li>Use <code>DataFrame.sort_values()</code> para ordenar esas filas <em>por</em> la columna <code>empleados</code> en orden <em>descendente</em>.</li>
<li>Utilice <code>DataFrame.iloc[]</code> para seleccionar la primera fila del dataframe ordenado.</li>
<li>Extraiga el nombre de la empresa de la etiqueta de índice <code>company</code> de la primera fila. Asigne el resultado a <code>top_japanese_employer</code>. </li>
</ul>
</li>
<li>Después de ejecutar su código, imprima las variables para ver el principal empleador de <code>Japón</code>.</li>
</ol>

<h2>11. Uso de bucles con pandas</h2>
<br>
<p>Anteriormente, confirmamos que la empresa japonesa que emplea a más personas es Toyota Motor. </p> 

<p>Supongamos que quisiéramos calcular la empresa que emplea a la mayor cantidad de personas en cada uno de los 34 países. Usar el método de la última sección sería muy ineficiente, así que confiaremos en una técnica que aún no hemos usado con pandas - bucles. </p> 

<p>Hemos evitado explícitamente el uso de bucles en pandas porque uno de los beneficios clave de pandas es que tiene métodos vectorizados para trabajar con datos de manera más eficiente. Aprenderemos técnicas más avanzadas en cursos posteriores, pero por ahora, aprenderá a usar bucles para <strong>agregación</strong>. </p> 

<p>La agregación es donde aplicamos una operación estadística a grupos de nuestros datos. Digamos que queremos calcular el ingreso promedio para cada país en el conjunto de datos. Nuestro proceso podría verse así:</p> 

<ul>
<li>Identifique cada país en el conjunto de datos.</li>
<li>Para cada país:<ul>
<li>Seleccione solo las filas correspondientes a ese país.</li>
<li>Calcule el ingreso promedio para esas filas.</li>
</ul>
</li>
</ul>

<p>Para identificar los países únicos, podemos usar el método<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.unique.html" target="_blank"><code>Series.unique()</code></a>. Este método devuelve una matriz de valores únicos de cualquier serie. Luego, podemos recorrer esa matriz y realizar nuestra operación. Esto es lo que que se parece a:</p> 

```
# Create an empty dictionary to store the results
avg_rev_by_country = {}

# Create an array of unique countries
countries = f500["country"].unique()

# Use a for loop to iterate over the countries
for c in countries:
    # Use boolean comparison to select only rows that
    # correspond to a specific country
    selected_rows = f500[f500["country"] == c]
    # Calculate the mean average revenue for just those rows
    mean = selected_rows["revenues"].mean()
    # Assign the mean value to the dictionary, using the
    # country name as the key
    avg_rev_by_country[c] = mean
```

<p>El diccionario resultante está debajo (hemos mostrado solo las primeras llaves):</p> 

```
{'USA': 64218.371212121216,
 'China': 55397.880733944956,
 'Japan': 53164.03921568627,
 'Germany': 63915.0,
 'Netherlands': 61708.92857142857,
 'Britain': 51588.708333333336,
 'South Korea': 49725.6,
 ...
 }
```

<p>Practicaremos este patrón para calcular la empresa que emplea a más personas en cada país.</p> 
<h3>Ejercicio</h3>
<br>
<div><p>En este ejercicio, vamos a generar el siguiente diccionario del principal empleador en cada país:</p>
<pre><code>{'EE.UU.': 'Walmart',
 'China': 'China National Petroleum',
 'Japón': 'Toyota Motor',
 ...
 'Turquía': 'Koc Holding',
 'EAU': 'Emirates Group',
 'Israel': 'Teva Pharmaceutical Industries'}
</code></pre>
<ol>
<li>Cree un diccionario vacío, <code>top_employer_by_country</code> para almacenar los resultados del ejercicio.</li>
<li>Utilice el método <code>Series.unique()</code> para crear una matriz de valores únicos a partir de la columna <code>country</code>.</li>
<li>Use un ciclo for para iterar sobre los países únicos de la matriz. En cada iteración:<ul>
<li>Seleccione solo las filas que tengan un nombre de país igual al de la iteración actual.</li>
<li>Use <code>DataFrame.sort_values()</code> para ordenar esas filas <em>por</em> la columna <code>empleados</code> en orden <em>descendente</em>.</li>
<li>Seleccione la primera fila del dataframe ordenado.</li>
<li>Extraiga el nombre de la empresa de la columna <code>company</code> de la primera fila.</li>
<li>Asigne los resultados al diccionario <code>top_employer_by_country</code>, utilizando el nombre del país como llave y el nombre de la empresa como valor.</li>
</ul>
</li>
<li>Imprima las variables para ver el principal empleador de cada país.</li>
</ol></div>

<h2>12. Desafío: Calcular el rendimiento de los activos por país</h2>
<br>
<p>¡Ahora es el momento de un desafío para unir todo! En este desafío, agregaremos una nueva columna a nuestro dataframe y luego realizaremos una agregación usando esa nueva columna.</p> 

<p>La columna que creamos va a contener una métrica llamada <a href="https://www.inc.com/encyclopedia/return-on-assets-roa.html" target="_blank">retorno de los activos</a> (ROA). El ROA es una métrica específica del negocio que indica la capacidad de una empresa para obtener ganancias utilizando sus activos disponibles.</p> 

$$\begin{equation}return\ on\ assets = \frac{profit}{assets}\end{equation}$$

Una vez que hayamos creado la nueva columna, agregaremos por sector y buscaremos la empresa con el ROA más alto de cada sector. 


<h3>Ejercicio</h3>
<ol>
<li>Cree una nueva columna <code>roa</code> en el dataframe <code>f500</code>, que contenga la métrica de rendimiento de los activos para cada empresa.</li>
<li>Agregue los datos por la columna <code>sector</code> y cree un diccionario <code>top_roa_by_sector</code>, con:<ul>
<li>El nombre del sector como llaves del Diccionario.</li>
<li>El nombre de la empresa con el valor ROA más alto de ese sector como valores del diccionario .</li>
</ul>
</li>
</ol>

## Conclusión 

<ul>
<li>Seleccionar columnas, filas y elementos individuales usando su ubicación entera.</li>
<li>Utilizar <code>pd.read_csv()</code> para leer archivos CSV en pandas.</li>
<li>Trabajar con etiquetas de ejes enteros.</li>
<li>Cómo usar los métodos de pandas para producir arreglos booleanos.</li>
<li>Utilizar operadores booleanos para combinar comparaciones booleanas para realizar análisis más complejos.</li>
<li>Utilizar etiquetas de índice para alinear los datos.</li>
<li>Utilizar la agregación para realizar análisis avanzados mediante bucles.</li>
</ul>
