<center><h1>Introducción a Pandas</h1></center>

<h2>1. pandas y NumPy</h2>
<br>
<div><p>En las últimas dos lecciones, exploramos cómo la biblioteca NumPy facilita el uso de datos. Con él podemos trabajar fácilmente en múltiples dimensiones y nuestro código es más fácil de entender. Al usar operaciones vectorizadas en lugar de bucles, nuestro código se ejecuta más rápido con datos más grandes.</p>
<p>Aunque NumPy proporciona estructuras y herramientas fundamentales que facilitan el trabajo con datos, existen limitaciones para su utilidad:</p>
<ul>
<li>La falta de compatibilidad con los nombres de las columnas nos obliga a enmarcar las preguntas como operaciones de matrices multidimensionales.</li>
<li>La compatibilidad con un solo tipo de datos por ndarray dificulta el trabajo con datos que contienen tanto datos numéricos como de cadena.</li>
<li>Hay muchos métodos de bajo nivel, pero hay muchos patrones de análisis comunes que no tienen métodos prediseñados.</li>
</ul>
<p>La biblioteca <strong>pandas</strong> brinda soluciones a todos estos puntos débiles y más. Pandas no es un reemplazo de NumPy, sino una <em>extensión</em> de NumPy. El código subyacente para pandas utiliza la biblioteca NumPy de forma extensiva, lo que significa que los conceptos que has estado aprendiendo te resultarán útiles a medida que empieces a aprender más sobre pandas.</p>
<p>La estructura de datos principal en pandas se denomina <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame" target="_blank" ><strong>dataframes</strong></a>. Los dataframes son el equivalente en pandas de un Numpy 2D ndarray, con algunas diferencias clave:</p>
<ul>
<li>Los valores del eje pueden tener <strong>etiquetas</strong> de cadena, no solo numéricas.</li>
<li>Los dataframes pueden contener columnas con <strong>múltiples tipos de datos</strong>: incluidos enteros, flotantes y cadenas.</li>
</ul>
<p></p><center><img src="https://s3.amazonaws.com/dq-content/291/df_anatomy_static_resized.svg" alt="anatomía de un marco de datos"></center><p ></p></div>

<h2>2. Introducción a los Datos</h2>
<br>
<div><p>A medida que aprendemos sobre los pandas, trabajaremos con el conjunto de datos <a href=" https://en.wikipedia.org/wiki/Fortune_Global_500" target="_blank"> de la Lista Global 500 de 2017</a> de la revista <a href="http://fortune.com/" target="_blank">Fortune</a> , que clasifica a las 500 corporaciones más importantes del mundo por ingresos. El conjunto de datos se compiló originalmente <a href="https://data.world/chasewillden/fortune-500-companies-2017" target="_blank">aquí</a>. Sin embargo, el conjunto de datos original fue modificado para hacerlo más accesible.</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/fortune-500.jpg" alt="portada de Fortune 500"></p>
<p>El conjunto de datos es un archivo CSV llamado <code>f500.csv</code>. Aquí hay un diccionario de datos para algunas de las columnas en el CSV:</p>
<ul>
<li><code>empresa</code>: El nombre de la empresa.</li>
<li><code>rango</code>: Clasificación Global 500 para la empresa.</li>
<li><code>ingresos</code>: ingresos totales de la empresa durante el año fiscal, en millones de dólares (USD).</li>
<li><code>revenue_change</code>: cambio porcentual en los ingresos entre el año fiscal actual y el anterior.</li>
<li><code>utilidades</code>: Utilidad neta del ejercicio, en millones de dólares (USD).</li>
<li><code>ceo</code>: Director Ejecutivo de la empresa.</li>
<li><code>industria</code>: la industria de operación de la empresa.</li>
<li><code>sector</code>: Sector en el que opera la empresa.</li>
<li><code>previous_rank</code>: Clasificación Global 500 de la empresa para el año anterior.</li>
<li><code>país</code>: País de la sede de la empresa.</li>
</ul>
<p>Al igual que la convención de importación para NumPy (<code>importar numpy como np</code>), la convención de importación para pandas es:</p>    
</div>

```python
import pandas as pd
```


<h3>Ejercicio</h3>
<br>
<ol>
<li>Use la <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html" alt="pandas csv" target="_blank">función <code>pandas.read_csv()</code></a> de Python para asignar el tipo de <code>f500</code> a <code>f500_type</code>.</li>
<li> Luego le asignamos el nombre de variable <code>f500</code>. Aprenderemos sobre read_csv() más adelante en este curso, pero por ahora, todo lo que necesita saber es que maneja automáticamente la lectura y el análisis de la mayoría de los archivos CSV.</li>  
<li>Use la función <code>type()</code> de Python para asignar el tipo de <code>f500</code> a <code>f500_type</code>.</li>
<li>Utilice el atributo <code>DataFrame.shape</code> para asignar la forma de <code>f500</code> a <code>f500_shape</code>.</li>
<li>Ejecute su código, luego imprima las variables <code>f500</code>, <code>f500_type</code> y <code>f500_shape</code>.</li>
</ol>

<h2>3. Introducción a los DataFrames (marco de datos)</h2>
<br>
<div><p>El código que escribimos anteriormente nos informó que nuestros datos tienen 500 filas, 16 columnas y se almacenan como un <code>pandas.core.frame.DataFrame object</code>, o simplemente <strong >dataframe</strong>, la estructura de datos primaria de pandas.</p>
<p>Recuerde que una de las características que hace que los pandas sean mejores para trabajar con datos es su compatibilidad con etiquetas de columnas y filas de cadenas:</p>
<ul>
<li><strong>Los valores del eje pueden tener etiquetas de cadena, no solo numéricas</strong>.</li>
<li>Los dataframes pueden contener columnas con múltiples tipos de datos: incluidos enteros, flotantes y cadenas.</li>
</ul>
<p>Veamos esto a continuación. Para ver las primeras filas de nuestro dataframe, podemos usar <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html" target="_blank" ><code>DataFrame.head()</code> método</a>. De forma predeterminada, devuelve las primeras cinco filas de nuestro dataframe. Sin embargo, también acepta un parámetro entero opcional, que especifica el número de filas:</p>
</div>

```python
f500.head(3)
```

<table class="dataframe">
<thead>
<tr>
<th></th>
<th>rank</th>
<th>revenues</th>
<th>revenue_change</th>
<th>profits</th>
<th>assets</th>
<th>profit_change</th>
<th>ceo</th>
<th>industry</th>
<th>sector</th>
<th>previous_rank</th>
<th>country</th>
<th>hq_location</th>
<th>website</th>
<th>years_on_global_500_list</th>
<th>employees</th>
<th>total_stockholder_equity</th>
</tr>
</thead>
<tbody>
<tr>
<th>Walmart</th>
<td>1</td>
<td>485873</td>
<td>0.8</td>
<td>13643.0</td>
<td>198825</td>
<td>-7.2</td>
<td>C. Douglas McMillon</td>
<td>General Merchandisers</td>
<td>Retailing</td>
<td>1</td>
<td>USA</td>
<td>Bentonville, AR</td>
<td>http://www.walmart.com</td>
<td>23</td>
<td>2300000</td>
<td>77798</td>
</tr>
<tr>
<th>State Grid</th>
<td>2</td>
<td>315199</td>
<td>-4.4</td>
<td>9571.3</td>
<td>489838</td>
<td>-6.2</td>
<td>Kou Wei</td>
<td>Utilities</td>
<td>Energy</td>
<td>2</td>
<td>China</td>
<td>Beijing, China</td>
<td>http://www.sgcc.com.cn</td>
<td>17</td>
<td>926067</td>
<td>209456</td>
</tr>
<tr>
<th>Sinopec Group</th>
<td>3</td>
<td>267518</td>
<td>-9.1</td>
<td>1257.9</td>
<td>310726</td>
<td>-65.0</td>
<td>Wang Yupu</td>
<td>Petroleum Refining</td>
<td>Energy</td>
<td>4</td>
<td>China</td>
<td>Beijing, China</td>
<td>http://www.sinopec.com</td>
<td>19</td>
<td>713288</td>
<td>106523</td>
</tr>
</tbody>
</table>

<div>
<p>Del mismo modo, podemos usar el <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.tail.html" target="_blank"><code>método DataFrame.tail()</code></a> para mostrarnos las últimas filas de nuestro dataframe:</p></div>

<table class="dataframe">
<thead>
<tr>
<th></th>
<th>rank</th>
<th>revenues</th>
<th>revenue_change</th>
<th>profits</th>
<th>assets</th>
<th>profit_change</th>
<th>ceo</th>
<th>industry</th>
<th>sector</th>
<th>previous_rank</th>
<th>country</th>
<th>hq_location</th>
<th>website</th>
<th>years_on_global_500_list</th>
<th>employees</th>
<th>total_stockholder_equity</th>
</tr>
</thead>
<tbody>
<tr>
<th>Wm. Morrison Supermarkets</th>
<td>498</td>
<td>21741</td>
<td>-11.3</td>
<td>406.4</td>
<td>11630</td>
<td>20.4</td>
<td>David T. Potts</td>
<td>Food and Drug Stores</td>
<td>Food &amp; Drug Stores</td>
<td>437</td>
<td>Britain</td>
<td>Bradford, Britain</td>
<td>http://www.morrisons.com</td>
<td>13</td>
<td>77210</td>
<td>5111</td>
</tr>
<tr>
<th>TUI</th>
<td>499</td>
<td>21655</td>
<td>-5.5</td>
<td>1151.7</td>
<td>16247</td>
<td>195.5</td>
<td>Friedrich Joussen</td>
<td>Travel Services</td>
<td>Business Services</td>
<td>467</td>
<td>Germany</td>
<td>Hanover, Germany</td>
<td>http://www.tuigroup.com</td>
<td>23</td>
<td>66779</td>
<td>3006</td>
</tr>
<tr>
<th>AutoNation</th>
<td>500</td>
<td>21609</td>
<td>3.6</td>
<td>430.5</td>
<td>10060</td>
<td>-2.7</td>
<td>Michael J. Jackson</td>
<td>Specialty Retailers</td>
<td>Retailing</td>
<td>0</td>
<td>USA</td>
<td>Fort Lauderdale, FL</td>
<td>http://www.autonation.com</td>
<td>12</td>
<td>26000</td>
<td>2310</td>
</tr>
</tbody>
</table>

<div><p>Practiquemos con estos métodos. </p></div>

<h3>Ejercicio</h3>
<br>
<div id="body" class="dq-lesson-container dq-lesson-markup dq-lesson-learn-instructions"><p>Al igual que en las lecciones anteriores, la variable <code>f500</code> creado en la sección anterior está disponible aquí.</p>
<ol>
<li>Use el método <code>head()</code> para seleccionar las <strong>primeras 6 filas</strong>. Asigne el resultado a <code>f500_head</code>.</li>
<li>Use el método <code>tail()</code> para seleccionar las <strong>últimas 8 filas</strong>. Asigne el resultado a <code>f500_tail</code>.</li>
<li>Ejecute su código, luego inspeccionea las variables.</li>
</ol></div>

In [None]:
print(f500_head)

<h2>4. Introducción a los DataFrames (continuación)</h2>
<br>
<div><p>Otra característica que hace que los pandas sean mejores para trabajar con datos es que los dataframes pueden contener más de un tipo de datos:</p>
<ul>
<li>Los valores del eje pueden tener etiquetas de cadena, no solo numéricas</li>
<li><strong>Los dataframes pueden contener columnas con múltiples tipos de datos: incluidos enteros, flotantes y cadenas.</strong></li>
</ul>
<p>Podemos usar <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dtypes.html#pandas.DataFrame.dtypes" target="_blank"> Atributo <code>DataFrame.dtypes</code></a> (similar al <a href="http://docs.scipy.org/doc/numpy-1.14.2/reference/generated/numpy.ndarray. dtype.html#numpy.ndarray.dtype" target="_blank"><code>ndarray.dtype</code> atributo</a>) para devolver información sobre los tipos de cada columna. Veamos un ejemplo usando una selección de datos almacenados usando el nombre de variable <code>f500_selection</code>.</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/loc_original.svg" alt="f500_dataframe de selección"></p>
</div>

```python
print(f500_selection.dtypes)
```

```python
rank          int64
revenues      int64
profits     float64
country      object
dtype: object
```

<div>
<p>Podemos ver tres tipos de datos diferentes, o <strong>dtypes</strong>.</p>
<p>Es posible que reconozca el tipo de d <code>float64</code> de nuestro trabajo en NumPy. Pandas usa NumPy dtypes para columnas numéricas, incluido <code>integer64</code>. También hay un tipo que no hemos visto antes, <code>object</code>, que se usa para columnas que tienen datos que no encajan en ningún otro tipo de d. Esto se usa normalmente para columnas que contienen valores de cadena.</p>
<p>Cuando importamos datos, pandas intenta adivinar el tipo correcto de cada columna. En general, a pandas le va bien con esto, lo que significa que no tenemos que preocuparnos por especificar tipos de datos cada vez que comenzamos a trabajar con datos.</p>
<p>Si quisiéramos una descripción general de todos los dtypes utilizados en nuestro dataframe, junto con su forma y otra información, podríamos usar el <a href="http://pandas.pydata.org/pandas-docs/stable/ generado/pandas.DataFrame.info.html#pandas.DataFrame.info" target="_blank"><code>DataFrame.info()</code> método</a>. Tenga en cuenta que <code>DataFrame.info()</code> imprime la información, en lugar de devolverla, por lo que no podemos asignarla a una variable.</p></div>


<h3>Ejercicio</h3>
<ol>
<li>Utilice el método <code>DataFrame.info()</code> para mostrar información sobre el dataframe <code>f500</code>.</li>
<li>Ejecute su código, luego inspeccione sus variables.</li>
</ol>

<h2>5. Seleccionar una columna de un dataframe por etiqueta</h2>
<div><p>En el último ejercicio, usamos el método <code>DataFrame.info()</code> para mostrar el número de entradas en nuestro índice (que representa el número de filas), una lista de cada columna con su dtype y el número de valores no nulos, así como un resumen de los diferentes dtypes y uso de memoria.</p>
<p>Dado que nuestro eje en pandas tiene etiquetas, podemos seleccionar datos usando esas etiquetas, a diferencia de NumPy, donde necesitábamos saber la ubicación exacta del índice. Para hacer esto, podemos usar el <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.loc.html#pandas.DataFrame.loc" target="_blank" ><code>DataFrame.loc[]</code> atributo</a>. La sintaxis de <code>DataFrame.loc[]</code> es:</p>
</div>

```python
df.loc[row_label, column_label]
```

<div>
<p>Observe que usamos corchetes (<code>[]</code>) en lugar de paréntesis (<code>()</code>) al seleccionar por ubicación.</p>
<p>A lo largo de nuestras lecciones de pandas, verá que <code>df</code> se usa en ejemplos de código como abreviatura de un objeto de dataframe. Usamos esta convención porque también se usa ampliamente en la documentación oficial de pandas; acostumbrarse a leerla es importante. </p>
<p>Veamos un ejemplo a continuación. Volveremos a trabajar solo con una selección de datos almacenados como <code>f500_selection</code>:</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/loc_original.svg" alt="f500_dataframe de selección"></p>
<p>Seleccionemos una sola columna especificando una <strong>etiqueta única</strong>:</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/loc_single.svg" alt="columna única loc"></p>
<p>Observe que usamos <code>:</code> para especificar que deseamos seleccionar todas las filas. También tenga en cuenta que el nuevo dataframe tiene las mismas etiquetas de fila que el original.</p>
<p>Podemos usar el siguiente atajo para seleccionar una sola columna:</p>
</div>

```python
rank_col = f500_selection["rank"]
print(rank_col)
```

```python
Walmart                     1
State Grid                  2
Sinopec Group               3
China National Petroleum    4
Toyota Motor                5
Name: rank, dtype: int64
```

<div>
<p>Este estilo de seleccionar columnas es muy común. Lo usaremos a lo largo de nuestras lecciones.</p>
<p>Practiquemos el uso de esta técnica para seleccionar una columna específica de nuestro dataframe <code>f500</code>.</p></div>

<h3>Ejercicio</h3>

<ol>
<li>Seleccione la columna <code>industry</code> y asigne el resultado al nombre de variable <code>industries</code>.</li>
<li>Use la función <code>type()</code> de Python para asignar el tipo de <code>industries</code> a <code>industries_type</code>.</li>
<li>Ejecute su código, inspeccione sus variables.</li>
</ol>

In [None]:
print(industries_type)

<h2>6. Introducción a Series</h2>
<br>
<div><p>Observamos que cuando selecciona solo una columna de un dataframe, obtiene un nuevo tipo objeto de pandas: un <strong>objeto serie</strong>. La serie es el tipo de que usa pandas para objetos unidimensionales. Cada vez que vea un objeto pandas 1D, será una serie. Cada vez que vea un objeto pandas 2D, será un dataframe.</p>
<p>De hecho, puede pensar en un dataframe como una colección de objetos en serie, que es similar a cómo los pandas almacenan los datos entre bastidores.</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/df_exploded_resized.svg" alt="dataframe explosionado"></p>
<p>A medida que continuamos aprendiendo cómo seleccionar datos, preste atención a qué objetos son dataframes y qué objetos son series.</p></div>


<h2>7. Selección de columnas de un dataframe por etiqueta (continuación)</h2>
<br>
<div><p>A continuación, aprendamos a seleccionar varias columnas. Como recordatorio, aquí está la selección de datos con los que estamos trabajando:</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/loc_original.svg" alt="f500_dataframe de selección"></p>
<p>A continuación, usamos una <strong>lista de etiquetas</strong> para seleccionar columnas específicas:</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/loc_list_updated.svg" alt="lista de columnas de ubicación"></p>
<p>Dado que el objeto devuelto es bidimensional, es un <em>dataframe</em>, no una serie. En lugar de <code>df.loc[:,["col1","col2"]]</code>, también puede usar <code>df[["col1", "col2"]]</code> para seleccionar columnas específicas. </p>
<p>Terminemos usando <strong>un slicing con etiquetas</strong> para seleccionar columnas específicas:</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/loc_slice.svg" alt="loc segmento de columnas"></p>
<p>Otra vez obtenemos un objeto de dataframe, con todas las columnas desde la primera hasta, <strong>e incluyendo</strong>, la última columna de nuestro sector. No hay atajos para seleccionar sectores de columna.</p>
<p>A continuación se muestra un resumen de las técnicas que hemos aprendido hasta ahora:</p>
<p></p><center>
<table>
<thead>
<tr>
<th>Seleccionar por etiqueta</th>
<th>Sintaxis explícita</th>
<th>Uso común</th>
</tr>
</thead>
<tbody>
<tr>
<td>Columna única</td>
<td><code>df.loc[:,"col1"]</code></td>
<td><code>df["col1"]</code></td>
</tr>
<tr>
<td>Lista de columnas</td>
<td><code>df.loc[:,["col1", "col7"]]</code></td>
<td><code>df[["col1", "col7"]]</code></td>
</tr>
<tr>
<td>Porción de columnas</td>
<td><code>df.loc[:,"col1":"col4"]</code></td>
<td></td>
</tr>
</tbody>
</table>
</center><p></p>
<p>Practiquemos el uso de estas técnicas para seleccionar columnas específicas de nuestro dataframe <code>f500</code>.</p></div>

<h3>Ejercicio</h3>
<ol>
<li>Seleccione la columna <code>country</code>. Asigne el resultado al nombre de variable <code>countries</code>.</li>
<li>En orden, seleccione las columnas <code>revenues</code> y <code>years_on_global_500_list</code>. Asigne el resultado al nombre de variable <code>revenues_years</code>.</li>
<li>En orden, seleccione todas las columnas desde <code>ceo</code> hasta <code>sector</code> inclusive. Asigne el resultado al nombre de variable <code>ceo_to_sector</code>.</li>
<li>Después de ejecutar su código, imprima las variables.</li>
</ol>

<h2>8. Seleccionar filas de un dataframe por etiqueta</h2>
<br>
<div><p>Ahora que hemos aprendido a seleccionar columnas por etiqueta, aprendamos a seleccionar <em>filas</em> usando las etiquetas del eje <strong>índice</strong>:</p >
<p><img src="https://s3.amazonaws.com/dq-content/291/df_anatomy_static_resized.svg" alt="anatomía de un dataframe"></p>
<p>Utilizamos la misma sintaxis para seleccionar filas de un dataframe que para las columnas:</p>
</div>

```python
df.loc[row_label, column_label]
```

<div>
<p>Usaremos nuevamente una selección de nuestros datos, almacenados como la variable <code>f500_selection</code>:</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/loc_original.svg" alt="f500_dataframe de selección"></p>
<p><strong>Seleccione una sola fila</strong></p>
</div>

```python
single_row = f500_selection.loc["Sinopec Group"]
print(type(single_row))
print(single_row)
```

```python
class 'pandas.core.series.Series'

rank             3
revenues    267518
profits     1257.9
country      China
Name: Sinopec Group, dtype: object
```

<div>
<p>Tenga en cuenta que el objeto devuelto es una <em>serie</em> porque es unidimensional. Dado que esta serie tiene que almacenar valores enteros, flotantes y de cadena, pandas usa el tipo de d <code>object</code>, ya que ninguno de los tipos numéricos podría atender a todos los valores.</p>
<p><strong>Seleccione una lista de filas</strong></p>
</div>

```python
list_rows = f500_selection.loc[["Toyota Motor", "Walmart"]]
print(type(list_rows))
print(list_rows)
```

```python
class 'pandas.core.frame.DataFrame'

              rank  revenues  profits country
Toyota Motor     5    254694  16899.3   Japan
Walmart          1    485873  13643.0     USA
```

<div>
<p><strong>Seleccione una sección con etiquetas</strong> </p>
<p>Para la selección mediante cortes, podemos usar el atajo a continuación. Esta es la razón por la que no podemos usar este atajo para columnas, porque está reservado para usar con filas:</p>
</div>

```python
slice_rows = f500_selection["State Grid":"Toyota Motor"]
print(type(slice_rows))
print(slice_rows)
```

```python
class 'pandas.core.frame.DataFrame'

                          rank  revenues  profits country
State Grid                   2    315199   9571.3   China
Sinopec Group                3    267518   1257.9   China
China National Petroleum     4    262573   1867.5   China
Toyota Motor                 5    254694  16899.3   Japan
```
<h3>Ejercicio</h3>
<ul>
<li>Seleccionando datos de <code>f500</code>:<ol>
<li>Cree una nueva variable <code>toyota</code>, con:<ul>
<li>Solo la fila con índice <code>Toyota Motor</code>.</li>
<li>Todas las columnas.</li>
</ul>
</li>
<li>Cree una nueva variable, <code>drink_companies</code>, con:<ul>
<li>Filas con índices <code>Anheuser-Busch InBev</code>, <code>Coca-Cola</code> y <code>Heineken Holding</code>, en ese orden.</li>
<li>Todas las columnas.</li>
</ul>
</li>
<li>Cree una nueva variable, <code>middle_companies</code> con:<ul>
<li>Todas las filas con índices desde <code>Tata Motors</code>a <code>Nationwide</code>, inclusive.</li>
<li>Todas las columnas desde <code>rango</code> hasta <code>país</code>, inclusive.</li>
</ul>
</li>
</ol>
</li>
</ul>

In [None]:
print(toyota)

<h2>9. Series vs DataFrames</h2>
<br>
<div><p>En las últimas dos secciones, creamos objetos de serie y objetos de dataframe a medida que seleccionamos datos de nuestro dataframe <code>f500</code>. Tómese un minuto para revisar estos ejemplos antes de continuar:</p>
<p></p><center><img src="https://s3.amazonaws.com/dq-content/291/df_series_s_updated.svg" alt="series vs dataframe: series"></center>< p></p>
<p></p><center><img src="https://s3.amazonaws.com/dq-content/291/df_series_df_updated.svg" alt="series vs dataframe: dataframe"></center><p></p></div>


<h2>10. Método de conteo de valores</h2>
<div><p>Dado que las series y los dataframes son dos objetos distintos, tienen sus propios métodos únicos. A continuación, veamos un ejemplo de un método de serie: el <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html" target="_blank">< código>Series.value_counts()</code> método</a>. Este método muestra cada valor no nulo único en una columna y sus recuentos en orden.</p>
<p>Primero, seleccionaremos solo una columna del dataframe <code>f500</code>:</p>
</div>

```python
sectors = f500["sector"]
print(type(sectors))
```

```python
class 'pandas.core.series.Series'
```

<div>
<p>A continuación, sustituiremos "Series" en <code>Series.value_counts()</code> con el nombre de nuestra serie <code>sectors</code>, como se muestra a continuación:</p>
</div>

```python
sectors_value_counts = sectors.value_counts()
print(sectors_value_counts)
```

```python
Financials                       118
Energy                            80
Technology                        44
Motor Vehicles & Parts            34
Wholesalers                       28
Health Care                       27
Food & Drug Stores                20
Transportation                    19
Telecommunications                18
Retailing                         17
Food, Beverages & Tobacco         16
Materials                         16
Industrials                       15
Aerospace & Defense               14
Engineering & Construction        13
Chemicals                          7
Media                              3
Household Products                 3
Hotels, Restaurants & Leisure      3
Business Services                  3
Apparel                            2
Name: sector, dtype: int64
```

<div>
<p>En la serie resultante, podemos ver cada valor único no nulo en la columna y sus recuentos.</p>
<p>Veamos qué sucede cuando usamos el método <code>Series.value_counts()</code> con un dataframe. Primero, seleccionaremos las columnas <code>sector</code> e <code>industry</code> para crear un dataframe llamado <code>sectors_industries</code>:</p>
</div>

```python
sectors_industries = f500[["sector", "industry"]]
print(type(sectors_industries))
```

```python 
< class 'pandas.core.frame.DataFrame' >
```

<div>
<p>Luego, usaremos el método <code>value_counts()</code>:</p>
</div>

```python 
si_value_counts = sectors_industries.value_counts()
print(si_value_counts)
```

<div>
<p>Dado que <code>value_counts()</code> es un método <em>solo en serie</em>, obtenemos el siguiente error:</p>
</div>

```python 
AttributeError: 'DataFrame' object has no attribute 'value_counts'
```

<h3>Ejercicio</h3>
<div><p>Ya hemos guardado una selección de datos de <code>f500</code> a un dataframe llamado <code>f500_sel</code>.</p>
<ol>
<li>Encuentre los recuentos de cada valor único en la columna <code>country</code> en el dataframe <code>f500_sel</code>.<ul>
<li>Seleccione la columna <code>country</code> en el dataframe <code>f500_sel</code>. Asígnelo a una variable llamada <code>países</code>.</li>
<li>Utilice el método <code>Series.value_counts()</code> para devolver los recuentos de valores para <code>países</code>. Asigne los resultados a <code>country_counts</code>.</li>
</ul>
</li>
</ol></div>

In [None]:
f500_sel = f500.head(7).copy()

In [None]:
print(country_counts)

<h2>11. Seleccionar elementos de una serie por etiqueta</h2>
<br>
<div><p>En el último ejercicio, practicamos el método <code>Series.value_counts()</code>. A continuación, busquemos los recuentos de cada valor único en la columna <code>country</code> para todo el dataframe <code>f500</code>:</p>
</div>

```python
countries = f500["country"]
country_counts = countries.value_counts()
```

```python
USA             132
China           109
Japan            51
Germany          29
France           29
Britain          24
South Korea      15
Netherlands      14
Switzerland      14
Canada           11
Spain             9
Brazil            7
Australia         7
India             7
Italy             7
Taiwan            6
Russia            4
Ireland           4
Sweden            3
Singapore         3
Mexico            2
Israel            1
Turkey            1
Norway            1
Thailand          1
Belgium           1
Venezuela         1
Luxembourg        1
Denmark           1
Indonesia         1
Malaysia          1
Saudi Arabia      1
Finland           1
U.A.E             1
Name: country, dtype: int64
```

<div>
<p>Sin embargo, ¿qué pasaría si quisiéramos seleccionar solo el recuento de la India o solo los recuentos de los países de América del Norte?</p>
<p>Al igual que con los dataframes, podemos usar <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html" target="_blank"><code>Series.loc[]</code></a> para seleccionar elementos de una serie utilizando etiquetas individuales, una lista o una sección (slicing object). También podemos omitir <code>loc[]</code> y usar atajos de paréntesis para los tres:</p>
<table>
<thead>
<tr>
<th>Seleccionar por etiqueta</th>
<th>Sintaxis explícita</th>
<th>Convención de taquigrafía</th>
</tr>
</thead>
<tbody>
<tr>
<td>Artículo único de la serie</td>
<td><code>s.loc["elemento8"]</code></td>
<td><code>s["elemento8"]</code></td>
</tr>
<tr>
<td>Lista de elementos de la serie</td>
<td><code>s.loc[["elemento1","elemento7"]]</code></td>
<td><code>s[["elemento1","elemento7"]]</code></td>
</tr>
<tr>
<td>Porción de elementos de la serie</td>
<td><code>s.loc["elemento2":"elemento4"]</code></td>
<td><code>s["elemento2":"elemento4"]</code></td>
</tr>
</tbody>
</table>
<p>Practiquemos la selección de datos con series de pandas:</p></div>


<h3>Ejercicio</h3>
<ul>
<li>De la serie pandas <code>countries_counts</code>:<ol>
<li>Seleccione el elemento en la etiqueta de índice <code>India</code>. Asigne el resultado al nombre de variable <code>india</code>.</li>
<li>En orden, seleccione los elementos con etiquetas de índice <code>EE. UU.</code>, <code>Canadá</code> y <code>México</code>. Asigne el resultado al nombre de variable <code>north_america</code>.</li>
</ol>
</li>
</ul>

In [None]:
print(north_america)

<h2>12. Resumen</h2>

<div><p>Revisemos un resumen de todos los diferentes mecanismos de selección de etiquetas que hemos aprendido en esta lección:</p>
<table>
<thead>
<tr>
<th>Seleccionar por etiqueta</th>
<th>Sintaxis explícita</th>
<th>Convención de taquigrafía</th>
</tr>
</thead>
<tbody>
<tr>
<td>Columna única del dataframe</td>
<td><code>df.loc[:,"col1"]</code></td>
<td><code>df["col1"]</code></td>
</tr>
<tr>
<td>Lista de columnas del dataframe</td>
<td><code>df.loc[:,["col1","col7"]]</code></td>
<td><code>df[["col1","col7"]]</code></td>
</tr>
<tr>
<td>Porción de columnas del dataframe</td>
<td><code>df.loc[:,"col1":"col4"]</code></td>
<td></td>
</tr>
<tr>
<td>Fila única del dataframe</td>
<td><code>df.loc["fila4"]</code></td>
<td></td>
</tr>
<tr>
<td>Lista de filas del dataframe</td>
<td><code>df.loc[["fila1", "fila8"]]</code></td>
<td></td>
</tr>
<tr>
<td>Porción de filas del dataframe</td>
<td><code>df.loc["fila3":"fila5"]</code></td>
<td><code>df["fila3":"fila5"]</code></td>
</tr>
<tr>
<td>Artículo único de la serie</td>
<td><code>s.loc["elemento8"]</code></td>
<td><code>s["elemento8"]</code></td>
</tr>
<tr>
<td>Lista de elementos de la serie</td>
<td><code>s.loc[["elemento1","elemento7"]]</code></td>
<td><code>s[["elemento1","elemento7"]]</code></td>
</tr>
<tr>
<td>Porción de elementos de la serie</td>
<td><code>s.loc["elemento2":"elemento4"]</code></td>
<td><code>s["elemento2":"elemento4"]</code></td>
</tr>
</tbody>
</table>
<p>A continuación, ¡practiquemos lo que hemos aprendido!</p></div>

<h3>Ejercicio</h3>
<div><p>Al seleccionar datos de <code>f500</code>:</p>
<ol>
<li>Cree una nueva variable <code>big_movers</code>, con: <ul>
<li>Filas con índices <code>Aviva</code>, <code>HP</code>, <code>JD.com</code> y <code>BHP Billiton</code>, en ese orden. </li>
<li>Las columnas <code>rank</code> y <code>previous_rank</code>, en ese orden. </li>
</ul>
</li>
<li>Cree una nueva variable, <code>bottom_companies</code> con:<ul>
<li>Todas las filas con índices desde <code>National Grid</code>a <code>AutoNation</code>, inclusive.</li>
<li>Las columnas <code>rank</code>, <code>sector</code> y <code>country</code>.</li>
</ul>
</li>
</ol></div>

In [None]:
print(big_movers)