<center><h1>Introducción a Pandas</h1></center>

<h2>1. pandas y NumPy</h2>
<br>
<div><p>En las últimas dos lecciones, exploramos cómo la biblioteca NumPy facilita el uso de datos. Con él podemos trabajar fácilmente en múltiples dimensiones y nuestro código es más fácil de entender. Al usar operaciones vectorizadas en lugar de bucles, nuestro código se ejecuta más rápido con datos más grandes.</p>
<p>Aunque NumPy proporciona estructuras y herramientas fundamentales que facilitan el trabajo con datos, existen limitaciones para su utilidad:</p>
<ul>
<li>La falta de compatibilidad con los nombres de las columnas nos obliga a enmarcar las preguntas como operaciones de matrices multidimensionales.</li>
<li>La compatibilidad con un solo tipo de datos por ndarray dificulta el trabajo con datos que contienen tanto datos numéricos como de cadena.</li>
<li>Hay muchos métodos de bajo nivel, pero hay muchos patrones de análisis comunes que no tienen métodos prediseñados.</li>
</ul>
<p>La biblioteca <strong>pandas</strong> brinda soluciones a todos estos puntos débiles y más. Pandas no es un reemplazo de NumPy, sino una <em>extensión</em> de NumPy. El código subyacente para pandas utiliza la biblioteca NumPy de forma extensiva, lo que significa que los conceptos que has estado aprendiendo te resultarán útiles a medida que empieces a aprender más sobre pandas.</p>
<p>La estructura de datos principal en pandas se denomina <a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html#pandas.DataFrame" target="_blank" ><strong>dataframes</strong></a>. Los dataframes son el equivalente en pandas de un Numpy 2D ndarray, con algunas diferencias clave:</p>
<ul>
<li>Los valores del eje pueden tener <strong>etiquetas</strong> de cadena, no solo numéricas.</li>
<li>Los dataframes pueden contener columnas con <strong>múltiples tipos de datos</strong>: incluidos enteros, flotantes y cadenas.</li>
</ul>
<p></p><center><img src="https://s3.amazonaws.com/dq-content/291/df_anatomy_static_resized.svg" alt="anatomía de un marco de datos" width="400" height="200"></center><p ></p></div>

<h2>2. Introducción a los Datos</h2>
<h3>Ejercicio</h3>
<br>
<ol>
<li>Use la <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html" alt="pandas csv" target="_blank">función <code>pandas.read_csv()</code></a> de Python para asignar el tipo de <code>f500</code> a <code>f500_type</code>.</li>
<li> Luego le asignamos el nombre de variable <code>f500</code>. Aprenderemos sobre read_csv() más adelante en este curso, pero por ahora, todo lo que necesita saber es que maneja automáticamente la lectura y el análisis de la mayoría de los archivos CSV.</li>  
<li>Use la función <code>type()</code> de Python para asignar el tipo de <code>f500</code> a <code>f500_type</code>.</li>
<li>Utilice el atributo <code>DataFrame.shape</code> para asignar la forma de <code>f500</code> a <code>f500_shape</code>.</li>
<li>Ejecute su código, luego imprima las variables <code>f500</code>, <code>f500_type</code> y <code>f500_shape</code>.</li>
</ol>

In [None]:
import pandas as pd
f500 = pd.read_csv('f500.csv',index_col=0)
f500.index.name = None

# code here
f500_type = type(f500)
f500_shape = f500.shape

<h2>3. Introducción a los DataFrames (marco de datos)</h2>

<h3>Ejercicio</h3>
<br>
<div id="body" class="dq-lesson-container dq-lesson-markup dq-lesson-learn-instructions"><p>Al igual que en las lecciones anteriores, la variable <code>f500</code> creado en la sección anterior está disponible aquí.</p>
<ol>
<li>Use el método <code>head()</code> para seleccionar las <strong>primeras 6 filas</strong>. Asigne el resultado a <code>f500_head</code>.</li>
<li>Use el método <code>tail()</code> para seleccionar las <strong>últimas 8 filas</strong>. Asigne el resultado a <code>f500_tail</code>.</li>
<li>Ejecute su código, luego inspeccionea las variables.</li>
</ol></div>

In [None]:
f500_head = f500.head(6)
f500_tail = f500.tail(8)

In [None]:
print(f500_head)

<h2>4. Introducción a los DataFrames (continuación)</h2>

<h3>Ejercicio</h3>
<ol>
<li>Utilice el método <code>DataFrame.info()</code> para mostrar información sobre el dataframe <code>f500</code>.</li>
<li>Ejecute su código, luego inspeccione sus variables.</li>
</ol>

In [None]:
print(f500.info())

<h2>5. Seleccionar una columna de un dataframe por etiqueta</h2>

<h3>Ejercicio</h3>

<ol>
<li>Seleccione la columna <code>industry</code> y asigne el resultado al nombre de variable <code>industries</code>.</li>
<li>Use la función <code>type()</code> de Python para asignar el tipo de <code>industries</code> a <code>industries_type</code>.</li>
<li>Ejecute su código, inspeccione sus variables.</li>
</ol>

In [None]:
print(f500.columns)

In [None]:
industries = f500['industry']
industries_type = type(industries)

In [None]:
print(industries_type)

<h2>6. Introducción a Series</h2>
<br>
<div><p>Observamos que cuando selecciona solo una columna de un dataframe, obtiene un nuevo tipo objeto de pandas: un <strong>objeto serie</strong>. La serie es el tipo de que usa pandas para objetos unidimensionales. Cada vez que vea un objeto pandas 1D, será una serie. Cada vez que vea un objeto pandas 2D, será un dataframe.</p>
<p>De hecho, puede pensar en un dataframe como una colección de objetos en serie, que es similar a cómo los pandas almacenan los datos entre bastidores.</p>
<p><img src="https://s3.amazonaws.com/dq-content/291/df_exploded_resized.svg" alt="dataframe explosionado" width="600" height="400"></p>
<p>A medida que continuamos aprendiendo cómo seleccionar datos, preste atención a qué objetos son dataframes y qué objetos son series.</p></div>


<h2>7. Selección de columnas de un dataframe por etiqueta (continuación)</h2>

<h3>Ejercicio</h3>
<ol>
<li>Seleccione la columna <code>country</code>. Asigne el resultado al nombre de variable <code>countries</code>.</li>
<li>En orden, seleccione las columnas <code>revenues</code> y <code>years_on_global_500_list</code>. Asigne el resultado al nombre de variable <code>revenues_years</code>.</li>
<li>En orden, seleccione todas las columnas desde <code>ceo</code> hasta <code>sector</code> inclusive. Asigne el resultado al nombre de variable <code>ceo_to_sector</code>.</li>
<li>Después de ejecutar su código, imprima las variables.</li>
</ol>

In [None]:
countries = f500['country']
revenues_years = f500[['revenues', 'years_on_global_500_list']]
ceo_to_sector = f500.loc[:, 'ceo':'sector']

<h2>8. Seleccionar filas de un dataframe por etiqueta</h2>

<h3>Ejercicio</h3>
<ul>
<li>Seleccionando datos de <code>f500</code>:<ol>
<li>Cree una nueva variable <code>toyota</code>, con:<ul>
<li>Solo la fila con índice <code>Toyota Motor</code>.</li>
<li>Todas las columnas.</li>
</ul>
</li>
<li>Cree una nueva variable, <code>drink_companies</code>, con:<ul>
<li>Filas con índices <code>Anheuser-Busch InBev</code>, <code>Coca-Cola</code> y <code>Heineken Holding</code>, en ese orden.</li>
<li>Todas las columnas.</li>
</ul>
</li>
<li>Cree una nueva variable, <code>middle_companies</code> con:<ul>
<li>Todas las filas con índices desde <code>Tata Motors</code>a <code>Nationwide</code>, inclusive.</li>
<li>Todas las columnas desde <code>rango</code> hasta <code>país</code>, inclusive.</li>
</ul>
</li>
</ol>
</li>
</ul>

In [None]:
toyota = f500.loc['Toyota Motor']
drink_companies = f500.loc[["Anheuser-Busch InBev", "Coca-Cola", "Heineken Holding"]]
middle_companies = f500.loc['Tata Motors':'Nationwide', 'rank':'country']

In [None]:
print(toyota)

<h2>9. Series vs DataFrames</h2>
<br>
<div><p>En las últimas dos secciones, creamos objetos de serie y objetos de dataframe a medida que seleccionamos datos de nuestro dataframe <code>f500</code>. Tómese un minuto para revisar estos ejemplos antes de continuar:</p>
<p></p><center><img src="https://s3.amazonaws.com/dq-content/291/df_series_s_updated.svg" alt="series vs dataframe: series" width="600" height="400"></center>< p></p>
<p></p><center><img src="https://s3.amazonaws.com/dq-content/291/df_series_df_updated.svg" alt="series vs dataframe: dataframe" width="600" height="400"></center><p></p></div>


<h2>10. Método de conteo de valores</h2>

<h3>Ejercicio</h3>
<div><p>Ya hemos guardado una selección de datos de <code>f500</code> a un dataframe llamado <code>f500_sel</code>.</p>
<ol>
<li>Encuentre los recuentos de cada valor único en la columna <code>country</code> en el dataframe <code>f500_sel</code>.<ul>
<li>Seleccione la columna <code>country</code> en el dataframe <code>f500_sel</code>. Asígnelo a una variable llamada <code>países</code>.</li>
<li>Utilice el método <code>Series.value_counts()</code> para devolver los recuentos de valores para <code>países</code>. Asigne los resultados a <code>country_counts</code>.</li>
</ul>
</li>
</ol></div>

In [None]:
f500_sel = f500.head(7).copy()

In [None]:
countries = f500_sel['country']
country_counts = countries.value_counts()

In [None]:
print(country_counts)

<h2>11. Seleccionar elementos de una serie por etiqueta</h2>


<h3>Ejercicio</h3>
<ul>
<li>De la serie pandas <code>countries_counts</code>:<ol>
<li>Seleccione el elemento en la etiqueta de índice <code>India</code>. Asigne el resultado al nombre de variable <code>india</code>.</li>
<li>En orden, seleccione los elementos con etiquetas de índice <code>EE. UU.</code>, <code>Canadá</code> y <code>México</code>. Asigne el resultado al nombre de variable <code>north_america</code>.</li>
</ol>
</li>
</ul>

In [None]:
countries = f500['country']
countries_counts = countries.value_counts()

In [None]:
india = countries_counts['India']
north_america = countries_counts[['USA', 'Canada', 'Mexico']]

In [None]:
print(north_america)

<h2>12. Resumen</h2>

<h3>Ejercicio</h3>
<div><p>Al seleccionar datos de <code>f500</code>:</p>
<ol>
<li>Cree una nueva variable <code>big_movers</code>, con: <ul>
<li>Filas con índices <code>Aviva</code>, <code>HP</code>, <code>JD.com</code> y <code>BHP Billiton</code>, en ese orden. </li>
<li>Las columnas <code>rank</code> y <code>previous_rank</code>, en ese orden. </li>
</ul>
</li>
<li>Cree una nueva variable, <code>bottom_companies</code> con:<ul>
<li>Todas las filas con índices desde <code>National Grid</code>a <code>AutoNation</code>, inclusive.</li>
<li>Las columnas <code>rank</code>, <code>sector</code> y <code>country</code>.</li>
</ul>
</li>
</ol></div>

In [None]:
big_movers = f500.loc['Aviva-HP-JD.com-BHP Billiton'.split('-'), 'rank previous_rank'.split()]
bottom_companies = f500.loc['National Grid':'AutoNation', 'rank sector country'.split()]

In [None]:
print(big_movers)