# ¿Qué tamaño de aguacate es el más popular?
Los aguacates son cada vez más populares y deliciosos en guacamole y tostadas. La Junta de Aguacates Hass realiza un seguimiento de la oferta y la demanda de aguacates en los EE. UU., incluidas las ventas de tres tamaños diferentes de aguacate. En este ejercicio, utilizarás un diagrama de barras para averiguar qué tamaño es el más popular.

Los gráficos de barras son excelentes para revelar las relaciones entre las variables categóricas (tamaño) y numéricas (cantidad vendida), pero a menudo primero tendrás que manipular los datos para obtener los números que se necesitan para graficar.

pandas fue cargado como pd, y avocados está disponible.

In [None]:
# Importa matplotlib.pyplot con el alias plt
import matplotlib.pyplot as plt

# Observa las primeras filas de datos
print(avocados.head())

# Obtén la cantidad total de aguacates en nb_sold para cada tamaño (size)
nb_sold_by_size = avocados.groupby("size")["nb_sold"].sum()


# Crea una gráfica de barras de la cantidad de aguacates vendidos por tamaño
nb_sold_by_size.plot(kind = "bar", x = "size", y = "nb_sold")

# Muestra la gráfica
plt.show()

```python
         date          type  year  avg_price   size    nb_sold
0  2015-12-27  conventional  2015       0.95  small  9.627e+06
1  2015-12-20  conventional  2015       0.98  small  8.710e+06
2  2015-12-13  conventional  2015       0.93  small  9.855e+06
3  2015-12-06  conventional  2015       0.89  small  9.405e+06
4  2015-11-29  conventional  2015       0.99  small  8.095e+06

<img src="Images/1.png" alt="Salida del código anterior" width="500px">

# Cambios en las ventas a lo largo del tiempo
Los gráficos de líneas sirven para visualizar la relación entre dos variables numéricas, donde cada valor de datos está conectado al siguiente. Son especialmente útiles para visualizar el cambio en un número a lo largo del tiempo, ya que cada punto temporal está conectado de forma natural al siguiente punto temporal. En este ejercicio, visualizarás el cambio en las ventas de aguacate a lo largo de tres años.

pandas fue cargado como pd, y avocados está disponible.

In [None]:
# Importa matplotlib.pyplot con el alias plt
import matplotlib.pyplot as plt

# Obtén la cantidad total de aguacates vendidos en cada fecha
nb_sold_by_date = avocados.groupby("date")["nb_sold"].sum()

# Crea una gráfica de líneas de nb_sold por date
nb_sold_by_date.plot(kind = "line", x = "date", y = "nb_sold")

# Muestra la gráfica
plt.show()

<img src="Images/2.svg" alt="Salida del código anterior" width="500px">

# Oferta y demanda de aguacate
Los gráficos de dispersión son ideales para visualizar las relaciones entre variables numéricas. En este ejercicio, compararás la cantidad de aguacates vendidos con el precio promedio y comprobarás si tienen alguna relación. Si están relacionados, es posible que puedas usar un número para predecir el otro.

matplotlib.pyplot se ha importado como plt, pandas fue cargado como pd y avocados está disponible.

In [None]:
# Gráfico de dispersión de avg_price vs nb_sold con título
avocados.plot(kind = "scatter", x = "nb_sold", y = "avg_price", title = "Number of avocados sold vs. average price")

# Muestra la gráfica
plt.show()

<img src="Images/3.svg" alt="Salida del código anterior" width="500px">

# Precio de los aguacates convencionales vs. orgánicos
Crear varias gráficas para diferentes subconjuntos de datos nos permite comparar grupos. En este ejercicio, crearás varios histogramas para comparar los precios de los aguacates convencionales y orgánicos.

matplotlib.pyplot se ha importado como plt y pandas fue cargado como pd.

In [None]:
# Histograma de avg_price y conventional 
avocados[avocados["type"] == "conventional"]["avg_price"].hist()

# Histograma de avg_price y organic
avocados[avocados["type"] == "organic"]["avg_price"].hist()

# Añade una leyenda
plt.legend (["Conventional", "Organic"])

# Muestra la gráfica
plt.show()

<img src="Images/4.svg" alt="Salida del código anterior" width="500px">

In [None]:
# Modifica la transparencia del histograma a 0.5 
avocados[avocados["type"] == "conventional"]["avg_price"].hist(alpha = 0.5)#alpha para mayor transparencia 

# Modifica la transparencia del histograma a 0.5
avocados[avocados["type"] == "organic"]["avg_price"].hist(alpha = 0.5)

# Añade una leyenda
plt.legend(["conventional", "organic"])

# Muestra la gráfica
plt.show()

<img src="Images/5.svg" alt="Salida del código anterior" width="500px">

In [None]:
# Modifica a 20 intervalos
avocados[avocados["type"] == "conventional"]["avg_price"].hist(alpha=0.5, bins = 20)

# Modifica a 20 intervalos
avocados[avocados["type"] == "organic"]["avg_price"].hist(alpha=0.5, bins = 20)

# Añade una leyenda
plt.legend(["conventional", "organic"])

# Muestra la gráfica
plt.show()

<img src="Images/6.svg" alt="Salida del código anterior" width="500px">

# Buscando valores faltantes
Los valores que faltan están en todas partes y no querrás que interfieran con tu trabajo. Algunas funciones ignoran los datos que faltan de forma predeterminada, pero ese no es siempre el comportamiento deseado. Algunas funciones no pueden aceptar valores faltantes, por lo que es necesario resolver el tema antes de poder usarlas. Si no sabes dónde están los valores faltantes, o si existen, podrías cometer errores en el análisis. En este ejercicio, determinarás si faltan valores en el set de datos y, de ser así, cuántos.

`pandas` fue cargado como `pd` y `avocados_2016`, un subconjunto de `avocados` que contiene solo las ventas de 2016, está disponible.

```python
     date  avg_price  total_sold  small_sold  large_sold  xl_sold  total_bags_sold  small_bags_sold  large_bags_sold  xl_bags_sold
0   False      False       False       False       False    False            False            False            False         False
1   False      False       False       False       False    False            False            False            False         False
2   False      False       False       False        True    False            False            False            False         False
3   False      False       False       False       False    False            False            False            False         False
4   False      False       False       False       False     True            False            False            False         False
5   False      False       False        True       False    False            False            False            False         False
6   False      False       False       False       False    False            False            False            False         False
7   False      False       False       False        True    False            False            False            False         False
8   False      False       False       False       False    False            False            False            False         False
9   False      False       False       False       False    False            False            False            False         False
10  False      False       False       False        True    False            False            False            False         False
11  False      False       False       False       False    False            False            False            False         False
12  False      False       False       False       False    False            False            False            False         False
13  False      False       False       False       False    False            False            False            False         False
14  False      False       False       False       False    False            False            False            False         False
15  False      False       False       False        True    False            False            False            False         False
16  False      False       False       False       False     True            False            False            False         False
17  False      False       False       False       False    False            False            False            False         False
18  False      False       False       False       False    False            False            False            False         False
19  False      False       False       False        True    False            False            False            False         False
20  False      False       False       False       False    False            False            False            False         False
21  False      False       False       False       False    False            False            False            False         False
22  False      False       False       False       False    False            False            False            False         False
23  False      False       False       False       False    False            False            False            False         False
24  False      False       False       False       False    False            False            False            False         False
25  False      False       False       False       False    False            False            False            False         False
26  False      False       False       False       False    False            False            False            False         False
27  False      False       False       False       False    False            False            False            False         False
28  False      False       False       False       False    False            False            False            False         False
29  False      False       False       False       False    False            False            False            False         False
30  False      False       False       False       False     True            False            False            False         False
31  False      False       False       False       False    False            False            False            False         False
32  False      False       False       False       False     True            False            False            False         False
33  False      False       False       False       False    False            False            False            False         False
34  False      False       False       False       False    False            False            False            False         False
35  False      False       False       False       False    False            False            False            False         False
36  False      False       False        True       False    False            False            False            False         False
37  False      False       False       False        True    False            False            False            False         False
38  False      False       False       False       False    False            False            False            False         False
39  False      False       False       False       False    False            False            False            False         False
40  False      False       False        True       False    False            False            False            False         False
41  False      False       False       False       False    False            False            False            False         False
42  False      False       False       False       False    False            False            False            False         False
43  False      False       False       False       False    False            False            False            False         False
44  False      False       False        True       False    False            False            False            False         False
45  False      False       False       False       False    False            False            False            False         False
46  False      False       False       False       False    False            False            False            False         False
47  False      False       False       False       False    False            False            False            False         False
48  False      False       False       False       False    False            False            False            False         False
49  False      False       False       False       False    False            False            False            False         False
50  False      False       False        True       False    False            False            False            False         False
51  False      False       False        True       False    False            False            False            False         False



date               False
avg_price          False
total_sold         False
small_sold          True
large_sold          True
xl_sold             True
total_bags_sold    False
small_bags_sold    False
large_bags_sold    False
xl_bags_sold       False
dtype: bool

<img src="Images/7.svg" alt="Salida del código anterior" width="500px">

# Eliminando valores faltantes
Ahora que sabes que faltan algunos valores en el DataFrame, tienes varias opciones para solucionarlos. Una forma es eliminarlos por completo del set de datos. En este ejercicio, eliminarás los valores que faltan quitando todas las filas que contienen valores faltantes.

pandas fue cargado como pd y avocados_2016 está disponible.

In [None]:
# Elimina las filas con valores faltantes
avocados_complete = avocados_2016.dropna()

# Comprueba si alguna columna contiene valores faltantes
print(avocados_complete.isna().any())

```python
date               False
avg_price          False
total_sold         False
small_sold         False
large_sold         False
xl_sold            False
total_bags_sold    False
small_bags_sold    False
large_bags_sold    False
xl_bags_sold       False
dtype: bool

# Sustituyendo valores faltantes
Otra forma de manejar los valores faltantes es reemplazarlos todos por el mismo valor. Para las variables numéricas, una opción es reemplazar los valores por 0; lo haremos aquí. Sin embargo, cuando reemplazamos los valores faltantes, estamos haciendo suposiciones sobre lo que significa un valor faltante. En este caso, supondremos que la falta de un número vendido significa que esa semana no se realizó ninguna venta de ese tipo de aguacate.

En este ejercicio, verás cómo reemplazar los valores faltantes puede afectar la distribución de una variable mediante histogramas. Podemos crear histogramas para varias variables a la vez de la siguiente manera:

`dogs[["height_cm", "weight_kg"]].hist()`

`pandas` fue cargado como `pd` y `matplotlib.pyplot` se importó como `plt`. El set de datos `avocados_2016` está disponible.

In [None]:
# Lista de las columnas con valores faltantes
cols_with_missing = ["small_sold", "large_sold", "xl_sold"]

# Crea histogramas que muestren las distribuciones de cols_with_missing
avocados_2016[cols_with_missing].hist()

# Muestra la gráfica
plt.show()

<img src="Images/8.svg" alt="Salida del código anterior" width="500px">

In [None]:
# Rellena los valores faltantes con 0
avocados_filled = avocados_2016.fillna(0)

# Crea histogramas de las columnas rellenadas
avocados_filled[cols_with_missing].hist()

# Muestra la gráfica
plt.show()

<img src="Images/9.svg" alt="Salida del código anterior" width="500px">

# Lista de diccionarios
Hace poco recibiste algunos datos nuevos sobre aguacates de 2019 que te gustaría poner en un DataFrame utilizando el método de lista de diccionarios. Recuerda que con este método, recorres los datos fila por fila.

|date|small_sold|large_sold|
|----|----------|----------|
|"2019-11-03"|10376832|7835071|
|"2019-11-10"|10717154|8561348|

In [2]:
import pandas as pd

In [3]:
# Crea una lista de diccionarios con los datos nuevos
avocados_list = [
    {"date": "2019-11-03", "small_sold": 10376832, "large_sold": 7835071},
    {"date": "2019-11-10", "small_sold": 10717154, "large_sold": 8561348},
]

# Convierte la lista en DataFrame
avocados_2019 = pd.DataFrame(avocados_list)

# Imprime el nuevo DataFrame
print(avocados_2019)

         date  small_sold  large_sold
0  2019-11-03    10376832     7835071
1  2019-11-10    10717154     8561348


# Diccionario de listas
¡Acaban de llegar algunos datos más! Esta vez, utilizarás el método del diccionario de listas, analizando los datos columna por columna.

|date|small_sold|large_sold|
|----|----------|----------|
|"2019-11-17"|10859987|9291631|
|"2019-12-01"|7674135|6238096|

In [4]:
# Crea un diccionario de listas con los datos nuevos
avocados_dict = {
  "date": ["2019-11-17", "2019-12-01"],
  "small_sold": [10859987, 9291631],
  "large_sold": [7674135, 6238096]
}

# Convierte el diccionario en DataFrame
avocados_2019 = pd.DataFrame(avocados_dict)

# Imprime el nuevo DataFrame
print(avocados_2019)

         date  small_sold  large_sold
0  2019-11-17    10859987     7674135
1  2019-12-01     9291631     6238096


# CSV a DataFrame
Trabajas para una aerolínea y tu gerente te ha pedido que hagas un análisis de la competencia y veas con qué frecuencia a los pasajeros que vuelan en otras compañías aéreas les han cancelado involuntariamente sus vuelos. Recibiste un archivo CSV `(airline_bumping.csv)` del Departamento de Transporte que contiene datos sobre los pasajeros a los que se les negó el embarque involuntariamente en 2016 y 2017, pero no contiene los números exactos que deseas. Para averiguarlo, ¡necesitarás introducir el CSV en un DataFrame de pandas y hacer algunas manipulaciones!

In [None]:
# Carga el CSV como un DataFrame llamado airline_bumping
airline_bumping = pd.read_csv("airline_bumping.csv")

# Echa un vistazo al DataFrame
print(airline_bumping.head())

```python
             airline  year  nb_bumped  total_passengers
0    DELTA AIR LINES  2017        679          99796155
1     VIRGIN AMERICA  2017        165           6090029
2    JETBLUE AIRWAYS  2017       1475          27255038
3    UNITED AIRLINES  2017       2067          70030765
4  HAWAIIAN AIRLINES  2017         92           8422734

In [None]:
# De los pasos anteriores
airline_bumping = pd.read_csv("airline_bumping.csv")
print(airline_bumping.head())
airline_totals = airline_bumping.groupby("airline")[["nb_bumped", "total_passengers"]].sum()
airline_totals ["bumps_per_10k"] = airline_totals ["nb_bumped"]/airline_totals ["total_passengers"] * 10000

# Imprimir airline_totals
print(airline_totals)

```python
             airline  year  nb_bumped  total_passengers
0    DELTA AIR LINES  2017        679          99796155
1     VIRGIN AMERICA  2017        165           6090029
2    JETBLUE AIRWAYS  2017       1475          27255038
3    UNITED AIRLINES  2017       2067          70030765
4  HAWAIIAN AIRLINES  2017         92           8422734



                     nb_bumped  total_passengers  bumps_per_10k
airline                                                        
ALASKA AIRLINES           1392          36543121          0.381
AMERICAN AIRLINES        11115         197365225          0.563
DELTA AIR LINES           1591         197033215          0.081
EXPRESSJET AIRLINES       3326          27858678          1.194
FRONTIER AIRLINES         1228          22954995          0.535
HAWAIIAN AIRLINES          122          16577572          0.074
JETBLUE AIRWAYS           3615          53245866          0.679
SKYWEST AIRLINES          3094          47091737          0.657
SOUTHWEST AIRLINES       18585         228142036          0.815
SPIRIT AIRLINES           2920          32304571          0.904
UNITED AIRLINES           4941         134468897          0.367
VIRGIN AMERICA             242          12017967          0.201

# DataFrame a CSV
¡Ya casi estás allí! Para facilitar su lectura, tendrás que ordenar los datos y exportarlos a CSV para que tus colegas puedan leerlos.

In [None]:
# Crea airline_totals_sorted
airline_totals_sorted = airline_totals.sort_values("bumps_per_10k", ascending = False)

# Imprime airline_totals_sorted
print(airline_totals_sorted)

# Guarda como airline_totals_sorted.csv
airline_totals_sorted.to_csv("airline_totals_sorted.csv")

```python
                    nb_bumped  total_passengers  bumps_per_10k
airline                                                        
EXPRESSJET AIRLINES       3326          27858678          1.194
SPIRIT AIRLINES           2920          32304571          0.904
SOUTHWEST AIRLINES       18585         228142036          0.815
JETBLUE AIRWAYS           3615          53245866          0.679
SKYWEST AIRLINES          3094          47091737          0.657
AMERICAN AIRLINES        11115         197365225          0.563
FRONTIER AIRLINES         1228          22954995          0.535
ALASKA AIRLINES           1392          36543121          0.381
UNITED AIRLINES           4941         134468897          0.367
VIRGIN AMERICA             242          12017967          0.201
DELTA AIR LINES           1591         197033215          0.081
HAWAIIAN AIRLINES          122          16577572          0.074

In [9]:
import pandas as pd

# Creando el DataFrame con los datos proporcionados
data = {
    'school_name': [
        "New Explorations into Science, Technology and Math High School",
        "Essex Street Academy",
        "Lower Manhattan Arts Academy",
        "High School for Dual Language and Asian Studies",
        "Henry Street School for International Studies"
    ],
    'borough': ["Manhattan"] * 5,
    'building_code': ['M022', 'M445', 'M445', 'M445', 'M056'],
    'average_math': [657, 395, 418, 613, 410],
    'average_reading': [601, 411, 428, 453, 406],
    'average_writing': [601, 387, 415, 463, 381],
    'percent_tested': [None, 78.9, 65.1, 95.9, 59.7]
}

df = pd.DataFrame(data)

# Filtrar las escuelas con una puntuación en matemáticas de al menos el 80% de 800
threshold = 800 * 0.8
filtered_schools = df[df['average_math'] >= threshold].sort_values(by='average_math', ascending=False)

# Crear un nuevo DataFrame con solo las columnas 'school_name' y 'average_math'
best_math_schools = filtered_schools[['school_name', 'average_math']]

df["total_SAT"] = df[["average_math", "average_reading", "average_writing"]].mean()

# Mostrar el resultado
print(df)

                                         school_name    borough building_code   
0  New Explorations into Science, Technology and ...  Manhattan          M022  \
1                               Essex Street Academy  Manhattan          M445   
2                       Lower Manhattan Arts Academy  Manhattan          M445   
3    High School for Dual Language and Asian Studies  Manhattan          M445   
4      Henry Street School for International Studies  Manhattan          M056   

   average_math  average_reading  average_writing  percent_tested  total_SAT  
0           657              601              601             NaN        NaN  
1           395              411              387            78.9        NaN  
2           418              428              415            65.1        NaN  
3           613              453              463            95.9        NaN  
4           410              406              381            59.7        NaN  


In [1]:
x = 11 
print(x > 5 and x < 10)

False


In [2]:
import numpy as np
import pandas as pd

# Crear datos para el DataFrame
data = {
    'product': ['A', 'A', 'A', 'B', 'B', 'B'],
    'month': ['Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar'],
    'sold': [85, 200, 180, 90, 80, 130]
}

# Crear el DataFrame
sales = pd.DataFrame(data)


pick = np.logical_or(sales['product'] == 'B',sales["sold"] > 100)
sales[pick]

Unnamed: 0,product,month,sold
1,A,Feb,200
2,A,Mar,180
3,B,Jan,90
4,B,Feb,80
5,B,Mar,130
