Abrir un archivo desde drive

Este paso es el primero para importar el módulo de drive. Luego, se te pedirá que vayas a un enlace, inicies sesión en tu cuenta de Google y copies un código de autorización.

In [8]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Para acceder al archivo, debes navegar a la carpeta que contiene el archivo que deseas abrir utilizando el siguiente comando:
ej:

import os
os.chdir("/content/drive/MyDrive/TuCarpeta")

import os
os.chdir("/content/drive/MyDrive/TuCarpeta")

In [32]:
import pandas as pd

# Obtén el ID del archivo desde el enlace de Google Drive
file_id = '1TCic6A3tu91XVF4HktiDarGtDDp16Klj'

# Crea la URL del archivo
file_url = f'https://drive.google.com/uc?id={file_id}'

# Lee el archivo directamente en un DataFrame de Pandas
df = pd.read_csv(file_url)

# Muestra el DataFrame
print(df)

             Entity  Year  Life expectancy
0         Australia  1802        34.049999
1         Australia  1803        34.049999
2         Australia  1804        34.049999
3         Australia  1805        34.049999
4         Australia  1806        34.049999
...             ...   ...              ...
3248  United States  2012        78.940002
3249  United States  2013        78.959999
3250  United States  2014        78.940002
3251  United States  2015        78.870003
3252  United States  2016        78.860001

[3253 rows x 3 columns]


El ID de un archivo en Google Drive se encuentra en la URL cuando estás en la vista del archivo. El ID del archivo es la parte después de /file/d/ y antes de /view.

Proporciona estadísticas descriptivas para cada columna, como la media, la desviación estándar, y los cuartiles.

In [11]:
df.describe()

Unnamed: 0,Year,Life expectancy
count,3253.0,3253.0
mean,1908.066093,48.68038
std,62.613962,17.965669
min,1800.0,8.108836
25%,1854.0,32.0
50%,1908.0,41.880001
75%,1962.0,66.82
max,2016.0,83.940002


Información general sobre el DataFrame: Proporciona información sobre el tipo de datos y la cantidad de valores no nulos en cada columna.

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3253 entries, 0 to 3252
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Entity           3253 non-null   object 
 1   Year             3253 non-null   int64  
 2   Life expectancy  3253 non-null   float64
dtypes: float64(1), int64(1), object(1)
memory usage: 76.4+ KB


Número de filas y columnas en el DataFrame:

In [13]:
filas, columnas = df.shape
print(f'Número de filas: {filas}, Número de columnas: {columnas}')

Número de filas: 3253, Número de columnas: 3


Contar valores únicos en una columna:

In [33]:
df['Entity'].value_counts()

Brazil            217
Canada            217
China             217
France            217
Germany           217
India             217
Italy             217
Japan             217
Mexico            217
Russia            217
Spain             217
Switzerland       217
United Kingdom    217
United States     217
Australia         215
Name: Entity, dtype: int64

In [34]:
df['Year'].value_counts()

1802    15
1950    15
1939    15
1940    15
1941    15
        ..
1878    15
1879    15
1880    15
1800    14
1801    14
Name: Year, Length: 217, dtype: int64

In [35]:
df['Life expectancy'].value_counts()

32.000000    104
26.900000     91
29.500000     85
38.000000     78
39.410000     76
            ... 
57.700001      1
57.259998      1
56.930000      1
56.869999      1
78.860001      1
Name: Life expectancy, Length: 2190, dtype: int64

Manejo de datos nulos:

In [36]:
# Verificar valores nulos en el DataFrame
df.isnull().sum()


Entity             0
Year               0
Life expectancy    0
dtype: int64

In [37]:
# Eliminar filas con valores nulos
df_sin_nulos = df.dropna()

Para combinar dos conjuntos de datos en Python utilizando Pandas, puedes utilizar la función concact. Aquí hay un ejemplo de cómo podrías combinar dos DataFrames en función de una columna común:

Abrimos el segundo Dataset y lo cargamos en Pandas:

In [38]:
import pandas as pd

file_id = '1q12Y6YqRvBbdEh-gFJ8X5TX0bsVOMkIr'

# Construir la URL del segundo archivo
file_url = f'https://drive.google.com/uc?id={file_id}'

# Cargar el segundo conjunto de datos
df2 = pd.read_csv(file_url)

df2.describe()

Unnamed: 0,anio,esperanza_vida
count,39.0,39.0
mean,1946.461538,59.972051
std,41.113992,14.705974
min,1887.0,30.3
25%,1909.0,47.3
50%,1947.0,65.2
75%,1980.0,72.45
max,2010.0,80.43


Renombramos las columnas del nuevo dataframe para que coincidan con el primero y luego creamos la nueva columna por la que vamos a concatenar:

In [39]:
df2 = df2.rename(columns={'anio': 'Year', 'esperanza_vida': 'Life expectancy'})

# Crear la nueva columna 'Entity' con el valor 'Buenos Aires' en df2
df2['Entity'] = 'Buenos Aires'


Visualizamos:

In [40]:
df2['Entity'].value_counts()

Buenos Aires    39
Name: Entity, dtype: int64

Combinamos y concatenamos:

In [41]:
# Concatenar DataFrames (agregar valores al final)
df_combinado = pd.concat([df_sin_nulos, df2], axis=0, ignore_index=True) #

pd.concat([...], axis=0, ignore_index=True):

pd.concat: Esta es una función de Pandas que se utiliza para concatenar DataFrames.
[..., ...]: Aquí proporcionamos una lista de DataFrames que queremos concatenar. En este caso, son df_sin_nulos y df2.
axis=0:

El parámetro axis especifica a lo largo de qué eje se realizará la concatenación. axis=0 indica que la concatenación se realizará a lo largo de las filas, es decir, se agregarán filas al final del DataFrame resultante.
ignore_index=True:

Cuando concatenamos DataFrames, los índices originales se mantienen. Al establecer ignore_index=True, se reinician los índices del DataFrame resultante para que sean consecutivos y no haya índices duplicados.

In [42]:
df_combinado

Unnamed: 0,Entity,Year,Life expectancy,sexo
0,Australia,1802,34.049999,
1,Australia,1803,34.049999,
2,Australia,1804,34.049999,
3,Australia,1805,34.049999,
4,Australia,1806,34.049999,
...,...,...,...,...
3287,Buenos Aires,2001,79.400000,m
3288,Buenos Aires,2001,71.800000,v
3289,Buenos Aires,2010,77.170000,TOTAL
3290,Buenos Aires,2010,80.430000,m


In [43]:
import pandas as pd

file_id = '1q12Y6YqRvBbdEh-gFJ8X5TX0bsVOMkIr'

file_url = f'https://drive.google.com/uc?id={file_id}'

# Cargar el segundo conjunto de datos
df3 = pd.read_csv(file_url)

df3

Unnamed: 0,anio,sexo,esperanza_vida
0,1887,TOTAL,31.7
1,1887,m,33.8
2,1887,v,30.3
3,1895,TOTAL,40.9
4,1895,m,43.4
5,1895,v,39.1
6,1904,TOTAL,47.7
7,1904,m,50.3
8,1904,v,45.8
9,1909,TOTAL,46.9


In [45]:
df3 = df3.rename(columns={'anio': 'Year', 'esperanza_vida': 'Life expectancy'})

df3['Entity'] = 'Argentina'

In [46]:
# Concatenar DataFrames (agregar valores al final)
df_Eperanza_Vida = pd.concat([df_combinado, df3], axis=0, ignore_index=True) #

In [47]:
df_Eperanza_Vida

Unnamed: 0,Entity,Year,Life expectancy,sexo
0,Australia,1802,34.049999,
1,Australia,1803,34.049999,
2,Australia,1804,34.049999,
3,Australia,1805,34.049999,
4,Australia,1806,34.049999,
...,...,...,...,...
3326,Argentina,2001,79.400000,m
3327,Argentina,2001,71.800000,v
3328,Argentina,2010,77.170000,TOTAL
3329,Argentina,2010,80.430000,m


In [51]:
df_Eperanza_Vida = df.groupby('Entity').first()

# Muestra el resultado
print(df_Eperanza_Vida)

                Year  Life expectancy
Entity                               
Australia       1802        34.049999
Brazil          1800        32.000000
Canada          1800        39.000000
China           1800        32.000000
France          1800        33.967171
Germany         1800        38.369999
India           1800        25.442400
Italy           1800        29.690001
Japan           1800        36.400002
Mexico          1800        26.900000
Russia          1800        29.573458
Spain           1800        29.500000
Switzerland     1800        38.000000
United Kingdom  1800        38.649761
United States   1800        39.410000


In [52]:
df_Eperanza_Vida.to_csv('/content/drive/My Drive/resultado.csv', index=False)