Piano.cat
    • Categories
    • Recent
    • Tags
    • Popular
    • World
    • Users
    • Groups
    • Register
    • Login
    1. Principal
    2. Uncategorized
    3. Bé, dissabte nit fent hores extres.
    This topic has been deleted. Only users with topic management privileges can see it.
    • spla@mastodont.catS spla@mastodont.cat

      Bé, dissabte nit fent hores extres.

      spla@mastodont.catS spla@mastodont.cat

      Bé, dissabte nit fent hores extres. mastodont.cat, entre d'altres molts servidors del fedivers i externs, ha estat "escrapejat" per els bots de #Meta (https://www.dropsitenews.com/p/meta-facebook-tech-copyright-privacy-whistleblower). La llista:

      https://www.dropsitenews.com/api/v1/file/b3555944-e204-4f5e-9a64-e44281b19a82.pdf

      Parlant amb altres admins, he modificat el fitxer robots.txt per a impedir als màxims bots IA possibles que "escrapejin" directament mastodont.cat.

      El nou robots.txt que ja tenim actiu:

      https://mastodont.cat/robots.txt

      #manteniment

        0
        Offline spla@mastodont.cat •
        , last edited by spla@mastodont.cat
      • quenti@framapiaf.orgQ quenti@framapiaf.org
        quenti@framapiaf.orgQ quenti@framapiaf.org

        @spla dobti que respecten las directivas =/

          0
          Offline quenti@framapiaf.org •
          , last edited by
        • spla@mastodont.catS spla@mastodont.cat
          spla@mastodont.catS spla@mastodont.cat

          @Quenti hi ha admins que tenen aquest robots.txt i no han estat escrapejats però a saber...

            0
            Offline spla@mastodont.cat •
            , last edited by
          • caelumtangi@mastodont.catC caelumtangi@mastodont.cat
            caelumtangi@mastodont.catC caelumtangi@mastodont.cat

            @spla Gràcies per la feina!

              0
              Offline caelumtangi@mastodont.cat •
              , last edited by
            • rierol@mastodont.catR rierol@mastodont.cat
              rierol@mastodont.catR rierol@mastodont.cat

              @spla

              Potser considera una "zip bomb" per als crawlers, via mod_rewrite o a nginx: un arxiu de ~7 kb que s'expandeix a uns 10 GB. Per aturar-los.

                0
                Offline rierol@mastodont.cat •
                , last edited by
              • moribundo@hispagatos.spaceM moribundo@hispagatos.space
                moribundo@hispagatos.spaceM moribundo@hispagatos.space

                @spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.

                  0
                  Offline moribundo@hispagatos.space •
                  , last edited by
                • mgc@mastodont.catM mgc@mastodont.cat
                  mgc@mastodont.catM mgc@mastodont.cat

                  @Caelumtangi @spla estic amb la Sara: gràcies per la feina!
                  I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar...

                    0
                    Offline mgc@mastodont.cat •
                    , last edited by
                  • spla@mastodont.catS spla@mastodont.cat
                    spla@mastodont.catS spla@mastodont.cat

                    @moribundo aquesta opció funciona:

                    https://mastodont.cat/@spla/115003088710337501

                      0
                      Offline spla@mastodont.cat •
                      , last edited by
                    • spla@mastodont.catS spla@mastodont.cat
                      spla@mastodont.catS spla@mastodont.cat

                      @Rierol aquesta opció funciona:

                      https://mastodont.cat/@spla/115003088710337501

                        0
                        Offline spla@mastodont.cat •
                        , last edited by
                      • moribundo@hispagatos.spaceM moribundo@hispagatos.space
                        moribundo@hispagatos.spaceM moribundo@hispagatos.space

                        @spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
                        Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
                        Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible

                          0
                          Offline moribundo@hispagatos.space •
                          , last edited by
                        • spla@mastodont.catS spla@mastodont.cat
                          spla@mastodont.catS spla@mastodont.cat

                          @moribundo sí, poden canviar de user-agent si és que no ho estan fent ja ara o fer altres bots nous...és una bogeria 😅
                          Retornar-lis un 444 no els hi dona pistes, només veuen que la connexió s'ha tallat.

                            0
                            Offline spla@mastodont.cat •
                            , last edited by spla@mastodont.cat
                          • spla@mastodont.catS spla@mastodont.cat
                            spla@mastodont.catS spla@mastodont.cat

                            @Caelumtangi de res! 😃

                              0
                              Offline spla@mastodont.cat •
                              , last edited by
                            • spla@mastodont.catS spla@mastodont.cat
                              spla@mastodont.catS spla@mastodont.cat

                              @mgc de res! 😃 @Caelumtangi @Rierol

                                0
                                Offline spla@mastodont.cat •
                                , last edited by
                              • robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat
                                robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat

                                @spla gràcies. L'aprofitaré pel meu servidor

                                  0
                                  Offline robertgarrigos@mastodont.cat •
                                  , last edited by
                                • spla@mastodont.catS spla@mastodont.cat
                                  spla@mastodont.catS spla@mastodont.cat

                                  @robertgarrigos de res! no és segur que respectin robots.txt, per exemple, Amazonbot no ho fa.
                                  Aquesta configuració per nginx els hi posa més difícil:

                                  https://mastodont.cat/@spla/115003142925516589

                                    0
                                    Offline spla@mastodont.cat •
                                    , last edited by
                                  Loading More Posts
                                  • Oldest to Newest
                                  • Newest to Oldest
                                  • Most Votes
                                  Reply
                                  • Reply as topic
                                  Log in to reply
                                  • First post
                                    Last post